正文

大模型訓(xùn)練一次200-1200萬(wàn)美元！ChatGPT多燒錢？

發(fā)布時(shí)間：2023-03-03 16:08:44 稿源：互聯(lián)網(wǎng) 閱讀： 715 問(wèn)大家

?星標(biāo)華爾街見(jiàn)聞，好內(nèi)容不錯(cuò)過(guò)?

隨著以ChatGPT為代表的生成式AI興起，其背后以大模型為基礎(chǔ)的人工智能成為業(yè)界投入的方向。

所謂“大模型”，通常是在無(wú)標(biāo)注的大數(shù)據(jù)集上，采用自監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練。之后在其他場(chǎng)景的應(yīng)用中，開(kāi)發(fā)者只需要對(duì)模型進(jìn)行微調(diào)，或采用少量數(shù)據(jù)進(jìn)行二次訓(xùn)練，就可以滿足新應(yīng)用場(chǎng)景的需要。

據(jù)騰訊研究院，當(dāng)前的人工智能大多是針對(duì)特定的場(chǎng)景應(yīng)用進(jìn)行訓(xùn)練，生成的模型難以遷移到其他應(yīng)用，屬于“小模型”的范疇。整個(gè)過(guò)程不僅需要大量的手工調(diào)參，還需要給機(jī)器喂養(yǎng)海量的標(biāo)注數(shù)據(jù)，這拉低了人工智能的研發(fā)效率，且成本較高。

相比之下，大模型的改進(jìn)可以使所有的下游小模型受益，大幅提升人工智能的使用場(chǎng)景和研發(fā)效率。

同時(shí)，在大模型的框架下，ChatGPT所使用的GPT模型，每一代參數(shù)量均高速擴(kuò)張，預(yù)訓(xùn)練的數(shù)據(jù)量需求和成本亦快速提升。

國(guó)盛證券計(jì)算機(jī)分析師劉高暢、楊然在發(fā)表于2月12日的報(bào)告《Chatgpt 需要多少算力》中估算，GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元，對(duì)于一些更大的LLM模型，訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。這一成本于全球科技大企業(yè)而言并不便宜，但尚在可接受范圍內(nèi)。

大模型訓(xùn)練一次200-1200萬(wàn)美元！ChatGPT多燒錢？

初始投入近十億美元，單日電費(fèi)數(shù)萬(wàn)美元

國(guó)盛證券估算，今年1月平均每天約有1300萬(wàn)獨(dú)立訪客使用ChatGPT，對(duì)應(yīng)芯片需求為3萬(wàn)多片英偉達(dá)A100GPU，初始投入成本約為8億美元，每日電費(fèi)在5萬(wàn)美元左右:

1)計(jì)算假設(shè)：

英偉達(dá)A100：根據(jù)OneFlow報(bào)道，目前，NVIDIAA100是AWS最具成本效益的GPU選擇。

英偉達(dá)DGXA100服務(wù)器：?jiǎn)螜C(jī)搭載8片A100GPU，AI算力性能約為5PetaFLOP/s，單機(jī)最大功率約為6.5kw，售價(jià)約為19.9萬(wàn)美元/臺(tái)。

標(biāo)準(zhǔn)機(jī)柜：19英寸、42U。單個(gè)DGXA100服務(wù)器尺寸約為6U，則標(biāo)準(zhǔn)機(jī)柜可放下約7個(gè)DGXA100服務(wù)器。則，單個(gè)標(biāo)準(zhǔn)機(jī)柜的成本為140萬(wàn)美元、56個(gè)A100GPU、算力性能為35PetaFLOP/s、最大功率45.5kw。

2）芯片需求量：

每日咨詢量：根據(jù)Similarweb數(shù)據(jù)，截至2023年1月底，chat.openai.com網(wǎng)站（即ChatGPT官網(wǎng)）在2023/1/27-2023/2/3這一周吸引的每日訪客數(shù)量高達(dá)2500萬(wàn)。假設(shè)以目前的穩(wěn)定狀態(tài)，每日每用戶提問(wèn)約10個(gè)問(wèn)題，則每日約有2.5億次咨詢量。

A100運(yùn)行小時(shí)：假設(shè)每個(gè)問(wèn)題平均30字，單個(gè)字在A100GPU上約消耗350ms，則一天共需消耗729,167個(gè)A100GPU運(yùn)行小時(shí)。

A100需求量：對(duì)應(yīng)每天需要729,167/24=30,382片英偉達(dá)A100GPU同時(shí)計(jì)算，才可滿足當(dāng)前ChatGPT的訪問(wèn)量。

3）運(yùn)行成本：

初始算力投入：以前述英偉達(dá)DGXA100為基礎(chǔ)，需要30,382/8=3,798臺(tái)服務(wù)器，對(duì)應(yīng)3,798/7=542個(gè)機(jī)柜。則，為滿足ChatGPT當(dāng)前千萬(wàn)級(jí)用戶的咨詢量，初始算力投入成本約為542*140=7.59億美元。

每月電費(fèi)：用電量而言，542*45.5kw*24h=591,864kwh/日。參考HashrateIndex統(tǒng)計(jì)，我們假設(shè)美國(guó)平均工業(yè)電價(jià)約為0.08美元/kwh。則，每日電費(fèi)約為2,369,640*0.08=4.7萬(wàn)美元/日。

訓(xùn)練成本：公有云下，單次百萬(wàn)至千萬(wàn)美元

國(guó)盛證券基于參數(shù)數(shù)量和token數(shù)量估算，GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元；對(duì)于一些更大的LLM模型采用同樣的計(jì)算公式，訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間：

1）基于參數(shù)數(shù)量和token數(shù)量，根據(jù)OneFlow估算，GPT-3訓(xùn)練一次的成本約為139.8萬(wàn)美元：每個(gè)token的訓(xùn)練成本通常約為6N（而推理成本約為2N），其中N是LLM的參數(shù)?數(shù)量；假設(shè)在訓(xùn)練過(guò)程中，模型的FLOPS利用率為46.2%，與在TPUv4芯片上進(jìn)行訓(xùn)練?的PaLM模型（擁有5400億參數(shù)）一致。

2）對(duì)于一些更大的LLM模型（如擁有2800億參數(shù)的Gopher和擁有5400億參數(shù)的PaLM），采用同樣的計(jì)算公式，可得出，訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。

國(guó)盛證券認(rèn)為，在公有云上，對(duì)于以谷歌等全球科技大企業(yè)而言，百萬(wàn)至千萬(wàn)美元級(jí)別的訓(xùn)練成本并不便宜，但尚在可接受范圍內(nèi)、并非昂貴。

本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎，請(qǐng)獨(dú)立判斷和決策。

會(huì)“花錢”更會(huì)“賺錢” 大模型訓(xùn)練一次200-1200萬(wàn)美元！ChatGPT多燒錢？