隨著以ChatGPT為代表的生成式AI興起,其背后以大模型為基礎(chǔ)的人工智能成為業(yè)界投入的方向,。
所謂“大模型”,,通常是在無(wú)標(biāo)注的大數(shù)據(jù)集上,采用自監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練,。之后在其他場(chǎng)景的應(yīng)用中,,開(kāi)發(fā)者只需要對(duì)模型進(jìn)行微調(diào),,或采用少量數(shù)據(jù)進(jìn)行二次訓(xùn)練,就可以滿足新應(yīng)用場(chǎng)景的需要,。
據(jù)騰訊研究院,,當(dāng)前的人工智能大多是針對(duì)特定的場(chǎng)景應(yīng)用進(jìn)行訓(xùn)練,生成的模型難以遷移到其他應(yīng)用,,屬于“小模型”的范疇,。整個(gè)過(guò)程不僅需要大量的手工調(diào)參,還需要給機(jī)器喂養(yǎng)海量的標(biāo)注數(shù)據(jù),,這拉低了人工智能的研發(fā)效率,,且成本較高。
相比之下,,大模型的改進(jìn)可以使所有的下游小模型受益,,大幅提升人工智能的使用場(chǎng)景和研發(fā)效率。
同時(shí),,在大模型的框架下,,ChatGPT所使用的GPT模型,每一代參數(shù)量均高速擴(kuò)張,,預(yù)訓(xùn)練的數(shù)據(jù)量需求和成本亦快速提升。
國(guó)盛證券計(jì)算機(jī)分析師劉高暢,、楊然在發(fā)表于2月12日的報(bào)告《Chatgpt 需要多少算力》中估算,,GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元,對(duì)于一些更大的LLM模型,,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間,。
這一成本于全球科技大企業(yè)而言并不便宜,但尚在可接受范圍內(nèi),。
初始投入近十億美元,單日電費(fèi)數(shù)萬(wàn)美元
國(guó)盛證券估算,,今年1月平均每天約有1300萬(wàn)獨(dú)立訪客使用ChatGPT,,對(duì)應(yīng)芯片需求為3萬(wàn)多片英偉達(dá)A100GPU,初始投入成本約為8億美元,,每日電費(fèi)在5萬(wàn)美元左右,。
1)計(jì)算假設(shè):
英偉達(dá)A100:
根據(jù)OneFlow報(bào)道,目前,,NVIDIA A100是AWS最具成本效益的GPU選擇,。
英偉達(dá)DGXA100服務(wù)器:
單機(jī)搭載8片A100GPU,AI算力性能約為5PetaFLOP/s,,單機(jī)最大功率約為6.5kw,,售價(jià)約為19.9萬(wàn)美元/臺(tái),。
標(biāo)準(zhǔn)機(jī)柜:
19英寸、42U,。單個(gè)DGXA100服務(wù)器尺寸約為6U,,則標(biāo)準(zhǔn)機(jī)柜可放下約7個(gè)DGXA100服務(wù)器。
則,,單個(gè)標(biāo)準(zhǔn)機(jī)柜的成本為140萬(wàn)美元,、56個(gè)A100GPU、算力性能為35PetaFLOP/s,、最大功率45.5kw,。
2)芯片需求量:
每日咨詢量:
根據(jù)Similarweb數(shù)據(jù),,截至2023年1月底,,chat.openai.com網(wǎng)站(即ChatGPT官網(wǎng))在2023/1/27-2023/2/3這一周吸引的每日訪客數(shù)量高達(dá)2500萬(wàn)。
假設(shè)以目前的穩(wěn)定狀態(tài),,每日每用戶提問(wèn)約10個(gè)問(wèn)題,,則每日約有2.5億次咨詢量。
A100運(yùn)行小時(shí):
假設(shè)每個(gè)問(wèn)題平均30字,,單個(gè)字在A100GPU上約消耗350ms,,則一天共需消耗729,167個(gè)A100 GPU運(yùn)行小時(shí)。
A100需求量:
對(duì)應(yīng)每天需要729,167/24=30,382片A100 GPU同時(shí)計(jì)算,,才可滿足當(dāng)前ChatGPT的訪問(wèn)量,。
3)運(yùn)行成本:
初始算力投入:
以前述英偉達(dá)DGXA100為基礎(chǔ),需要30,382/8=3,798臺(tái)服務(wù)器,,對(duì)應(yīng)3,798/7=542個(gè)機(jī)柜,。
則,為滿足ChatGPT當(dāng)前千萬(wàn)級(jí)用戶的咨詢量,,初始算力投入成本約為542*140=7.59億美元,。
每月電費(fèi):
用電量而言,542*45.5kw*24h=591,864kwh/日,。
參考HashrateIndex統(tǒng)計(jì),,我們假設(shè)美國(guó)平均工業(yè)電價(jià)約為0.08美元/kwh。則,,每日電費(fèi)約為2,369,640*0.08=4.7萬(wàn)美元,。
訓(xùn)練成本:公有云下,,單次百萬(wàn)至千萬(wàn)美元
國(guó)盛證券基于參數(shù)數(shù)量和token數(shù)量估算,,GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元;對(duì)于一些更大的LLM模型采用同樣的計(jì)算公式,,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間:
1)基于參數(shù)數(shù)量和token數(shù)量,,根據(jù)OneFlow估算,,GPT-3訓(xùn)練一次的成本約為139.8萬(wàn)美元:
每個(gè)token的訓(xùn)練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數(shù)數(shù)量,;假設(shè)在訓(xùn)練過(guò)程中,,模型的FLOPS利用率為46.2%,與在TPUv4芯片上進(jìn)行訓(xùn)練?的PaLM模型(擁有5400億參數(shù))一致,。
2)對(duì)于一些更大的LLM模型(如擁有2800億參數(shù)的Gopher和擁有5400億參數(shù)的PaLM),采用同樣的計(jì)算公式,,可得出,,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。
國(guó)盛證券認(rèn)為,,在公有云上,對(duì)于以谷歌等全球科技大企業(yè)而言,,百萬(wàn)至千萬(wàn)美元級(jí)別的訓(xùn)練成本并不便宜,,但尚在可接受范圍內(nèi)、并非昂貴,。
文章出處:芯智訊