-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
gpt2訓(xùn)練成本(gpt2 訓(xùn)練)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt2訓(xùn)練成本的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內(nèi)免費在線使用,能給你生成想要的原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
你只需要給出你的關(guān)鍵詞,它就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端,官網(wǎng):https://ai.de1919.com
本文目錄:
一、chatgpt需要多少顯卡
1.6GB。ColossalAI表示,已低成本復(fù)現(xiàn)了一個ChatGPT訓(xùn)練的基本流程,包括 stage1預(yù)訓(xùn)練、stage2的獎勵模型的訓(xùn)練,以及最為復(fù)雜的stage3強化學(xué)習(xí)訓(xùn)練。具體亮點包括:一個開源完整的基于PyTorch的ChatGPT等效實現(xiàn)流程,涵蓋所有3個階段,可以幫助你構(gòu)建基于預(yù)訓(xùn)練模型的 ChatGPT 式服務(wù)。
二、gpt2自動識別問題
GPT-2(Generative Pre-trained Transformer 2)是由OpenAI開發(fā)的一個強大的自然語言處理模型,它能夠自動識別出用戶提問,并生成符合語法和邏輯的答案。該模型是通過對大量語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練而獲得的,訓(xùn)練數(shù)據(jù)包含了互聯(lián)網(wǎng)上的海量文本,因此模型具有很強的泛化能力和自然語言理解能力。在問答場景中,GPT-2能夠快速分析提問語句中的關(guān)鍵信息,理解用戶需求,并基于預(yù)訓(xùn)練經(jīng)驗生成符合用戶期望的答案。該模型已經(jīng)在多個領(lǐng)域中得到了廣泛應(yīng)用,例如智能客服、智能語音交互、個人助手等。
三、GPT Understands, Too
傳統(tǒng)fine-tune(使用訓(xùn)練數(shù)據(jù)來微調(diào)模型參數(shù)),GPT在自然語言理解任務(wù)上未能取得很好的效果,關(guān)于NLU任務(wù)的一種新方法P-tuning,采用可訓(xùn)練的連續(xù)的 prompt embeddings。
實驗表明:
與 discrete prompts類似,僅對輸入進(jìn)行修改,不同之處在于用differential output embeddings來代替常規(guī)的input embeddings
prompt可以非常靈活,可以插入到context x或者target y中
pseudo tokens(偽標(biāo)記)
可以從原始詞表V中找到一個better continuous prompts。最后,利用下游損失函數(shù)L,可以對continuous prompts hi 進(jìn)行differentially optimize
training continuous prompts 存在兩個問題
P-tuning中,使用promp編碼器(LSTM+RELU激活的兩層MLP)將hi建模為一個序列
知識探索
所有prompt search方法都需要一些額外的數(shù)據(jù)來訓(xùn)練或查找prompt。我們遵循AutoPrompt中的設(shè)置,作者從原始TRE-x數(shù)據(jù)集構(gòu)建了一個訓(xùn)練集,該訓(xùn)練集與測試集類似,但答案分布略有不同
在傳統(tǒng)的知識探索中,不允許通過fine-tune來改變預(yù)先訓(xùn)練好的模型參數(shù)。試圖評估語言模型在培訓(xùn)前學(xué)習(xí)了多少知識。然而,這項工作的基本方面是比較P-tuning和fine-tune,尤其是在像GPT這樣的單向語言模型上。特別感興趣的是以下問題:單向和雙向語言模型是否從P-tuning中獲得了類似的改進(jìn)?
在知識探索方面,許多事實只能通過硬編碼,而不能通過語言模型進(jìn)行推斷。參數(shù)的微調(diào)可能會導(dǎo)致遺忘。相反,P-tuning不會改變預(yù)先訓(xùn)練的模型的參數(shù),而是通過尋找更好的continuous prompt來存儲知識。此外,在Bert和GPT采用P-tuning存在明顯的差異,使用MP+FT進(jìn)行微調(diào)非常有效,但是GPT并不像BERTs那樣從MP+FT中受益更多。P-tuning與單向語言模型表現(xiàn)出更好的親和力。在里面就更大的型號而言,例如具有110億個參數(shù)的MegatronLM2,雖然微調(diào)幾乎不起作用,但Ptuning仍然適用,并在LAMA上達(dá)到了最先進(jìn)的水平。
WiC和MultiRC都有相對較大的train sets,標(biāo)準(zhǔn)fine-tune可以從更大的數(shù)據(jù)集中獲得比P-tuning更多的優(yōu)勢。相反,在低資源環(huán)境下,P-tuning更有益
在base模型的規(guī)模下,在7項任務(wù)中,有6項任務(wù)的gpt2-base的P-tuning相比優(yōu)于基于bert的模型的最佳結(jié)果,除了Wic。
與BERT-larger-base相比,帶有P-tuning的GPT2在7項任務(wù)中有4項任務(wù)顯示出優(yōu)勢
唯一的例外是WiC任務(wù),fine-tune取得最佳結(jié)果,推測這是因為詞義消歧任務(wù)不適用于prompt-based MLM prediction
用原始訓(xùn)練集中32個未使用的樣本構(gòu)建了一個新的開發(fā)集(Ddev32)設(shè)置公平比較之下,P-tuning在所有任務(wù)上都顯著優(yōu)于PET和PET best。更有趣的是,P-tuning甚至在7項任務(wù)中的4項任務(wù)上優(yōu)于GPT-3、PET(Ddev)和iPET(Ddev)。
盡管P-tuning在大多數(shù)任務(wù)中都能取得最佳效果,但在難以表述為完形填空問題的任務(wù)(例如WiC)中,微調(diào)的效果會更好
四、finetune模型和gpt3的差別
1)訓(xùn)練時間:finetune模型需要很長的訓(xùn)練時間,而GPT-3則不用訓(xùn)練,只需要在現(xiàn)有的參數(shù)上進(jìn)行微調(diào)即可。
2)計算量:finetune模型需要大量的計算資源,而GPT-3只需要很少的資源。
3)訓(xùn)練數(shù)據(jù):finetune模型需要大量的標(biāo)記數(shù)據(jù),而GPT-3只需要一小部分訓(xùn)練數(shù)據(jù)。
4)精度:finetune模型的精度比GPT-3要高得多,它能夠更準(zhǔn)確地預(yù)測結(jié)果。
5)使用價值:finetune模型更適合用于實際的人工智能應(yīng)用,而GPT-3更適合用于實驗性的應(yīng)用。
以上就是關(guān)于gpt2訓(xùn)練成本相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
福建景觀設(shè)計廠家排名(福建景觀設(shè)計廠家排名榜)
已經(jīng)或者逐漸消失的職業(yè)(已經(jīng)或者逐漸消失的職業(yè)給社會帶來的影響)