-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
自己完成gpt3訓(xùn)練(gpt-3訓(xùn)練)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于自己完成gpt3訓(xùn)練的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
ChatGPT國(guó)內(nèi)免費(fèi)在線使用,能給你生成想要的原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
你只需要給出你的關(guān)鍵詞,它就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端,官網(wǎng):https://ai.de1919.com
本文目錄:
一、05-ELMo/BERT/GPT-NLP預(yù)訓(xùn)練模型
這里可以參考CSDN上的文章-BERT原理和實(shí)踐: https://blog.csdn.net/jiaowoshouzi/article/category/9060488
在解釋BERT,ELMO這些預(yù)訓(xùn)練模型之前,我們先看一下很久之前的計(jì)算機(jī)是如何讀懂文字的?
每個(gè)字都有自己的獨(dú)特的編碼。但是這樣是有弊端的,字和字之間的關(guān)聯(lián)關(guān)系是無(wú)法得知的,比如計(jì)算機(jī)無(wú)法知道dog和cat都是動(dòng)物,它反而會(huì)覺(jué)得bag和dog是比較相近的。
所以后來(lái)就有了Word Class,將一系列的詞進(jìn)行分類然后讓一類詞語(yǔ)和一類詞語(yǔ)之間更有關(guān)聯(lián),但是這樣的方法太過(guò)于粗糙,比如dog,cat,bird是一類,看不出哺乳動(dòng)物鳥(niǎo)類的區(qū)別。
在這個(gè)基礎(chǔ)之上,我們有了Word Embedding,Word Embedding我們可以想象成是一種soft的word class,每個(gè)詞都用向量來(lái)表示,它的向量維度可能表示這個(gè)詞匯的某種意思,如圖中dog,cat,rabbit的距離相比其他更近。那么word embendding是如何訓(xùn)練出來(lái)的,是根據(jù)每個(gè)詞匯的上下文所訓(xùn)練的。
每個(gè)句子都有bank的詞匯,四個(gè)bank是不同的token,但是同樣的type。(注:token-詞例, type-詞型, class-詞類 or token是出現(xiàn)的總次數(shù)(還有種理解是token是具有一定的句法語(yǔ)義且獨(dú)立的最小文本成分。 ),type是出現(xiàn)的不同事物的個(gè)數(shù)。)
對(duì)于典型的Word Embedding認(rèn)為,每個(gè)詞type有一個(gè)embedding,所以就算是不同的token只要是一樣的type那么word embedding就是一樣的,語(yǔ)義也就是一樣的。
而事實(shí)上并非如此,1,2句bank指的是銀行,3,4為水庫(kù)。所以我們希望讓機(jī)器給不同意思的token而且type還一致,給予不同的embedding。在這個(gè)問(wèn)題上,之前的做法是從字典中去查找這個(gè)詞包含幾種意思,但是這樣的做法顯然跟不上現(xiàn)實(shí)中詞語(yǔ)的一些隱含的含義。比如bank有銀行的意思,與money一起是銀行的意思,而與blood一起卻是血庫(kù)的意思。
所以我們想讓機(jī)器今天進(jìn)一步做到每一個(gè)word token都可以有自己的embedding(之前是每個(gè)type有一個(gè)embedding或者有固定的一個(gè)或多個(gè)embedding),那么怎么知道一個(gè)word應(yīng)該有怎樣的embedding呢?我們可以取決于該詞的上下文,上下文越相近的token它們就會(huì)越相近的embedding。比如之前提到的bank,下面兩個(gè)句子它們的word token的embedding可能是相近的,而和上面的word token的embedding是相遠(yuǎn)的。
所以我們想使用一種能夠基于上下文的Contextual word Embedding來(lái)解決一詞多義的問(wèn)題。
這里使用ELMO可以做到這件事情,即每個(gè)word token擁有不同的word embedding。(右上角動(dòng)物是芝麻街(美國(guó)公共廣播協(xié)會(huì)(PBS)制作播出的兒童教育電視節(jié)目)里的角色)。
它是基于RNN的預(yù)訓(xùn)練模型,它只需要搜集大量語(yǔ)料(句子)且不需要做任何標(biāo)注,就可以訓(xùn)練這個(gè)基于RNN的語(yǔ)言模型,預(yù)測(cè)下一個(gè)token是什么,學(xué)習(xí)完了之后就得到了上下文的embedding。因?yàn)槲覀兛梢詫NN的隱藏層中的某一節(jié)點(diǎn)拿出來(lái)(圖中橙藍(lán)色節(jié)點(diǎn)),它就是輸入當(dāng)前結(jié)點(diǎn)的詞匯的word embedding。
從當(dāng)計(jì)算識(shí)別到<BOS>,模型訓(xùn)練開(kāi)始。首先輸入"潮水",然后當(dāng)作輸入輸出"退了",退了當(dāng)做輸入輸出"就"。
假設(shè)當(dāng)前要得到”退了”這個(gè)詞的上下文embedding,首先,因?yàn)榍斑叺腞NN只考慮到了前文而沒(méi)有考慮到后文,所以這里就使用了同前文一樣的反向的RNN。然后,它從句尾開(kāi)始進(jìn)行,比如給它喂”知道”,它就要預(yù)測(cè)”就”,給它喂”就”,它就要預(yù)測(cè)”退了”。這時(shí)候就不僅考慮每個(gè)詞匯的前文,還會(huì)考慮每個(gè)詞的后文。最后將正向和逆向得到的兩個(gè)不同的上下文embedding(因?yàn)榉较虿煌?xùn)練結(jié)果也不一樣)拼接起來(lái)。
現(xiàn)在我們訓(xùn)練的程度都會(huì)越來(lái)越深度,當(dāng)層數(shù)增加,這樣就會(huì)產(chǎn)生Deep的RNN,因?yàn)楹芏鄬?,而且每一層都?huì)產(chǎn)生上下文Embedding,那么我們到底應(yīng)該使用哪一層?每一層這種深度LSTM中的每個(gè)層都可以生成潛在表示(方框處)。同一個(gè)詞在不同的層上會(huì)產(chǎn)生不同的Embedding,那么我們應(yīng)該使用哪一層呢?ELMo的策略是每一層得到的上下文embedding都要。
在上下文embedding的訓(xùn)練模型中,每個(gè)詞輸入進(jìn)去都會(huì)有一個(gè)embedding輸出來(lái)。但是在ELMo中,每個(gè)詞匯輸入進(jìn)去,都會(huì)得到不止一個(gè)embedding,因?yàn)槊繉拥腞NN都會(huì)給到一個(gè)embedding,ELMo將它們統(tǒng)統(tǒng)加起來(lái)一起使用。
以圖中為例,這里假設(shè)ELMo有兩層RNN,這里是將α1(黃色,第一層得到的embedding)和α2(綠色,第二層得到embedding)加起來(lái)得到藍(lán)色的embedding,并做為接下來(lái)要進(jìn)行不同任務(wù)的輸入。
但是這里存在一些問(wèn)題,α1和α2是學(xué)習(xí)得到的,而且它是根據(jù)當(dāng)前要進(jìn)行的任務(wù)(如QA,POS of tagging ),然后根據(jù)接下來(lái)要進(jìn)行的這些任務(wù)一起被學(xué)習(xí)出來(lái)。所以就導(dǎo)致不同任務(wù)導(dǎo)向下的α1和α2也不一樣。
ELMo的論文中提到,在不同任務(wù)下(SRL,Coref,SNLI,SQuAD,SST-5)。藍(lán)色的上下文embedding在經(jīng)過(guò)token(這里為沒(méi)有經(jīng)過(guò)上下文的embedding),LSTM1,LSTM2后,它在不同階段需要的weight也不一樣。
BERT相當(dāng)于是Transformer的Encoder部分,它只需要搜集大量的語(yǔ)料去從中學(xué)習(xí)而不經(jīng)過(guò)標(biāo)注(不需要label),就可以將Encoder訓(xùn)練完成。如果之前要訓(xùn)練Encoder,我們需要通過(guò)一些任務(wù)來(lái)驅(qū)動(dòng)學(xué)習(xí)(如機(jī)器翻譯)。
BERT就是句子給進(jìn)去,每個(gè)句子給一個(gè)embedding。
這里可以回憶下,Transformer的Enoder中有self-attention layer,就是給進(jìn)去一個(gè)sequence,輸出也得到一個(gè)sequence。
雖然圖中使用是用詞作為單元進(jìn)行輸入,但是在使用BERT進(jìn)行中文的訓(xùn)練時(shí),字會(huì)是一個(gè)更好的選擇。比如,我們?cè)诮oBERT進(jìn)行輸入時(shí),用one-hot給詞進(jìn)行編碼,但是詞在中文中數(shù)量龐大,會(huì)導(dǎo)致維度過(guò)高。但是,字的話相對(duì)會(huì)少很多,特別是中文(大約幾千個(gè),可以窮舉)。這樣以字為單位進(jìn)行輸入會(huì)占很大優(yōu)勢(shì)。
共有兩種方法,一種是Mask LM遮蓋語(yǔ)言模型,另一種是Next Sentence Prediction下一句預(yù)測(cè)。
下面用上圖的例子來(lái)理解BERT是怎么樣來(lái)進(jìn)行填空的:
1)這里假設(shè)在所有句子中的詞匯的第2個(gè)位置上設(shè)置一個(gè)<MASK>;
2)接下來(lái)把所有的詞匯輸入BERT,然后每個(gè)輸入的token都會(huì)得到一個(gè)embedding;
3)接下來(lái)將設(shè)置為<MASK>的embedding輸入到Linear Multi-class Classifier中中,要求它預(yù)測(cè)被<MASK>的詞匯是哪個(gè)詞匯?
但是這個(gè)Linear Multi-class Classifier它僅僅是一個(gè)線性分類器,所以它的能力十分弱,這也就需要在之前的BERT模型中需要將它的層數(shù)等參數(shù)設(shè)計(jì)的相當(dāng)好,然后得到非常出色的representation,便于線性分類器去訓(xùn)練。
那么我們?cè)趺粗雷詈蟮玫降膃mbedding是什么樣的呢?如果兩個(gè)<MASK>下的詞匯(輸入時(shí)設(shè)置的<MASK>和最后預(yù)測(cè)的<MASK>)都放回原來(lái)的位置而且沒(méi)有違和感(就是語(yǔ)句還算通順),那它們就有類似的embedding(比如退下和落下)。
如圖中,給定兩個(gè)句子1)醒醒吧 和 2)你沒(méi)有妹妹。其中特殊符號(hào)[SEP]是告訴BERT兩個(gè)句子的分隔點(diǎn)在哪里。
特殊符號(hào)[CLS]一般放在句子的開(kāi)頭,它用來(lái)告訴BERT從這開(kāi)始分類任務(wù),[CLS]輸入BERT后得到embedding然后通過(guò)Linear Binary Classifier得出結(jié)果說(shuō)明:經(jīng)過(guò)BERT預(yù)測(cè)后現(xiàn)在我們要預(yù)測(cè)的兩個(gè)句子是接在一起 or 不應(yīng)該被接在一起。
這里可能會(huì)有疑問(wèn),為什么不將[CLS]放在句尾,等BERT訓(xùn)練完兩個(gè)句子再輸出結(jié)果?
對(duì)于上圖中的任務(wù),BERT現(xiàn)在要做的事情就是給定兩個(gè)句子,讓BERT輸出結(jié)果這兩個(gè)句子是不是應(yīng)該接在一起?
所以在語(yǔ)料庫(kù)的大量句子中,我們是知道哪些句子是可以接在一起的,所以也需要我們告訴BERT哪些句子是接在一起的。
Linear Binary Classifier和BERT是一起被訓(xùn)練的,通過(guò)預(yù)測(cè)下一句這個(gè)任務(wù),我們就可以把將BERT部分的最優(yōu)參數(shù)訓(xùn)練出來(lái)。
現(xiàn)在我們知道了任務(wù)一和任務(wù)二,在原論文中兩種任務(wù)是要同時(shí)進(jìn)行的,這樣才能將BERT的性能發(fā)揮到最佳。
現(xiàn)在我們知道了BERT要做什么事情,那么我們要如何去使用它?共有四種方法。論文中是將【BERT模型和接下來(lái)你要進(jìn)行的任務(wù)】結(jié)合在一起做訓(xùn)練。
第一種,假設(shè)當(dāng)前任務(wù)是Input一個(gè)sentence,out一個(gè)class,舉例來(lái)說(shuō)輸入一句話來(lái)判斷分類。
訓(xùn)練流程:1)將做要分類的句子丟給BERT;
2)需要在句子開(kāi)始加上分類的特殊符號(hào),這個(gè)特殊符號(hào)經(jīng)過(guò)BERT輸出的embedding經(jīng)過(guò)線性分類器,輸出結(jié)果為當(dāng)前的句子屬于的類別是真還是假。BERT和Linear Classifier的參數(shù)一起進(jìn)行學(xué)習(xí);
3)這里的Linear Classifier是Trained from Scratch是白手起家從頭開(kāi)始,即它的參數(shù)隨機(jī)初始化設(shè)置,然后開(kāi)始訓(xùn)練;
4)而B(niǎo)ERT則是加上Fine-tune微調(diào)策略(一種遷移學(xué)習(xí)方式*),例如Generative Pre-trained Transformer(OpenAI GPT生成型預(yù)訓(xùn)練變換器)(Radford等,2018),引入了最小的任務(wù)特定參數(shù),并通過(guò)簡(jiǎn)單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練。
*這里不得不提一下遷移學(xué)習(xí)中的Fine-tune,這里可以參考csdn的一篇文章: https://blog.csdn.net/u013841196/article/details/80919857
( https://arxiv.org/abs/1805.12471 )
第二種,假設(shè)當(dāng)前任務(wù)是input一個(gè)sentence,輸出這個(gè)句子中的每個(gè)詞匯屬于正例還是負(fù)例。舉例現(xiàn)在的任務(wù)是slot filling填槽任務(wù)(填槽指的是為了讓用戶意圖轉(zhuǎn)化為用戶明確的指令而補(bǔ)全信息的過(guò)程)(另一種解釋是從大規(guī)模的語(yǔ)料庫(kù)中抽取給定實(shí)體(query)的被明確定義的屬性(slot types)的值(slot fillers))(槽可以理解為實(shí)體已明確定義的屬性),輸入的句子是 arrive Taipei on November 2nd輸出的槽是other dest on time time
訓(xùn)練流程:
1)將句子輸入BERT,句子中的每個(gè)詞匯都會(huì)映射出一個(gè)embedding;
2)每個(gè)詞匯的embedding輸入Linear Classifier,輸出結(jié)果;
3)Linear Classifier 白手起家和Bert微調(diào)的方式一起去做學(xué)習(xí)。
第三種,假設(shè)當(dāng)前任務(wù)是input輸入兩個(gè)句子,輸出class。舉例現(xiàn)在要進(jìn)行自然語(yǔ)言預(yù)測(cè),讓機(jī)器根據(jù)premise前提,預(yù)測(cè)這個(gè)hypothesis假設(shè)是True還是False還是unknown不知道。實(shí)際上,我們可以把這個(gè)任務(wù)當(dāng)成三分類問(wèn)題。
訓(xùn)練過(guò)程:
1)在一個(gè)sentence前設(shè)置特殊符號(hào)[CLS],然后在要輸入的兩個(gè)sentence中間設(shè)置[SEP]分隔符號(hào);
2)將兩個(gè)sentence連同特殊符號(hào)一起輸入到BERT中;
3)將[CLS]輸入BERT后得到的embedding,再把它輸入linear Classifier中,得到class。
如圖所示,假設(shè)gravity的token序號(hào)是17,即 ,我們現(xiàn)在有一個(gè)問(wèn)題通過(guò)QA Model后得到的s=17,e=17,那么答案就是 為gravity;
同理,假設(shè)within a cloud的序號(hào)順序是77到79,即 到 ,我們現(xiàn)在有一個(gè)問(wèn)題通過(guò)QA Model后得到的s=77,e=79,那么答案就是 為within a cloud。
https://arxiv.org/abs/1905.05950
https://openreview.net/pdf?id=SJzSgnRcKX
這張圖顯示了BERT從0-24層的層數(shù)在針對(duì)不同的NLP任務(wù)上的表現(xiàn)。
https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
而所謂的GPT,它其實(shí)就是Transformer的Decoder。
我們簡(jiǎn)單的描述下GPT的訓(xùn)練過(guò)程:這里我們input<BOS>這個(gè)token和潮水,想要GPT預(yù)測(cè)輸出“退了”這個(gè)詞匯。
1)首先輸入[BOS](begin of sentence)和潮水,通過(guò)Word Embedding再乘上matrix W變成a 1到a 4,然后把它們丟進(jìn)self-attention 層中,這時(shí)候每一個(gè)input都分別乘上3個(gè)不同的matrix產(chǎn)生3個(gè)不同的vector,分別把它們命名為q,k,v。
q代表的是query (to match others用來(lái)去匹配其它的向量)
k代表的是key (to be matched用來(lái)去被query匹配的向量)
v代表的是value(information to be extracted用來(lái)被抽取的信息的向量)
2)現(xiàn)在要做的工作就是用每個(gè)query q 去對(duì)每個(gè) key k做attention(吃2個(gè)向量,輸出就是告訴你這2個(gè)向量有多么匹配或者可以說(shuō)輸入兩個(gè)向量輸出一個(gè)分?jǐn)?shù)alpha(而怎么去吃2個(gè)向量output一個(gè)分?jǐn)?shù),有很多不同的做法))。這里要預(yù)測(cè)潮水的下一個(gè)詞,所以乘 , 乘上 , 乘上 再經(jīng)過(guò)soft-max分別得到 到 。
3)我們用 和每一個(gè)v相乘, 和 相乘加上 和 相乘。以此類推并相加,最終得到 。
4)然后經(jīng)過(guò)很多層的self-attention,預(yù)測(cè)得到”退了”這個(gè)詞匯。
同理,現(xiàn)在要預(yù)測(cè)”退了”的下一個(gè)詞匯,按照前面的流程可以得到 ,然后經(jīng)過(guò)很多層的self-attention層,得到”就”這個(gè)詞匯。
GPT的神奇之處在于它可以在完全沒(méi)有訓(xùn)練數(shù)據(jù)的情況下,就可以做到閱讀理解,摘要,翻譯。折線圖中顯示了它在參數(shù)量上升的情況下,F(xiàn)1的值的效果。
1.Transformer的問(wèn)題:
word Embedding 無(wú)上下文
監(jiān)督數(shù)據(jù)太少
解決方法:
Contextual Word Embedding
2.ELMo( E mbeddings from L anguages Mo del)
- 多層雙向的LSTM的NNLM
- RNN-based language models(trained from lots of sentences)
ELMo的問(wèn)題:
Contextual Word Embedding作為特征
不適合特定任務(wù)
3.OpenAI GPT的改進(jìn)
根據(jù)任務(wù)Fine-Tuning
使用Transformer替代RNN/LSTM
OpenAI GPT的問(wèn)題:
單向信息流的問(wèn)題
Pretraining(1)和Fine-Tuning(2)不匹配
解決辦法:
Masked LM
NSP Multi-task Learning
Encoder again
Tips:
- 使用中文模型
- max_seq_length可以小一點(diǎn),提高效率
- 內(nèi)存不夠,需要調(diào)整train_batch_size
- 有足夠多的領(lǐng)域數(shù)據(jù),可以嘗試Pretraining
二、GPT和GPT2
GPT用的是transformer decoder
fine-tuning的輸入:最后一個(gè)詞的向量。
GPT采用單向transformer可以解決Bert無(wú)法解決的生成文本任務(wù)。
一個(gè)字一個(gè)字往出蹦的形式
通常我們會(huì)用特定的網(wǎng)絡(luò)結(jié)構(gòu)去給任務(wù)建模,構(gòu)建通用NLP模型,對(duì)p(output | input, task)建模。output ,input, task三者都用向量表示。
把第二階段替換由Finetuning有監(jiān)督,換成了無(wú)監(jiān)督做下游任務(wù),因?yàn)樗舆M(jìn)去了好多任務(wù)數(shù)據(jù),且有提示詞。
問(wèn)題1 :GPT2把第二階段的Finetuning做有監(jiān)督地下游NLP任務(wù),換成了 無(wú)監(jiān)督地做下游任務(wù) 。為什么這樣做?一種看法認(rèn)為,只是GPT作者想說(shuō)明在第一階段Transformer學(xué)到了很多通用的包含各個(gè)領(lǐng)域的知識(shí)。
問(wèn)題2:為什么GPT 2.0仍然固執(zhí)地用單向語(yǔ)言模型,而不是雙向語(yǔ)言模型呢?
Bert的論文認(rèn)為,Bert的有效性主要是因?yàn)槭褂昧穗p向語(yǔ)言模型。
1.生成內(nèi)容后續(xù)單詞這種模式,單向語(yǔ)言模型更方便;
2、想證明通過(guò)增加數(shù)據(jù)量和模型結(jié)構(gòu),單向模型未必輸雙向模型。
問(wèn)題3:GPT2訓(xùn)練好的語(yǔ)言模型,如何無(wú)監(jiān)督適應(yīng)下游任務(wù),比如文本摘要,怎么知道是在做文本摘要任務(wù)呢?
首先,所有任務(wù)都采取相同的往出蹦字的輸出模式。GPT2.0給出了一種新穎的生成式任務(wù)的做法,就是一個(gè)字一個(gè)字往出蹦,然后拼接出輸出內(nèi)容作為翻譯結(jié)果或者摘要結(jié)果。GPT-2的輸入也會(huì)加入提示詞,比如輸入格式是 文本+TL;DR:,GPT-2模型就會(huì)知道是做摘要工作了。
三、chatgpt是什么縮寫(xiě)
chatgpt是Generative Pretrained Transformer for Chatting的縮寫(xiě)。
Generative Pre-trained Transformer生成型預(yù)訓(xùn)練變換模型。
GPT是”Generative Pre-trained Transformer“生成型預(yù)訓(xùn)練變換模型的縮寫(xiě),目的是為了使用深度學(xué)習(xí)生成人類可以理解的自然語(yǔ)言。目前我們討論的GPT一般指的是GPT-3,顯而易見(jiàn),在之前還有GPT-2和GPT。
GPT-3是由人工智能公司OpenAI訓(xùn)練與開(kāi)發(fā),該模型設(shè)計(jì)基于谷歌開(kāi)發(fā)的變換語(yǔ)言模型。GPT-3的神經(jīng)網(wǎng)絡(luò)包含1750億個(gè)參數(shù),為有史以來(lái)參數(shù)最多的神經(jīng)網(wǎng)絡(luò)模型。OpenAI于2020年5月發(fā)表GPT-3的論文,微軟在2020年9月22日宣布取得了GPT-3的獨(dú)家授權(quán)。
ChatGPT: 為對(duì)話而優(yōu)化的語(yǔ)言模型。
按照OpenAI官方的說(shuō)法“我們已經(jīng)訓(xùn)練了一個(gè)名為 ChatGPT 的模型,它以對(duì)話的方式進(jìn)行交互。對(duì)話模式使 ChatGPT 能夠回答連續(xù)的問(wèn)題、承認(rèn)錯(cuò)誤、質(zhì)疑不正確的前提并拒絕不恰當(dāng)?shù)恼?qǐng)求。
ChatGPT 是InstructGPT的兄弟模型,InstructGPT模型被訓(xùn)練為遵循對(duì)話中的指令并提供詳細(xì)的響應(yīng)?!?/p>
聊天機(jī)器人ChatGPT。
ChatGPT是基于GPT3.5優(yōu)化的一個(gè)模型,可以理解為是一個(gè)通用聊天機(jī)器人。根據(jù) OpenAI 的說(shuō)法,GPT-3.5通過(guò)吸收大量來(lái)自網(wǎng)絡(luò)的內(nèi)容,包括成千上萬(wàn)的維基百科條目、社交媒體帖子和新聞文章,來(lái)學(xué)習(xí)句子、單詞和部分單詞之間的關(guān)系。
四、chatgpt的gpt全文是怎樣的。
ChatGPT是一款大型預(yù)訓(xùn)練語(yǔ)言模型,它基于GPT(Generative Pre-trained Transformer)算法進(jìn)行訓(xùn)練。GPT是一種基于自注意力機(jī)制(Self-Attention)的序列生成模型,它可以學(xué)習(xí)輸入序列中不同位置之間的依賴關(guān)系,進(jìn)而生成具有語(yǔ)言邏輯性的連續(xù)文本。
ChatGPT模型的訓(xùn)練數(shù)據(jù)來(lái)源于大量的公共語(yǔ)料庫(kù),如維基百科、新聞報(bào)道、社交媒體等,并通過(guò)多層的Transformer模型進(jìn)行預(yù)訓(xùn)練。在預(yù)訓(xùn)練階段,模型通過(guò)學(xué)習(xí)上下文之間的關(guān)系,學(xué)會(huì)了語(yǔ)言的基本語(yǔ)法、語(yǔ)義和知識(shí),從而可以生成連貫、合理、自然的文本。
ChatGPT模型是一種無(wú)監(jiān)督學(xué)習(xí)的模型,不需要對(duì)輸入數(shù)據(jù)進(jìn)行人工標(biāo)注和指導(dǎo),也不需要針對(duì)特定任務(wù)進(jìn)行有監(jiān)督學(xué)習(xí)。這種無(wú)監(jiān)督學(xué)習(xí)的特點(diǎn),使得ChatGPT模型可以應(yīng)用于各種自然語(yǔ)言處理任務(wù),如對(duì)話系統(tǒng)、文本生成、語(yǔ)言翻譯等,并且具有很高的靈活性和擴(kuò)展性。
總之,ChatGPT的GPT全文是一種基于自注意力機(jī)制的預(yù)訓(xùn)練語(yǔ)言模型,它通過(guò)學(xué)習(xí)大量的公共語(yǔ)料庫(kù),可以生成具有語(yǔ)言邏輯性和語(yǔ)義的自然文本。
以上就是關(guān)于自己完成gpt3訓(xùn)練相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
怎樣向別人推銷自己的產(chǎn)品(怎樣向別人推銷自己的產(chǎn)品話術(shù))
在手機(jī)上設(shè)計(jì)畫(huà)圖的軟件(手機(jī)上可以自己畫(huà)畫(huà)的軟件)
園林景觀設(shè)計(jì)教程視頻(園林景觀設(shè)計(jì)教程視頻講解)
上海屋頂景觀設(shè)計(jì)品牌(上海屋頂景觀設(shè)計(jì)品牌排行榜)
問(wèn)大家
湟源微電影活動(dòng)拍攝制作如何發(fā)現(xiàn)適合自己的?各位大佬們拜托了
成都錦江區(qū)承接能力最強(qiáng)開(kāi)業(yè)剪彩如何發(fā)現(xiàn)適合自己的?在座的老鄉(xiāng)們急急急
成都錦江區(qū)做的全面的圈層客戶活動(dòng)如何發(fā)現(xiàn)適合自己的?在座的前輩們問(wèn)一下哈
有什么渠道能靠賣一些自己的設(shè)計(jì)或者小作品之類賺錢的嘛?
成都錦江區(qū)服務(wù)范圍最廣會(huì)務(wù)策劃如何發(fā)現(xiàn)適合自己的?能給我簡(jiǎn)單介紹下嗎
學(xué)習(xí)平面設(shè)計(jì)要用到哪些軟件?這樣軟件自己怎么下載?。?/a>
城北創(chuàng)意短片攝像攝影如何發(fā)現(xiàn)適合自己的?各位大佬們拜托了
新手小白怎樣學(xué)室內(nèi)設(shè)計(jì)?應(yīng)該從哪些方面提升自己?
在寧波日?qǐng)?bào)上登報(bào)辦理公司減資/注銷聯(lián)系電話是多少?