正文

gpt-3模型

發(fā)布時(shí)間：2023-03-13 07:02:31 稿源：創(chuàng)意嶺閱讀： 125 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt-3模型的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國(guó)內(nèi)免費(fèi)在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、chatgpt數(shù)據(jù)庫(kù)大小
2、告別面向Google編程，Copilot測(cè)試版本體驗(yàn)
3、chatgpt3.0和3.5的區(qū)別
4、GPT的auto-regressive語(yǔ)言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷？具體如何改進(jìn)？

gpt-3模型

一、chatgpt數(shù)據(jù)庫(kù)大小

Chatgpt使用了GPT模型，模型參數(shù)非常龐大，目前最新的GPT-3模型參數(shù)數(shù)量超過了1.75億個(gè)。因此Chatgpt數(shù)據(jù)庫(kù)的大小取決于具體使用的GPT模型和語(yǔ)料庫(kù)大小，一般來說都是以GB為單位。不同版本和使用場(chǎng)景下的Chatgpt數(shù)據(jù)庫(kù)大小可能會(huì)不同。

二、告別面向Google編程，Copilot測(cè)試版本體驗(yàn)

最近OpenAI和GitHub聯(lián)合發(fā)布了一個(gè)名為Copilot代碼生成工具。這個(gè)工具基于GPT-3自然語(yǔ)言處理模型開發(fā)，并使用GitHub上的數(shù)十億行代碼作為訓(xùn)練數(shù)據(jù)，實(shí)現(xiàn)在寫代碼時(shí)自動(dòng)提供代碼建議的功能。

目前該產(chǎn)品已經(jīng)在Vscode extenison中上線。作為長(zhǎng)期面向Google編程的小白，當(dāng)然是偷懶等不了明天，早早在官網(wǎng)排隊(duì)等待試用名額，幸運(yùn)地在一兩周前獲得了試用機(jī)會(huì)。

一周的體驗(yàn)下來，我認(rèn)為Copilot的功能相較于其他代碼補(bǔ)齊工具而言更加強(qiáng)大，更加靈活，甚至有時(shí)讓我有種仿佛Copilot真的能讀懂我的想法和代碼，并且將其實(shí)現(xiàn)的感覺。顯著提高了寫碼效率。

大家對(duì)GPT-3并不陌生 - 或許是2020年最火的自然語(yǔ)言處理模型，訓(xùn)練成本接近500萬(wàn)元，模型參數(shù)超過1750億個(gè)。他是一個(gè)自回歸模型，通俗理解就是輸入一段文本的前一部分，預(yù)測(cè)接下來的文本的概率分布。GTP-3 自問世以來就被開發(fā)成幾十個(gè)大大小小的不同應(yīng)用，例如進(jìn)行一些創(chuàng)作性寫作（詩(shī)歌，小說等），編寫前端代碼（debuild.co）等等。

魯迅曾經(jīng)說過，XXX是最好的語(yǔ)言，既然GTP-3在語(yǔ)言方面如此有天賦，那么在寫代碼方面應(yīng)該也會(huì)有所建樹吧。果然CodeX - 基于GTP-3微調(diào)后的編程語(yǔ)言版本也在不久后問世，而Copilot正是CodeX的第一個(gè)商業(yè)化應(yīng)用。

Copilot官網(wǎng)中列舉了Copilot的四個(gè)使用方向：

可以說，如果真的能實(shí)現(xiàn)上述所說的四點(diǎn)，那么真的是可以極大地提高代碼編寫效率，在拿到試用資格后，我就如上幾點(diǎn)進(jìn)行了體驗(yàn)和測(cè)試，究竟能不能達(dá)到官網(wǎng)上所說的神奇效果呢？

首先我創(chuàng)建了一個(gè)新的項(xiàng)目，正巧當(dāng)時(shí)打算瞄一眼比特幣的價(jià)格，對(duì)了，要不讓Copilot幫我寫一個(gè)吧！我在注釋中定義了想要的函數(shù)，看看Copilot能不能讀懂我的意思呢？

第一次運(yùn)行的時(shí)候我實(shí)實(shí)在在地被“驚嚇”到了，Copilot似乎是理解了我的注釋，剛開始定義函數(shù)，Copilot就迫不及待給我推薦了傳入的參數(shù)，緊接著又推薦了完整的函數(shù)代碼。雖然之前也存在類似語(yǔ)言轉(zhuǎn)代碼生成工具，但是使用的絲滑程度和生成代碼的準(zhǔn)確度上，個(gè)人感覺Copilot都遙遙領(lǐng)先于其他工具。

更多時(shí)候，我們需要在已有代碼上進(jìn)行添加或者修改，其中不乏需要寫一些功能，格式較為相似的函數(shù)。有時(shí)我會(huì)選擇直接復(fù)制粘貼函數(shù)然后進(jìn)行修改，但是一旦需要修改的變量較多，往往會(huì)遺漏導(dǎo)致測(cè)試時(shí)報(bào)錯(cuò)。那么在類似場(chǎng)景下，Copilot是否能給我們提供一個(gè)更合適的“參考答案”呢？

我用以下代碼進(jìn)行了一個(gè)簡(jiǎn)單測(cè)試，在DeepaiImageApi模塊中，我想要通過兩個(gè)不同函數(shù)分別實(shí)現(xiàn)將圖片數(shù)據(jù)和圖片url傳給DeepAI提供的API接口。在我定義了第一個(gè)函數(shù)方法之后，來看看Copilot是否能根據(jù)我的注釋直接生成我想要的代碼吧:

結(jié)果是非常Amazing啊，可以看出Copilot不僅提供了符合范式的函數(shù)名，代碼以及符合項(xiàng)目代碼的參數(shù)調(diào)用，并且對(duì)函數(shù)內(nèi)容也有相對(duì)應(yīng)的改動(dòng)(request.post中傳入的files參數(shù)由image變成了url）。說明copilot的確將本地文件中的代碼作為了模型的輸入值，并且很好地“理解”了代碼中的重要特征，如格式，規(guī)范，結(jié)構(gòu)等等。

總體而言，雖然Copilot生成的代碼在多數(shù)情況下還需要檢查和調(diào)整，但是他革命性的代碼生成效果還是把初步接觸Copilot的我驚艷到了，有時(shí)就算程序已經(jīng)寫好，我還是會(huì)特意按下Ctrl+Enter查看copilot提供的不同思路和方法。

最后夾帶一點(diǎn)點(diǎn)個(gè)人觀點(diǎn)，有人質(zhì)疑Copilot成熟以后或許會(huì)搶走部分程序員的飯碗，或者讓程序員自主思考的能力逐漸退化，作為一個(gè)入門碼農(nóng)來說我目前覺得并不需要擔(dān)心。Copilot給我的感覺像是一個(gè)專門提供給程序員的Google，或是一套整理齊全，索引完備的代碼答案庫(kù)，在面對(duì)多數(shù)人遇到過的類似問題的時(shí)候，可以提高編程效率，減少面向Google編程時(shí)搜索合適答案的時(shí)間。

而另一方面，GTP-3本質(zhì)上是一個(gè)自回歸模型，我們無(wú)法依賴其提供給我們更加創(chuàng)新的算法或代碼方案，當(dāng)大多數(shù)程序員從重復(fù)且枯燥的代碼中解放出來的時(shí)候，或許會(huì)就有更多的人類智慧被利用在創(chuàng)新性的工作中，從而加速行業(yè)的進(jìn)步。

三、chatgpt3.0和3.5的區(qū)別

chatbot GPT-3.0和GPT-3.5之間的主要區(qū)別在于它們的模型大小。GPT-3.0有175億個(gè)參數(shù)，而GPT-3.5有1150億個(gè)參數(shù)，是GPT-3.0的六倍大小。

GPT-3.0模型的每個(gè)層的節(jié)點(diǎn)數(shù)都比GPT-3.5的少，但GPT-3.5的每個(gè)層的節(jié)點(diǎn)數(shù)都比GPT-3.0的多。GPT-3.0有12層，而GPT-3.5有24層，是GPT-3.0的兩倍大小。

GPT-3.0的模型參數(shù)的大小更小，可以更輕松地在更小的設(shè)備上運(yùn)行，更容易在更短的時(shí)間內(nèi)訓(xùn)練。

GPT-3.5的模型參數(shù)更大，可以實(shí)現(xiàn)更復(fù)雜的計(jì)算任務(wù)，可以更好地處理更復(fù)雜的任務(wù)，比如語(yǔ)義理解和自然語(yǔ)言處理。

總的來說，GPT-3.0和GPT-3.5之間的主要區(qū)別在于模型大小，GPT-3.5的模型參數(shù)更大，可以實(shí)現(xiàn)更復(fù)雜的計(jì)算任務(wù)，可以更好地處理更復(fù)雜的任務(wù)。

四、GPT的auto-regressive語(yǔ)言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷？具體如何改進(jìn)？

1） GPT

在Bert 之后，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現(xiàn)，其生成的文本在上下文連貫性和情感表達(dá)上都超過了人們對(duì)目前階段語(yǔ)言模型的預(yù)期。僅從模型架構(gòu)而言，GPT-2 并沒有特別新穎的架構(gòu)，它和 transformer 的 Decoder 類似。相比較于GPT-1，GPT -2 使用了更大的預(yù)料，更大和更深的模型。

從transformer的decoder里移除了decoder對(duì)encoder的attention部分。也就是消除掉了seq2seq的過程。

GPT是一個(gè)語(yǔ)言模型，每一個(gè)時(shí)刻只能看見當(dāng)前時(shí)刻前面時(shí)刻的信息，是一個(gè)auto regressive的過程。

GPT2，hidden state的大小有變化，根據(jù)層數(shù)的多少有small，medum，large，extra large的劃分。

GPT的訓(xùn)練過程是交叉式的預(yù)測(cè)下一個(gè)單詞，測(cè)試的時(shí)候是輸入一個(gè)句子生成另外一個(gè)句子。

GPT的預(yù)訓(xùn)練就是訓(xùn)練一個(gè)語(yǔ)言模型。而bert的預(yù)訓(xùn)練是masked language model和nsp的任務(wù)。

GPT由多個(gè)decocer block組成，每一個(gè)decoder block由masked self-attention和feed forward neural network組成。

一個(gè)timestamp的hidden state經(jīng)過線性層轉(zhuǎn)換為vocab size大小的embedding，然后經(jīng)過softmax，算出每個(gè)詞匯的概率，找出其中概率最大的詞作為預(yù)測(cè)輸出，然后下一個(gè)時(shí)刻的詞作為真實(shí)輸出，計(jì)算兩者的cross entropy來訓(xùn)練模型。

每一個(gè)timestamp后面的位置都mask掉，設(shè)置一個(gè)負(fù)無(wú)群大的值，做softmax的時(shí)候，該位置的值就為0。

2）總結(jié)