正文

gpt3參數(shù)量（gpt3參數(shù)量怎么算的）

發(fā)布時(shí)間：2023-03-12 23:20:51 稿源：創(chuàng)意嶺閱讀： 129 問(wèn)大家

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt3參數(shù)量的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

ChatGPT國(guó)內(nèi)免費(fèi)在線(xiàn)使用，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫(xiě)出的就越詳細(xì)，有微信小程序端、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、Prompt-NLP新范式
2、三星gpt3100平板參數(shù)
3、全球十大數(shù)字創(chuàng)新技術(shù)出爐
4、gpt3.5-turbo什么區(qū)別

gpt3參數(shù)量（gpt3參數(shù)量怎么算的）

一、Prompt-NLP新范式

NLP技術(shù)發(fā)展的四種范式：

Prompt的起源可以追溯到GPT-2，T5，GPT-3等的一些研究，發(fā)現(xiàn)在輸入樣本前加入一個(gè)和任務(wù)相關(guān)的前綴，就可以提示模型接下來(lái)要輸出的內(nèi)容。比如在GPT-3的預(yù)測(cè)階段，只需要在輸入樣本前加上Translate English to French: 就可以提示模型接下來(lái)要進(jìn)行翻譯任務(wù)，即完全依靠模型在預(yù)訓(xùn)練階段學(xué)到的知識(shí)來(lái)進(jìn)行預(yù)測(cè)，不需要在下游任務(wù)上再依靠task-specific的 監(jiān)督數(shù)據(jù) 對(duì)模型進(jìn)行fine-tune就可直接使用，一方面減少了fine-tune模型的計(jì)算和存儲(chǔ)代價(jià)，另一方面也給樣本量極度缺乏的 少樣本領(lǐng)域(zero/few-shot) 帶來(lái)了福音。

這種依靠 提示信息(Prompt) 來(lái)激發(fā)模型的內(nèi)在潛能，挖掘模型在大規(guī)模預(yù)訓(xùn)練階段學(xué)到的知識(shí)的做法引領(lǐng)了NLP領(lǐng)域的第四范式。人們逐漸開(kāi)始思考如何更加 高效地利用 預(yù)訓(xùn)練語(yǔ)言模型的大量參數(shù)，如何將各種下游任務(wù)都統(tǒng)一到一個(gè) 通用框架 下，使得模型能夠根據(jù)不同的提示信息進(jìn)行不同的任務(wù)，從而不需要再為每個(gè)下游任務(wù)訓(xùn)練單獨(dú)的模型。

本文將對(duì)Prompt快速發(fā)展過(guò)程中一些重要論文的核心創(chuàng)新點(diǎn)進(jìn)行簡(jiǎn)要介紹，而不會(huì)詳細(xì)描述過(guò)多模型細(xì)節(jié)（欲知全貌建議直接讀原論文）。

論文：Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)

該論文對(duì)Prompt模式的研究進(jìn)行了規(guī)范，提出了 Pattern-Verbalizer 的概念：

比如對(duì)于5分類(lèi)任務(wù)，給定輸入樣本 a ，對(duì)應(yīng)的模板函數(shù) P 和標(biāo)簽映射函數(shù) v 可為：

注意這里多種Prompt模板函數(shù)以及答案映射函數(shù)都是 人工手動(dòng)設(shè)計(jì) 的。

然后利用新構(gòu)建出來(lái)的 P(x)，v(l) 對(duì)預(yù)訓(xùn)練模型進(jìn)行fine-tune，其他更多細(xì)節(jié)不再展開(kāi)，實(shí)驗(yàn)結(jié)果顯示該方法在少樣本任務(wù)上表現(xiàn)很好。

論文：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners （ PET原班人馬 ）

GPT-3出來(lái)后顯示了其在少樣本學(xué)習(xí)上的驚人能力，但是其龐大的參數(shù)量也令人望而卻步。而本文作者提出 “小模型在少樣本學(xué)習(xí)上也可以有卓越表現(xiàn)” ，直接對(duì)標(biāo)GPT-3這個(gè)龐然大物，從而奠定了 PET所提范式 在江湖的霸主地位，引起了各大武林人士的關(guān)注。

該文證明了PET所提范式的有效性，同時(shí)作者還分析發(fā)現(xiàn)設(shè)計(jì)不同的 Prompt 模板和標(biāo)簽映射函數(shù) Verbalizer 對(duì)模型性能影響較大，從而引起后來(lái)人員涌入改進(jìn)Prompt模板和標(biāo)簽映射Verbalizer構(gòu)造的浪潮中。

論文：Making Pre-trained Language Models Better Few-shot Learners

取代PET中手動(dòng)構(gòu)建Prompt模板和標(biāo)簽映射函數(shù)的過(guò)程，自動(dòng)化搜索模板和標(biāo)簽映射，同時(shí)參考GPT-3中的in-context learning，在輸入樣本中加入示例(demonstrations)作為上下文，幫助模型更好地理解要做什么。

實(shí)驗(yàn)表明，在少樣本上，這種基于prompt的fine-tune效果能夠明顯好于標(biāo)準(zhǔn)的fine-tune，并且在樣本中加入示例確實(shí)能夠帶來(lái)增益。

也許未必非要構(gòu)建人能理解的 離散tokens式 的Prompt，構(gòu)建模型能夠接受的 連續(xù)向量式 的Prompt也未嘗不可。

4.1 論文： Prefix-Tuning : Optimizing Continuous Prompts for Generation

該文針對(duì) NLG(Natural Language Generation) 任務(wù)，提出了構(gòu)建連續(xù)的prompts。在預(yù)訓(xùn)練模型的每一層加上一個(gè)Prefix前綴矩陣，固定預(yù)訓(xùn)練模型的參數(shù)，僅訓(xùn)練前綴矩陣的參數(shù)，在few-shot設(shè)定下，性能超過(guò)標(biāo)準(zhǔn)的fine-tune。

實(shí)驗(yàn)結(jié)果表明，在全量數(shù)據(jù)下，prompt-based fine-tune的效果能夠 相當(dāng) standard fine-tune；在 少樣本 下，能夠 超過(guò) standard fine-tune。

4.2 論文：GPT Understands, Too ( P-tuning )

該文針對(duì) NLU(Natural Language Understanding) 任務(wù)，也提出了構(gòu)建連續(xù)的prompts。與 Prefix-tuning 不同的是，這里的prompts僅需要加在輸入層，而不用加在網(wǎng)絡(luò)的每一層，就可以work well。

利用 biLSTM 對(duì)prompts進(jìn)行 Encode ，然后將編碼后的 prompts embedding 和樣本 x 輸入預(yù)訓(xùn)練語(yǔ)言模型(PLM)，之后同時(shí)fine-tune prompt embeddings 和 pretrained model 。

考慮到優(yōu)化連續(xù)的prompt向量有兩個(gè)問(wèn)題：

因此作者提出先采用 biLSTM 作為 Prompt Encoder 來(lái)編碼prompt向量。

具體Prompt模板設(shè)計(jì)為：

實(shí)驗(yàn)結(jié)果表明，在全量數(shù)據(jù)下，prompt-based fine-tune的效果能夠 相當(dāng) 或超過(guò)standard fine-tune。

論文：The Power of Scale for Parameter-Efficient Prompt Tuning

該文提出為每個(gè)下游任務(wù)設(shè)計(jì)自己的prompt，拼接到輸入樣本上，然后完全freeze預(yù)訓(xùn)練模型的權(quán)重，僅訓(xùn)練prompts對(duì)應(yīng)的權(quán)重參數(shù)。發(fā)現(xiàn)隨著模型體積的增大， Prompt-tuning 的效果逐漸追上標(biāo)準(zhǔn) fine-tune 的效果。

這里 Model Tuning 就是指標(biāo)準(zhǔn)的 fine-tune ，即在下游任務(wù)上對(duì)預(yù)訓(xùn)練模型的參數(shù)進(jìn)行更新。

最后對(duì)各論文實(shí)驗(yàn)結(jié)果的普遍規(guī)律進(jìn)行一個(gè)總結(jié)。各論文采用的fine-tune策略主要有以下三種：

二、三星gpt3100平板參數(shù)

若您想要了解三星P3100平板電腦的配置參數(shù)，請(qǐng)參考以下介紹：

1.CPU(處理器):1GHz 雙核。

2.內(nèi)存：總RAM約1G；外置存儲(chǔ)卡：最大支持32GB micro SD卡。

3.攝像頭：采用300萬(wàn)像素的后置攝像頭，30萬(wàn)像素前置攝像頭；支持4倍變焦。

4.軟件格式：APK。

5.藍(lán)牙版本：藍(lán)牙3.0。

三、全球十大數(shù)字創(chuàng)新技術(shù)出爐

點(diǎn)擊藍(lán)字

科技創(chuàng)新世界潮。

全文共計(jì)2520字，預(yù)計(jì)閱讀時(shí)間7分鐘

來(lái)源 | 數(shù)據(jù)觀綜合（轉(zhuǎn)載請(qǐng)注明來(lái)源）

編輯 | 蒲蒲

“

日前，聯(lián)合國(guó)教科文組織2021年 Netexplo 創(chuàng)新論壇在網(wǎng)上舉行。由技術(shù)領(lǐng)域全球知名大學(xué)組成的 Netexplo 大學(xué)網(wǎng)絡(luò)歷時(shí)一年，在全球范圍內(nèi)遴選出了10項(xiàng)極具突破性的數(shù)字創(chuàng)新技術(shù)，這些創(chuàng)新對(duì) 社會(huì) 具有深遠(yuǎn)而持久的影響。

”

阿根廷交易平臺(tái)Abakus

受疫情影響，阿根廷經(jīng)濟(jì)遭受重創(chuàng)，也使該國(guó)農(nóng)業(yè)部門(mén)的動(dòng)蕩加劇。鑒于此，阿根廷初創(chuàng)企業(yè)Abakus與瑞士區(qū)塊鏈基礎(chǔ)設(shè)施提供商CoreLedger推出了一個(gè)數(shù)字易貨平臺(tái)，旨在幫助農(nóng)民克服金融波動(dòng)帶來(lái)的影響，打造數(shù)字易貨經(jīng)濟(jì)。

Abakus系統(tǒng)基于一種以實(shí)物資產(chǎn)（例如大豆）為索引的加密貨幣，這種貨幣可能比本國(guó)不斷波動(dòng)的貨幣更穩(wěn)定，而代幣可以?xún)稉Q成貨物或比索。這兩家公司表示，代幣化農(nóng)業(yè)資產(chǎn)將有助于農(nóng)民對(duì)沖通貨膨脹，并在國(guó)內(nèi)和國(guó)際上獲得流動(dòng)性。

CoreLedger首席執(zhí)行官Johannes Schweifer表示：“ 在一個(gè)飽受通貨膨脹困擾的國(guó)家，獲得有形資產(chǎn)的能力可能是這些農(nóng)民生存與發(fā)展之間的區(qū)別。 ”

Abakus首席執(zhí)行官M(fèi)artin Furst表示：“ 由于國(guó)有公司的壟斷地位，阿根廷的農(nóng)民們難以生存，這些壟斷者決定了農(nóng)產(chǎn)品貿(mào)易的條件并大幅度削減了農(nóng)產(chǎn)品。農(nóng)業(yè)支持的代幣解決了現(xiàn)金和股票儲(chǔ)蓄計(jì)劃固有的波動(dòng)性和流動(dòng)性問(wèn)題。 ”

英國(guó)人工智能AlphaFold 2

在國(guó)際象棋和圍棋領(lǐng)域取得巨大成功后，去年年底，人工智能再次大出風(fēng)頭。在國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)賽中，AlphaFold 2摘得桂冠，并破解了一個(gè)困擾人類(lèi)50年的難題：預(yù)測(cè)蛋白質(zhì)如何折疊。

據(jù)DeepMind官方宣布，該算法能夠精確地基于氨基酸序列，預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)，其準(zhǔn)確性可以與使用冷凍電子顯微鏡（CryoEM）、核磁共振或X射線(xiàn)晶體學(xué)等實(shí)驗(yàn)技術(shù)解析的3D結(jié)構(gòu)相媲美。

在過(guò)去50年中，“蛋白質(zhì)折疊問(wèn)題”一直是生物學(xué)界的重大挑戰(zhàn)。此前，生物學(xué)家主要利用X射線(xiàn)晶體學(xué)或冷凍電鏡等實(shí)驗(yàn)技術(shù)來(lái)破譯蛋白質(zhì)的三維結(jié)構(gòu)，但這類(lèi)方法耗時(shí)長(zhǎng)、成本高。而AlphaFold 2不僅預(yù)測(cè)準(zhǔn)確且效率高，有望促進(jìn)醫(yī)學(xué)領(lǐng)域不斷取得進(jìn)步。

美國(guó)圖像生成系統(tǒng)Dall-E

美國(guó)人工智能非營(yíng)利組織Open AI于今年1月份推出Dall—E，這是一個(gè)可以根據(jù)書(shū)面文字生成圖像的人工智能系統(tǒng)。取名DALL-E，是為了向藝術(shù)家薩爾瓦多-達(dá)利（Salvador Dali ）和皮克斯的機(jī)器人WALL-E致敬。

DALL-E是OpenAI基于GPT-3開(kāi)發(fā)的一種新型神經(jīng)網(wǎng)絡(luò)。它是GPT-3的一個(gè)小版本，使用了120億個(gè)參數(shù)，而不是1750億個(gè)參數(shù)。但它已經(jīng)經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練，可以從文本描述生成圖像，使用的是文本-圖像對(duì)的數(shù)據(jù)集，而不是像GPT-3這樣非常廣泛的數(shù)據(jù)集。它可以使用自然語(yǔ)言從文字說(shuō)明中創(chuàng)建圖像，就像GPT-3創(chuàng)建網(wǎng)站和故事一樣。

德國(guó)文本AI模型GPT-Neo

OpenAI的GPT—3被認(rèn)為是目前最好的人工智能文本生成器，其擁有1750億個(gè)參數(shù)，現(xiàn)已被數(shù)萬(wàn)開(kāi)發(fā)者用于300多個(gè)不同的應(yīng)用程序，每天輸出45億詞之多。

但它是收費(fèi)的，這阻礙了更多開(kāi)發(fā)人員的采用，也不利于文本AI的快速發(fā)展。有鑒于此，德國(guó)Eleuther人工智能公司于今年3月下旬推出開(kāi)源的文本AI模型GPT—Neo，以彌補(bǔ)這方面的缺憾。研究人員稱(chēng)，GPT—Neo的推出將會(huì)催生出一大批嶄新應(yīng)用，也會(huì)以更為低廉的成本釋放人們對(duì)人工智能未來(lái)的想象力。

本質(zhì)上，GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目：GPT-Neo中的各種模型，設(shè)計(jì)原理接近GPT系列，但代碼并不一樣。作者們打算嘗試各種結(jié)構(gòu)和注意力類(lèi)型，最終擴(kuò)展出GPT-3大小的大語(yǔ)言模型。為了實(shí)現(xiàn)這一目標(biāo)，他們從復(fù)現(xiàn)GPT系列的模型開(kāi)始，不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

中國(guó)量子計(jì)算機(jī)“九章”

“九章”是由中國(guó)科學(xué)技術(shù)大學(xué)潘建偉、陸朝陽(yáng)等學(xué)者研制的76個(gè)光子的量子計(jì)算原型機(jī)。

實(shí)驗(yàn)顯示，當(dāng)求解5000萬(wàn)個(gè)樣本的高斯玻色取樣時(shí)，“九章”需200秒，而目前世界最快的超級(jí)計(jì)算機(jī)“富岳”需6億年。等效來(lái)看，“九章”的計(jì)算速度比“懸鈴木”快100億倍，并彌補(bǔ)了“懸鈴木”依賴(lài)樣本數(shù)量的技術(shù)漏洞。

這一成果使得我國(guó)成功達(dá)到了量子計(jì)算研究的第一個(gè)里程碑：量子計(jì)算優(yōu)越性（國(guó)外也稱(chēng)之為“量子霸權(quán)”），并牢固確立了我國(guó)在國(guó)際量子計(jì)算研究中的第一方陣地位，為未來(lái)實(shí)現(xiàn)可解決具有重大實(shí)用價(jià)值問(wèn)題的規(guī)?；孔幽M機(jī)奠定了技術(shù)基礎(chǔ)。

對(duì)于“九章”的突破，《科學(xué)》雜志審稿人評(píng)價(jià)該工作是“一個(gè)最先進(jìn)的實(shí)驗(yàn)”（astate-of-the-artexperiment），“一個(gè)重大成就”（a major achievement）。

美國(guó)人工智能“神經(jīng)破譯”

“神經(jīng)破譯”是由MIT CSAIL和谷歌大腦的研究者攜手開(kāi)發(fā)的一款人工智能軟件，基于語(yǔ)言進(jìn)化原理，可以在不知道語(yǔ)言來(lái)源的情況下破譯古代語(yǔ)言，并揭示某種語(yǔ)言和其他語(yǔ)言之間的關(guān)聯(lián)。

研究者們利用同一語(yǔ)族內(nèi)不同語(yǔ)言之間的聯(lián)系，用該人工智能破譯了兩種失傳的語(yǔ)言：烏加里特文和線(xiàn)性文字B，堪稱(chēng)現(xiàn)代版的“羅塞塔石碑”！（PS：羅塞塔石碑是一塊用3種語(yǔ)言寫(xiě)了同一個(gè)內(nèi)容的石碑，幫助語(yǔ)言學(xué)家們讀懂古文字。）

烏加里特文（Ugaritic），是一種楔形文字，屬于閃米特語(yǔ)族。從字面上來(lái)看，就知道它是一個(gè)叫做烏加里特（Ugarit）的文明使用的語(yǔ)言，這個(gè)文明位于當(dāng)今地中海沿岸的敘利亞，在公元前6000年前后就初現(xiàn)蹤跡，在公元前1190年前后滅亡。

線(xiàn)性文字B（Linear B），由一種人類(lèi)還沒(méi)有破譯出來(lái)的線(xiàn)性文字A演化而來(lái)，主要存活于公元前1500年到公元前1200年的克里特島和希臘南部，是希臘語(yǔ)的一種古代書(shū)寫(xiě)形式。

未來(lái)，在這項(xiàng)研究起作用的情況下，或許可以像借助羅曼語(yǔ)族三種語(yǔ)言的數(shù)據(jù)庫(kù)一樣，直接用機(jī)器借助其他已知的人類(lèi)語(yǔ)言，實(shí)現(xiàn)暴力破解。

印度區(qū)塊鏈應(yīng)用程序Smashboard

Smashboard網(wǎng)站稱(chēng)自己是一個(gè)“另類(lèi)的社交媒體網(wǎng)絡(luò)，為性侵受害者提供獨(dú)特的功能，目的是通過(guò)減少報(bào)案帶來(lái)的心理創(chuàng)傷，讓他們的生活更輕松”。

借助區(qū)塊鏈技術(shù)，Smashboard允許用戶(hù)創(chuàng)建他們所遭受犯罪的私人和加密賬本，并將其安全地存儲(chǔ)在網(wǎng)上。例如，Smashboard為用戶(hù)提供了收集材料的選項(xiàng)，“這些材料可作為日記，也可作為加密個(gè)人空間中的時(shí)間戳證據(jù)”。更重要的是，該應(yīng)用程序允許性虐待受害者找到法律顧問(wèn)或律師，并與他們私下互動(dòng)。受害者還可以與女權(quán)主義新聞工作者建立聯(lián)系，甚至可以給他們匿名舉報(bào)。

目前，Smashboard的另一個(gè)障礙是應(yīng)用的覆蓋范圍。該應(yīng)用程序目前只能使用三種語(yǔ)言-英語(yǔ)，法語(yǔ)和西班牙語(yǔ)。這意味著該應(yīng)用無(wú)法覆蓋使用印度當(dāng)?shù)卣Z(yǔ)言的性虐待受害者。

澳大利亞人工智能“蠕蟲(chóng)大腦驅(qū)動(dòng)器”

研究人員從蠕蟲(chóng)微小的大腦中獲得靈感，開(kāi)發(fā)出一種能夠控制自動(dòng)駕駛汽車(chē) 的人工智能系統(tǒng)“蠕蟲(chóng)大腦驅(qū)動(dòng)器”。與大多數(shù)網(wǎng)絡(luò)中使用數(shù)百萬(wàn)個(gè)神經(jīng)元相比，該系統(tǒng)只需要幾個(gè)神經(jīng)元。

該系統(tǒng)只用了控制電路中的19個(gè)神經(jīng)元和7.5萬(wàn)個(gè)參數(shù)，就成功控制了一輛汽車(chē) 。研究小組相信他們的新方法可減少訓(xùn)練時(shí)間，并使人工智能在相對(duì)簡(jiǎn)單的系統(tǒng)中實(shí)現(xiàn)成為可能。

四、gpt3.5-turbo什么區(qū)別

GPT-3.5 Turbo是GPT-3的一個(gè)升級(jí)版本，也是一個(gè)自然語(yǔ)言處理模型。它引入了額外的超參數(shù)、更多的預(yù)訓(xùn)練數(shù)據(jù)，以及更復(fù)雜的模型結(jié)構(gòu)，使得它可以在更多的任務(wù)上取得更好的表現(xiàn)。GPT-3.5 Turbo將原來(lái)的13.5B參數(shù)增加到了32B，這意味著它可以處理更多的上下文信息和更復(fù)雜的語(yǔ)言規(guī)則，同時(shí)還可以在更高層次上理解語(yǔ)義。與GPT-3相比，GPT-3.5 Turbo在語(yǔ)言生成、對(duì)話(huà)、翻譯和搜索等任務(wù)上表現(xiàn)更佳?？偟膩?lái)說(shuō)，GPT-3.5 Turbo是一種更強(qiáng)大、更智能的AI對(duì)話(huà)系統(tǒng)。

以上就是關(guān)于gpt3參數(shù)量相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún)，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。