-
當前位置:首頁 > 創(chuàng)意學院 > 技術(shù) > 專題列表 > 正文
gpt3參數(shù)量(gpt3參數(shù)量怎么算的)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt3參數(shù)量的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內(nèi)免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、Prompt-NLP新范式
NLP技術(shù)發(fā)展的四種范式:
Prompt的起源可以追溯到GPT-2,T5,GPT-3等的一些研究,發(fā)現(xiàn)在輸入樣本前加入一個和任務相關(guān)的 前綴 ,就可以提示模型接下來要輸出的內(nèi)容。比如在GPT-3的預測階段,只需要在輸入樣本前加上Translate English to French: 就可以提示模型接下來要進行翻譯任務,即完全依靠模型在預訓練階段學到的知識來進行預測,不需要在下游任務上再依靠task-specific的 監(jiān)督數(shù)據(jù) 對模型進行fine-tune就可直接使用,一方面減少了fine-tune模型的計算和存儲代價,另一方面也給樣本量極度缺乏的 少樣本領(lǐng)域(zero/few-shot) 帶來了福音。
這種依靠 提示信息(Prompt) 來激發(fā)模型的內(nèi)在潛能,挖掘模型在大規(guī)模預訓練階段學到的知識的做法引領(lǐng)了NLP領(lǐng)域的第四范式。人們逐漸開始思考如何更加 高效地利用 預訓練語言模型的大量參數(shù),如何將各種下游任務都統(tǒng)一到一個 通用框架 下,使得模型能夠根據(jù)不同的提示信息進行不同的任務,從而不需要再為每個下游任務訓練單獨的模型。
本文將對Prompt快速發(fā)展過程中一些重要論文的核心創(chuàng)新點進行簡要介紹,而不會詳細描述過多模型細節(jié)(欲知全貌建議直接讀原論文)。
論文:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)
該論文對Prompt模式的研究進行了規(guī)范,提出了 Pattern-Verbalizer 的概念:
比如對于5分類任務,給定輸入樣本 a ,對應的模板函數(shù) P 和標簽映射函數(shù) v 可為:
注意這里多種Prompt模板函數(shù)以及答案映射函數(shù)都是 人工手動設計 的。
然后利用新構(gòu)建出來的 P(x),v(l) 對預訓練模型進行fine-tune,其他更多細節(jié)不再展開,實驗結(jié)果顯示該方法在少樣本任務上表現(xiàn)很好。
論文:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners ( PET原班人馬 )
GPT-3出來后顯示了其在少樣本學習上的驚人能力,但是其龐大的參數(shù)量也令人望而卻步。而本文作者提出 “小模型在少樣本學習上也可以有卓越表現(xiàn)” ,直接對標GPT-3這個龐然大物,從而奠定了 PET所提范式 在江湖的霸主地位,引起了各大武林人士的關(guān)注。
該文證明了PET所提范式的有效性,同時作者還分析發(fā)現(xiàn)設計不同的 Prompt 模板和標簽映射函數(shù) Verbalizer 對模型性能影響較大,從而引起后來人員涌入改進Prompt模板和標簽映射Verbalizer構(gòu)造的浪潮中。
論文:Making Pre-trained Language Models Better Few-shot Learners
取代PET中手動構(gòu)建Prompt模板和標簽映射函數(shù)的過程,自動化搜索模板和標簽映射,同時參考GPT-3中的in-context learning,在輸入樣本中加入示例(demonstrations)作為上下文,幫助模型更好地理解要做什么。
實驗表明,在少樣本上,這種基于prompt的fine-tune效果能夠明顯好于標準的fine-tune,并且在樣本中加入示例確實能夠帶來增益。
也許未必非要構(gòu)建人能理解的 離散tokens式 的Prompt,構(gòu)建模型能夠接受的 連續(xù)向量式 的Prompt也未嘗不可。
4.1 論文: Prefix-Tuning : Optimizing Continuous Prompts for Generation
該文針對 NLG(Natural Language Generation) 任務,提出了構(gòu)建連續(xù)的prompts。在預訓練模型的每一層加上一個Prefix前綴矩陣,固定預訓練模型的參數(shù),僅訓練前綴矩陣的參數(shù),在few-shot設定下,性能超過標準的fine-tune。
實驗結(jié)果表明,在 全量 數(shù)據(jù)下,prompt-based fine-tune的效果能夠 相當 standard fine-tune;在 少樣本 下,能夠 超過 standard fine-tune。
4.2 論文:GPT Understands, Too ( P-tuning )
該文針對 NLU(Natural Language Understanding) 任務,也提出了構(gòu)建連續(xù)的prompts。與 Prefix-tuning 不同的是,這里的prompts僅需要加在輸入層,而不用加在網(wǎng)絡的每一層,就可以work well。
利用 biLSTM 對prompts進行 Encode ,然后將編碼后的 prompts embedding 和樣本 x 輸入預訓練語言模型(PLM),之后同時fine-tune prompt embeddings 和 pretrained model 。
考慮到優(yōu)化連續(xù)的prompt向量有兩個問題:
因此作者提出先采用 biLSTM 作為 Prompt Encoder 來編碼prompt向量。
具體Prompt模板設計為:
實驗結(jié)果表明,在 全量 數(shù)據(jù)下,prompt-based fine-tune的效果能夠 相當 或超過standard fine-tune。
論文:The Power of Scale for Parameter-Efficient Prompt Tuning
該文提出為每個下游任務設計自己的prompt,拼接到輸入樣本上,然后完全freeze預訓練模型的權(quán)重,僅訓練prompts對應的權(quán)重參數(shù)。發(fā)現(xiàn)隨著模型體積的增大, Prompt-tuning 的效果逐漸追上標準 fine-tune 的效果。
這里 Model Tuning 就是指標準的 fine-tune ,即在下游任務上對預訓練模型的參數(shù)進行更新。
最后對各論文實驗結(jié)果的普遍規(guī)律進行一個總結(jié)。各論文采用的fine-tune策略主要有以下三種:
二、三星gpt3100平板參數(shù)
若您想要了解三星P3100平板電腦的配置參數(shù),請參考以下介紹:
1.CPU(處理器):1GHz 雙核。
2.內(nèi)存:總RAM約1G;外置存儲卡:最大支持32GB micro SD卡。
3.攝像頭:采用300萬像素的后置攝像頭,30萬像素前置攝像頭;支持4倍變焦。
4.軟件格式:APK。
5.藍牙版本:藍牙3.0。
三、全球十大數(shù)字創(chuàng)新技術(shù)出爐
點擊藍字
科技 創(chuàng)新世界潮。
全文共計2520字,預計閱讀時間7分鐘
來源 | 數(shù)據(jù)觀綜合(轉(zhuǎn)載請注明來源)
編輯 | 蒲蒲
“
日前,聯(lián)合國教科文組織2021年 Netexplo 創(chuàng)新論壇在網(wǎng)上舉行。由技術(shù)領(lǐng)域全球知名大學組成的 Netexplo 大學網(wǎng)絡歷時一年,在全球范圍內(nèi)遴選出了10項極具突破性的數(shù)字創(chuàng)新技術(shù),這些創(chuàng)新對 社會 具有深遠而持久的影響。
”
阿根廷交易平臺Abakus
受疫情影響,阿根廷經(jīng)濟遭受重創(chuàng),也使該國農(nóng)業(yè)部門的動蕩加劇。鑒于此,阿根廷初創(chuàng)企業(yè)Abakus與瑞士區(qū)塊鏈基礎(chǔ)設施提供商CoreLedger推出了一個數(shù)字易貨平臺,旨在幫助農(nóng)民克服金融波動帶來的影響,打造數(shù)字易貨經(jīng)濟。
Abakus系統(tǒng)基于一種以實物資產(chǎn)(例如大豆)為索引的加密貨幣,這種貨幣可能比本國不斷波動的貨幣更穩(wěn)定,而代幣可以兌換成貨物或比索。這兩家公司表示,代幣化農(nóng)業(yè)資產(chǎn)將有助于農(nóng)民對沖通貨膨脹,并在國內(nèi)和國際上獲得流動性。
CoreLedger首席執(zhí)行官Johannes Schweifer表示:“ 在一個飽受通貨膨脹困擾的國家,獲得有形資產(chǎn)的能力可能是這些農(nóng)民生存與發(fā)展之間的區(qū)別。 ”
Abakus首席執(zhí)行官Martin Furst表示:“ 由于國有公司的壟斷地位,阿根廷的農(nóng)民們難以生存,這些壟斷者決定了農(nóng)產(chǎn)品貿(mào)易的條件并大幅度削減了農(nóng)產(chǎn)品。農(nóng)業(yè)支持的代幣解決了現(xiàn)金和股票儲蓄計劃固有的波動性和流動性問題。 ”
英國人工智能AlphaFold 2
在國際象棋和圍棋領(lǐng)域取得巨大成功后,去年年底,人工智能再次大出風頭。在國際蛋白質(zhì)結(jié)構(gòu)預測賽中,AlphaFold 2摘得桂冠,并破解了一個困擾人類50年的難題:預測蛋白質(zhì)如何折疊。
據(jù)DeepMind官方宣布,該算法能夠精確地基于氨基酸序列,預測蛋白質(zhì)的3D結(jié)構(gòu),其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學等實驗技術(shù)解析的3D結(jié)構(gòu)相媲美。
在過去50年中,“蛋白質(zhì)折疊問題”一直是生物學界的重大挑戰(zhàn)。此前,生物學家主要利用X射線晶體學或冷凍電鏡等實驗技術(shù)來破譯蛋白質(zhì)的三維結(jié)構(gòu),但這類方法耗時長、成本高。而AlphaFold 2不僅預測準確且效率高,有望促進醫(yī)學領(lǐng)域不斷取得進步。
美國圖像生成系統(tǒng)Dall-E
美國人工智能非營利組織Open AI于今年1月份推出Dall—E,這是一個可以根據(jù)書面文字生成圖像的人工智能系統(tǒng)。取名DALL-E,是為了向藝術(shù)家薩爾瓦多-達利(Salvador Dali )和皮克斯的機器人WALL-E致敬。
DALL-E是OpenAI基于GPT-3開發(fā)的一種新型神經(jīng)網(wǎng)絡。它是GPT-3的一個小版本,使用了120億個參數(shù),而不是1750億個參數(shù)。但它已經(jīng)經(jīng)過專門訓練,可以從文本描述生成圖像,使用的是文本-圖像對的數(shù)據(jù)集,而不是像GPT-3這樣非常廣泛的數(shù)據(jù)集。它可以使用自然語言從文字說明中創(chuàng)建圖像,就像GPT-3創(chuàng)建網(wǎng)站和故事一樣。
德國文本AI模型GPT-Neo
OpenAI的GPT—3被認為是目前最好的人工智能文本生成器,其擁有1750億個參數(shù),現(xiàn)已被數(shù)萬開發(fā)者用于300多個不同的應用程序,每天輸出45億詞之多。
但它是收費的,這阻礙了更多開發(fā)人員的采用,也不利于文本AI的快速發(fā)展。有鑒于此,德國Eleuther人工智能公司于今年3月下旬推出開源的文本AI模型GPT—Neo,以彌補這方面的缺憾。研究人員稱,GPT—Neo的推出將會催生出一大批嶄新應用,也會以更為低廉的成本釋放人們對人工智能未來的想象力。
本質(zhì)上,GPT-Neo有點像是GPT系列的“高仿”項目:GPT-Neo中的各種模型,設計原理接近GPT系列,但代碼并不一樣。作者們打算嘗試各種結(jié)構(gòu)和注意力類型,最終擴展出GPT-3大小的大語言模型。為了實現(xiàn)這一目標,他們從復現(xiàn)GPT系列的模型開始,不斷嘗試各種模型架構(gòu)、和各種注意力機制的實現(xiàn)方式。
中國量子計算機“九章”
“九章”是由中國科學技術(shù)大學潘建偉、陸朝陽等學者研制的76個光子的量子計算原型機。
實驗顯示,當求解5000萬個樣本的高斯玻色取樣時,“九章”需200秒,而目前世界最快的超級計算機“富岳”需6億年。等效來看,“九章”的計算速度比“懸鈴木”快100億倍,并彌補了“懸鈴木”依賴樣本數(shù)量的技術(shù)漏洞。
這一成果使得我國成功達到了量子計算研究的第一個里程碑:量子計算優(yōu)越性(國外也稱之為“量子霸權(quán)”),并牢固確立了我國在國際量子計算研究中的第一方陣地位,為未來實現(xiàn)可解決具有重大實用價值問題的規(guī)?;孔幽M機奠定了技術(shù)基礎(chǔ)。
對于“九章”的突破,《科學》雜志審稿人評價該工作是“一個最先進的實驗”(astate-of-the-artexperiment),“一個重大成就”(a major achievement)。
美國人工智能“神經(jīng)破譯”
“神經(jīng)破譯”是由MIT CSAIL和谷歌大腦的研究者攜手開發(fā)的一款人工智能軟件,基于語言進化原理,可以在不知道語言來源的情況下破譯古代語言,并揭示某種語言和其他語言之間的關(guān)聯(lián)。
研究者們利用同一語族內(nèi)不同語言之間的聯(lián)系,用該人工智能破譯了兩種失傳的語言:烏加里特文和線性文字B,堪稱現(xiàn)代版的“羅塞塔石碑”?。≒S:羅塞塔石碑是一塊用3種語言寫了同一個內(nèi)容的石碑,幫助語言學家們讀懂古文字。)
烏加里特文(Ugaritic),是一種楔形文字,屬于閃米特語族。從字面上來看,就知道它是一個叫做烏加里特(Ugarit)的文明使用的語言,這個文明位于當今地中海沿岸的敘利亞,在公元前6000年前后就初現(xiàn)蹤跡,在公元前1190年前后滅亡。
線性文字B(Linear B),由一種人類還沒有破譯出來的線性文字A演化而來,主要存活于公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語的一種古代書寫形式。
未來,在這項研究起作用的情況下,或許可以像借助羅曼語族三種語言的數(shù)據(jù)庫一樣,直接用機器借助其他已知的人類語言,實現(xiàn)暴力破解。
印度區(qū)塊鏈應用程序Smashboard
Smashboard網(wǎng)站稱自己是一個“另類的社交媒體網(wǎng)絡,為性侵受害者提供獨特的功能,目的是通過減少報案帶來的心理創(chuàng)傷,讓他們的生活更輕松”。
借助區(qū)塊鏈技術(shù),Smashboard允許用戶創(chuàng)建他們所遭受犯罪的私人和加密賬本,并將其安全地存儲在網(wǎng)上。例如,Smashboard為用戶提供了收集材料的選項,“這些材料可作為日記,也可作為加密個人空間中的時間戳證據(jù)”。更重要的是,該應用程序允許性虐待受害者找到法律顧問或律師,并與他們私下互動。受害者還可以與女權(quán)主義新聞工作者建立聯(lián)系,甚至可以給他們匿名舉報。
目前,Smashboard的另一個障礙是應用的覆蓋范圍。該應用程序目前只能使用三種語言-英語,法語和西班牙語。這意味著該應用無法覆蓋使用印度當?shù)卣Z言的性虐待受害者。
澳大利亞人工智能“蠕蟲大腦驅(qū)動器”
研究人員從蠕蟲微小的大腦中獲得靈感,開發(fā)出一種能夠控制自動駕駛 汽車 的人工智能系統(tǒng)“蠕蟲大腦驅(qū)動器”。與大多數(shù)網(wǎng)絡中使用數(shù)百萬個神經(jīng)元相比,該系統(tǒng)只需要幾個神經(jīng)元。
該系統(tǒng)只用了控制電路中的19個神經(jīng)元和7.5萬個參數(shù),就成功控制了一輛 汽車 。研究小組相信他們的新方法可減少訓練時間,并使人工智能在相對簡單的系統(tǒng)中實現(xiàn)成為可能。
四、gpt3.5-turbo什么區(qū)別
GPT-3.5 Turbo是GPT-3的一個升級版本,也是一個自然語言處理模型。它引入了額外的超參數(shù)、更多的預訓練數(shù)據(jù),以及更復雜的模型結(jié)構(gòu),使得它可以在更多的任務上取得更好的表現(xiàn)。GPT-3.5 Turbo將原來的13.5B參數(shù)增加到了32B,這意味著它可以處理更多的上下文信息和更復雜的語言規(guī)則,同時還可以在更高層次上理解語義。與GPT-3相比,GPT-3.5 Turbo在語言生成、對話、翻譯和搜索等任務上表現(xiàn)更佳??偟膩碚f,GPT-3.5 Turbo是一種更強大、更智能的AI對話系統(tǒng)。
以上就是關(guān)于gpt3參數(shù)量相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
網(wǎng)絡營銷專業(yè)好就業(yè)嗎(網(wǎng)絡營銷專業(yè)好就業(yè)嗎男生)
中國市場營銷網(wǎng)網(wǎng)站(中國市場營銷網(wǎng)網(wǎng)站官網(wǎng))