-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專(zhuān)題列表 > 正文
gpt3用了多少樣本訓(xùn)練(gpt3訓(xùn)練成本)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt3用了多少樣本訓(xùn)練的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
ChatGPT國(guó)內(nèi)免費(fèi)在線(xiàn)使用,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、chatgpt的gpt全文是怎樣的。
ChatGPT是一款大型預(yù)訓(xùn)練語(yǔ)言模型,它基于GPT(Generative Pre-trained Transformer)算法進(jìn)行訓(xùn)練。GPT是一種基于自注意力機(jī)制(Self-Attention)的序列生成模型,它可以學(xué)習(xí)輸入序列中不同位置之間的依賴(lài)關(guān)系,進(jìn)而生成具有語(yǔ)言邏輯性的連續(xù)文本。
ChatGPT模型的訓(xùn)練數(shù)據(jù)來(lái)源于大量的公共語(yǔ)料庫(kù),如維基百科、新聞報(bào)道、社交媒體等,并通過(guò)多層的Transformer模型進(jìn)行預(yù)訓(xùn)練。在預(yù)訓(xùn)練階段,模型通過(guò)學(xué)習(xí)上下文之間的關(guān)系,學(xué)會(huì)了語(yǔ)言的基本語(yǔ)法、語(yǔ)義和知識(shí),從而可以生成連貫、合理、自然的文本。
ChatGPT模型是一種無(wú)監(jiān)督學(xué)習(xí)的模型,不需要對(duì)輸入數(shù)據(jù)進(jìn)行人工標(biāo)注和指導(dǎo),也不需要針對(duì)特定任務(wù)進(jìn)行有監(jiān)督學(xué)習(xí)。這種無(wú)監(jiān)督學(xué)習(xí)的特點(diǎn),使得ChatGPT模型可以應(yīng)用于各種自然語(yǔ)言處理任務(wù),如對(duì)話(huà)系統(tǒng)、文本生成、語(yǔ)言翻譯等,并且具有很高的靈活性和擴(kuò)展性。
總之,ChatGPT的GPT全文是一種基于自注意力機(jī)制的預(yù)訓(xùn)練語(yǔ)言模型,它通過(guò)學(xué)習(xí)大量的公共語(yǔ)料庫(kù),可以生成具有語(yǔ)言邏輯性和語(yǔ)義的自然文本。
二、gpt盒子干嘛用的
GPT盒子是一種基于GPT模型的應(yīng)用程序,它可以用于生成自然語(yǔ)言文本。具體來(lái)說(shuō),GPT盒子可以用于文本生成、自動(dòng)對(duì)話(huà)、文本分類(lèi)、語(yǔ)言翻譯、情感分析等多種自然語(yǔ)言處理任務(wù)。
例如,在文本生成任務(wù)中,用戶(hù)可以輸入一些關(guān)鍵詞或句子,GPT盒子會(huì)自動(dòng)生成一篇與這些關(guān)鍵詞或句子相關(guān)的文章或段落。在自動(dòng)對(duì)話(huà)任務(wù)中,用戶(hù)可以和GPT盒子進(jìn)行對(duì)話(huà),GPT盒子會(huì)根據(jù)用戶(hù)的問(wèn)題和回答生成相應(yīng)的對(duì)話(huà)內(nèi)容。
三、跑gpt3的條件
1、必須禁止定制自己的開(kāi)放式聊天機(jī)器人功能。
2、需設(shè)置內(nèi)容過(guò)濾器以避免用戶(hù)與Samantha談?wù)撁舾性?huà)題。
3、必須部署自動(dòng)化監(jiān)控工具監(jiān)視用戶(hù)的對(duì)話(huà),檢測(cè)是否濫用GPT3生成的有害或敏感語(yǔ)句。
四、超越CNN的ViT模型及其應(yīng)用前景
©作者 | 蘇菲
Transformer 模型在 NLP 領(lǐng)域獲得了巨大的成功,以此為內(nèi)核的超大規(guī)模預(yù)訓(xùn)練模型BERT、GPT-3 在 NLP 各個(gè)任務(wù)中都大放異彩,令人矚目。
計(jì)算機(jī)視覺(jué)分析任務(wù)也借鑒了Transformer 模型的思想和方法,Meta公司的DETR模型中就使用 Transformer 和端到端方法實(shí)現(xiàn)了 CV 領(lǐng)域的目標(biāo)檢測(cè)任務(wù),之后 Google 公司又推出了用純粹的 Transformer 去完成計(jì)算機(jī)視覺(jué)任務(wù)的 ViT 模型。
本文首先 比較 ViT 模型與傳統(tǒng)計(jì)算機(jī)視覺(jué)模型 CNN 的不同 ,詳細(xì)指出 ViT 模型的優(yōu)點(diǎn)和好處,介紹了 ViT 模型的各種變體、擴(kuò)展和應(yīng)用前景。
ViT 就是“Vi”加上“T”,其中“Vi”是計(jì)算機(jī)視覺(jué) Vision,而“T”就是 Transformer 模型。
ViT模型由 Goolge 團(tuán)隊(duì)在 ICLR2021 論文“An Image is Worth 16x16 Words:Transformers for ImageRecognition at Scale”( https://arxiv.org/abs/2010.11929 )提出,其目標(biāo)是本著盡可能少修改的原則,將 Transformer 模型直接遷移到計(jì)算機(jī)視覺(jué)分類(lèi)任務(wù)上。
論文認(rèn)為沒(méi)有必要依賴(lài)于傳統(tǒng)的 CNN,直接用 Transformer 也能在分類(lèi)任務(wù)中獲得好的結(jié)果,尤其是在使用大規(guī)模訓(xùn)練集的條件下。
并且,在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練好的模型,遷移到中等數(shù)據(jù)集或小數(shù)據(jù)集任務(wù)時(shí),也能取得比 CNN 更優(yōu)的性能。
那么,ViT 模型與 CNN 相比,到底好在什么地方呢?具體來(lái)說(shuō),有以下六個(gè)方面的不同:
(1)從淺層和深層中獲得的特征之間,ViT 有更多的相似性;
(2)ViT 表示從淺層獲得全局特征;
(3)ViT 中的跳躍連接影響比 CNNs(ResNet)大,且大大地影響特征的表現(xiàn)和相似性;
(4)ViT 保留了比 ResNet 更多的空間信息;
(5)通過(guò)大量的數(shù)據(jù),ViT 能學(xué)到高質(zhì)量的中間特征;
(6)與 ResNet 相比,ViT 的表示是更接近于 MLP-Mixer。
如圖1所示,圖中顯示了 ViT 模型的確切視窗,即自注意力機(jī)制(多頭)的有效距離。
在淺層中,有一些帶有局部視窗的頭注意部分與 CNN 是相似的,但在深層的頭注意部分則更多地使用了全局視窗。
與 ResNet 相比,ViT 與 ResNet 之間的一個(gè)不同就是初始層的更大視野。CNN 或者ResNet 僅有一個(gè)固定大小的核心卷積窗寬度(大小為 3 或者 7)。
CNNs 通過(guò)一層一層卷積,逐漸擴(kuò)大卷積視窗的信息;而 ViT 模型即使在最低層,也可以通過(guò)自注意力機(jī)制允許模型有更大的視窗。
因此,圖像可視化窗口的不同或大小是依賴(lài)于網(wǎng)絡(luò)結(jié)構(gòu)模型的 ,即在 CNNs 模型中視窗信息是逐漸變大的,而 ViT 模型結(jié)構(gòu)中即使低層也能有很大的視野。
圖2給出了 ViT 模型的自注意力機(jī)制有效距離(即來(lái)自 5000 個(gè)數(shù)據(jù)樣本的自注意機(jī)制的平均距離)。
ViT 模型使用谷歌自己的超大規(guī)模數(shù)據(jù)集 JFT-300M(約 3 億數(shù)據(jù)圖片) 進(jìn)行了預(yù)訓(xùn)練,ViT-L/16 為大模型(3.07 億參數(shù)),ViT-H/14 為巨大模型(6.32 億參數(shù)), 然后用 ImageNet (約 1300 萬(wàn)圖片) 進(jìn)行了微調(diào)(fine-tuning)。
從圖中可以看到,在淺層(編碼為block0、block1)中,模型逐漸獲得了局部和全局的特征。 然而,在深層(編碼為 block22、block23、block30、block31)中,從一開(kāi)始模型就是獲得了全局視野的特征。
但是,由于訓(xùn)練ViT模型需要超大規(guī)模的數(shù)據(jù)(約3億張圖片),如果數(shù)據(jù)訓(xùn)練量小,那么精確度就會(huì)下降。
圖3顯示了這種數(shù)量訓(xùn)練量小的對(duì)比結(jié)果,可以看到對(duì)于更少的訓(xùn)練數(shù)據(jù),模型中更低的自注意力機(jī)制層確實(shí)沒(méi)有在局部進(jìn)行學(xué)習(xí)關(guān)注。
也就是說(shuō), 僅僅在 ImageNet 數(shù)據(jù)集上進(jìn)行訓(xùn)練,會(huì)導(dǎo)致低層的自注意力機(jī)制也不學(xué)習(xí)局部信息,從而導(dǎo)致了模型精度的下降。
如果網(wǎng)絡(luò)中一個(gè)層的跳躍連接(skipconnection)被刪除,那么這個(gè)層所獲得的特征表示與原來(lái)所獲得的相比會(huì)有很大的不同。
換句話(huà)說(shuō),跳躍連接對(duì)特征表示的傳播有著巨大的影響,如果被刪除的話(huà)將會(huì)大大改變這個(gè)層的特征表示學(xué)習(xí)能力。
在某些情況下,如果中間層的跳躍連接被刪除,那么模型的準(zhǔn)確率大約會(huì)下降 4%。
雖然論文中沒(méi)有特別提及這一點(diǎn),但是跳躍連接在特征信息傳播中起到了主要作用這一事實(shí),可能導(dǎo)致當(dāng)中間層中的跳躍連接被刪除時(shí),精度顯著會(huì)下降。
因此, 在ViT模型中,跳躍連接對(duì)模型的影響比 CNNs(ResNet)更大,而且大大地影響表示(特征)的獲得與傳播。
有些論文測(cè)試了 ViT 和 ResNet 所保留的位置信息。通過(guò)對(duì)比輸入圖像某個(gè)位置塊和最終層特征圖的 CKA 相似程度,可以知道圖像被保留的位置信息。
如果模型保留了位置的信息,那么在某個(gè)位置的輸入圖像塊與相應(yīng)位置的特征圖的相似度應(yīng)當(dāng)最高。
實(shí)驗(yàn)表明,在 ViT 模型中輸入圖像與最后一層的特征圖在相應(yīng)位置的相似性非常高。這表明 ViT 在特征信息傳播的同時(shí)還保留了位置信息。
而在 ResNet 模型中,不相關(guān)位置的特征圖相似性更高,這表明 ResNet 模型沒(méi)有很好地保留位置信息。這種位置信息上的差異可能源于模型內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)的不同。
在如圖4所示的實(shí)驗(yàn)中,作者使用一個(gè)簡(jiǎn)單線(xiàn)性模型來(lái)區(qū)分中間層特征表示學(xué)習(xí)的質(zhì)量: 如果一個(gè)簡(jiǎn)單模型(例如線(xiàn)性模型)在中間層表示中能獲得更高的準(zhǔn)確率,那么這個(gè)中間層就能獲得更好的學(xué)習(xí)特征。
在圖4左邊的實(shí)驗(yàn)結(jié)果圖中,在 ImageNet 數(shù)據(jù)集上用一個(gè)簡(jiǎn)單的線(xiàn)性模型進(jìn)行測(cè)試,虛線(xiàn)是在ImageNet 數(shù)據(jù)(包含了130萬(wàn)張圖片)中進(jìn)行預(yù)訓(xùn)練后的模型的實(shí)驗(yàn)結(jié)果,實(shí)線(xiàn)是在JFT-300M(3億張圖片)中進(jìn)行預(yù)訓(xùn)練后的模型的實(shí)驗(yàn)結(jié)果。
從實(shí)驗(yàn)結(jié)果圖中可以看到, 在超大規(guī)模數(shù)據(jù)集 JFT-300M 上的模型準(zhǔn)確率要高于在小數(shù)據(jù)集上的準(zhǔn)確率。
在圖4右邊的實(shí)驗(yàn)結(jié)果圖中,是 ViT 模型(實(shí)線(xiàn))和 ResNet 模型(虛線(xiàn))在相同數(shù)據(jù)集(JFT-300M)進(jìn)行預(yù)訓(xùn)練后的比較,也使用了一個(gè)簡(jiǎn)單線(xiàn)性模型在 ImageNet 數(shù)據(jù)集中進(jìn)行測(cè)試。
同樣, ViT模型獲得了比 ResNet 模型更好的中間層的特征學(xué)習(xí)結(jié)果。
最近,與使用 Transformer 不同,一些準(zhǔn)確率高的圖像識(shí)別模型使用了多層感知機(jī)(MLP),例如由Tolstikhin 等人 2021年提出的多層感知機(jī)混合模型(MLP-Mixer),它使用第一個(gè)感知機(jī)MLP1混合了圖像塊之間的信息,又使用第二個(gè)感知機(jī)MLP2混合了圖像塊之間的信息,然后通過(guò)這些信息塊的疊加來(lái)組合這兩種信息。
這種多層感知機(jī)混合模型 MLP-Mixer 可以達(dá)到像 ViT 模型一樣或者更高的準(zhǔn)確率。
MLP-Mixer 把圖像分割成不同塊的方式與 ViT 模型非常相似,因此它在結(jié)構(gòu)上比 ResNet 更接近于 ViT 模型。
或許正是這種結(jié)構(gòu)上的原因?qū)е铝瞬煌P驮谟?jì)算機(jī)視覺(jué)任務(wù)上結(jié)果的相似與不同。
ViT模型是在計(jì)算機(jī)視覺(jué)任務(wù)中應(yīng)用Transformer模型的一個(gè)結(jié)果,2020年10月由Dosovitskiy等人提出并應(yīng)用于圖像分類(lèi)任務(wù)。
其模型架構(gòu)幾乎與自然語(yǔ)言處理機(jī)器翻譯任務(wù)中的原始 Transformer 模型一模一樣, 它所做的拓展是允許圖像作為 Transformer 的輸入,把圖像分成一個(gè)個(gè)塊(patch),然后通過(guò)位置編號(hào)按順序存儲(chǔ)起來(lái),可以把一個(gè) patch 看成 是自然語(yǔ)言中的一個(gè)詞語(yǔ), 因此與自然語(yǔ)言處理的 Transformer 模型有異曲同工之妙。
在 ViT 之后,一些可能的研究方向或者模型也被眾多公司或?qū)W者推進(jìn)或者擴(kuò)展,在計(jì)算機(jī)視覺(jué)的物體檢測(cè)、語(yǔ)義分割等其他應(yīng)用上大放異彩。例如:
(1)DeiT: 在合理的規(guī)模內(nèi)訓(xùn)練 ViT 模型,使用知識(shí)蒸餾、自蒸餾等硬標(biāo)簽蒸餾方式,可以在100萬(wàn)張ImageNet圖片規(guī)模的數(shù)據(jù)上訓(xùn)練 ViT 蒸餾模型。
(2)PyramidVision Transformer: 通過(guò)可變的空間縮減注意力機(jī)制實(shí)現(xiàn)了一種可變的自注意力機(jī)制,并應(yīng)用于 ViT 模型以克服注意力機(jī)制中的平方復(fù)雜度。
(3 )Swin Transformer: 使用了滑動(dòng)窗口的層次化的視覺(jué) Transformer 模型,基于 Transformer 的位置或窗口注意機(jī)制對(duì)不重疊的窗口應(yīng)用局部自注意力機(jī)制,從而在下一層級(jí)中形成了層次化的特征表示并最終進(jìn)行融合。
(4)DINO: Meta 公司的 AI 團(tuán)隊(duì)提出的基于視覺(jué) Transformer 的自監(jiān)督訓(xùn)練框架,可以在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,甚至不需要一個(gè)微調(diào)的線(xiàn)性層也可以獲得魯棒性的特征表示。
(5)Scaling ViT: 更大規(guī)模的 ViT 模型,谷歌大腦團(tuán)隊(duì)對(duì) ViT 模型進(jìn)行了規(guī)模上的擴(kuò)展,使用了 20 億參數(shù)模型的 ViT 模型在 ImageNet 的識(shí)別結(jié)果排名上獲得了第一名。
(6)SegFormer: 計(jì)算機(jī)視覺(jué)任務(wù)的語(yǔ)義分割中應(yīng)用了 ViT 模型,由英偉達(dá)公司提出的關(guān)注系統(tǒng)的組件化,且不需要位置編碼,而是采用了一個(gè)簡(jiǎn)單的 MLP 解碼模型。
(7)Unet + ViT = UNETR : Vision Transformers 在醫(yī)學(xué)上的應(yīng)用,ViT 模型被用于三維醫(yī)學(xué)圖像的語(yǔ)義分割任務(wù)。與 Unet 模型類(lèi)似,致力于有效地捕捉全局的多尺度信息,并能夠使用長(zhǎng)跳躍連接傳遞到解碼器中。
自從 ViT 誕生以來(lái),許多新的模型和應(yīng)用被挖掘出來(lái),推動(dòng)計(jì)算機(jī)影像識(shí)別到達(dá)了一個(gè)新的水平,在許多方向和任務(wù)上可以應(yīng)用 ViT 模型上并改進(jìn)。
例如尋找新的自注意力模塊的 XCIT 、尋找新的來(lái)自于 NLP 的新模塊組合的 PVT 和 SWIN、尋找深度無(wú)監(jiān)督或自監(jiān)督學(xué)習(xí)的 DINO、在新領(lǐng)域或新任務(wù)中應(yīng)用適應(yīng)性的 ViT 的 SegFormer 和 UNETR 等等。
總之, ViT 模型在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用前景上,大有可為。
私信我領(lǐng)取 目標(biāo)檢測(cè)與R-CNN/數(shù)據(jù)分析的應(yīng)用/電商數(shù)據(jù)分析/數(shù)據(jù)分析在醫(yī)療領(lǐng)域的應(yīng)用/NLP學(xué)員項(xiàng)目展示/中文NLP的介紹與實(shí)際應(yīng)用/NLP系列直播課/NLP前沿模型訓(xùn)練營(yíng)等 干貨學(xué)習(xí)資源。
以上就是關(guān)于gpt3用了多少樣本訓(xùn)練相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún),客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
發(fā)廣告平臺(tái)有哪些(廣告平臺(tái)有哪些)