正文

transformer模型心超

發(fā)布時(shí)間：2023-05-22 08:42:43 稿源：創(chuàng)意嶺閱讀： 82

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于transformer模型心超的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來(lái)看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器

問友Ai官網(wǎng)：https://ai.de1919.com。

本文目錄:

什么數(shù)學(xué)模型或者公式支持了Transformer模型的訓(xùn)練目標(biāo)？

transformer模型心超

什么數(shù)學(xué)模型或者公式支持了Transformer模型的訓(xùn)練目標(biāo)？

Transformer的架構(gòu)、訓(xùn)練及推理等都是在Bayesian神經(jīng)網(wǎng)絡(luò)不確定性數(shù)學(xué)思維下來(lái)完成的。Encoder-Decoder架構(gòu)、Multi-head注意力機(jī)制、Dropout和殘差網(wǎng)絡(luò)等都是Bayesian神經(jīng)網(wǎng)絡(luò)的具體實(shí)現(xiàn)；基于Transformer各種模型變種及實(shí)踐也都是基于Bayesian思想指導(dǎo)下來(lái)應(yīng)對(duì)數(shù)據(jù)的不確定性；混合使用各種類型的Embeddings來(lái)提供更好Prior信息其實(shí)是應(yīng)用Bayesian思想來(lái)集成處理信息表達(dá)的不確定性、各種現(xiàn)代NLP比賽中高分的作品也大多是通過集成RoBERTa、GPT、ELECTRA、XLNET等Transformer模型等來(lái)盡力從最大程度來(lái)對(duì)抗模型信息表示和推理的不確定性。
從數(shù)學(xué)原理的角度來(lái)說，傳統(tǒng)Machine Learning及Deep learning算法訓(xùn)練的目標(biāo)函數(shù)一般是基于Naive Bayes數(shù)學(xué)原理下的最大似然估計(jì)MLE和最大后驗(yàn)概率MAP來(lái)實(shí)現(xiàn)，其核心是尋找出最佳的模型參數(shù)；而Bayesian的核心是通過計(jì)算后驗(yàn)概率Posterior的predictive distribution，其通過提供模型的不確定來(lái)更好的表達(dá)信息及應(yīng)對(duì)不確定性。對(duì)于Bayesian架構(gòu)而言，多視角的先驗(yàn)概率Prior知識(shí)是基礎(chǔ)，在只有小數(shù)據(jù)甚至沒有數(shù)據(jù)的時(shí)候是主要依賴模型Prior概率分布(例如經(jīng)典的高斯分布)來(lái)進(jìn)行模型推理，隨著數(shù)據(jù)的增加，多個(gè)模型會(huì)不斷更新每個(gè)模型的參數(shù)來(lái)更加趨近真實(shí)數(shù)據(jù)的模型概率分布；與此同時(shí)，由于（理論上）集成所有的模型參數(shù)來(lái)進(jìn)行Inference，所以Bayesian神經(jīng)網(wǎng)絡(luò)能夠基于概率對(duì)結(jié)果的提供基于置信度Confidence的分布區(qū)間，從而在各種推理任務(wù)中更好的掌握數(shù)據(jù)的不確定性。

transformer模型心超