正文

自然語言轉(zhuǎn)換關(guān)鍵詞（自然語言轉(zhuǎn)換關(guān)鍵詞是什么）

發(fā)布時(shí)間：2023-04-19 03:33:12 稿源：創(chuàng)意嶺閱讀： 99

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于自然語言轉(zhuǎn)換關(guān)鍵詞的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、如何確定論文關(guān)鍵詞
2、自然語言處理_一般處理流程
3、一文看懂自然語言處理NLP(4個(gè)應(yīng)用+5個(gè)難點(diǎn)+6個(gè)實(shí)現(xiàn)步驟)
4、自然語言處理基礎(chǔ)知識(shí)

自然語言轉(zhuǎn)換關(guān)鍵詞（自然語言轉(zhuǎn)換關(guān)鍵詞是什么）

一、如何確定論文關(guān)鍵詞

問題一：如何確定論文關(guān)鍵詞學(xué)科體系采用國家技術(shù)監(jiān)督局發(fā)布的《學(xué)科分類與代碼》(國標(biāo)GB/T13745-92)。第二個(gè)關(guān)鍵詞列出該文研究得到的成果名稱或文內(nèi)若干個(gè)成果的總類別名稱。第三個(gè)關(guān)鍵詞列出該文在得到上述成果或結(jié)論時(shí)采用的科學(xué)研究方法的具體名稱。對(duì)于綜述和評(píng)述性學(xué)術(shù)論文等，此位置分別寫綜述或評(píng)論等。對(duì)科學(xué)研究方法的研究論文，此處不寫被研究的方法名稱，而寫所應(yīng)用的方法名稱。前者出現(xiàn)于第二個(gè)關(guān)鍵詞的位置。第四個(gè)關(guān)鍵詞列出在前三個(gè)關(guān)鍵詞中沒有出現(xiàn)的，但被該文作為主要研究對(duì)象事或物質(zhì)的名稱，或者是題目中出現(xiàn)的作者認(rèn)為重要的名詞。

問題二：如何找出論文中的關(guān)鍵詞？關(guān)鍵詞是從論文的題名、提要和正文中選取出來的，是對(duì)表述論文

的中心內(nèi)容有實(shí)質(zhì)意義的詞匯。關(guān)鍵詞是用作計(jì)算機(jī)系統(tǒng)標(biāo)引論文內(nèi)容

特征的詞語，便于信息系統(tǒng)匯集，以供讀者檢索。每篇論文一般選取

3-8個(gè)詞匯作為關(guān)鍵詞，另起一行，排在“提要”的左下方。主題詞是經(jīng)過規(guī)范化的詞，在確定主題詞時(shí)，要對(duì)論文進(jìn)行主題分

析，依照標(biāo)引和組配規(guī)則轉(zhuǎn)換成主題詞表中的規(guī)范詞語。（參見《漢語

主題詞表》和《世界漢語主題詞表》）。

不論國內(nèi)還是國外的論文，關(guān)鍵字的選取都是遵循一定規(guī)范的，是為了滿足文獻(xiàn)標(biāo)引或檢索工作的需要而從論文中選取出的詞或詞組。關(guān)鍵詞包括主題詞和自由詞2個(gè)部分：主題詞是專門為文獻(xiàn)的標(biāo)引或檢索而從自然語言的主要詞匯中挑選出來并加以規(guī)范了的詞或詞組；自由詞則是未規(guī)范化的即還未收入主題詞表中的詞或詞組。

問題三：如何選擇學(xué)術(shù)論文的關(guān)鍵詞須知，讀者沒有時(shí)間和精力去看每一篇論文，往往是先通過摘要來了解文章的梗概，然后再有選擇地閱讀部分論文。文摘類期刊和圖書情報(bào)部門也是通過摘要和關(guān)鍵詞來決定是否摘錄和進(jìn)行檢索的。文摘類期刊的文摘員在撰寫摘要時(shí)，一般是參照文獻(xiàn)作者的摘要，稍加改動(dòng)就行了。如果作者的摘要寫得不規(guī)范或過于簡單，文摘員就要先看通看透文獻(xiàn)全文才能下筆寫，工作量較大。這時(shí)盡管你的論文水平高、有創(chuàng)新、有價(jià)值，他也可能放棄而去選取無須費(fèi)力就能得到的摘要，而你的論文就失去被摘錄的機(jī)會(huì)。

一、摘要的撰寫

摘要是以提供論文梗概為目的，簡明、確切地記述論文重要內(nèi)容的短文。雖然只有幾百字，卻擁有與論文同等量的信息。摘要的內(nèi)容應(yīng)重點(diǎn)包括4個(gè)要素:

1. 目的― 研究的目的和任務(wù)，所涉及的主題范圍。

2. 方法― 研究中使用的方法、理論、手段、條件、材料等。

3. 結(jié)果― 研究的結(jié)果，數(shù)據(jù)，被確定的關(guān)系，得到的效果、性能等。

4. 結(jié)論― 結(jié)果的分析、比較、評(píng)價(jià)、應(yīng)用，提出的問題，今后的課題，啟發(fā)，建議，預(yù)測等。

在必要的情況下，摘要可包括研究工作的主要對(duì)象和范圍，以及具有情報(bào)價(jià)值的其它重要的信息。

摘要要著重反映新內(nèi)容和作者特列強(qiáng)調(diào)的觀點(diǎn)，引言中已有的內(nèi)容不要再在摘要中重復(fù)，也不要對(duì)論文內(nèi)容作診釋和評(píng)論，不得簡單重復(fù)題名中已有的信息;不用非公知公用的符號(hào)和術(shù)語;不用引文，除非該論文證實(shí)或否定了他人已發(fā)表的論文。摘要的結(jié)構(gòu)要嚴(yán)謹(jǐn)，表達(dá)要簡明，語義要確切。縮略語、略稱、代號(hào)，除了相鄰專業(yè)的讀者也能清楚理解的以外，在首次出現(xiàn)時(shí)必須加以說明。

二、關(guān)鍵詞的選擇

關(guān)鍵詞是學(xué)術(shù)論文進(jìn)人流通和引用的窗口，規(guī)范關(guān)鍵詞選擇有利于圖書情報(bào)機(jī)構(gòu)快捷、有效地檢索和引用。中國科學(xué)技術(shù)協(xié)會(huì)為了規(guī)范學(xué)術(shù)論文，深化學(xué)術(shù)文獻(xiàn)的研究和統(tǒng)計(jì)，多層面提高文獻(xiàn)檢索水平，使更多的學(xué)術(shù)論文進(jìn)人科技工作的引用范疇，從學(xué)科性質(zhì)、研究成果，研究方法的特點(diǎn)出發(fā)，規(guī)定發(fā)表在中國科協(xié)系統(tǒng)學(xué)術(shù)期刊中的所有學(xué)術(shù)論文，其關(guān)鍵詞按以下順序選擇:

第一個(gè)關(guān) 鍵詞列出該文主要工作或內(nèi)容所屬二級(jí)學(xué)科名稱。《運(yùn)籌與管理》所刊登論文的相關(guān)二級(jí)學(xué)科名稱是:運(yùn)籌學(xué)、概率論與數(shù)理統(tǒng)計(jì)、應(yīng)用數(shù)學(xué)、模糊數(shù)學(xué)、區(qū)域經(jīng)濟(jì)學(xué)、產(chǎn)業(yè)經(jīng)濟(jì)學(xué)、金融學(xué)、國際貿(mào)易學(xué)、國防經(jīng)濟(jì)、系統(tǒng)理論、系統(tǒng)分析與集成、會(huì)計(jì)學(xué)、企業(yè)管理、旅游管理、技術(shù)經(jīng)濟(jì)及管理?。

第二個(gè)關(guān) 鍵詞列出該文研究得到的成果名稱或文內(nèi)若干個(gè)成果的總類別名稱。

第三個(gè)關(guān) 鍵詞列出該文在得到上述成果或結(jié)論時(shí)采用的科學(xué)研究方法的具體名稱。對(duì)于綜述和評(píng)述性學(xué)術(shù)論文等，此位置分別寫“綜述”或“評(píng)述”等。對(duì)科學(xué)研究方法的研究論文此處不寫被研究的方法名稱，而寫所應(yīng)用的方法名稱。前者出現(xiàn)于第二個(gè)關(guān)鍵詞的位置。

第四個(gè)關(guān) 鍵詞列出在前三個(gè)關(guān)鍵詞中沒有出現(xiàn)的、但被該文作為主要研究對(duì)象的事或物質(zhì)的名稱，或者在題目中出現(xiàn)的作者認(rèn)為重要的名詞。如有需要，第五、第六個(gè)關(guān)鍵詞列出作者認(rèn)為有利于檢索和文獻(xiàn)利用的其他關(guān)鍵詞。選擇關(guān)鍵詞時(shí)不得用非公知公用的專業(yè)術(shù)語及其縮寫;同義詞、近義詞不應(yīng)并列為關(guān)鍵詞。

許多作者對(duì)摘要和關(guān)鍵詞不重視，七、八千字的論文，摘要僅寫了一句話;關(guān)鍵詞也是隨意選兩個(gè)敷衍了事。須知，讀者沒有時(shí)間和精力去看每一篇論文，往往是先通過摘要來了解文章的梗概，然后再有選擇地閱讀部分論文。文摘類期刊和圖書情報(bào)部門也是通過摘要和關(guān)鍵詞來決定是否摘錄和進(jìn)行檢索的。文摘類期刊的文摘員在撰寫摘要時(shí)，一般是參照文獻(xiàn)作者的摘要，稍加改動(dòng)就行了。如果作者的摘要寫得不規(guī)范或過于簡單，文摘員就要先看通看透文獻(xiàn)全文才能......>>

問題四：論文的關(guān)鍵詞怎么確定？核心觀點(diǎn)或者分論點(diǎn)句子的主、賓成分

問題五：畢業(yè)論文關(guān)鍵詞怎么選??？應(yīng)該是些具有代表性，概括性的詞。能體現(xiàn)整篇論文所講述，論述的內(nèi)容。

問題六：論文關(guān)鍵詞選取個(gè)人覺得關(guān)鍵詞可以選你的關(guān)鍵詞前兩個(gè) 再加一個(gè)內(nèi)部控制，不過我對(duì)物流不太懂，另外你的論文有沒有用什么模型，那個(gè)模型可以作為關(guān)鍵詞 ?；蛘吣莻€(gè)erp，你問問老師可不可以。

問題七：畢業(yè)論文關(guān)鍵詞怎么寫什么意思首先對(duì)文獻(xiàn)進(jìn)行主題分析，弄清該文的主題概念和中心內(nèi)容；

盡可能從題名、摘要、層次標(biāo)題和正文的重要段落中抽出與主題概念一致的詞和詞組；

對(duì)所選出的詞進(jìn)行排序，對(duì)照敘詞表找出哪些詞可以直接作為敘詞標(biāo)引，哪些詞可以通過規(guī)范化變?yōu)閿⒃~，哪些敘詞可以組配成專指主題概念的詞組；

還有相當(dāng)數(shù)量無法規(guī)范為敘詞的詞，只要是表達(dá)主題概念所必需的，都可作為自由詞標(biāo)引并列入關(guān)鍵詞。

問題八：如何選擇學(xué)術(shù)論文的關(guān)鍵詞首先，學(xué)術(shù)論文的關(guān)鍵詞必須合乎論文主旨；

其次，我們要掌握論文的脈絡(luò)框架；

然后我們就可以從以上倆個(gè)方面來提取論文的關(guān)鍵詞；

最后，對(duì)所選出的關(guān)鍵詞進(jìn)行排序，按照主次來進(jìn)行排序。

問題九：如何在文章中正確尋找到關(guān)鍵詞一、關(guān)于關(guān)鍵詞解析如下：

關(guān)鍵詞又是網(wǎng)絡(luò)中經(jīng)常提及的詞語，指的是人們輸入搜索框中的文字，也就是讓搜索引擎（如“百度”“谷歌”搜索）尋找的東西。關(guān)鍵詞的內(nèi)容大多為人名、術(shù)語、網(wǎng)站、新聞、軟件等。例如，就今天我們學(xué)習(xí)的探討的內(nèi)容，我們可以搜索[高考]、[語文]、[現(xiàn)代文閱讀]、[關(guān)鍵詞]，那么這四個(gè)詞就可稱為關(guān)鍵詞了。

可以說尋找關(guān)鍵詞具有較強(qiáng)的實(shí)用性，與我們的日常生活和學(xué)習(xí)有著密切的關(guān)系。平時(shí)語文課堂中的概括文章內(nèi)容、提煉文章觀點(diǎn)、歸納段落大意等，都是具體實(shí)踐的過程。而“關(guān)鍵詞”這個(gè)概念出現(xiàn)在高考語文試題中，早在05年就開始有了，它受到出卷老師的青睞也就不足為奇了。在每一年的高考卷都會(huì)出現(xiàn)了提取關(guān)鍵詞的試題，而我們廣東省也早在06年就有了涉足。

二、找到關(guān)鍵詞的方法：

方法一：步步為營法（從語段中心話題入手）

解題基本流程：明確話題――尋找謂語――連綴成句――提取關(guān)鍵詞

具體闡釋：我們以2005年全國卷為例。

例①提取下面一段話的主要信息，在方框內(nèi)寫出四個(gè)關(guān)鍵詞。

椐報(bào)道，我國國家圖書館浩瀚的館藏古籍中，僅1.6萬卷“敦煌遺書”就有5000余米長卷需要修復(fù)，而國圖從事古籍修復(fù)的專業(yè)人員不過10人；各地圖書館、博物館收藏的古籍文獻(xiàn)共計(jì)3000萬冊(cè)，殘損情況也相當(dāng)嚴(yán)重，亟待搶救性修復(fù)，但全國的古籍修復(fù)人才總共還不足百人。以這樣的人數(shù)去完成如此浩大的修復(fù)工程，即使夜以繼日地工作也需要近千年。

[分析步驟]

1．明確陳述的話題（對(duì)象）。

任何語段，無論是記敘、議論或說明，它總是圍繞一個(gè)話題來展開的，體現(xiàn)話題的詞語肯定是關(guān)鍵詞之一。那么，我們就要根據(jù)不同文體來尋找語段話題（重要信息）

l 尋找中心話題小秘笈：

以記敘為主要表達(dá)方式的文章――敘述的對(duì)象（人、事）

以議論為主要表達(dá)方式的文章――中心論點(diǎn)或中心論題

以說明為主要表達(dá)方式的文章――說明對(duì)象

以描寫為主要表達(dá)方式的文章――描寫對(duì)象（景、物）

以抒情為主要表達(dá)方式的文章――情感傾向的詞

例②這個(gè)語段的主要表述對(duì)象(主要概念或主要事件)――“古籍”(“館藏古籍”)、“人才”，兩個(gè)都是主題詞，都要篩選出來。

2．尋找與陳述對(duì)象（主概念）相對(duì)應(yīng)的謂語動(dòng)詞。

在這一步，我們主要是尋找和明確與主要話題（主概念）相對(duì)應(yīng)的謂語動(dòng)詞或總結(jié)性的詞語。如“修復(fù)”、“缺乏”就是對(duì)陳述的對(duì)象的陳述，不可不取。

3．將幾個(gè)詞語連綴成句(主謂結(jié)構(gòu))。

話題和謂語等詞句選定后，我們可將幾個(gè)詞語稍稍連綴成一個(gè)謂結(jié)構(gòu)的句子。本題可連綴成：(館藏)古籍(亟待)修復(fù)，(但這方面)人才(非常)缺乏。(一般可以表述為：“誰或什么怎么樣了”這樣一種主謂結(jié)構(gòu))。

4．篩選，提煉出關(guān)鍵詞。

最后，我們把連綴成的句子放入文段中檢驗(yàn)，如能基本表達(dá)出文段的中心內(nèi)容，即可篩選并敲定關(guān)鍵詞――古籍、修復(fù)、人才、缺乏(不足)。

方法二：順藤摸瓜法（尋找中心句入手）

具體闡釋：把握語段的中心，關(guān)鍵是找到中心句。中心句往往是語段中表示中心語義的句子，是語段的核心。中心句有時(shí)是起始句，有時(shí)是終止句，有時(shí)又可能在展開部分。這些句子，或提起下文，或總結(jié)上文，或承上啟下，我們要特別關(guān)注。在篩選時(shí)，我們可抓住這個(gè)句子，順藤摸瓜找到相關(guān)關(guān)鍵詞。

解題基本流程：確定中心句――仔細(xì)琢磨-――提取關(guān)鍵詞

我們以2006年廣東題為例：

例②提取下面一段話的主要信息，寫出四個(gè)關(guān)鍵詞語......>>

問題十：誰知道論文關(guān)鍵詞或主題詞的一般選擇方法是什么？由作者在完成論文寫作后，縱觀全文，先出能表示論文主要內(nèi)容的信息或詞匯，這些住處或詞江，可以從論文標(biāo)題中去找和選，也可以從論文內(nèi)容中去找和選。例如上例，關(guān)鍵詞選用了6個(gè)，其中前三個(gè)就是從論文標(biāo)題中選出的，而后三個(gè)卻是從論文內(nèi)容中選取出來的。后三個(gè)關(guān)鍵詞的選取，補(bǔ)充了論文標(biāo)題所未能表示出的主要內(nèi)容信息，也提高了所涉及的概念深度。需要選出，與從標(biāo)題中選出的關(guān)鍵詞一道，組成該論文的關(guān)鍵詞組。

關(guān)鍵詞與主題詞的運(yùn)用，主要是為了適應(yīng)計(jì)算機(jī)檢索的需要，以及適應(yīng)國際計(jì)算機(jī)聯(lián)機(jī)檢索的需要。一個(gè)刊物增加關(guān)鍵詞這一項(xiàng)，就為該刊物提高引用率、增加知名度開辟了一個(gè)新的途徑。

明白了嗎？

二、自然語言處理_一般處理流程

一、一般處理流程

語料獲取 -> 文本預(yù)處理 -> 特征工程 -> 特征選擇

1、語料獲取

即需要處理的數(shù)據(jù)及用于模型訓(xùn)練的語料。

數(shù)據(jù)源可能來自網(wǎng)上爬取、資料積累、語料轉(zhuǎn)換、OCR轉(zhuǎn)換等，格式可能比較混亂。需要將url、時(shí)間、符號(hào)等無意義內(nèi)容去除，留下質(zhì)量相對(duì)較高的非結(jié)構(gòu)化數(shù)據(jù)。

2、文本預(yù)處理

將含雜質(zhì)、無序、不標(biāo)準(zhǔn)的自然語言文本轉(zhuǎn)化為規(guī)則、易處理、標(biāo)準(zhǔn)的結(jié)構(gòu)化文本。

①處理標(biāo)點(diǎn)符號(hào)

可通過正則判定、現(xiàn)有工具(zhon包)等方式篩選清理標(biāo)點(diǎn)符號(hào)。

②分詞

將連續(xù)的自然語言文本，切分成具有語義合理性和完整性的詞匯序列的過程。

一般看來英文較容易可通過空格符號(hào)分詞，中文相對(duì)復(fù)雜，參考結(jié)巴分詞、盤古分詞、Ansj等工具。

常見的分詞算法有：基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于規(guī)則的分詞方法，每種方法下面對(duì)應(yīng)許多具體的算法。

③詞性標(biāo)注

為自然語言文本中的每個(gè)詞匯賦予一個(gè)詞性的過程，如名詞、動(dòng)詞、副詞等?？梢园衙總€(gè)單詞（和它周圍的一些額外的單詞用于上下文）輸入預(yù)先訓(xùn)練的詞性分類模型。

常用隱馬爾科夫模型、N 元模型、決策樹

④stop word

英文中含大量 a、the、and，中文含大量的、是、了、啊，這些語氣詞、助詞沒有明顯的實(shí)際意義，反而容易造成識(shí)別偏差，可適當(dāng)進(jìn)行過濾。

⑤詞形還原

偏向于英文中，單數(shù)/復(fù)數(shù)，主動(dòng)/被動(dòng)，現(xiàn)在進(jìn)行時(shí)/過去時(shí)/將來時(shí)等，還原為原型。

⑥統(tǒng)計(jì)詞頻

因?yàn)橐恍╊l率過高/過低的詞是無效的，對(duì)模型幫助很小，還會(huì)被當(dāng)做噪聲，做個(gè)詞頻統(tǒng)計(jì)用于停用詞表。

⑦給單詞賦予id

給每一個(gè)單詞一個(gè)id，用于構(gòu)建詞典，并將原來的句子替換成id的表現(xiàn)形式

⑧依存句法分析

通過分析句子中詞與詞之間的依存關(guān)系，從而捕捉到詞語的句法結(jié)構(gòu)信息(如主謂、動(dòng)賓、定中等結(jié)構(gòu)關(guān)系)，并使用樹狀結(jié)構(gòu)來表示句子的句法結(jié)構(gòu)信息(如主謂賓、定狀補(bǔ)等)。

3、特征工程

做完語料預(yù)處理之后，接下來需要考慮如何把分詞之后的字和詞語表示成計(jì)算機(jī)能夠計(jì)算的類型。

如果要計(jì)算我們至少需要把中文分詞的字符串轉(zhuǎn)換成數(shù)字，確切的說應(yīng)該是數(shù)學(xué)中的向量。有兩種常用的表示模型分別是詞袋模型和詞向量。

①詞向量

詞向量是將字、詞語轉(zhuǎn)換成向量矩陣的計(jì)算模型。目前為止最常用的詞表示方法是 One-hot，這種方法把每個(gè)詞表示為一個(gè)很長的向量。

②詞袋模型

即不考慮詞語原本在句子中的順序，直接將每一個(gè)詞語或者符號(hào)統(tǒng)一放置在一個(gè)集合（如 list），然后按照計(jì)數(shù)的方式對(duì)出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。統(tǒng)計(jì)詞頻這只是最基本的方式，TF-IDF 是詞袋模型的一個(gè)經(jīng)典用法。

常用的表示模型有：詞袋模型（Bag of Word, BOW），比如：TF-IDF 算法；詞向量，比如 one-hot 算法、word2vec 算法等。

4、特征選擇

在文本挖掘相關(guān)問題中，特征工程也是必不可少的。在一個(gè)實(shí)際問題中，構(gòu)造好的特征向量，是要選擇合適的、表達(dá)能力強(qiáng)的特征。

舉個(gè)自然語言處理中的例子來說，我們想衡量like這個(gè)詞的極性（正向情感還是負(fù)向情感）。我們可以預(yù)先挑選一些正向情感的詞，比如good。然后我們算like跟good的PMI，用到點(diǎn)互信息PMI這個(gè)指標(biāo)來衡量兩個(gè)事物之間的相關(guān)性。

特征選擇是一個(gè)很有挑戰(zhàn)的過程，更多的依賴于經(jīng)驗(yàn)和專業(yè)知識(shí)，并且有很多現(xiàn)成的算法來進(jìn)行特征的選擇。目前，常見的特征選擇方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六種。

5、模型訓(xùn)練

在特征向量選擇好了以后，接下來要做的事情是根據(jù)應(yīng)用需求來訓(xùn)練模型，我們使用不同的模型，傳統(tǒng)的有監(jiān)督和無監(jiān)督等機(jī)器學(xué)習(xí)模型，如 KNN、SVM、Naive Bayes、決策樹、GBDT、K-means 等模型；深度學(xué)習(xí)模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。這些模型在分類、聚類、神經(jīng)序列、情感分析等應(yīng)用中都會(huì)用到。

當(dāng)選擇好模型后，則進(jìn)行模型訓(xùn)練，其中包括了模型微調(diào)等。在模型訓(xùn)練的過程中要注意由于在訓(xùn)練集上表現(xiàn)很好，但在測試集上表現(xiàn)很差的過擬合問題以及模型不能很好地?cái)M合數(shù)據(jù)的欠擬合問題。同時(shí)，也要防止出現(xiàn)梯度消失和梯度爆炸問題。

6、模型評(píng)估

在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、推薦系統(tǒng)完成建模之后，需要對(duì)模型的效果做評(píng)價(jià)。模型的評(píng)價(jià)指標(biāo)主要有：錯(cuò)誤率、精準(zhǔn)度、準(zhǔn)確率、召回率、F1 值、ROC 曲線、AUC 曲線等。

7、投產(chǎn)上線

模型的投產(chǎn)上線方式主要有兩種：一種是線下訓(xùn)練模型，然后將模型進(jìn)行線上部署提供服務(wù)；另一種是在線訓(xùn)練模型，在線訓(xùn)練完成后將模型 pickle 持久化，提供對(duì)外服務(wù)。

三、NLP應(yīng)用方向

1、命名實(shí)體識(shí)別

指識(shí)別自然語言文本中具有特定意義的實(shí)體，主要包括人名、地名、機(jī)構(gòu)名、時(shí)間日期等。

傳統(tǒng)機(jī)器學(xué)習(xí)算法主要有HMM和CRF，深度學(xué)習(xí)常用QRNN、LSTM，當(dāng)前主流的是基于bert的NER。

2、情感分析

文本情感分析和觀點(diǎn)挖掘（Sentiment Analysis)，又稱意見挖掘(Opinion Mining)是自然語言處理領(lǐng)域的一個(gè)重要研究方向。簡單而言，是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。

情感分析技術(shù)可以分為兩類，一類是基于機(jī)器學(xué)習(xí)的方法，通過大量有標(biāo)注、無標(biāo)注的主觀語料，使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法，通過提取特征，進(jìn)行文本情感分析。另一類是基于情感詞典的方法，根據(jù)情感詞典所提供的詞的情感極性（正向、負(fù)向），從而進(jìn)行不同粒度的（詞語、短語、屬性、句子、篇章）下的文本情感分析。

3、文章標(biāo)簽

文章標(biāo)簽是利用機(jī)器學(xué)習(xí)算法，對(duì)文章進(jìn)行文字和語義的分析后，提取出若干個(gè)重要的詞或者短語(關(guān)鍵短語)。關(guān)鍵短語是NLP基礎(chǔ)的算法模塊，有了關(guān)鍵短語，能為后續(xù)的搜索、推薦等更高級(jí)的應(yīng)用提供有力的抓手。

適用場景：1、個(gè)性化推薦：通過對(duì)文章的標(biāo)簽計(jì)算，結(jié)合用戶畫像，精準(zhǔn)的對(duì)用戶進(jìn)行個(gè)性化推薦；2、話題聚合：根據(jù)文章計(jì)算的標(biāo)簽，聚合相同標(biāo)簽的文章，便于用戶對(duì)同一話題的文章進(jìn)行全方位的信息閱讀；3、搜索：使用中心詞可以對(duì)query進(jìn)行相似度計(jì)算、聚類、改寫等，可以用于搜索相關(guān)性計(jì)算。

4、案件串并

①信息抽取

運(yùn)用實(shí)體抽取、關(guān)系抽取，從案情中抽取關(guān)鍵信息，如從警情中可以抽取報(bào)警人項(xiàng)目、報(bào)警人電話、案發(fā)地址等信息

②實(shí)體對(duì)齊

相同的實(shí)體在不同的案情中會(huì)有不同的表述，會(huì)給串并帶來困難?？舍槍?duì)地址、人名、組織名進(jìn)行對(duì)齊處理。

③文本聚類

對(duì)于關(guān)鍵片段類信息，無法像實(shí)體那樣對(duì)齊，需要借助文本聚類技術(shù)進(jìn)行關(guān)聯(lián)。

④構(gòu)建圖譜

將信息抽取結(jié)果存入圖譜。每個(gè)警情id對(duì)應(yīng)一個(gè)節(jié)點(diǎn)，實(shí)體、屬性、關(guān)鍵片段作為節(jié)點(diǎn)，對(duì)齊的實(shí)體、同一類的文本存為同一個(gè)節(jié)點(diǎn)。

除了來自于從警情中抽取的信息，還可以將其他警務(wù)系統(tǒng)中存在的結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入（如來自戶籍信息的人物關(guān)系），從而豐富圖譜。

⑤圖譜檢索

完成以上工作，即完成了案件串并的必要基礎(chǔ)建設(shè)，接下來通過圖譜的查詢功能自動(dòng)完成案件的串并。首先需要設(shè)定串并的條件，案件串并的條件在警務(wù)實(shí)戰(zhàn)中已有很多的積累，如“具有相似的作案手段”，又如“相似作案手段，嫌疑人有共同聯(lián)系人”，只需要將這些條件用圖譜查詢語言表達(dá)出來。

三、一文看懂自然語言處理NLP(4個(gè)應(yīng)用+5個(gè)難點(diǎn)+6個(gè)實(shí)現(xiàn)步驟)

在人工智能出現(xiàn)之前，機(jī)器智能處理結(jié)構(gòu)化的數(shù)據(jù)（例如 Excel 里的數(shù)據(jù)）。但是網(wǎng)絡(luò)中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的，例如：文章、圖片、音頻、視頻…

在非結(jié)構(gòu)數(shù)據(jù)中，文本的數(shù)量是最多的，他雖然沒有圖片和視頻占用的空間大，但是他的信息量是最大的。

為了能夠分析和利用這些文本信息，我們就需要利用 NLP 技術(shù)，讓機(jī)器理解這些文本信息，并加以利用。

每種動(dòng)物都有自己的語言，機(jī)器也是！

自然語言處理（NLP）就是在機(jī)器語言和人類語言之間溝通的橋梁，以實(shí)現(xiàn)人機(jī)交流的目的。

人類通過語言來交流，狗通過汪汪叫來交流。機(jī)器也有自己的交流方式，那就是數(shù)字信息。

不同的語言之間是無法溝通的，比如說人類就無法聽懂狗叫，甚至不同語言的人類之間都無法直接交流，需要翻譯才能交流。

而計(jì)算機(jī)更是如此，為了讓計(jì)算機(jī)之間互相交流，人們讓所有計(jì)算機(jī)都遵守一些規(guī)則，計(jì)算機(jī)的這些規(guī)則就是計(jì)算機(jī)之間的語言。

既然不同人類語言之間可以有翻譯，那么人類和機(jī)器之間是否可以通過“翻譯”的方式來直接交流呢？

NLP 就是人類和機(jī)器之間溝通的橋梁！

為什么是“自然語言”處理？

自然語言就是大家平時(shí)在生活中常用的表達(dá)方式，大家平時(shí)說的「講人話」就是這個(gè)意思。

NLP 有2個(gè)核心的任務(wù)：

自然語言理解就是希望機(jī)器像人一樣，具備正常人的語言理解能力，由于自然語言在理解上有很多難點(diǎn)(下面詳細(xì)說明)，所以 NLU 是至今還遠(yuǎn)不如人類的表現(xiàn)。

自然語言理解的5個(gè)難點(diǎn)：

想要深入了解NLU，可以看看這篇文章《一文看懂自然語言理解-NLU（基本概念+實(shí)際應(yīng)用+3種實(shí)現(xiàn)方式）》

NLG 是為了跨越人類和機(jī)器之間的溝通鴻溝，將非語言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語言格式，如文章、報(bào)告等。

NLG 的6個(gè)步驟：

想要深入了解NLG，可以看看這篇文章《一文看懂自然語言生成 – NLG（6個(gè)實(shí)現(xiàn)步驟+3個(gè)典型應(yīng)用）》

情感分析

互聯(lián)網(wǎng)上有大量的文本信息，這些信息想要表達(dá)的內(nèi)容是五花八門的，但是他們抒發(fā)的情感是一致的：正面/積極的 – 負(fù)面/消極的。

通過情感分析，可以快速了解用戶的輿情情況。

聊天機(jī)器人

過去只有 Siri、小冰這些機(jī)器人，大家使用的動(dòng)力并不強(qiáng)，只是當(dāng)做一個(gè) 娛樂的方式。但是最近幾年智能音箱的快速發(fā)展讓大家感受到了聊天機(jī)器人的價(jià)值。

而且未來隨著智能家居，智能汽車的發(fā)展，聊天機(jī)器人會(huì)有更大的使用價(jià)值。

語音識(shí)別

語音識(shí)別已經(jīng)成為了全民級(jí)的引用，微信里可以語音轉(zhuǎn)文字，汽車中使用導(dǎo)航可以直接說目的地，老年人使用輸入法也可以直接語音而不用學(xué)習(xí)拼音…

機(jī)器翻譯

目前的機(jī)器翻譯準(zhǔn)確率已經(jīng)很高了，大家使用 Google 翻譯完全可以看懂文章的大意。傳統(tǒng)的人肉翻譯未來很可能會(huì)失業(yè)。

NLP 可以使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法來處理，也可以使用深度學(xué)習(xí)的方法來處理。2 種不同的途徑也對(duì)應(yīng)著不同的處理步驟。詳情如下：

方式 1：傳統(tǒng)機(jī)器學(xué)習(xí)的 NLP 流程

方式 2：深度學(xué)習(xí)的 NLP 流程

英文 NLP 語料預(yù)處理的 6 個(gè)步驟

中文 NLP 語料預(yù)處理的 4 個(gè)步驟

自然語言處理（NLP）就是在機(jī)器語言和人類語言之間溝通的橋梁，以實(shí)現(xiàn)人機(jī)交流的目的。

NLP的2個(gè)核心任務(wù)：

NLP 的5個(gè)難點(diǎn)：

NLP 的4個(gè)典型應(yīng)用：

NLP 的6個(gè)實(shí)現(xiàn)步驟：

百度百科版本

自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，這一領(lǐng)域的研究將涉及自然語言，即人們?nèi)粘Ｊ褂玫恼Z言，所以它與語言學(xué)的研究有著密切的聯(lián)系，但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言，而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng)，特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。

自然語言處理（NLP）是計(jì)算機(jī)科學(xué)，人工智能，語言學(xué)關(guān)注計(jì)算機(jī)和人類（自然）語言之間的相互作用的領(lǐng)域。

維基百科版本

自然語言處理（NLP）是計(jì)算機(jī)科學(xué)，信息工程和人工智能的子領(lǐng)域，涉及計(jì)算機(jī)與人類（自然）語言之間的交互，特別是如何對(duì)計(jì)算機(jī)進(jìn)行編程以處理和分析大量自然語言數(shù)據(jù)。自然語言處理中的挑戰(zhàn)通常涉及語音識(shí)別，自然語言理解和自然語言生成。

四、自然語言處理基礎(chǔ)知識(shí)

NLP 是什么？

NLP 是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科。NLP 由兩個(gè)主要的技術(shù)領(lǐng)域構(gòu)成：自然語言理解和自然語言生成。

自然語言理解方向，主要目標(biāo)是幫助機(jī)器更好理解人的語言，包括基礎(chǔ)的詞法、句法等語義理解，以及需求、篇章、情感層面的高層理解。

自然語言生成方向，主要目標(biāo)是幫助機(jī)器生成人能夠理解的語言，比如文本生成、自動(dòng)文摘等。

NLP 技術(shù)基于大數(shù)據(jù)、知識(shí)圖譜、機(jī)器學(xué)習(xí) 、語言學(xué)等技術(shù)和資源，并可以形成機(jī)器翻譯、深度問答、對(duì)話系統(tǒng)的具體應(yīng)用系統(tǒng)，進(jìn)而服務(wù)于各類實(shí)際業(yè)務(wù)和產(chǎn)品。

NLP在金融方面

金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性，成為人工智能最先應(yīng)用的行業(yè)之一，而NLP與知識(shí)圖譜作為人工智能技術(shù)的重要研究方向與組成部分，正在快速進(jìn)入金融領(lǐng)域，并日益成為智能金融的基石。輿情分析輿情主要指民眾對(duì)社會(huì)各種具體事物的情緒、意見、價(jià)值判斷和愿望等。

事件(Event )：在特定時(shí)間、特定地點(diǎn)發(fā)生的事情。主題(Topic)：也稱為話題，指一個(gè)種子事件或活動(dòng)以及與它直接相關(guān)的事件和活動(dòng)。專題(Subject)：涵蓋多個(gè)類似的具體事件或根本不涉及任何具體事件。需要說明的是，國內(nèi)新聞網(wǎng)站新浪、搜狐等所定義的“專題”概念大多數(shù)等同于我們的“主題”概念。熱點(diǎn)：也可稱為熱點(diǎn)主題。熱點(diǎn)和主題的概念比較接近，但有所區(qū)別。

1. 詞干提取

什么是詞干提??？詞干提取是將詞語去除變化或衍生形式，轉(zhuǎn)換為詞干或原型形式的過程。詞干提取的目標(biāo)是將相關(guān)詞語還原為同樣的詞干，哪怕詞干并非詞典的詞目。

2. 詞形還原

什么是詞形還原？詞形還原是將一組詞語還原為詞源或詞典的詞目形式的過程。還原過程考慮到了POS問題，即詞語在句中的語義，詞語對(duì)相鄰語句的語義等。

3. 詞向量化什么是詞向量化？詞向量化是用一組實(shí)數(shù)構(gòu)成的向量代表自然語言的叫法。這種技術(shù)非常實(shí)用，因?yàn)殡娔X無法處理自然語言。詞向量化可以捕捉到自然語言和實(shí)數(shù)間的本質(zhì)關(guān)系。通過詞向量化，一個(gè)詞語或者一段短語可以用一個(gè)定維的向量表示，例如向量的長度可以為100。

4. 詞性標(biāo)注

什么是詞性標(biāo)注？簡單來說，詞性標(biāo)注是對(duì)句子中的詞語標(biāo)注為名字、動(dòng)詞、形容詞、副詞等的過程。

5. 命名實(shí)體消歧

什么是命名實(shí)體消岐？命名實(shí)體消岐是對(duì)句子中的提到的實(shí)體識(shí)別的過程。例如，對(duì)句子“Apple earned a revenue of 200 Billion USD in 2016”，命名實(shí)體消岐會(huì)推斷出句子中的Apple是蘋果公司而不是指一種水果。一般來說，命名實(shí)體要求有一個(gè)實(shí)體知識(shí)庫，能夠?qū)⒕渥又刑岬降膶?shí)體和知識(shí)庫聯(lián)系起來。

6. 命名實(shí)體識(shí)別

體識(shí)別是識(shí)別一個(gè)句子中有特定意義的實(shí)體并將其區(qū)分為人名，機(jī)構(gòu)名，日期，地名，時(shí)間等類別的任務(wù)。

7. 情感分析

什么是情感分析？情感分析是一種廣泛的主觀分析，它使用自然語言處理技術(shù)來識(shí)別客戶評(píng)論的語義情感，語句表達(dá)的情緒正負(fù)面以及通過語音分析或書面文字判斷其表達(dá)的情感等等。

8. 語義文本相似度

什么是語義文本相似度分析？語義文本相似度分析是對(duì)兩段文本的意義和本質(zhì)之間的相似度進(jìn)行分析的過程。注意，相似性與相關(guān)性是不同的。

9.語言識(shí)別

什么是語言識(shí)別？語言識(shí)別指的是將不同語言的文本區(qū)分出來。其利用語言的統(tǒng)計(jì)和語法屬性來執(zhí)行此任務(wù)。語言識(shí)別也可以被認(rèn)為是文本分類的特殊情況。

10. 文本摘要

什么是文本摘要？文本摘要是通過識(shí)別文本的重點(diǎn)并使用這些要點(diǎn)創(chuàng)建摘要來縮短文本的過程。文本摘要的目的是在不改變文本含義的前提下最大限度地縮短文本。

11.評(píng)論觀點(diǎn)抽取

自動(dòng)分析評(píng)論關(guān)注點(diǎn)和評(píng)論觀點(diǎn)，并輸出評(píng)論觀點(diǎn)標(biāo)簽及評(píng)論觀點(diǎn)極性。目前支持 13 類產(chǎn)品用戶評(píng)論的觀點(diǎn)抽取，包括美食、酒店、汽車、景點(diǎn)等，可幫助商家進(jìn)行產(chǎn)品分析，輔助用戶進(jìn)行消費(fèi)決策。

11.DNN 語言模型

語言模型是通過計(jì)算給定詞組成的句子的概率，從而判斷所組成的句子是否符合客觀語言表達(dá)習(xí)慣。在機(jī)器翻譯、拼寫糾錯(cuò)、語音識(shí)別、問答系統(tǒng)、詞性標(biāo)注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。

12.依存句法分析

利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息 (如主謂、動(dòng)賓、定中等結(jié)構(gòu)關(guān)系)，并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu) (如主謂賓、定狀補(bǔ)等)。

1、NLTK

一種流行的自然語言處理庫、自帶語料庫、具有分類，分詞等很多功能，國外使用者居多，類似中文的 jieba 處理庫

2、文本處理流程

大致將文本處理流程分為以下幾個(gè)步驟：

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各個(gè)流程的具體介紹

Normalization

第一步通常要做就是Normalization。在英文中，所有句子第一個(gè)單詞的首字母一般是大寫，有的單詞也會(huì)全部字母都大寫用于表示強(qiáng)調(diào)和區(qū)分風(fēng)格，這樣更易于人類理解表達(dá)的意思。

Tokenization

Token是"符號(hào)"的高級(jí)表達(dá)，一般值具有某種意義，無法再拆分的符號(hào)。在英文自然語言處理中，Tokens通常是單獨(dú)的詞，因此Tokenization就是將每個(gè)句子拆分為一系列的詞。

Stop Word

Stop Word 是無含義的詞，例如’is’/‘our’/‘the’/‘in’/'at’等。它們不會(huì)給句子增加太多含義，單停止詞是頻率非常多的詞。為了減少我們要處理的詞匯量，從而降低后續(xù)程序的復(fù)雜度，需要清除停止詞。

Named Entity

Named Entity 一般是名詞短語，又來指代某些特定對(duì)象、人、或地點(diǎn) 可以使用 ne_chunk()方法標(biāo)注文本中的命名實(shí)體。在進(jìn)行這一步前，必須先進(jìn)行 Tokenization 并進(jìn)行 PoS Tagging。

Stemming and Lemmatization

為了進(jìn)一步簡化文本數(shù)據(jù)，我們可以將詞的不同變化和變形標(biāo)準(zhǔn)化。Stemming 提取是將詞還原成詞干或詞根的過程。

3、Word2vec

Word2vec是一種有效創(chuàng)建詞嵌入的方法，它自2013年以來就一直存在。但除了作為詞嵌入的方法之外，它的一些概念已經(jīng)被證明可以有效地創(chuàng)建推薦引擎和理解時(shí)序數(shù)據(jù)。在商業(yè)的、非語言的任務(wù)中。

### 四、NLP前沿研究方向與算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全稱是Bidirectional Encoder Representation from Transformers，即雙向Transformer的Encoder，因?yàn)閐ecoder是不能獲要預(yù)測的信息的。模型的主要?jiǎng)?chuàng)新點(diǎn)都在pre-train方法上，即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級(jí)別的representation。

BERT提出之后，作為一個(gè)Word2Vec的替代者，其在NLP領(lǐng)域的11個(gè)方向大幅刷新了精度，可以說是近年來自殘差網(wǎng)絡(luò)最優(yōu)突破性的一項(xiàng)技術(shù)了。BERT的主要特點(diǎn)以下幾點(diǎn)：

使用了Transformer作為算法的主要框架，Trabsformer能更徹底的捕捉語句中的雙向關(guān)系；

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任務(wù)訓(xùn)練目標(biāo)；

使用更強(qiáng)大的機(jī)器訓(xùn)練更大規(guī)模的數(shù)據(jù)，使BERT的結(jié)果達(dá)到了全新的高度，并且Google開源了BERT模型，用戶可以直接使用BERT作為Word2Vec的轉(zhuǎn)換矩陣并高效的將其應(yīng)用到自己的任務(wù)中。

BERT的本質(zhì)上是通過在海量的語料的基礎(chǔ)上運(yùn)行自監(jiān)督學(xué)習(xí)方法為單詞學(xué)習(xí)一個(gè)好的特征表示，所謂自監(jiān)督學(xué)習(xí)是指在沒有人工標(biāo)注的數(shù)據(jù)上運(yùn)行的監(jiān)督學(xué)習(xí)。在以后特定的NLP任務(wù)中，我們可以直接使用BERT的特征表示作為該任務(wù)的詞嵌入特征。所以BERT提供的是一個(gè)供其它任務(wù)遷移學(xué)習(xí)的模型，該模型可以根據(jù)任務(wù)微調(diào)或者固定之后作為特征提取器。

模型結(jié)構(gòu)：由于模型的構(gòu)成元素Transformer已經(jīng)解析過，就不多說了，BERT模型的結(jié)構(gòu)如下圖最左：

對(duì)比OpenAI GPT(Generative pre-trained transformer)，BERT是雙向的Transformer block連接；就像單向rnn和雙向rnn的區(qū)別，直覺上來講效果會(huì)好一些。

優(yōu)點(diǎn)： BERT是截至2018年10月的最新state of the art模型，通過預(yù)訓(xùn)練和精調(diào)橫掃了11項(xiàng)NLP任務(wù)，這首先就是最大的優(yōu)點(diǎn)了。而且它還用的是Transformer，也就是相對(duì)rnn更加高效、能捕捉更長距離的依賴。對(duì)比起之前的預(yù)訓(xùn)練模型，它捕捉到的是真正意義上的bidirectional context信息。

缺點(diǎn)： MLM預(yù)訓(xùn)練時(shí)的mask問題

[MASK]標(biāo)記在實(shí)際預(yù)測中不會(huì)出現(xiàn)，訓(xùn)練時(shí)用過多[MASK]影響模型表現(xiàn)

每個(gè)batch只有15%的token被預(yù)測，所以BERT收斂得比left-to-right模型要慢（它們會(huì)預(yù)測每個(gè)token）

BERT火得一塌糊涂不是沒有原因的：

使用Transformer的結(jié)構(gòu)將已經(jīng)走向瓶頸期的Word2Vec帶向了一個(gè)新的方向，并再一次炒火了《Attention is All you Need》這篇論文；

11個(gè)NLP任務(wù)的精度大幅提升足以震驚整個(gè)深度學(xué)習(xí)領(lǐng)域；

無私的開源了多種語言的源碼和模型，具有非常高的商業(yè)價(jià)值。

遷移學(xué)習(xí)又一次勝利，而且這次是在NLP領(lǐng)域的大勝，狂勝。

BERT算法還有很大的優(yōu)化空間，例如我們?cè)赥ransformer中講的如何讓模型有捕捉Token序列關(guān)系的能力，而不是簡單依靠位置嵌入。BERT的訓(xùn)練在目前的計(jì)算資源下很難完成，論文中說的訓(xùn)練需要在64塊TPU芯片上訓(xùn)練4天完成，而一塊TPU的速度約是目前主流GPU的7-8倍。

以上就是關(guān)于自然語言轉(zhuǎn)換關(guān)鍵詞相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。