-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
NLP算法是什么(NLP算法是什么)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于NLP算法是什么的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、自然語言處理基礎(chǔ) - NLP
什么是自然語言處理
自然語言處理 (英語:natural language processing,縮寫作 NLP) 是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科。此領(lǐng)域探討如何處理及運(yùn)用自然語言;自然語言認(rèn)知?jiǎng)t是指讓電腦“懂”人類的語言。自然語言生成系統(tǒng)把計(jì)算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語言。自然語言理解系統(tǒng)把自然語言轉(zhuǎn)化為計(jì)算機(jī)程序更易于處理的形式。
自然語言處理有四大類常見的任務(wù)
什么是命名實(shí)體識(shí)別
命名實(shí)體識(shí)別(NER)是信息提?。↖nformation Extraction)的一個(gè)子任務(wù),主要涉及如何從文本中提取命名實(shí)體并將其分類至事先劃定好的類別,如在招聘信息中提取具體招聘公司、崗位和工作地點(diǎn)的信息,并將其分別歸納至公司、崗位和地點(diǎn)的類別下。命名實(shí)體識(shí)別往往先將整句拆解為詞語并對(duì)每個(gè)詞語進(jìn)行此行標(biāo)注,根據(jù)習(xí)得的規(guī)則對(duì)詞語進(jìn)行判別。這項(xiàng)任務(wù)的關(guān)鍵在于對(duì)未知實(shí)體的識(shí)別?;诖?,命名實(shí)體識(shí)別的主要思想在于根據(jù)現(xiàn)有實(shí)例的特征總結(jié)識(shí)別和分類規(guī)則。這些方法可以被分為有監(jiān)督(supervised)、半監(jiān)督(semi-supervised)和無監(jiān)督(unsupervised)三類。有監(jiān)督學(xué)習(xí)包括隱形馬科夫模型(HMM)、決策樹、最大熵模型(ME)、支持向量機(jī)(SVM)和條件隨機(jī)場(chǎng)(CRF)。這些方法主要是讀取注釋語料庫,記憶實(shí)例并進(jìn)行學(xué)習(xí),根據(jù)這些例子的特征生成針對(duì)某一種實(shí)例的識(shí)別規(guī)則。
什么是詞性標(biāo)注
詞性標(biāo)注 (pos tagging) 是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序,也即確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性的過程。
什么是文本分類
該技術(shù)可被用于理解、組織和分類結(jié)構(gòu)化或非結(jié)構(gòu)化文本文檔。文本挖掘所使用的模型有詞袋(BOW)模型、語言模型(ngram)和主題模型。隱馬爾可夫模型通常用于詞性標(biāo)注(POS)。其涵蓋的主要任務(wù)有句法分析、情緒分析和垃圾信息檢測(cè)。
GLUE benchmark
General Language Understanding Evaluation benchmark,通用語言理解評(píng)估基準(zhǔn),用于測(cè)試模型在廣泛自然語言理解任務(wù)中的魯棒性。
LM:Language Model
語言模型,一串詞序列的概率分布,通過概率模型來表示文本語義。
語言模型有什么作用?通過語言模型,可以量化地衡量一段文本存在的可能性。對(duì)于一段長(zhǎng)度為n的文本,文本里每個(gè)單詞都有上文預(yù)測(cè)該單詞的過程,所有單詞的概率乘積便可以用來評(píng)估文本。在實(shí)踐中,如果文本很長(zhǎng),P(wi|context(wi))的估算會(huì)很困難,因此有了簡(jiǎn)化版:N元模型。在N元模型中,通過對(duì)當(dāng)前詞的前N個(gè)詞進(jìn)行計(jì)算來估算該詞的條件概率。
重要文獻(xiàn)與資料
https://segmentfault.com/a/1190000015460828
https://segmentfault.com/a/1190000015284996
https://segmentfault.com/a/1190000015285996
我們介紹詞的向量表征,也稱為 word embedding 。詞向量是自然語言處理中常見的一個(gè)操作,是搜索引擎、廣告系統(tǒng)、推薦系統(tǒng)等互聯(lián)網(wǎng)服務(wù)背后常見的基礎(chǔ)技術(shù)。
在這些互聯(lián)網(wǎng)服務(wù)里,我們經(jīng)常要比較兩個(gè)詞或者兩段文本之間的相關(guān)性。為了做這樣的比較,我們往往先要把詞表示成計(jì)算機(jī)適合處理的方式。最自然的方式恐怕莫過于向量空間模型(vector space model)。 在這種方式里,每個(gè)詞被表示成一個(gè)實(shí)數(shù)向量(one-hot vector),其長(zhǎng)度為字典大小,每個(gè)維度對(duì)應(yīng)一個(gè)字典里的每個(gè)詞,除了這個(gè)詞對(duì)應(yīng)維度上的值是1,其他元素都是0。
One-hot vector雖然自然,但是用處有限。比如,在互聯(lián)網(wǎng)廣告系統(tǒng)里,如果用戶輸入的query是“母親節(jié)”,而有一個(gè)廣告的關(guān)鍵詞是“康乃馨”。雖然按照常理,我們知道這兩個(gè)詞之間是有聯(lián)系的——母親節(jié)通常應(yīng)該送給母親一束康乃馨;但是這兩個(gè)詞對(duì)應(yīng)的one-hot vectors之間的距離度量,無論是歐氏距離還是余弦相似度(cosine similarity),由于其向量正交,都認(rèn)為這兩個(gè)詞毫無相關(guān)性。 得出這種與我們相悖的結(jié)論的根本原因是:每個(gè)詞本身的信息量都太小。所以,僅僅給定兩個(gè)詞,不足以讓我們準(zhǔn)確判別它們是否相關(guān)。要想精確計(jì)算相關(guān)性,我們還需要更多的信息——從大量數(shù)據(jù)里通過機(jī)器學(xué)習(xí)方法歸納出來的知識(shí)。
在機(jī)器學(xué)習(xí)領(lǐng)域里,各種“知識(shí)”被各種模型表示,詞向量模型(word embedding model)就是其中的一類。通過詞向量模型可將一個(gè) one-hot vector映射到一個(gè)維度更低的實(shí)數(shù)向量(embedding vector),如embedding(母親節(jié))=[0.3,4.2,−1.5,...],embedding(康乃馨)=[0.2,5.6,−2.3,...]。在這個(gè)映射到的實(shí)數(shù)向量表示中,希望兩個(gè)語義(或用法)上相似的詞對(duì)應(yīng)的詞向量“更像”,這樣如“母親節(jié)”和“康乃馨”的對(duì)應(yīng)詞向量的余弦相似度就不再為零了。
詞向量模型可以是概率模型、共生矩陣(co-occurrence matrix)模型或神經(jīng)元網(wǎng)絡(luò)模型。在用神經(jīng)網(wǎng)絡(luò)求詞向量之前,傳統(tǒng)做法是統(tǒng)計(jì)一個(gè)詞語的共生矩陣X。
X是一個(gè)|V|×|V| 大小的矩陣,Xij表示在所有語料中,詞匯表V(vocabulary)中第i個(gè)詞和第j個(gè)詞同時(shí)出現(xiàn)的詞數(shù),|V|為詞匯表的大小。對(duì)X做矩陣分解(如奇異值分解),得到的U即視為所有詞的詞向量:
但這樣的傳統(tǒng)做法有很多問題:
基于神經(jīng)網(wǎng)絡(luò)的模型不需要計(jì)算和存儲(chǔ)一個(gè)在全語料上統(tǒng)計(jì)產(chǎn)生的大表,而是通過學(xué)習(xí)語義信息得到詞向量,因此能很好地解決以上問題。
神經(jīng)網(wǎng)絡(luò)
當(dāng)詞向量訓(xùn)練好后,我們可以用數(shù)據(jù)可視化算法t-SNE[ 4 ]畫出詞語特征在二維上的投影(如下圖所示)。從圖中可以看出,語義相關(guān)的詞語(如a, the, these; big, huge)在投影上距離很近,語意無關(guān)的詞(如say, business; decision, japan)在投影上的距離很遠(yuǎn)。
另一方面,我們知道兩個(gè)向量的余弦值在[−1,1]的區(qū)間內(nèi):兩個(gè)完全相同的向量余弦值為1, 兩個(gè)相互垂直的向量之間余弦值為0,兩個(gè)方向完全相反的向量余弦值為-1,即相關(guān)性和余弦值大小成正比。因此我們還可以計(jì)算兩個(gè)詞向量的余弦相似度。
模型概覽
語言模型
在介紹詞向量模型之前,我們先來引入一個(gè)概念:語言模型。 語言模型旨在為語句的聯(lián)合概率函數(shù)P(w1,...,wT)建模, 其中wi表示句子中的第i個(gè)詞。語言模型的目標(biāo)是,希望模型對(duì)有意義的句子賦予大概率,對(duì)沒意義的句子賦予小概率。 這樣的模型可以應(yīng)用于很多領(lǐng)域,如機(jī)器翻譯、語音識(shí)別、信息檢索、詞性標(biāo)注、手寫識(shí)別等,它們都希望能得到一個(gè)連續(xù)序列的概率。 以信息檢索為例,當(dāng)你在搜索“how long is a football bame”時(shí)(bame是一個(gè)醫(yī)學(xué)名詞),搜索引擎會(huì)提示你是否希望搜索"how long is a football game", 這是因?yàn)楦鶕?jù)語言模型計(jì)算出“how long is a football bame”的概率很低,而與bame近似的,可能引起錯(cuò)誤的詞中,game會(huì)使該句生成的概率最大。
對(duì)語言模型的目標(biāo)概率P(w1,...,wT),如果假設(shè)文本中每個(gè)詞都是相互獨(dú)立的,則整句話的聯(lián)合概率可以表示為其中所有詞語條件概率的乘積,即:
然而我們知道語句中的每個(gè)詞出現(xiàn)的概率都與其前面的詞緊密相關(guān), 所以實(shí)際上通常用條件概率表示語言模型:
N-gram neural model
在計(jì)算語言學(xué)中,n-gram是一種重要的文本表示方法,表示一個(gè)文本中連續(xù)的n個(gè)項(xiàng)。基于具體的應(yīng)用場(chǎng)景,每一項(xiàng)可以是一個(gè)字母、單詞或者音節(jié)。 n-gram模型也是統(tǒng)計(jì)語言模型中的一種重要方法,用n-gram訓(xùn)練語言模型時(shí),一般用每個(gè)n-gram的歷史n-1個(gè)詞語組成的內(nèi)容來預(yù)測(cè)第n個(gè)詞。
Yoshua Bengio等科學(xué)家就于2003年在著名論文 Neural Probabilistic Language Models [ 1 ] 中介紹如何學(xué)習(xí)一個(gè)神經(jīng)元網(wǎng)絡(luò)表示的詞向量模型。文中的神經(jīng)概率語言模型(Neural Network Language Model,NNLM)通過一個(gè)線性映射和一個(gè)非線性隱層連接,同時(shí)學(xué)習(xí)了語言模型和詞向量,即通過學(xué)習(xí)大量語料得到詞語的向量表達(dá),通過這些向量得到整個(gè)句子的概率。因所有的詞語都用一個(gè)低維向量來表示,用這種方法學(xué)習(xí)語言模型可以克服維度災(zāi)難(curse of dimensionality)。注意:由于“神經(jīng)概率語言模型”說法較為泛泛,我們?cè)谶@里不用其NNLM的本名,考慮到其具體做法,本文中稱該模型為N-gram neural model。
在上文中已經(jīng)講到用條件概率建模語言模型,即一句話中第t個(gè)詞的概率和該句話的前t−1個(gè)詞相關(guān)??蓪?shí)際上越遠(yuǎn)的詞語其實(shí)對(duì)該詞的影響越小,那么如果考慮一個(gè)n-gram, 每個(gè)詞都只受其前面n-1個(gè)詞的影響,則有:
給定一些真實(shí)語料,這些語料中都是有意義的句子,N-gram模型的優(yōu)化目標(biāo)則是最大化目標(biāo)函數(shù):
其中f(wt,wt−1,...,wt−n+1)表示根據(jù)歷史n-1個(gè)詞得到當(dāng)前詞wt的條件概率,R(θ)表示參數(shù)正則項(xiàng)。
Continuous Bag-of-Words model(CBOW)
CBOW模型通過一個(gè)詞的上下文(各N個(gè)詞)預(yù)測(cè)當(dāng)前詞。當(dāng)N=2時(shí),模型如下圖所示:
具體來說,不考慮上下文的詞語輸入順序,CBOW是用上下文詞語的詞向量的均值來預(yù)測(cè)當(dāng)前詞。
其中xt為第t個(gè)詞的詞向量,分類分?jǐn)?shù)(score)向量 z=U∗context,最終的分類y采用softmax,損失函數(shù)采用多類分類交叉熵。
Skip-gram model
CBOW的好處是對(duì)上下文詞語的分布在詞向量上進(jìn)行了平滑,去掉了噪聲,因此在小數(shù)據(jù)集上很有效。而Skip-gram的方法中,用一個(gè)詞預(yù)測(cè)其上下文,得到了當(dāng)前詞上下文的很多樣本,因此可用于更大的數(shù)據(jù)集。
如上圖所示,Skip-gram模型的具體做法是,將一個(gè)詞的詞向量映射到2n個(gè)詞的詞向量(2n表示當(dāng)前輸入詞的前后各n個(gè)詞),然后分別通過softmax得到這2n個(gè)詞的分類損失值之和。
我們介紹了詞向量、語言模型和詞向量的關(guān)系、以及如何通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型獲得詞向量。在信息檢索中,我們可以根據(jù)向量間的余弦夾角,來判斷query和文檔關(guān)鍵詞這二者間的相關(guān)性。在句法分析和語義分析中,訓(xùn)練好的詞向量可以用來初始化模型,以得到更好的效果。在文檔分類中,有了詞向量之后,可以用聚類的方法將文檔中同義詞進(jìn)行分組,也可以用 N-gram 來預(yù)測(cè)下一個(gè)詞。希望大家在本章后能夠自行運(yùn)用詞向量進(jìn)行相關(guān)領(lǐng)域的研究。
參考: https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/simple_case/word2vec/README.cn.html
二、現(xiàn)在很多做AI語音的廠商都在說NLP,NLP和傳統(tǒng)關(guān)鍵詞的區(qū)別究竟是什么?
從外呼系統(tǒng)誕生的那一刻起,基于人工規(guī)則關(guān)鍵詞匹配的語義理解方法,和以NLP算法驅(qū)動(dòng)的語義理解方法,一直是對(duì)話系統(tǒng)工業(yè)界領(lǐng)域的爭(zhēng)論焦點(diǎn)?;陉P(guān)鍵詞匹配的語義理解方法,對(duì)于快速搭建新對(duì)話場(chǎng)景有著其獨(dú)特優(yōu)勢(shì)。在AI訓(xùn)練師的指導(dǎo)下,機(jī)器人通過已配置好的關(guān)鍵詞進(jìn)行匹配,能很快根據(jù)用戶的表達(dá)做出機(jī)械的理解反應(yīng),所設(shè)置的關(guān)鍵詞模板越復(fù)雜,機(jī)器人能應(yīng)對(duì)的對(duì)話內(nèi)容也越豐富。然而,簡(jiǎn)單粗暴的配置方式相應(yīng)地也帶來了一定的負(fù)面作用。隨著對(duì)話內(nèi)容的增多,關(guān)鍵詞窮舉所帶來的難度呈指數(shù)級(jí)上升,形成的語義沖突更是不可忽視的難題。而以NLP算法驅(qū)動(dòng)的語義理解方法則恰恰相反,算法的有效工作,往往是“嬌生慣養(yǎng)”型的,需要前沿的算法和大量的垂直數(shù)據(jù)作為基礎(chǔ)支持。然而,一旦滿足前沿算法+大數(shù)據(jù)兩大條件,以NLP驅(qū)動(dòng)的方法在復(fù)雜對(duì)話場(chǎng)景的語義泛化性和精準(zhǔn)識(shí)別上就能夠大顯神威。
只有當(dāng)行業(yè)區(qū)分后,垂直行業(yè)下的語料積累和NLP算法模型準(zhǔn)確度才有提升的可能。我們?cè)谝延械?.0NLP系統(tǒng)中做過測(cè)試,分場(chǎng)景的意圖判斷準(zhǔn)確度相比泛行業(yè)可以提升5%-7%。利用算法能力進(jìn)行最終意向輸出,替代過往的規(guī)則匹配,可以讓意向判斷更貼近真實(shí)的轉(zhuǎn)化效果。與此同時(shí),通過垂直領(lǐng)域下語料庫、意圖庫的積累和調(diào)用,以及話術(shù)智能推薦,可以大大提升AIT話術(shù)交付的響應(yīng)速度,更好應(yīng)對(duì)618、雙十一等大促節(jié)點(diǎn)下的客戶爆發(fā)性需求。
有了NLP2.0系統(tǒng)的加持,原先一些高難度的對(duì)話場(chǎng)景有了實(shí)現(xiàn)的可能。曾經(jīng),對(duì)于調(diào)查問卷、用戶滿意度調(diào)研之類的外呼需求,在關(guān)鍵信息提取、時(shí)間地址組織名等實(shí)體信息抽取上的要求非常高,靠簡(jiǎn)單關(guān)鍵詞窮舉是根本無法滿足要求的。而有了NLP的實(shí)體識(shí)別功能和關(guān)鍵信息提取功能,復(fù)雜對(duì)話場(chǎng)景的數(shù)據(jù)分析變得可行;有了情緒識(shí)別和情景感知功能的加成,同樣的用戶回復(fù)⌄,機(jī)器人有了更多的語言表達(dá)選擇,真正做到了千人千面;而有了知識(shí)圖譜算法的支持,極大地減少了復(fù)雜重復(fù)問題的實(shí)施投入,也讓機(jī)器人在客戶各式各樣問題面前變得更加從容。
此次發(fā)布的NLP2.0系統(tǒng),最核心的亮點(diǎn),一知智能在杭州人工智能計(jì)算中心與升騰生態(tài)軟硬件進(jìn)行調(diào)優(yōu),結(jié)合浙大·一知人工智能聯(lián)合研究中心,共同提出了在泛消費(fèi)領(lǐng)域的專用大規(guī)模預(yù)訓(xùn)練語言模型“EAZI”。在基于數(shù)百G級(jí)別涵蓋消費(fèi)領(lǐng)域信息的互聯(lián)網(wǎng)網(wǎng)頁、論壇、微博、新聞等形式的高質(zhì)量語料訓(xùn)練,結(jié)合數(shù)億條一知智能自身積累的消費(fèi)場(chǎng)景對(duì)話數(shù)據(jù)進(jìn)行專項(xiàng)任務(wù)訓(xùn)練,可以同時(shí)支持多種語義理解算法,包含意圖識(shí)別、問答識(shí)別、實(shí)體識(shí)別、情感識(shí)別、知識(shí)圖譜以及對(duì)話內(nèi)容生成等多項(xiàng)NLP常見任務(wù)?!癊AZI”模型在Transformer架構(gòu)基礎(chǔ)上,自研基于語言學(xué)知識(shí)、領(lǐng)域數(shù)據(jù)增強(qiáng)技術(shù),從模型架構(gòu)表征層和交互層,再到預(yù)訓(xùn)練策略進(jìn)行了全方位改進(jìn)。具體而言:
1、細(xì)粒度詞法表征,并基于詞義信息引入注意力機(jī)制,對(duì)句法進(jìn)行約束,提升模型對(duì)于語言學(xué)知識(shí)的建模能力。
2、結(jié)合消費(fèi)場(chǎng)景積累的大量實(shí)體信息和引入Discourse的Mask機(jī)制,強(qiáng)化模型對(duì)場(chǎng)景專項(xiàng)識(shí)別的表征能力。有了垂直領(lǐng)域數(shù)據(jù)的增強(qiáng),識(shí)別算法對(duì)于領(lǐng)域內(nèi)常見的表達(dá)方式語言成分和語篇關(guān)系表征更為敏感。
3、為滿足工業(yè)界高并發(fā)、低時(shí)延、低資源消耗需求,EAZI使用了大模型蒸餾和初始化小模型策略,最終實(shí)現(xiàn)參數(shù)僅為十億級(jí)別的輕量化預(yù)訓(xùn)練模型。相比于動(dòng)輒千億參數(shù)的大模型而言,在消費(fèi)領(lǐng)域?qū)S械淖R(shí)別場(chǎng)景中,實(shí)現(xiàn)效果與識(shí)別速度的雙向提升,突破傳統(tǒng)“巨無霸”大模型的效率限制。
4、在實(shí)際訓(xùn)練過程中,一知智能與華為杭州計(jì)算中心共同協(xié)作,在升騰生態(tài)下,算力達(dá)到40 PFLOPS FP16,相當(dāng)于2萬臺(tái)高性能PC的計(jì)算能力,顯著提升算力的快速響應(yīng)。
三、產(chǎn)品經(jīng)理如何入門自然語言處理(NLP)?
自然語言處理,顧名思義即自然語言處理的技術(shù),通常用縮寫NLP指代。各類產(chǎn)品經(jīng)理日常的工作中,會(huì)遇到大量自然語言處理的應(yīng)用場(chǎng)景。以智能推薦為例,在待推薦物文本分類、主題分類等場(chǎng)景中都會(huì)用到。本篇以產(chǎn)品經(jīng)理的視角,談?wù)勅绾稳腴T自然語言處理。
統(tǒng)計(jì)模型
很多大牛對(duì)人工智能的抨擊在于,認(rèn)為人工智能只是統(tǒng)計(jì)學(xué),并不是真正的具有「智能」。在當(dāng)前「弱人工智能」的時(shí)代背景下,學(xué)習(xí)統(tǒng)計(jì)模型仍然有非常重要的價(jià)值。
拿經(jīng)常用于分類場(chǎng)景的貝葉斯模型為例,在已經(jīng)拿到用于訓(xùn)練集的語料中,可以通過統(tǒng)計(jì)得出A出現(xiàn)的概率、B出現(xiàn)的概率、在A出現(xiàn)的前提下B出現(xiàn)的概率,計(jì)算如果B出現(xiàn)同時(shí)A出現(xiàn)的概率(即給定B樣本計(jì)算出現(xiàn)A的概率),就可以直接從前面三個(gè)統(tǒng)計(jì)概率計(jì)算得出。
當(dāng)然以上貝葉斯模型成立并且表現(xiàn)良好的前提是 數(shù)據(jù)量足夠大,滿足大數(shù)定律 。不難發(fā)現(xiàn)統(tǒng)計(jì)模型的精髓在于,假設(shè)數(shù)據(jù)量足夠大后,可以用已有樣本的統(tǒng)計(jì)情況,來做判別或預(yù)測(cè)。
閉環(huán)流程
NLP技術(shù)應(yīng)用場(chǎng)景廣泛且松散,且在很多情況下,作為中間處理技術(shù)流程,不被最終用戶所感知。再加上近些年新的自然語言處理技術(shù)不斷出現(xiàn),給想入門自然語言處理的產(chǎn)品經(jīng)理眼花繚亂,不知如何入手的困惑。
入門自然語言處理也需要講究MVP,以最小可行性的閉環(huán),建立起初步認(rèn)知,再不斷擴(kuò)展和豐富NLP的知識(shí)體系,逐步建立大的框架和認(rèn)知。
通常的自然語言處理任務(wù)可從「分詞」—>「構(gòu)建特征」—>「訓(xùn)練模型」—>「分類或預(yù)測(cè)應(yīng)用」。
以上流程中,除了分詞外,與機(jī)器學(xué)習(xí)通常流程一樣。英文一個(gè)個(gè)單詞本身就是分開的,是不需要分詞的。但對(duì)于中文來講,詞與詞之間是連接在一起的,需要將文本內(nèi)容,切分成一個(gè)個(gè)詞再處理。
完成分詞后,計(jì)算機(jī)無法直接理解漢字,需要通過將一個(gè)個(gè)詞,編碼成計(jì)算機(jī)可以理解的數(shù)字再做處理,這個(gè)階段即構(gòu)建特征階段。
特征完成后,再根據(jù)自然語言處理任務(wù)類型,決定采用哪種算法訓(xùn)練模型,最后將訓(xùn)練好的模型應(yīng)用于特定的分類或預(yù)測(cè)任務(wù)上。一個(gè)自然語言處理任務(wù)就完成了。
標(biāo)注與預(yù)處理
前幾年從事的智能推薦產(chǎn)品中,推薦系統(tǒng)本身以CTR作為優(yōu)化目標(biāo),實(shí)際是將點(diǎn)擊與否作為label,相當(dāng)于用戶幫著做了分布式的標(biāo)注工作。
傳統(tǒng)基于統(tǒng)計(jì)的自然語言處理任務(wù)中,大部分任務(wù)類型是有監(jiān)督學(xué)習(xí),需要人在已有語料上做大量的標(biāo)注工作,才能保證任務(wù)的正常進(jìn)行。
例如情感識(shí)別是否為正向情感,就需要人在語料上,將一條條信息標(biāo)出是否為正向情感。再將此語料作為訓(xùn)練集訓(xùn)練模型,生成情感識(shí)別的分類模型用于情感識(shí)別。
文檔的預(yù)處理通常是將拿到的語料做去除標(biāo)點(diǎn)符號(hào)、停用詞、數(shù)字等處理,去除自然語言無關(guān)內(nèi)容,加快計(jì)算機(jī)計(jì)算和模型生成速度。
在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。
常見任務(wù)及算法原理
自然語言處理通常有以下應(yīng)用場(chǎng)景:分詞、詞性標(biāo)注、主題識(shí)別、情感識(shí)別、文本分類、機(jī)器翻譯等。下面將主要應(yīng)用及背后算法原理作簡(jiǎn)要介紹。
有監(jiān)督的分類問題。 無論情感識(shí)別還是垃圾郵件分類,本質(zhì)上都可以轉(zhuǎn)化為幾個(gè)目標(biāo)類型的分類問題。按照貝葉斯公式的邏輯,將已有語料數(shù)據(jù)進(jìn)行類型標(biāo)注,基于統(tǒng)計(jì)模型的邏輯,訓(xùn)練得到分類模型,將待識(shí)別內(nèi)容通過模型計(jì)算打分,根據(jù)閾值即可完成識(shí)別。例如二分類的情感識(shí)別,可以將0-0.5區(qū)間歸為消極情感,0.5-1區(qū)間歸為積極情感。多分類則是計(jì)算待分類樣本離哪個(gè)區(qū)間更近,即識(shí)別為哪種類型。
無監(jiān)督的分類問題 。自然語言處理中,經(jīng)常會(huì)有主題識(shí)別任務(wù),這類任務(wù)通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無監(jiān)督學(xué)習(xí)自動(dòng)完成按照主題的詞聚類。由于是無監(jiān)督學(xué)習(xí),需要根據(jù)實(shí)際情況指定學(xué)習(xí)出的主題個(gè)數(shù),最終選擇主題個(gè)數(shù)最合理的結(jié)果。依賴人的主觀判斷和理解一系列詞背后組成的主題。
生成問題 。生成問題常見的有文本糾錯(cuò)、詞生成、句子生成、機(jī)器翻譯等。生成問題從統(tǒng)計(jì)學(xué)邏輯上講,是基于已有語料的統(tǒng)計(jì),計(jì)算出接下來要生成內(nèi)容的概率。拿機(jī)器翻譯舉例,需要事先準(zhǔn)備好中英文對(duì)照的大量語料,基于語料,機(jī)器學(xué)習(xí)到中英文詞對(duì)照、短語對(duì)照的知識(shí),最終在翻譯場(chǎng)景下,輸出中文或英文相應(yīng)的翻譯內(nèi)容。
再拿隱馬爾可夫模型做詞性標(biāo)注舉例,基于已經(jīng)標(biāo)注的語料,隱馬爾可夫模型可以學(xué)習(xí)到詞與詞之間詞性的狀態(tài)轉(zhuǎn)移概率,基于這個(gè)概率可以計(jì)算出一個(gè)詞屬于哪種詞性。
深度學(xué)習(xí)的應(yīng)用。 CNN構(gòu)建的神經(jīng)網(wǎng)絡(luò),比較適合解決NLP分類問題,但由于沒有記憶,無法解決生成問題。RNN相較于CNN可以解決一定長(zhǎng)度記憶問題,適合解決NLP領(lǐng)域一定長(zhǎng)度的生成問題,例如詞生成,但無法保留長(zhǎng)期記憶。LSTM具有長(zhǎng)期記憶的手段,可以做生成句子的任務(wù)。
NLP 應(yīng)用價(jià)值
文本是最常見的生產(chǎn)資料,產(chǎn)品經(jīng)理學(xué)習(xí)NLP的原理及應(yīng)用,可以開闊解決問題的視野。
拿在線教育行業(yè)舉例,利用自然語言處理能力,可以自動(dòng)識(shí)別出學(xué)生評(píng)論的情感傾向,可以輔助老師進(jìn)行作文批改、自動(dòng)出題、自動(dòng)解題。
不難看出,自然語言處理的應(yīng)用場(chǎng)景,并非人做不了,而是可以替代人類的手工勞動(dòng),大大提升任務(wù)的效率,將人解放出來,做更有價(jià)值的工作。
小樂帝,一線AI產(chǎn)品經(jīng)理、科技優(yōu)秀作者、產(chǎn)品經(jīng)理讀書會(huì)創(chuàng)始人。
「產(chǎn)品經(jīng)理讀書會(huì)」
專注于愛讀書愛思考的產(chǎn)品人提供讀書推薦、產(chǎn)品思考、以書會(huì)友的環(huán)境
四、nlp cv ml dm都是什么
分別是圖像和文本兩條支線的技術(shù)棧。最大的區(qū)別還是你需要面對(duì)的數(shù)據(jù)形式不同。數(shù)字圖像的話通常你要處理矩陣(matrix)和頻率等數(shù)據(jù)。文本上你要面對(duì)序列(time-based)和語義等形式的數(shù)據(jù)。雖然算法和路徑,還有優(yōu)化方法會(huì)有很多共通之處,但是因?yàn)橛?xùn)練數(shù)據(jù)和建?;诘臄?shù)據(jù)的形式不同,cv和nlp還是有很多壁壘和代溝。然后換一個(gè)角度來說,應(yīng)用場(chǎng)景還有職業(yè)發(fā)展路線,和所銜接的行業(yè),也會(huì)很不同。
以上就是關(guān)于NLP算法是什么相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
onlinegame網(wǎng)站(online gamea)
杭州中國動(dòng)漫博物館4樓開放時(shí)間(杭州中國動(dòng)漫博物館4樓開放時(shí)間是幾點(diǎn))