-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
nlp分類問(wèn)題(nlp 分類)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于nlp分類問(wèn)題的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、了解下NLP理解層次,于你的幫助
以前聽過(guò)這么名詞,并且也不斷有接觸的老師或者朋友有學(xué)習(xí)或者應(yīng)用這個(gè)內(nèi)容,于我來(lái)說(shuō)帶點(diǎn)神秘。
我的理解如下:
1、用NLP理解層次,可以去思考一個(gè)人的做事根源或者分析事情發(fā)展,從而更好的理解和應(yīng)用在一個(gè)人的長(zhǎng)期發(fā)展及具體事情的問(wèn)題解決。
2、NLP理解層次分成6個(gè)層次,其中下面三個(gè)屬于低層次,上面三個(gè)屬于高層次。
由上到下依次是
1)精神:就是我與外部的關(guān)系,鏈接等
2)身份:就是我所在的位置,我是誰(shuí)
3)信念/價(jià)值觀:我的理念 我達(dá)到什么
4)能力:我具有的技能,實(shí)力
5)行為:我所做出來(lái)的言行舉止,交流狀態(tài)等
6)環(huán)境:我所在的地點(diǎn),周圍人及事物 發(fā)生的
3、有困難的事情,從所在層級(jí)往上一層級(jí),能更好找到解決方式,但是從平級(jí)或者往下找,則相對(duì)困難,有個(gè)詞,叫降維打擊也是這個(gè)理解吧
舉例:
如果你想贊揚(yáng)一個(gè)人,從上三層表達(dá),會(huì)收到意想不到的效果。
講一個(gè)反面的案例吧,這是我一個(gè)女性朋友反饋我的真實(shí)案例,她去幫一個(gè)朋友的忙,出席了一個(gè)每年一次重要會(huì)議,于她來(lái)說(shuō),這是她第一次參與這個(gè)會(huì)議。因?yàn)樗救耸莾?nèi)外兼修的,也就是那種明明可以靠顏值,但是偏偏用才華。會(huì)議很順利,結(jié)束后,現(xiàn)場(chǎng)會(huì)議幾個(gè)工作人員,都上來(lái)寒暄,并多次稱贊她太漂亮之類的話,她心里就不太舒服,要知道這個(gè)會(huì)議的發(fā)言內(nèi)容也是她精心準(zhǔn)備好幾個(gè)個(gè)晚上的。后來(lái)她才知道,每年這個(gè)會(huì)議,邀請(qǐng)幾位嘉賓中,必須要有一位長(zhǎng)相極好的女嘉賓發(fā)言。
她后來(lái)吐槽,她已經(jīng)30多歲了,不是那種20多歲的只憑說(shuō)漂亮就心花怒放的階段了,但凡如果對(duì)方說(shuō)她有氣質(zhì),她還是可以接受的。
如果用N LP 理解層次分析她的這個(gè)事情:
1)精神:影響和鏈接更多人,能轉(zhuǎn)化為實(shí)際應(yīng)用
2)身份:會(huì)議的發(fā)言嘉賓,是一個(gè)行業(yè)知識(shí)傳播者
3)信念/價(jià)值觀:更好的完成自己負(fù)責(zé)會(huì)議要求,讓參加會(huì)議的人通過(guò)她的發(fā)言,有所引導(dǎo)和啟發(fā)
4)能力:組織發(fā)言稿及自身形象禮儀素養(yǎng)
5)行為:老師的發(fā)言及舉止呈現(xiàn)
6)環(huán)境:會(huì)議現(xiàn)場(chǎng) 與會(huì)的人員等等
——其實(shí),與會(huì)的工作人員稱贊她的上三層,我相信,她感受會(huì)很好,至少明年肯定會(huì)愿意再參加這個(gè)會(huì)議。但從和她溝通中,我感受到了她的無(wú)奈。
于我的工作生活有什么指導(dǎo)意義。
1、做事情,對(duì)事不對(duì)人
遇人不淑的時(shí)候,認(rèn)清自己所要的目標(biāo)是什么,不被他人影響(至少不要太被波及情緒)
2、理解和包容自己的不完美
一些學(xué)習(xí)轉(zhuǎn)化慢,不是能力不成,而是身份定位不相符,一天24小時(shí)時(shí)間有限不能浪費(fèi),接受不完美。
3、會(huì)外部環(huán)境看得淡然
不是所有的事情,都是往自己的方向發(fā)展,因?yàn)榇蟓h(huán)境變化產(chǎn)生的反應(yīng)難以預(yù)料。
PS:百度了幾個(gè)圖片和網(wǎng)絡(luò)解釋,以下內(nèi)容均選自網(wǎng)絡(luò)
每一件與我們?nèi)松嘘P(guān)系的事,我們都會(huì)賦予其一些意義。人生里事情這么多,我們不斷地處理它們,往往因?yàn)槊β刀兊帽粍?dòng)和迷惘,不知道什么應(yīng)該做,什么才是重要的;也分不清哪些事情是短暫不足道的,哪些是對(duì)人生有深遠(yuǎn)影響的。
其實(shí),事情的意義是可以被分類而因此理出其中的相互比較標(biāo)準(zhǔn)的。如果我們能夠把大部分時(shí)間和精力放在有深遠(yuǎn)意義的事情上,累積出來(lái)的效果,自然把人生推至更理想的高線上。
理解層次早期被稱為Neuro-Logical Levels,最初由格雷戈里·貝特森發(fā)展出來(lái),后由羅伯特·迪爾茨(Robert Dilts)整理,在1991年推出。理解層次(見圖6一1)是一套模式(Pattern),因?yàn)樗梢杂脕?lái)解釋社會(huì)上出現(xiàn)的很多事情。理解層次在輔導(dǎo)工作中讓我們明白受導(dǎo)者的困擾所在,因而更容易幫助他找出解決問(wèn)題的方法,是很實(shí)用的一套概念。而NLP中也有一套技巧被稱為“理解層次貫通法”,幫助用者明白從困惑中突破的關(guān)系,并且與自己潛意識(shí)的深層力量聯(lián)系,使得人生策劃方面更有效果,所以也是技巧。
我們的大腦在處理任何事情的時(shí)候,都分為六個(gè)層次,它們分別是:
1.精神
我與世界上其他人、事物的關(guān)系。當(dāng)一個(gè)人談及他的人生的意義或者一家公司談及它對(duì)社會(huì)的貢獻(xiàn)時(shí),便涉及到“精神”的層次了。
2.身份
一個(gè)人或者一家公司怎樣看自己(我是誰(shuí)?)。給自己定位,或者描述出自己的定位,便涉及到身份的意義了。承接上面(精神)的意思,便是“自己準(zhǔn)備以怎樣的身份去實(shí)現(xiàn)人生的意義”。
3.信念、價(jià)值
為了配合上述的身份,我需要有一套怎樣的信念和價(jià)值?每一個(gè)人活在這個(gè)世界上,必然地已經(jīng)有了一個(gè)不自覺的身份,亦已經(jīng)有了一套相關(guān)的信念與價(jià)值。它們決定我們做每一件事的態(tài)度,但并不常會(huì)有意識(shí)地涌現(xiàn)。(一般來(lái)說(shuō)只有在反省整個(gè)人生或者學(xué)習(xí)NLP的時(shí)候,一個(gè)人才會(huì)想到身份和信念/價(jià)值的問(wèn)題)在每天的生活里持著一套信念和價(jià)值去處理每一件事。多數(shù)出現(xiàn)的信念、價(jià)值層次問(wèn)題是:
— 為什么做(或不做)
— 有些什么(重要)意義?
— 應(yīng)該是怎樣的?
— 對(duì)我有什么好處?
4.能力
這個(gè)層次涉及到一個(gè)人怎樣認(rèn)識(shí)自己能有的選擇(有沒(méi)有選擇,或者是“我必須這樣做?”)。每一個(gè)選擇都是一份能力,故此選擇越多,能力越大。我們一般說(shuō)的能力,表面上指的是技能:懂英文、會(huì)用電腦、用某種技巧做某事。但是細(xì)心想想,它們其實(shí)也都是更多的選擇。情緒代表能力,也列入這個(gè)層次。
5.行為
這個(gè)層次所指的是“做什么?”、“有沒(méi)有做?”,即能力的挑選和實(shí)際發(fā)揮,也就是在環(huán)境中我的實(shí)際運(yùn)作。
6.環(huán)境
“環(huán)境”包括了所有身體以外,即外界的條件,世界上的種種人、事、物、時(shí)、地、金錢和設(shè)備等都屬“環(huán)境”。
圖片:本人拍攝于北京
二、NLP基本術(shù)語(yǔ)與基本概念-上
詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,英文單詞之間是以空格作為自然分界符的,而漢語(yǔ)是以字為基本的書寫單位,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,因此,中文詞語(yǔ)分析是中文分詞的基礎(chǔ)與關(guān)鍵。中文和英文都存在分詞的需求,不過(guò)相較而言,英文單詞本來(lái)就有空格進(jìn)行分割,所以處理起來(lái)相對(duì)方便。但是,由于中文是沒(méi)有分隔符的,所以分詞的問(wèn)題就比較重要。分詞常用的手段是基于字典的最長(zhǎng)串匹配,據(jù)說(shuō)可以解決85%的問(wèn)題,但是歧義分詞很難。舉個(gè)例子,“美國(guó)會(huì)通過(guò)對(duì)臺(tái)售武法案”,我們既可以切分為“美國(guó)/會(huì)/通過(guò)對(duì)臺(tái)售武法案”,又可以切分成“美/國(guó)會(huì)/通過(guò)對(duì)臺(tái)售武法案”。
中文分詞技術(shù)可分為三大類:
基于機(jī)器學(xué)習(xí)的方法里,往往需要對(duì)詞的詞性進(jìn)行標(biāo)注。詞性一般是指動(dòng)詞、 名詞、形容詞等。標(biāo)注的目的是表征詞的一-種隱藏狀態(tài),隱藏狀態(tài)構(gòu)成的轉(zhuǎn)移就構(gòu)成了狀態(tài)轉(zhuǎn)移序列。例如:我/r愛/v北京/ns天安門/ns。其中,ns代表名詞,v代表動(dòng)詞,ns、v都是標(biāo)注,以此類推。
詞性作為對(duì)詞的一種泛化,在語(yǔ)言識(shí)別、句法分析、信息抽取等任務(wù)中有重要作用。
http://blog.csdn.net/truong/article/details/18847549
命名實(shí)體是指從文本中識(shí)別具有特定類別的實(shí)體(通常是名詞),例如人名、地名、機(jī)構(gòu)名、專有名詞等。主要包含兩部分:
命名實(shí)體識(shí)別是信息提取、問(wèn)答系統(tǒng)、句法分析、機(jī)器翻譯、面向SemanticWeb的元數(shù)據(jù)標(biāo)注等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具。
https://blog.csdn.net/u012879957/article/details/81777838
句法分析往往是一種基于規(guī)則的專家系統(tǒng)。當(dāng)然也不是說(shuō)它不能用統(tǒng)計(jì)學(xué)的方法進(jìn)行構(gòu)建,不過(guò)最初的時(shí)候,還是利用語(yǔ)言學(xué)專家的知識(shí)來(lái)構(gòu)建的。句法分析的目的是解析句子中各個(gè)成分的依賴關(guān)系。所以,往往最終生成的結(jié)果是一棵 句法分析樹。句法分析可以解決傳統(tǒng)詞袋模型不考慮上下文的問(wèn)題。比如,“小李是小楊的班長(zhǎng)”和“小楊是小李的班長(zhǎng)”,這兩句話,用詞袋模型是完全相同的,但是句法分析可以分析出其中的主從關(guān)系,真正理清句子的關(guān)系。
中文中代詞出現(xiàn)的頻率很高,它的作用的是用來(lái)表征前文出現(xiàn)過(guò)的人名、地名等。例如,清華大學(xué)坐落于北京,這家大學(xué)是目前中國(guó)最好的大學(xué)之-。 在這句話中, 其實(shí)“清華大學(xué)”這個(gè)詞出現(xiàn)了兩次,“這家大學(xué)指代的就是清華大學(xué)。但是出于中文的習(xí)慣,我們不會(huì)把“清華大學(xué)”再重復(fù)一遍。
一般情況下,指代分為2種:回指和共指。
回指是指當(dāng)前的照應(yīng)語(yǔ)與上文出現(xiàn)的詞、短語(yǔ)或句子(句群)存在密切的語(yǔ)義關(guān)聯(lián)性,指代依存于上下文語(yǔ)義中,在不同的語(yǔ)言環(huán)境中可能指代不同的實(shí)體,具有非對(duì)稱性和非傳遞性;
共指主要是指2個(gè)名詞(包括代名詞、名詞短語(yǔ))指向真實(shí)世界中的同一參照體,這種指代脫離上下文仍然成立。
目前指代消解研究主要側(cè)重于等價(jià)關(guān)系,只考慮2個(gè)詞或短語(yǔ)是否指示現(xiàn)實(shí)世界中同一實(shí)體的問(wèn)題,即共指消解。
中文的指代主要有3種典型的形式:
所謂情感識(shí)別,本質(zhì)上是分類問(wèn)題,經(jīng)常被應(yīng)用在輿情分析等領(lǐng)域。情感一般可以分為兩類,即正面、負(fù)面,也可以是三類,在前面的基礎(chǔ)上,再加上中性類別。一般來(lái)說(shuō),在電商企業(yè),情感識(shí)別可以分析商品評(píng)價(jià)的好壞,以此作為下一個(gè)環(huán)節(jié)的評(píng)判依據(jù)。通??梢曰谠~袋模型+分類器,或者現(xiàn)在流行的詞向量模型+RNN。經(jīng)過(guò)測(cè)試發(fā)現(xiàn),后者比前者準(zhǔn)確率略有提升。
自動(dòng)糾錯(cuò)在搜索技術(shù)以及輸人法中利用得很多。由于用戶的輸人出錯(cuò)的可能性比較大,出錯(cuò)的場(chǎng)景也比較多。所以,我們需要一個(gè)糾錯(cuò)系統(tǒng)。具體做法有很多,可以基于N-Gram進(jìn)行糾錯(cuò),也可以通過(guò)字典樹、有限狀態(tài)機(jī)等方法進(jìn)行糾錯(cuò)。
這是一種類似機(jī)器人的人工智能系統(tǒng)。比較著名的有:蘋果Siri、IBM Watson、微軟小冰等。問(wèn)答系統(tǒng)往往需要語(yǔ)音識(shí)別、合成,自然語(yǔ)言理解、知識(shí)圖譜等多項(xiàng)技術(shù)的
問(wèn)答系統(tǒng)(Question Answering System, QA)是信息檢索系統(tǒng)的一種高級(jí)形式,它能用準(zhǔn)確、簡(jiǎn)潔的自然語(yǔ)言回答用戶用自然語(yǔ)言提出的問(wèn)題。
基于自由文本的問(wèn)答系統(tǒng),基本上分為三個(gè)模塊:
問(wèn)句分析->文檔檢索->答案抽?。?yàn)證)
https://blog.csdn.net/class_guy/article/details/81535287
針對(duì)目標(biāo)句子,進(jìn)行各種句法分析,如分詞、詞性標(biāo)記、命名實(shí) 體識(shí)別及鏈接、句法分析、語(yǔ)義角色識(shí)別和多義詞消歧等。
抽取目標(biāo)文本中的主要信息,比如從一-條新聞中抽取關(guān)鍵信息。主要是了解是誰(shuí)、于何時(shí)、為何、對(duì)誰(shuí)、做了何事、產(chǎn)生了有什么結(jié)果。涉及實(shí)體識(shí)別、時(shí)間抽取、因果關(guān)系抽取等多項(xiàng)關(guān)鍵技術(shù)。
主要包含了對(duì)文本的聚類、分類、信息抽取、摘要、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的呈現(xiàn)界面。
將輸人的源語(yǔ)言文本通過(guò)自動(dòng)翻譯轉(zhuǎn)化為另種語(yǔ)言的文本。根據(jù)輸人數(shù)據(jù)類型的不同,可細(xì)分為文本翻譯、語(yǔ)音翻譯、手語(yǔ)翻譯、圖形翻譯等。機(jī)器翻譯從最早的基于規(guī)則到二十年前的基于統(tǒng)計(jì)的方法,再到今天的基于深度學(xué)習(xí)(編解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。
對(duì)大規(guī)模的文檔進(jìn)行索引??珊?jiǎn)單對(duì)文檔中的詞匯,賦以不同的權(quán)重來(lái)建立索引,也可使用算法模型來(lái)建立更加深層的索引。查詢時(shí),首先對(duì)輸人比進(jìn)行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序,最后輸出排序得分最高的文檔。
針對(duì)某個(gè)自然語(yǔ)言表達(dá)的問(wèn)題,由問(wèn)答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語(yǔ)言查詢語(yǔ)句進(jìn)行語(yǔ)義分析,包括實(shí)體鏈接、關(guān)系識(shí)別,形成邏輯表達(dá)式,然后到知識(shí)庫(kù)中查我可能的候選答案并通過(guò)-個(gè)排序機(jī)制找出最佳的答案。
系統(tǒng)通過(guò)多回合對(duì)話,跟用戶進(jìn)行聊天、回答、完成某項(xiàng)任務(wù)。主要涉及用戶意圖理解、通用聊天引擎、問(wèn)答引擎、對(duì)話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對(duì)話能力。同時(shí),為了體現(xiàn)個(gè)性化,對(duì)話系統(tǒng)還需要基于用戶畫像做個(gè)性化回復(fù)
參考: https://mp.weixin.qq.com/s/QjpOzO8Mt17mtnC7efT8nQ
三、NLP的任務(wù)
本文整理自網(wǎng)絡(luò),主要是對(duì)自然語(yǔ)言處理能發(fā)展和落地的方向進(jìn)行總結(jié),也算是對(duì)自然語(yǔ)言處理常見任務(wù)的總結(jié)。
NLP的四大任務(wù)如下:
序列標(biāo)注(Sequence labeling)是我們?cè)诮鉀QNLP問(wèn)題時(shí)經(jīng)常遇到的基本問(wèn)題之一。在序列標(biāo)注中,我們想對(duì)一個(gè)序列的每一個(gè)元素標(biāo)注一個(gè)標(biāo)簽。一般來(lái)說(shuō),一個(gè)序列指的是一個(gè)句子,而一個(gè)元素指的是句子中的一個(gè)詞。比如信息提取問(wèn)題可以認(rèn)為是一個(gè)序列標(biāo)注問(wèn)題,如提取出會(huì)議時(shí)間、地點(diǎn)等。
序列標(biāo)注一般可以分為兩類:
命名實(shí)體識(shí)別(Named entity recognition, NER)是信息提取問(wèn)題的一個(gè)子任務(wù),需要將元素進(jìn)行定位和分類,如人名、組織名、地點(diǎn)、時(shí)間、質(zhì)量等。
舉個(gè)NER和聯(lián)合標(biāo)注的例子。一個(gè)句子為:Yesterday , George Bush gave a speech. 其中包括一個(gè)命名實(shí)體:George Bush。我們希望將標(biāo)簽“人名”標(biāo)注到整個(gè)短語(yǔ)“George Bush”中,而不是將兩個(gè)詞分別標(biāo)注。這就是聯(lián)合標(biāo)注。
1.1 BIO標(biāo)注
解決聯(lián)合標(biāo)注問(wèn)題最簡(jiǎn)單的方法,就是將其轉(zhuǎn)化為原始標(biāo)注問(wèn)題。標(biāo)準(zhǔn)做法就是使用BIO標(biāo)注。
BIO標(biāo)注:將每個(gè)元素標(biāo)注為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置,“O”表示不屬于任何類型。
比如,我們將 X 表示為名詞短語(yǔ)(Noun Phrase, NP),則BIO的三個(gè)標(biāo)記為:
因此可以將一段話劃分為如下結(jié)果:
我們可以進(jìn)一步將BIO應(yīng)用到NER中,來(lái)定義所有的命名實(shí)體(人名、組織名、地點(diǎn)、時(shí)間等),那么我們會(huì)有許多 B 和 I 的類別,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下結(jié)果:
[圖片上傳失敗...(image-b1cfb3-1609330627120)]
1.2 序列標(biāo)注常用模型
選擇雙向LSTM的原因是:當(dāng)前詞的tag和前后文都有關(guān)。
1.3 序列標(biāo)注具體任務(wù)
(1)分詞
(2)詞性標(biāo)注(Part-of-Speech tagging ,POS tagging)
(3)命名實(shí)體標(biāo)注(name entity recognition, NER)
2.1 分類的具體任務(wù)
(1)文本分類、情感分類
3.1 具體任務(wù)
(1)句法分析、蘊(yùn)含關(guān)系判斷(entailment)
這類任務(wù)一般直接面向普通用戶,提供自然語(yǔ)言處理產(chǎn)品服務(wù)的系統(tǒng)級(jí)任務(wù),會(huì)用到多個(gè)層面的自然語(yǔ)言處理技術(shù)。
4.1 具體任務(wù)
(1)機(jī)器翻譯(Machine Translation,MT)
Encoder-Decoder的最經(jīng)典應(yīng)用,事實(shí)上這一結(jié)構(gòu)就是在機(jī)器翻譯領(lǐng)域最先提出的。
(2)文本摘要、總結(jié)(Text summarization/Simplication)
輸入是一段文本序列,輸出是這段文本序列的摘要序列。
(3)閱讀理解(Reading Comprehension)
將輸入的文章和問(wèn)題分別編碼,再對(duì)其進(jìn)行解碼得到問(wèn)題的答案。
(4)語(yǔ)音識(shí)別
輸入是語(yǔ)音信號(hào)序列,輸出是文字序列。
(5)對(duì)話系統(tǒng)(Dialogue Systerm)
輸入的是一句話,輸出是對(duì)這句話的回答。
(6)問(wèn)答系統(tǒng)(Question-Answering Systerm)
針對(duì)用戶提出的問(wèn)題,系統(tǒng)給出相應(yīng)的答案。
(7)自動(dòng)文章分級(jí)(Automatic Essay Grading)
給定一篇文章,對(duì)文章的質(zhì)量進(jìn)行打分或分級(jí)。
1. 詞法分析(Lexical Analysis):對(duì)自然語(yǔ)言進(jìn)行詞匯層面的分析,是NLP基礎(chǔ)性工作
2. 句子分析(Sentence Analysis):對(duì)自然語(yǔ)言進(jìn)行句子層面的分析,包括句法分析和其他句子級(jí)別的分析任務(wù)
3. 語(yǔ)義分析(Semantic Analysis):對(duì)給定文本進(jìn)行分析和理解,形成能勾夠表達(dá)語(yǔ)義的形式化表示或分布式表示
4. 信息抽?。↖nformation Extraction):從無(wú)結(jié)構(gòu)文本中抽取結(jié)構(gòu)化的信息
5. 頂層任務(wù)(High-level Tasks):直接面向普通用戶,提供自然語(yǔ)言處理產(chǎn)品服務(wù)的系統(tǒng)級(jí)任務(wù),會(huì)用到多個(gè)層面的自然語(yǔ)言處理技術(shù)
【1】序列標(biāo)注中的BIO標(biāo)注介紹,地址: https://blog.csdn.net/HappyRocking/article/details/79716212
【2】 http://nlpers.blogspot.com.au/2006/11/getting-started-in-sequence-labeling.html
【3】NLP 四大任務(wù),地址: https://www.dazhuanlan.com/2019/08/21/5d5ca1e2826b9/
【4】NLP基本任務(wù),地址: https://blog.csdn.net/lz_peter/article/details/81588430
【5】微信研究員解析深度學(xué)習(xí)在NLP中的發(fā)展和應(yīng)用,地址: https://edu.csdn.net/course/play/8673
【6】從Word Embedding到Bert模型—自然語(yǔ)言處理中的預(yù)訓(xùn)練技術(shù)發(fā)展史 - 張俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699
四、【NLP】BERT常見問(wèn)題匯總
bert結(jié)構(gòu)大體上可分為 輸入 、 N層transformer的encoder 和 輸出 三部分組成。
輸入 由 token embedding 、 segment embedding 和 position embedding 三部分相加組成;
N層transformer的encoder ,在bert_base中N=12,bert_large中N=24
輸出 有 model.get_sequence_out() 和 model.get_pooling_out() 兩種輸出,其shape分別為[batch_size, seq_length, hidden_size]和[batch_size, hidden_size]。
model.get_sequence_out() 輸出主要用于特征提取再處理的序列任務(wù),而 model.get_pooling_out() 輸出可直接接softmax進(jìn)行分類(當(dāng)然需要外加一層dense層將hidden_size轉(zhuǎn)換為num_tag)。
bert適合于自然語(yǔ)言理解(Natural language Understanding, NLU)類任務(wù),如文本分類、信息抽取等;
bert不適合于自然語(yǔ)言生成(Natural language Generation, NLG)類任務(wù)。
因?yàn)閎ert采用的是雙向的語(yǔ)言模型,除了被mask的詞語(yǔ)外,該詞語(yǔ)前后的詞語(yǔ)都可以看到。
而NLG任務(wù)的目標(biāo)是在已知當(dāng)前詞與之前詞語(yǔ)的情況下,預(yù)測(cè)出下一個(gè)詞語(yǔ),直至所有詞語(yǔ)預(yù)測(cè)完成。
以上就是關(guān)于nlp分類問(wèn)題相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
PanDownload官網(wǎng)(pandownload官網(wǎng)安卓版)
常州商業(yè)景觀設(shè)計(jì)圖集(常州商業(yè)景觀設(shè)計(jì)圖集最新)