正文

現(xiàn)代nlp算法是基于（現(xiàn)代nlp算法是基于什么算法）

發(fā)布時(shí)間：2023-04-21 19:49:00 稿源：創(chuàng)意嶺閱讀： 53

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于現(xiàn)代nlp算法是基于的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫(xiě)出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、cv和nlp是算法嗎
2、自然語(yǔ)言處理基礎(chǔ) - NLP
3、文本挖掘與自然語(yǔ)言處理
4、nlp實(shí)習(xí)面試算法題不會(huì)能過(guò)嘛

現(xiàn)代nlp算法是基于（現(xiàn)代nlp算法是基于什么算法）

一、cv和nlp是算法嗎

cv和nlp是算法。cv是計(jì)算機(jī)視覺(jué)，而nlp是自然語(yǔ)言處理，兩者都是計(jì)算機(jī)發(fā)展的重要算法分支，支撐計(jì)算機(jī)智能化發(fā)展的基石，所以cv和nlp是算法。

二、自然語(yǔ)言處理基礎(chǔ) - NLP

什么是自然語(yǔ)言處理

自然語(yǔ)言處理（英語(yǔ)：natural language processing，縮寫(xiě)作 NLP）是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。此領(lǐng)域探討如何處理及運(yùn)用自然語(yǔ)言；自然語(yǔ)言認(rèn)知?jiǎng)t是指讓電腦“懂”人類的語(yǔ)言。自然語(yǔ)言生成系統(tǒng)把計(jì)算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言。自然語(yǔ)言理解系統(tǒng)把自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)程序更易于處理的形式。

自然語(yǔ)言處理有四大類常見(jiàn)的任務(wù)

什么是命名實(shí)體識(shí)別

命名實(shí)體識(shí)別（NER）是信息提?。↖nformation Extraction）的一個(gè)子任務(wù)，主要涉及如何從文本中提取命名實(shí)體并將其分類至事先劃定好的類別，如在招聘信息中提取具體招聘公司、崗位和工作地點(diǎn)的信息，并將其分別歸納至公司、崗位和地點(diǎn)的類別下。命名實(shí)體識(shí)別往往先將整句拆解為詞語(yǔ)并對(duì)每個(gè)詞語(yǔ)進(jìn)行此行標(biāo)注，根據(jù)習(xí)得的規(guī)則對(duì)詞語(yǔ)進(jìn)行判別。這項(xiàng)任務(wù)的關(guān)鍵在于對(duì)未知實(shí)體的識(shí)別?；诖耍麑?shí)體識(shí)別的主要思想在于根據(jù)現(xiàn)有實(shí)例的特征總結(jié)識(shí)別和分類規(guī)則。這些方法可以被分為有監(jiān)督（supervised）、半監(jiān)督（semi-supervised）和無(wú)監(jiān)督（unsupervised）三類。有監(jiān)督學(xué)習(xí)包括隱形馬科夫模型（HMM）、決策樹(shù)、最大熵模型（ME）、支持向量機(jī)（SVM）和條件隨機(jī)場(chǎng)（CRF）。這些方法主要是讀取注釋語(yǔ)料庫(kù)，記憶實(shí)例并進(jìn)行學(xué)習(xí)，根據(jù)這些例子的特征生成針對(duì)某一種實(shí)例的識(shí)別規(guī)則。

什么是詞性標(biāo)注

詞性標(biāo)注 (pos tagging) 是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序，也即確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性的過(guò)程。

什么是文本分類

該技術(shù)可被用于理解、組織和分類結(jié)構(gòu)化或非結(jié)構(gòu)化文本文檔。文本挖掘所使用的模型有詞袋（BOW）模型、語(yǔ)言模型（ngram）和主題模型。隱馬爾可夫模型通常用于詞性標(biāo)注（POS）。其涵蓋的主要任務(wù)有句法分析、情緒分析和垃圾信息檢測(cè)。

GLUE benchmark

General Language Understanding Evaluation benchmark，通用語(yǔ)言理解評(píng)估基準(zhǔn)，用于測(cè)試模型在廣泛自然語(yǔ)言理解任務(wù)中的魯棒性。

LM：Language Model

語(yǔ)言模型，一串詞序列的概率分布，通過(guò)概率模型來(lái)表示文本語(yǔ)義。

語(yǔ)言模型有什么作用？通過(guò)語(yǔ)言模型，可以量化地衡量一段文本存在的可能性。對(duì)于一段長(zhǎng)度為n的文本，文本里每個(gè)單詞都有上文預(yù)測(cè)該單詞的過(guò)程，所有單詞的概率乘積便可以用來(lái)評(píng)估文本。在實(shí)踐中，如果文本很長(zhǎng)，P(wi|context(wi))的估算會(huì)很困難，因此有了簡(jiǎn)化版：N元模型。在N元模型中，通過(guò)對(duì)當(dāng)前詞的前N個(gè)詞進(jìn)行計(jì)算來(lái)估算該詞的條件概率。

重要文獻(xiàn)與資料

https://segmentfault.com/a/1190000015460828

https://segmentfault.com/a/1190000015284996

https://segmentfault.com/a/1190000015285996

我們介紹詞的向量表征，也稱為 word embedding 。詞向量是自然語(yǔ)言處理中常見(jiàn)的一個(gè)操作，是搜索引擎、廣告系統(tǒng)、推薦系統(tǒng)等互聯(lián)網(wǎng)服務(wù)背后常見(jiàn)的基礎(chǔ)技術(shù)。

在這些互聯(lián)網(wǎng)服務(wù)里，我們經(jīng)常要比較兩個(gè)詞或者兩段文本之間的相關(guān)性。為了做這樣的比較，我們往往先要把詞表示成計(jì)算機(jī)適合處理的方式。最自然的方式恐怕莫過(guò)于向量空間模型(vector space model)。在這種方式里，每個(gè)詞被表示成一個(gè)實(shí)數(shù)向量（one-hot vector），其長(zhǎng)度為字典大小，每個(gè)維度對(duì)應(yīng)一個(gè)字典里的每個(gè)詞，除了這個(gè)詞對(duì)應(yīng)維度上的值是1，其他元素都是0。

One-hot vector雖然自然，但是用處有限。比如，在互聯(lián)網(wǎng)廣告系統(tǒng)里，如果用戶輸入的query是“母親節(jié)”，而有一個(gè)廣告的關(guān)鍵詞是“康乃馨”。雖然按照常理，我們知道這兩個(gè)詞之間是有聯(lián)系的——母親節(jié)通常應(yīng)該送給母親一束康乃馨；但是這兩個(gè)詞對(duì)應(yīng)的one-hot vectors之間的距離度量，無(wú)論是歐氏距離還是余弦相似度(cosine similarity)，由于其向量正交，都認(rèn)為這兩個(gè)詞毫無(wú)相關(guān)性。得出這種與我們相悖的結(jié)論的根本原因是：每個(gè)詞本身的信息量都太小。所以，僅僅給定兩個(gè)詞，不足以讓我們準(zhǔn)確判別它們是否相關(guān)。要想精確計(jì)算相關(guān)性，我們還需要更多的信息——從大量數(shù)據(jù)里通過(guò)機(jī)器學(xué)習(xí)方法歸納出來(lái)的知識(shí)。

在機(jī)器學(xué)習(xí)領(lǐng)域里，各種“知識(shí)”被各種模型表示，詞向量模型(word embedding model)就是其中的一類。通過(guò)詞向量模型可將一個(gè) one-hot vector映射到一個(gè)維度更低的實(shí)數(shù)向量（embedding vector），如embedding(母親節(jié))=[0.3,4.2,−1.5,...],embedding(康乃馨)=[0.2,5.6,−2.3,...]。在這個(gè)映射到的實(shí)數(shù)向量表示中，希望兩個(gè)語(yǔ)義（或用法）上相似的詞對(duì)應(yīng)的詞向量“更像”，這樣如“母親節(jié)”和“康乃馨”的對(duì)應(yīng)詞向量的余弦相似度就不再為零了。

詞向量模型可以是概率模型、共生矩陣(co-occurrence matrix)模型或神經(jīng)元網(wǎng)絡(luò)模型。在用神經(jīng)網(wǎng)絡(luò)求詞向量之前，傳統(tǒng)做法是統(tǒng)計(jì)一個(gè)詞語(yǔ)的共生矩陣X。

X是一個(gè)|V|×|V| 大小的矩陣，Xij表示在所有語(yǔ)料中，詞匯表V(vocabulary)中第i個(gè)詞和第j個(gè)詞同時(shí)出現(xiàn)的詞數(shù)，|V|為詞匯表的大小。對(duì)X做矩陣分解（如奇異值分解），得到的U即視為所有詞的詞向量：

但這樣的傳統(tǒng)做法有很多問(wèn)題：

基于神經(jīng)網(wǎng)絡(luò)的模型不需要計(jì)算和存儲(chǔ)一個(gè)在全語(yǔ)料上統(tǒng)計(jì)產(chǎn)生的大表，而是通過(guò)學(xué)習(xí)語(yǔ)義信息得到詞向量，因此能很好地解決以上問(wèn)題。

神經(jīng)網(wǎng)絡(luò)

當(dāng)詞向量訓(xùn)練好后，我們可以用數(shù)據(jù)可視化算法t-SNE[ 4 ]畫(huà)出詞語(yǔ)特征在二維上的投影（如下圖所示）。從圖中可以看出，語(yǔ)義相關(guān)的詞語(yǔ)（如a, the, these; big, huge）在投影上距離很近，語(yǔ)意無(wú)關(guān)的詞（如say, business; decision, japan）在投影上的距離很遠(yuǎn)。

另一方面，我們知道兩個(gè)向量的余弦值在[−1,1]的區(qū)間內(nèi)：兩個(gè)完全相同的向量余弦值為1, 兩個(gè)相互垂直的向量之間余弦值為0，兩個(gè)方向完全相反的向量余弦值為-1，即相關(guān)性和余弦值大小成正比。因此我們還可以計(jì)算兩個(gè)詞向量的余弦相似度。

模型概覽

語(yǔ)言模型

在介紹詞向量模型之前，我們先來(lái)引入一個(gè)概念：語(yǔ)言模型。語(yǔ)言模型旨在為語(yǔ)句的聯(lián)合概率函數(shù)P(w1,...,wT)建模, 其中wi表示句子中的第i個(gè)詞。語(yǔ)言模型的目標(biāo)是，希望模型對(duì)有意義的句子賦予大概率，對(duì)沒(méi)意義的句子賦予小概率。這樣的模型可以應(yīng)用于很多領(lǐng)域，如機(jī)器翻譯、語(yǔ)音識(shí)別、信息檢索、詞性標(biāo)注、手寫(xiě)識(shí)別等，它們都希望能得到一個(gè)連續(xù)序列的概率。以信息檢索為例，當(dāng)你在搜索“how long is a football bame”時(shí)（bame是一個(gè)醫(yī)學(xué)名詞），搜索引擎會(huì)提示你是否希望搜索"how long is a football game", 這是因?yàn)楦鶕?jù)語(yǔ)言模型計(jì)算出“how long is a football bame”的概率很低，而與bame近似的，可能引起錯(cuò)誤的詞中，game會(huì)使該句生成的概率最大。

對(duì)語(yǔ)言模型的目標(biāo)概率P(w1,...,wT)，如果假設(shè)文本中每個(gè)詞都是相互獨(dú)立的，則整句話的聯(lián)合概率可以表示為其中所有詞語(yǔ)條件概率的乘積，即：

然而我們知道語(yǔ)句中的每個(gè)詞出現(xiàn)的概率都與其前面的詞緊密相關(guān), 所以實(shí)際上通常用條件概率表示語(yǔ)言模型：

N-gram neural model

在計(jì)算語(yǔ)言學(xué)中，n-gram是一種重要的文本表示方法，表示一個(gè)文本中連續(xù)的n個(gè)項(xiàng)?；诰唧w的應(yīng)用場(chǎng)景，每一項(xiàng)可以是一個(gè)字母、單詞或者音節(jié)。 n-gram模型也是統(tǒng)計(jì)語(yǔ)言模型中的一種重要方法，用n-gram訓(xùn)練語(yǔ)言模型時(shí)，一般用每個(gè)n-gram的歷史n-1個(gè)詞語(yǔ)組成的內(nèi)容來(lái)預(yù)測(cè)第n個(gè)詞。

Yoshua Bengio等科學(xué)家就于2003年在著名論文 Neural Probabilistic Language Models [ 1 ] 中介紹如何學(xué)習(xí)一個(gè)神經(jīng)元網(wǎng)絡(luò)表示的詞向量模型。文中的神經(jīng)概率語(yǔ)言模型（Neural Network Language Model，NNLM）通過(guò)一個(gè)線性映射和一個(gè)非線性隱層連接，同時(shí)學(xué)習(xí)了語(yǔ)言模型和詞向量，即通過(guò)學(xué)習(xí)大量語(yǔ)料得到詞語(yǔ)的向量表達(dá)，通過(guò)這些向量得到整個(gè)句子的概率。因所有的詞語(yǔ)都用一個(gè)低維向量來(lái)表示，用這種方法學(xué)習(xí)語(yǔ)言模型可以克服維度災(zāi)難（curse of dimensionality）。注意：由于“神經(jīng)概率語(yǔ)言模型”說(shuō)法較為泛泛，我們?cè)谶@里不用其NNLM的本名，考慮到其具體做法，本文中稱該模型為N-gram neural model。

在上文中已經(jīng)講到用條件概率建模語(yǔ)言模型，即一句話中第t個(gè)詞的概率和該句話的前t−1個(gè)詞相關(guān)?？蓪?shí)際上越遠(yuǎn)的詞語(yǔ)其實(shí)對(duì)該詞的影響越小，那么如果考慮一個(gè)n-gram, 每個(gè)詞都只受其前面n-1個(gè)詞的影響，則有：

給定一些真實(shí)語(yǔ)料，這些語(yǔ)料中都是有意義的句子，N-gram模型的優(yōu)化目標(biāo)則是最大化目標(biāo)函數(shù):

其中f(wt,wt−1,...,wt−n+1)表示根據(jù)歷史n-1個(gè)詞得到當(dāng)前詞wt的條件概率，R(θ)表示參數(shù)正則項(xiàng)。

Continuous Bag-of-Words model(CBOW)

CBOW模型通過(guò)一個(gè)詞的上下文（各N個(gè)詞）預(yù)測(cè)當(dāng)前詞。當(dāng)N=2時(shí)，模型如下圖所示：

具體來(lái)說(shuō)，不考慮上下文的詞語(yǔ)輸入順序，CBOW是用上下文詞語(yǔ)的詞向量的均值來(lái)預(yù)測(cè)當(dāng)前詞。

其中xt為第t個(gè)詞的詞向量，分類分?jǐn)?shù)（score）向量 z=U∗context，最終的分類y采用softmax，損失函數(shù)采用多類分類交叉熵。

Skip-gram model

CBOW的好處是對(duì)上下文詞語(yǔ)的分布在詞向量上進(jìn)行了平滑，去掉了噪聲，因此在小數(shù)據(jù)集上很有效。而Skip-gram的方法中，用一個(gè)詞預(yù)測(cè)其上下文，得到了當(dāng)前詞上下文的很多樣本，因此可用于更大的數(shù)據(jù)集。

如上圖所示，Skip-gram模型的具體做法是，將一個(gè)詞的詞向量映射到2n個(gè)詞的詞向量（2n表示當(dāng)前輸入詞的前后各n個(gè)詞），然后分別通過(guò)softmax得到這2n個(gè)詞的分類損失值之和。

我們介紹了詞向量、語(yǔ)言模型和詞向量的關(guān)系、以及如何通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型獲得詞向量。在信息檢索中，我們可以根據(jù)向量間的余弦?jiàn)A角，來(lái)判斷query和文檔關(guān)鍵詞這二者間的相關(guān)性。在句法分析和語(yǔ)義分析中，訓(xùn)練好的詞向量可以用來(lái)初始化模型，以得到更好的效果。在文檔分類中，有了詞向量之后，可以用聚類的方法將文檔中同義詞進(jìn)行分組，也可以用 N-gram 來(lái)預(yù)測(cè)下一個(gè)詞。希望大家在本章后能夠自行運(yùn)用詞向量進(jìn)行相關(guān)領(lǐng)域的研究。

參考： https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/simple_case/word2vec/README.cn.html

三、文本挖掘與自然語(yǔ)言處理

文本數(shù)據(jù)挖掘 是一種利用計(jì)算機(jī)處理技術(shù)從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的應(yīng)用驅(qū)動(dòng)型學(xué)科。（文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí)，并且利用這些知識(shí)更好地組織信息的過(guò)程）

文本數(shù)據(jù)挖掘處理的數(shù)據(jù)類型是文本數(shù)據(jù)，屬于數(shù)據(jù)挖據(jù)的一個(gè)分支，與機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、數(shù)理統(tǒng)計(jì)等學(xué)科具有緊密聯(lián)系。

文本挖掘在很多應(yīng)用中都扮演重要角色，例如智能商務(wù)（例如客戶關(guān)系管理）、信息檢索（例如互聯(lián)網(wǎng)搜索）等。

文本數(shù)據(jù)挖掘需要從三個(gè)層面進(jìn)行理解：

自然語(yǔ)言處理（NLP） 關(guān)注的是人類的自然語(yǔ)言與計(jì)算機(jī)設(shè)備之間的相互關(guān)系。NLP是計(jì)算機(jī)語(yǔ)言學(xué)的重要方面之一，它同樣也屬于計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域。而 文本挖掘 和 NLP 的存在領(lǐng)域類似，它關(guān)注的是識(shí)別文本數(shù)據(jù)中有趣并且重要的模式。

但是，這二者仍有不同。首先，這兩個(gè)概念并沒(méi)有明確的界定（就像“數(shù)據(jù)挖掘”和“數(shù)據(jù)科學(xué)”一樣），并且在不同程度上二者相互交叉。

如果原始文本是數(shù)據(jù)，那么文本挖掘就是信息， NLP就是知識(shí) ，也就是語(yǔ)法和語(yǔ)義的關(guān)系。

文本挖掘利用智能算法，如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等，并結(jié)合文字處理技術(shù)，分析大量的非結(jié)構(gòu)化文本源（如文檔、電子表格、客戶電子郵件、問(wèn)題查詢、網(wǎng)頁(yè)等），抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系，并按照內(nèi)容對(duì)文檔進(jìn)行分類，獲取有用的知識(shí)和信息。

文本挖掘是一個(gè)多學(xué)科混雜的領(lǐng)域，涵蓋了多種技術(shù)，

信息檢索 是指文獻(xiàn)等信息資源的整理和搜索，其主要目的可以概括為：按照用戶的具體需要，采用一些檢索方法，把所有相關(guān)的文獻(xiàn)都檢索出來(lái)，同時(shí)摒棄掉那些看似相關(guān)實(shí)則不符合要求的文檔。

我們能否為文本數(shù)據(jù)的處理制作一個(gè)高效并且通用的框架呢？我們發(fā)現(xiàn)，處理文本和處理其他非文本的任務(wù)很相似

以下就是處理文本任務(wù)的幾大主要步驟：

1. 數(shù)據(jù)收集

獲取或創(chuàng)建語(yǔ)料庫(kù)，來(lái)源可以是郵箱、英文維基百科文章或者公司財(cái)報(bào)，甚至是莎士比亞的作品等等任何資料。

2. 數(shù)據(jù)預(yù)處理

在原始文本語(yǔ)料上進(jìn)行預(yù)處理，為文本挖掘或NLP任務(wù)做準(zhǔn)備

數(shù)據(jù)預(yù)處理分為好幾步，其中有些步驟可能適用于給定的任務(wù)，也可能不適用。但通常都是標(biāo)記化、歸一化和替代的其中一種。

文本挖掘預(yù)處理 ：文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái)，但并不意味著簡(jiǎn)單地將數(shù)據(jù)挖掘技術(shù)運(yùn)用到大量文本的集合上就可以實(shí)現(xiàn)文本挖掘，還需要做很多準(zhǔn)備工作。

文本挖掘的準(zhǔn)備工作 由文本收集、文本分析和特征修剪三個(gè)步驟組成

文本分析 是指對(duì)文本的表示及其特征項(xiàng)的選??；文本分析是文本挖掘、信息檢索的一個(gè)基本問(wèn)題，它把從文本中抽取出的特征詞進(jìn)行量化來(lái)表示文本信息。文本（text）與訊息（message）的意義大致相同，指的是由一定的符號(hào)或符碼組成的信息結(jié)構(gòu)體，這種結(jié)構(gòu)體可采用不同的表現(xiàn)形態(tài)，如語(yǔ)言的、文字的、影像的等等。文本是由特定的人制作的，文本的語(yǔ)義不可避免地會(huì)反映人的特定立場(chǎng)、觀點(diǎn)、價(jià)值和利益。因此，由文本內(nèi)容分析，可以推斷文本提供者的意圖和目的。

特征選擇

將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息，即對(duì)文本進(jìn)行科學(xué)的抽象，建立它的數(shù)學(xué)模型，用以描述和代替文本。使計(jì)算機(jī)能夠通過(guò)對(duì)這種模型的計(jì)算和操作來(lái)實(shí)現(xiàn)對(duì)文本的識(shí)別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。目前人們通常采用向量空間模型來(lái)描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來(lái)表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來(lái)巨大的計(jì)算開(kāi)銷,使整個(gè)處理過(guò)程的效率非常低下,而且會(huì)損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對(duì)文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)上,找出對(duì)文本特征類別最具代表性的文本特征。為了解決這個(gè)問(wèn)題,最有效的辦法就是通過(guò)特征選擇來(lái)降維。

目前有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為 文本的特征或特征項(xiàng) 。特征項(xiàng)必須具備一定的特性:

在中文文本中可以采用字、詞或短語(yǔ) 作為表示文本的特征項(xiàng)。相比較而言，詞比字具有更強(qiáng)的表達(dá)能力，而詞和短語(yǔ)相比，詞的切分難度比短語(yǔ)的切分難度小得多。因此，目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng)，稱作特征詞。這些特征詞作為文檔的中間表示形式，用來(lái)實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算。如果把所有的詞都作為特征項(xiàng)，那么特征向量的維數(shù)將過(guò)于巨大，從而導(dǎo)致計(jì)算量太大，在這樣的情況下，要完成文本分類幾乎是不可能的。

特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù)，以此來(lái)降低向量空間維數(shù)，從而簡(jiǎn)化計(jì)算，提高文本處理的速度和效率。文本特征選擇對(duì)文本內(nèi)容的過(guò)濾和分類、聚類處理、自動(dòng)摘要以及用戶興趣模式發(fā)現(xiàn)、知識(shí)發(fā)現(xiàn)等有關(guān)方面的研究都有非常重要的影響。通常根據(jù)某個(gè)特征評(píng)估函數(shù)計(jì)算各個(gè)特征的評(píng)分值，然后按評(píng)分值對(duì)這些特征進(jìn)行排序，選取若干個(gè)評(píng)分值最高的作為特征詞，這就是 特征選擇(Feature Selection) 。

特征選取方式

常見(jiàn)的有4種：

隨著網(wǎng)絡(luò)知識(shí)組織、人工智能等學(xué)科的發(fā)展,文本特征提取將向著數(shù)字化、智能化、語(yǔ)義化的方向深入發(fā)展,在社會(huì)知識(shí)管理方面發(fā)揮更大的作用。

努力消除歧義是文本預(yù)處理很重要的一個(gè)方面，我們希望保留原本的含義，同時(shí)消除噪音。為此，我們需要了解：

3.數(shù)據(jù)挖掘和可視化

無(wú)論我們的數(shù)據(jù)類型是什么，挖掘和可視化是探尋規(guī)律的重要步驟

常見(jiàn)任務(wù)可能包括可視化字?jǐn)?shù)和分布，生成wordclouds并進(jìn)行距離測(cè)量

4.模型搭建

這是文本挖掘和NLP任務(wù)進(jìn)行的主要部分，包括訓(xùn)練和測(cè)試。在適當(dāng)?shù)臅r(shí)候還會(huì)進(jìn)行特征選擇和工程設(shè)計(jì)

語(yǔ)言模型 ：有限狀態(tài)機(jī)、馬爾可夫模型、詞義的向量空間建模

機(jī)器學(xué)習(xí)分類器 ：樸素貝葉斯、邏輯回歸、決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)

序列模型 ：隱藏馬爾可夫模型、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)（LSTMs）