-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
開源聊天機器人(開源聊天機器人 c)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于開源聊天機器人的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、求一份簡單的聊天機器人源代碼,要C++編寫的
那得看樓主希望聊天機器人有哪些功能了。
一般地,首先要能分析句子,區(qū)分名詞和形容詞,能記憶集合關(guān)系
然后就是隨機性地回答問題了
二、國外的群聊軟件有哪些
國外的群聊軟件有很多,以下是一些常見的群聊軟件:
WhatsApp:由Facebook公司開發(fā),支持實時聊天、語音通話、視頻通話等功能,是全球廣泛使用的即時通訊工具之一。
Telegram:一款開源的即時通訊軟件,支持加密聊天、文件傳輸、頻道等功能,被譽為“最安全的聊天應(yīng)用”。
WeChat:由中國騰訊公司開發(fā),是中國用戶最廣泛使用的即時通訊軟件,支持聊天、語音通話、視頻通話、支付等多種功能。
Line:由日本Naver公司開發(fā),支持聊天、語音通話、視頻通話、免費通話等功能,是亞洲廣泛使用的即時通訊工具之一。
Skype:由微軟公司開發(fā),支持聊天、語音通話、視頻通話等功能,被廣泛用于商務(wù)和個人通訊。
Discord:一款面向游戲玩家的聊天軟件,支持聊天、語音通話、游戲直播等功能,受到了全球范圍內(nèi)游戲玩家的歡迎。
Slack:一款面向團(tuán)隊協(xié)作的聊天軟件,支持聊天、文件共享、任務(wù)管理等功能,被廣泛用于企業(yè)和組織內(nèi)部通訊。
除了以上列舉的軟件,還有很多其他的群聊軟件,如Viber、KakaoTalk、Hangouts等,用戶可以根據(jù)自己的需求和偏好選擇合適的軟件。
三、如何利用深度學(xué)習(xí)技術(shù)訓(xùn)練聊天機器人語言模型
數(shù)據(jù)預(yù)處理
模型能聊的內(nèi)容也取決于選取的語料。如果已經(jīng)具備了原始聊天數(shù)據(jù),可以用SQL通過關(guān)鍵字查詢一些對話,也就是從大庫里選取出一個小庫來訓(xùn)練。從一些論文上,很多算法都是在數(shù)據(jù)預(yù)處理層面的,比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介紹了,從大庫中抽取小庫,然后再進(jìn)行融合,訓(xùn)練出有特色的對話來。
對于英語,需要了解NLTK,NLTK提供了加載語料,語料標(biāo)準(zhǔn)化,語料分類,PoS詞性標(biāo)注,語意抽取等功能。
另一個功能強大的工具庫是CoreNLP,作為 Stanford開源出來的工具,特色是實體標(biāo)注,語意抽取,支持多種語言。
下面主要介紹兩個內(nèi)容:
中文分詞
現(xiàn)在有很多中文分詞的SDK,分詞的算法也比較多,也有很多文章對不同SDK的性能做比較。做中文分詞的示例代碼如下。
# coding:utf8
'''
Segmenter with Chinese
'''
import jieba
import langid
def segment_chinese_sentence(sentence):
'''
Return segmented sentence.
'''
seg_list = jieba.cut(sentence, cut_all=False)
seg_sentence = u" ".join(seg_list)
return seg_sentence.strip().encode('utf8')
def process_sentence(sentence):
'''
Only process Chinese Sentence.
'''
if langid.classify(sentence)[0] == 'zh':
return segment_chinese_sentence(sentence)
return sentence
if __name__ == "__main__":
print(process_sentence('飛雪連天射白鹿'))
print(process_sentence('I have a pen.'))
以上使用了langid先判斷語句是否是中文,然后使用jieba進(jìn)行分詞。
在功能上,jieba分詞支持全切分模式,精確模式和搜索引擎模式。
全切分:輸出所有分詞。
精確:概率上的最佳分詞。
所有引擎模式:對精確切分后的長句再進(jìn)行分詞。
jieba分詞的實現(xiàn)
主要是分成下面三步:
1、加載字典,在內(nèi)存中建立字典空間。
字典的構(gòu)造是每行一個詞,空格,詞頻,空格,詞性。
上訴書 3 n
上訴人 3 n
上訴期 3 b
上訴狀 4 n
上課 650 v
建立字典空間的是使用python的dict,采用前綴數(shù)組的方式。
使用前綴數(shù)組的原因是樹結(jié)構(gòu)只有一層 - word:freq,效率高,節(jié)省空間。比如單詞"dog", 字典中將這樣存儲:
{
"d": 0,
"do": 0,
"dog": 1 # value為詞頻
}
字典空間的主要用途是對輸入句子建立有向無環(huán)圖,然后根據(jù)算法進(jìn)行切分。算法的取舍主要是根據(jù)模式 - 全切,精確還是搜索。
2、對輸入的語句分詞,首先是建立一個有向無環(huán)圖。
有向無環(huán)圖, Directed acyclic graph (音 /ˈdæɡ/)。
【圖 3-2】 DAG
DAG對于后面計算最大概率路徑和使用HNN模型識別新詞有直接關(guān)系。
3、按照模式,對有向無環(huán)圖進(jìn)行遍歷,比如,在精確模式下,便利就是求最大權(quán)重和的路徑,權(quán)重來自于在字典中定義的詞頻。對于沒有出現(xiàn)在詞典中的詞,連續(xù)的單個字符也許會構(gòu)成新詞。然后用HMM模型和Viterbi算法識別新詞。
精確模型切詞:使用動態(tài)規(guī)劃對最大概率路徑進(jìn)行求解。
最大概率路徑:求route = (w1, w2, w3 ,.., wn),使得Σweight(wi)最大。Wi為該詞的詞頻。
更多的細(xì)節(jié)還需要讀一下jieba的源碼。
自定義字典
jieba分詞默認(rèn)的字典是:1998人民日報的切分語料還有一個msr的切分語料和一些txt小說。開發(fā)者可以自行添加字典,只要符合字典構(gòu)建的格式就行。
jieba分詞同時提供接口添加詞匯。
Word embedding
使用機器學(xué)習(xí)訓(xùn)練的語言模型,網(wǎng)絡(luò)算法是使用數(shù)字進(jìn)行計算,在輸入進(jìn)行編碼,在輸出進(jìn)行解碼。word embedding就是編解碼的手段。
【圖 3-3】 word embedding, Ref. #7
word embedding是文本的數(shù)值化表示方法。表示法包括one-hot,bag of words,N-gram,分布式表示,共現(xiàn)矩陣等。
Word2vec
近年來,word2vec被廣泛采用。Word2vec輸入文章或者其他語料,輸出語料中詞匯建設(shè)的詞向量空間。詳細(xì)可參考word2vec數(shù)學(xué)原理解析。
使用word2vec
安裝完成后,得到word2vec命令行工具。
word2vec -train "data/review.txt"
-output "data/review.model"
-cbow 1
-size 100
-window 8
-negative 25
-hs 0
-sample 1e-4
-threads 20
-binary 1
-iter 15
-train "data/review.txt" 表示在指定的語料庫上訓(xùn)練模型
-cbow 1 表示用cbow模型,設(shè)成0表示用skip-gram模型
-size 100 詞向量的維度為100
-window 8 訓(xùn)練窗口的大小為8 即考慮一個單詞的前八個和后八個單詞
-negative 25 -hs 0 是使用negative sample還是HS算法
-sample 1e-4 采用閾值
-threads 20 線程數(shù)
-binary 1 輸出model保存成2進(jìn)制
-iter 15 迭代次數(shù)
在訓(xùn)練完成后,就得到一個model,用該model可以查詢每個詞的詞向量,在詞和詞之間求距離,將不同詞放在數(shù)學(xué)公式中計算輸出相關(guān)性的詞。比如:
vector("法國") - vector("巴黎) + vector("英國") = vector("倫敦")"
對于訓(xùn)練不同的語料庫,可以單獨的訓(xùn)練詞向量模型,可以利用已經(jīng)訓(xùn)練好的模型。
其它訓(xùn)練詞向量空間工具推薦:Glove。
Seq2Seq
2014年,Sequence to Sequence Learning with Neural Networks提出了使用深度學(xué)習(xí)技術(shù),基于RNN和LSTM網(wǎng)絡(luò)訓(xùn)練翻譯系統(tǒng),取得了突破,這一方法便應(yīng)用在更廣泛的領(lǐng)域,比如問答系統(tǒng),圖像字幕,語音識別,撰寫詩詞等。Seq2Seq完成了【encoder + decoder -> target】的映射,在上面的論文中,清晰的介紹了實現(xiàn)方式。
【圖 3-4】 Seq2Seq, Ref. #1
也有很多文章解讀它的原理。在使用Seq2Seq的過程中,雖然也研究了它的結(jié)構(gòu),但我還不認(rèn)為能理解和解釋它。下面談兩點感受:
a. RNN保存了語言順序的特點,這和CNN在處理帶有形狀的模型時如出一轍,就是數(shù)學(xué)模型的設(shè)計符合物理模型。
【圖 3-5】 RNN, Ref. #6
b. LSTM Cell的復(fù)雜度對應(yīng)了自然語言處理的復(fù)雜度。
【圖 3-6】 LSTM, Ref. #6
理由是,有人將LSTM Cell嘗試了多種其它方案傳遞狀態(tài),結(jié)果也很好。
【圖 3-7】 GRU, Ref. #6
LSTM的一個替代方案:GRU。只要RNN的Cell足夠復(fù)雜,它就能工作的很好。
使用DeepQA2訓(xùn)練語言模型
準(zhǔn)備工作,下載項目:
git clone https://github.com/Samurais/DeepQA2.git
cd DeepQA2
open README.md # 根據(jù)README.md安裝依賴包
DeepQA2將工作分成三個過程:
數(shù)據(jù)預(yù)處理:從語料庫到數(shù)據(jù)字典。
訓(xùn)練模型:從數(shù)據(jù)字典到語言模型。
提供服務(wù):從語言模型到RESt API。
預(yù)處理
DeepQA2使用Cornell Movie Dialogs Corpus作為demo語料庫。
原始數(shù)據(jù)就是movie_lines.txt 和movie_conversations.txt。這兩個文件的組織形式參考README.txt
deepqa2/dataset/preprocesser.py是將這兩個文件處理成數(shù)據(jù)字典的模塊。
train_max_length_enco就是問題的長度,train_max_length_deco就是答案的長度。在語料庫中,大于該長度的部分會被截斷。
程序運行后,會生成dataset-cornell-20.pkl文件,它加載到python中是一個字典:
word2id存儲了{(lán)word: id},其中word是一個單詞,id是int數(shù)字,代表這個單詞的id。
id2word存儲了{(lán)id: word}。
trainingSamples存儲了問答的對話對。
比如 [[[1,2,3],[4,5,6]], [[7,8,9], [10, 11, 12]]]
1,2,3 ... 12 都是word id。
[1,2,3] 和 [4,5,6] 構(gòu)成一個問答。 [7,8,9] 和 [10, 11, 12] 構(gòu)成一個問答。
開始訓(xùn)練
cp config.sample.ini config.ini # modify keys
python deepqa2/train.py
config.ini是配置文件, 根據(jù)config.sample.ini進(jìn)行修改。訓(xùn)練的時間由epoch,learning rate, maxlength和對話對的數(shù)量而定。
deepqa2/train.py大約100行,完成數(shù)據(jù)字典加載、初始化tensorflow的session,saver,writer、初始化神經(jīng)元模型、根據(jù)epoch進(jìn)行迭代,保存模型到磁盤。
session是網(wǎng)絡(luò)圖,由placeholder, variable, cell, layer, output 組成。
saver是保存model的,也可以用來恢復(fù)model。model就是實例化variable的session。
writer是查看loss fn或者其他開發(fā)者感興趣的數(shù)據(jù)的收集器。writer的結(jié)果會被saver保存,然后使用tensorboard查看。
Model
Model的構(gòu)建要考慮輸入,狀態(tài),softmax,輸出。
定義損耗函數(shù),使用AdamOptimizer進(jìn)行迭代。
最后,參考一下訓(xùn)練的loop部分。
每次訓(xùn)練,model會被存儲在 save路徑下,文件夾的命名根據(jù)機器的hostname,時間戳生成。
提供服務(wù)
在TensorFlow中,提供了標(biāo)準(zhǔn)的serving模塊 - tensorflow serving。但研究了很久,還專門看了一遍 《C++ Essentials》,還沒有將它搞定,社區(qū)也普遍抱怨tensorflow serving不好學(xué),不好用。訓(xùn)練結(jié)束后,使用下面的腳本啟動服務(wù),DeepQA2的serve部分還是調(diào)用TensorFlow的python api。
cd DeepQA2/save/deeplearning.cobra.vulcan.20170127.175256/deepqa2/serve
cp db.sample.sqlite3 db.sqlite3
python manage.py runserver 0.0.0.0:8000
測試
POST /api/v1/question HTTP/1.1
Host: 127.0.0.1:8000
Content-Type: application/json
Authorization: Basic YWRtaW46cGFzc3dvcmQxMjM=
Cache-Control: no-cache
{"message": "good to know"}
response
{
"rc": 0,
"msg": "hello"
}
serve的核心代碼在serve/api/chatbotmanager.py中。
使用腳本
scripts/start_training.sh 啟動訓(xùn)練
scripts/start_tensorboard.sh 啟動Tensorboard
scripts/start_serving.sh 啟動服務(wù)
對模型的評價
目前代碼具有很高的維護(hù)性,這也是從DeepQA項目進(jìn)行重構(gòu)的原因,更清晰的數(shù)據(jù)預(yù)處理、訓(xùn)練和服務(wù)。有新的變更可以添加到deepqa2/models中,然后在train.py和chatbotmanager.py變更一下。
有待改進(jìn)的地方
a. 新建models/rnn2.py, 使用dropout。目前DeepQA中已經(jīng)使用了Drop.
b. tensorflow rc0.12.x中已經(jīng)提供了seq2seq network,可以更新成tf版本.
c. 融合訓(xùn)練,目前model只有一個庫,應(yīng)該是設(shè)計一個新的模型,支持一個大庫和小庫,不同權(quán)重進(jìn)行,就如Mechanism-Aware Neural Machine for Dialogue Response Generation的介紹。
d. 代碼支持多機多GPU運行。
e. 目前訓(xùn)練的結(jié)果都是QA對,對于一個問題,可以有多個答案。
f. 目前沒有一個方法進(jìn)行accuracy測試,一個思路是在訓(xùn)練中就提供干擾項,因為當(dāng)前只有正確的答案,如果提供錯誤的答案(而且越多越好),就可以使用recall_at_k方法進(jìn)行測試。
機器人家上了解到的,希望對你有用
四、
以上就是關(guān)于開源聊天機器人相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
免費開源crm客戶管理系統(tǒng)平臺有哪些?哪個免費CRM系統(tǒng)好用?
無錫日式屋頂花園景觀設(shè)計(無錫日式屋頂花園景觀設(shè)計招聘)
蔬菜營養(yǎng)價值排行榜(蔬菜營養(yǎng)價值排行榜來了)