當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP实战1--词典、停用词、问答对的准备

發(fā)布時間：2024/1/1 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP实战1--词典、停用词、问答对的准备小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

語料的準(zhǔn)備

1.詞典 2.停用詞 3.問答對 4.相似問題

1.分詞詞典

最終詞典的格式

?1.1 詞典來源

1.各種輸入法的詞典

?2.手動收集，根據(jù)要求收集詞典

1.2 詞典處理

jieba分詞

jieba.lcut(sentence)? ?對句子進(jìn)行分詞

jieba.load_userdict(path)? 讀取路徑

jieba.posseg.cut()? 返回詞性?

在網(wǎng)上下載輸入法詞典，輸入法詞典都是特殊格式，需要使用特殊的工具才能夠把它轉(zhuǎn)化成文本格式

工具名稱：深藍(lán)詞庫轉(zhuǎn)換.exe

下載地址：https://github.com/studyzy/imewlconverter

選擇windows版本?

下載好之后直接把在搜狗官網(wǎng)上下載的詞庫拖動到路徑欄即可轉(zhuǎn)換為txt

1.3對多個詞典文件內(nèi)容進(jìn)行合并

下載不同平臺的多個詞典之后，把所有的txt文件合并到一起之后使用

2.準(zhǔn)備停用詞

停用詞：對句子進(jìn)行分詞之后，句子中不重要的詞

停用詞的準(zhǔn)備：常用停用詞下載地址? https://github.com/goto456/stopwords

用github desktop clone 非常好用！

雖然有網(wǎng)上準(zhǔn)備的停用詞但還是得人工篩選有些停用詞在不同的任務(wù)中表現(xiàn)不一樣?

3.問答對的準(zhǔn)備

?現(xiàn)有問答對的樣式

txt中問答對：我們需要把問答對分別整理到兩個txt文檔中，

excel中的問答對：問題答案表格

excel中的問答對直接使用pandas就能夠處理

import pandas as pdret = pd.read_excel(python_qa_path)column_list = ret.columnsassert '問題' in column_list and "答案" in column_list, "excel 中必須包含問題和答案"for q, a in zip(ret["問題"].ret["答案"]):q = re.sub("\s+", " ", q)q = q.strip()print(q, a)

?4.相似問題對的采集

采集相似問答對的目的：

后續(xù)在判斷問題相似度的時候，需要有語料用來進(jìn)行模型的訓(xùn)練，輸入兩個句子，輸出相似度，這個語料不好獲取，可以從百度知道入手，采集百度知道上面的相似問題，如下圖所示：

上面采集的數(shù)據(jù)會存在部分噪聲，部分問題搜索到的結(jié)果語義上并不是太相似

手動構(gòu)造相似問題? 自定義問題和答案

例 : 有一串和python相關(guān)的內(nèi)容? 當(dāng)用戶輸入 python是什么相關(guān)問題? 只要問題中包含python是什么這幾個字就可以返回對應(yīng)的內(nèi)容?

? ??

總結(jié)

以上是生活随笔為你收集整理的NLP实战1--词典、停用词、问答对的准备的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： QQ兼容android版本6,QQ浏览器
下一篇： Adobe Photoshop CS6