SiameseSentenceSimilarity相似句子匹配分类项目
SiameseSentenceSimilarity
SiameseSentenceSimilarity,個人實現(xiàn)的基于Siamese bilstm模型的相似句子判定模型,提供訓練數(shù)據(jù)集和測試數(shù)據(jù)集.
項目地址:https://github.com/liuhuanyong/SiameseSentenceSimilarity
項目介紹
句子相似度計算是自然語言處理中的一個重要技術(shù)手段,主要有兩種方法:
1, 基于傳統(tǒng)的無監(jiān)督方式,傳統(tǒng)的用于計算句子相似度的方式有很多種,感興趣的,可以參考我的基于傳統(tǒng)方法的句子相似讀計算項目:
https://github.com/liuhuanyong/SentenceSimilarity
2, 基于標注數(shù)據(jù)的句子相似度計算.這個思想大體是將句子相似度計算問題轉(zhuǎn)換成一個相似句子類型判定問題,目前經(jīng)典的方法是Siamese網(wǎng)絡(luò),這是本項目的一個初衷.
數(shù)據(jù)
數(shù)據(jù)集主要來源于CCKS2018評測項目微眾銀行客戶問句匹配大賽, 總數(shù)據(jù)集大小為十萬條.數(shù)據(jù)集樣式如下:
'''怎么我開不了微利貸 怎么開不了戶 錄制不了 提示上傳失敗 0親為什么我的審批不通過的 為什么還款及時會提示綜合評估未通過 1你好,我借款的驗證碼發(fā)到我以前用的那個手機號碼了,我該怎么設(shè)置呢 手機號碼換了 1“如何獲得微粒貸資格” 為什么沒微粒貸啊 1為什么沒接到電話 兩天了,怎么還沒有給我打電話審核? 1我的電話已改為 綁定的手機號碼能不能更改 1借貸下來時間 10月國慶期間能借錢不 0什么時候才邀請? 什么時候才能申請 1上邊可借56000元為什么申請不成功 為什么可借一萬五,卻借不出來 11萬利息是多少 10個月利息多少 1沒經(jīng)過審批 如何能通過微眾銀行審批要求 1延期3天還款收取逾期利息是多少? 14號還款日,逾期兩天手續(xù)費是多少? 1申請的額度能取現(xiàn)嗎 取現(xiàn)一次性取完可以嗎 0利息與罰息如何計算 咱這個利息多高啊 1如何申請貨款 怎樣開通我微粒貸 1多久才有貸款 凌晨以后的申請何時到賬 1你好 我要換卡怎么換 我卡掉了 換卡失敗 0'''模型
模型思想:采用典型的siamese網(wǎng)絡(luò),兩個句子分成左右兩個部分進行輸入,使用了四層雙向lstm(權(quán)重共享)進行網(wǎng)絡(luò)編碼,最后計算兩個編碼之間的距離,最后做預(yù)測分類:
一 , 編碼層:使用兩個雙向LSTM進行編碼,權(quán)重共享
訓練
| 問句匹配 | 80000 | 20000 | 0.8125 | 0.7956 | 20個epcho |
總結(jié)
1,句子相似度計算是自然語言處理中的一個重要技術(shù)手段,本文簡單實現(xiàn)了simamese相似度計算網(wǎng)絡(luò).
2,通過LSTM編碼,曼哈頓距離作為相似讀衡量的網(wǎng)絡(luò),在訓練集上達到了0.81,測試集達到0.7956的準確率.
3,目前關(guān)于相似度計算的網(wǎng)絡(luò)有很多,本項目是一個基礎(chǔ),后期將逐步學習,嘗試其他網(wǎng)絡(luò).
4,將傳統(tǒng)的相似度計算方式和深度學習網(wǎng)絡(luò)進行融合,或許是可以做的一個點.
any question? 請聯(lián)系我:
郵箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然語言處理項目: https://liuhuanyong.github.io/
總結(jié)
以上是生活随笔為你收集整理的SiameseSentenceSimilarity相似句子匹配分类项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Peacock:大规模主题模型及其在腾讯
- 下一篇: 多任务学习方法