AliExpress:在检索式问答系统中应用迁移学习 | PaperDaily #24
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?24?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @Zsank。本文工作為第一作者在阿里實習時所完成。
工業界問答系統存在著特定領域標簽數據的嚴重不足的問題,并且對響應速度有著比較嚴格的要求。
針對第一個問題,作者使用了遷移學習框架,并在傳統遷移學習框架上引入了一個半正定協方差矩陣來對領域內及領域間信息權重進行建模;針對第二個問題,作者放棄了精度更高但耗時很長的 LSTM-based 模型,采用了精度稍低但速度更快的 CNN 模型。
作者除了在線下對語義識別(Paraphrase Identification)任務和自然語言推斷(Natural Language Inference)任務進行實驗外,還發布到 AliExpress 上進行在線評測。
本文模型除了在準確率、精度等方面稍遜于 state-of-art LSTM-based 模型外,均好于其他的對比模型,并且響應時間快,能滿足工業用需求。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關于作者:麥振生,中山大學數據科學與計算機學院碩士生,研究方向為自然語言處理和問答系統。
■?論文 | Modelling Domain Relationships for Transfer Learning on Retrieval-based Question Answering Systems in E-commerce
■ 鏈接 | https://www.paperweekly.site/papers/1312
■ 作者 | Zsank
文章亮點
在傳統遷移學習的框架上,引入了半正定協方差矩陣,對輸出層的域內以及域間信息權重進行建模;
鑒于工業界對響應時間的追求,放棄了精度更高的 LSTM,而采用基于句子編碼的 CNN 和基于句子交互的 CNN 混合;
引入對抗損失,增強 shared 層的抗噪能力。
模型介紹
1. 問答系統工作流程
如圖所示,用戶提出 Query Question,進行預處理后,從 QA Pair 數據庫中使用 Lucene 工具檢索出 k 個最相關的 QA 對,然后對相關問題進行排序,返回最相關問題的回答。 使用到的技術有語義識別(Paraphrase Identification)和自然語言推理(Natural Language Inference)。
2. 傳統遷移學習的不足
圖中顯示了兩種現行的遷移學習框架。左圖為全共享模型,作者認為它忽略了域內的特征信息;右圖為 specifc-shared 模型,盡管考慮了域內以及域間的信息,但沒有考慮它們之間的權重關系,即 Ws 與 Wsc 之間、Wt 與 Wtc 之間應該有關聯。由此,引入了協方差矩陣 Ω 對這種關系進行建模。
3. 問題定義
給定兩個句子:
預測標簽 y。
4. 模型圖
由中間部分即為 specific-shared 框架,在 sourceNN、sharedNN 以及 targetNN 中換成右邊方框內所示的混合 CNN 模型(基于句子編碼的、基于句子交互的)。
中間為了提高 sharedNN 層的抗噪能力,增加了一個分類器,由此引入對抗損失函數。
左上角部分即為權重以及半正定協方差矩陣的關系。定義為 Wi 和 Wj 的關系,Wi、Wj 即為上面提到的 Ws、Wsc、Wt 與 Wtc。
文章的損失函數看起來很長,但其實就是兩個交叉熵的和,加上其他所有參數的正則項。訓練時作者使用了一個數學上的 trick:固定 Ω 后的損失函數是平滑函數,可以很方便地對所有參數求偏導。然后再固定其他參數更新 Ω。
實驗結果
1. 基礎模型比較
表格第二欄表示 CNN-based 模型,第三欄表示 LSTM-based 模型。 可見文中所采用的 hCNN 模型表現次好,但響應時間比第一好的 ESIM 快很多,所以綜合表現最好。?
2. 遷移學習框架比較
在 PI 任務上: 使用 Quora 數據集作為 source 數據集,爬取阿里線上的對話作為 target 數據集。數據統計如下表:
實驗結果:(DRSS為本文采用的框架)
NLI 任務上: 使用 SNLI 數據集作為 source 數據集,其他五個數據集作為 target 數據集。
實驗結果如下:(只用 ACC 進行評估)
對協方差矩陣每個值取平方,作熱圖如下:
可以看到,Wsc 和 Wtc 正相關;Ws 和 Wsc 之間、Wt 和 Wtc 之間相關度很小。使用能較好地對域間小相關度進行緩解。
數字化:
3. 在線評測
GBDT 為 AliExpress 現用的方法,文中模型精度相對 GBDT 提高較多,雖然損耗了一些時間,但每個問題響應 80 毫秒對于工業用 chatbot 來說,還是在可接受范圍內。
文章評價
本人以前沒有接觸過遷移學習,但這篇文章對遷移學習的介紹很清晰,能給我個遷移學習大體的框架和思路。另外,引入協方差矩陣這個想法很有創意,實驗證明也很有用,對域內域間信息有了直觀的解釋。并且本文的模型也基本達到了工業界對精度和速度之間平衡的要求。難得的一篇對學術和對工業都有貢獻的文章。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
??我是彩蛋?
解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發布?
請添加小助手微信(pwbot01)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
? ? ? ? ???
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結
以上是生活随笔為你收集整理的AliExpress:在检索式问答系统中应用迁移学习 | PaperDaily #24的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国计算机学会YOCSEF TDS《专题
- 下一篇: 亚马逊高级应用科学家熊元骏:人类行为理解