思而后言:用点赞数据来帮助对话生成模型
?
?PaperWeekly 原創 ·?作者|Xiang Gao
單位|Microsoft Research
研究方向|對話系統
?
大數據的精華與糟粕
隨著 GPT-2 等大規模預訓練模型的提出,對話生成模型性能取得了突飛猛進的提高,Microsoft, Google, Facebook 先后提出自家的預訓練對話模型:DialoGPT [1], Meena [2], Blender [3]. 這些模型雖然在實現細節有區別,但訓練的核心都是模仿訓練語料的數據分布。
可是,即使是人類也會產生不同質量的回復:有的回復獲得很多贊,還有的能引發更多的討論,但也有灌水,甚至是不文明和拉仇恨的言論。而如果把糟粕精華一股腦全都丟給模型去訓練,就會產生各種各樣的問題。我們希望對話生成模型能“思而后言”,對回復的質量先做一個評估再返回結果。
預測人類反饋
生成模型的一個經典問題是可能會經常生成 I don’t know 等無趣的回復。一個有效的措施是 MMI 算法 [4]:用 beam search 等方法對給定上文生成多個回復,再用 mutual information 來排序。
背后假設是,如果能從一個回復猜出來它的上文是什么,那么這個回復就很可能是含有有用信息。此外還有通過構建更具有表達力的 latent space 的來增強回復多樣性的工作,比如 CVAE [5] 和 SpaceFusion [6]
MMI 是一個作者很喜歡的數據驅動型打分器思想。但是,我們最終希望優化的真的是 mutual information 嗎?可不可以直接優化預期人類對生成結果的反饋呢?
如果直接進行整個數據集的人工標注,將是一個成本很高的方案,尤其是對于“是否受人喜歡”這樣的衡量每個人標準不一,導致每個樣本都需要多人標注,提高成本。
不過,我們可以利用一些已有的人類反饋數據,比如點贊和回復數。很多社交平臺的評論都有如圖 1 所示樹狀結構,我們可以借此定義 Updown(點贊數),Depth(討論深度), 和 Width(討論廣度)三種人類反饋的衡量。有了這些 label,我們就可以著手構建訓練集了。
▲?圖1:我們可以利用社交網絡中用戶點贊和發帖的樹狀結構來定義human feedback metrics來構建訓練數據集
?
Reddit Feedback數據集
可是,給定上文和回復,預測此回復的點贊或評論數目是很困難的一個任務,因為這里面牽扯了太多文本外的其他因素(平臺,時機,用戶自身流量等)。我們于是把任務從預測變為分類:給定同一個上文的兩個回復,要求打分器判斷哪一個回復是獲得人類反饋更多的那一個。
此外,還會有一些混雜因素,比如那些發帖早的往往會得到更多的贊或回復。所以我們進一步限定在只比較發帖時間相隔不超過一個小時的回復。
另外,考慮到我們最終希望模型應用到生成模型上,但訓練數據是人類生成而非機器生成,所以我們另外考慮了兩個子任務:1)區別人類回復和隨機回復,2)區別人類生成和機器生成。
在這樣的限定下,我們用 2011 和 2012 年數據構建了總共 1.3 億條數據,包含 5 個訓練任務,如表 1 所示。
▲ 表1:各任務的訓練數據集統計
?
DialogRPT模型
我們用 DialoGPT 初始化,在 Reddit Feeback 數據集我們分別訓練了五個 GPT-2 架構的模型,稱為 DialogRPT (Dialog Ranking Pretrained Transformers)。
表 2 是一個對人類反饋的預測的例子,對于給定上文“I love NLP! ” 我們比較多個回復。可以看到“Me too! ” 這樣相對而言普通的回復會得到比較低的分數,而“Can you tell me how it works? ”這樣的回復可能會引發不會在一兩句結束的深度討論,于是得到了最高的 Depth 分數。
“Can anyone recommend a nice review paper? ”這樣的回復可能有很多不同的答案,所以其 Width 分數最高。“Here’s a free textbook(URL)in case anyone needs it”這個回復提供了一個可能大家喜愛的資源,于是被預測會得到很多點贊,其 Updown 分數最高。
▲ 表2:DialogRPT 預訓練模型對點贊(Updown),討論深度(Depth),討論廣度(Width)的預測
?
我們進一步比較了 DialogRPT 和 dialog perplexity (ppl.)和 reverse dialog perplexity 這兩個 MMI 的組件。從準確率上來看,MMI 對這些任務沒有很好的預測能力,即人類的反饋似乎并不是完全取決于回復和上文的 mutual information. 與之相比,DialogRPT 能使得準確率提高不少。
▲ 表3:不同模型對點贊(Updown),討論深度(Depth),討論廣度(Width)的預測準確度( >50% 為具有預測能力)
我們還額外進行了 DialogRPT 的 Zero-shot 測試,看他是否能在 Reddit 以外的數據集具有預測能力。我們考查了區別人類回復和隨機回復這個任務,如表 4 所示,DialogRPT 在四個數據集上都表現出來了很強的預測能力。
▲ 表4:不同模型對點贊(Updown),討論深度(Depth),討論廣度(Width)的 hits@k 預測準確度
總結
在大規模計算和預訓練模型時代,也許很多任務都能通過跟多的數據和 GPU 來提高結果。這也許一定程度上解放了我們對于一些技術細節的糾結,留給了我們更多時間去思考任務級別和系統級別的創新。
對話系統除了生成類人的回復外,也許下一個篇章就是變得更加受人喜愛和需要。“思而后言”,對回復進行更好的評估和決策,也許是一個第一步。
我們在論文《Dialogue Response Ranking Training with Large-Scale Human Feedback Data》里詳細介紹了 Reddit Feedback 數據集和 DialogRPT 模型,被 EMNLP 2020 接受。模型,源代碼和數據已開源,見下面鏈接。
源代碼,數據和預訓練模型:?
https://github.com/golsun/DialogRPT
論文鏈接:
https://arxiv.org/abs/2009.06978
?
參考文獻
[1] Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. 2019b. Dialogpt: Large-scale generative pre-training for conversational response generation. Proc. of ACL.
[2] Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al. 2020. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977.
[3] Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M Smith, et al. 2020. Recipes for building an open-domain chatbot. arXiv preprint arXiv:2004.13637.
[4] Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. 2016. A diversity-promoting objective function for neural conversation models. In NAACL, pages 110–119.
[5] Tiancheng Zhao, Ran Zhao, and Maxine Eskenazi. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In ACL, pages 654–664.
[6] Xiang Gao, Sungjin Lee, Yizhe Zhang, Chris Brockett, Michel Galley, Jianfeng Gao, and Bill Dolan. 2019a. Jointly optimizing diversity and relevance in neural response generation. NAACL-HLT 2019.
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的思而后言:用点赞数据来帮助对话生成模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《英雄联盟》S14 全球总决赛瑞士轮第四
- 下一篇: win10主板设置怎么开机 Win10主