COLING 2018 最佳论文解读:序列标注经典模型复现
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?86?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @handsome。這篇論文是 COLING 2018 的 Most reproducible Paper。作者用 PyTorch 實現了一個統一的序列標注框架,重現了 CoNLL 2003 English NER、CoNLL 2000 Chunking 和 PTB POS tagging 這三個數據集上不同模型的的表現。值得一提的是,基于這個統一的框架,作者對一些已有工作的一些不一致的結論進行了反駁,提出了一些新的看法。對于實踐者而言,這篇論文還是很有借鑒意義的。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關于作者:梁帥龍,新加坡科技設計大學博士生,研究方向為自然語言處理。
■?論文 | Design Challenges and Misconceptions in Neural Sequence Labeling
■ 鏈接 | https://www.paperweekly.site/papers/2061
■ 源碼 | https://github.com/jiesutd/NCRFpp
引言
這篇論文是 COLING 2018 的 Best Paper 之一 “Most Reproducible Paper”,論文基于的 PyTorch 代碼框架 NCRF++ 也收錄于 ACL 2018 的 Demo Paper。
作者用一個統一的序列標注框架實現了不同模型架構在 NER, Chunking, POS Tagging 數據集上的表現,并對已有工作的一些不一致的結論進行了檢驗,發現了新的結論。代碼在 Github 上已經開源,使用文檔也非常詳盡,做序列標注的童鞋們又多了一把利器可以使用。
任務
CoNLL 2003 英文的命名實體識別 (NER)?
CoNLL 2000 Chunking?
PTB POS Tagging
模型
字符序列表示
在詞的表示方面,本文摒棄了基于傳統的特征的方法,直接使用詞本身的信息進行編碼。除了詞向量以外,為了更好地對那些不常見的詞編碼,文章使用 LSTM 或者 CNN 對構成詞語的字符進行編碼。
詞序列表示
在整個句子級別,文章同樣使用 LSTM / CNN 對構成句子的詞語的表示進行上下文的編碼。
預測層?
獲取了每個詞的上下文表示之后,在最后的預測層,文章使用了基于 Softmax 的和基于 CRF 的結構。和 Softmax 相比, CRF 往往更能有效地結合上下文的標簽的依賴關系進行預測。
實驗結果
NER的實驗結果
Chunking的實驗結果
POS Tagging的實驗結果
從以上結果來看,字符序列的表示方面,CNN 和 LSTM 的結果差別不大;詞序列的表示方面,LSTM 的結果比 CNN 的稍好一些,說明全局信息的有效性;預測層方面,POS Tagging 任務的 CRF 和 Softmax 表現相當,但是 NER、Chunking 的 CRF 的結果要比 Softmax 好一些。相比 POS 的tags,BIE 標簽之間的依賴關系可能更容易被 CRF 所建模。
其他
這篇文章也檢驗了預訓練的詞向量的不同(GloVe/SENNA),標注體系的不同 (BIO/BIOES),運行環境的不同(CPU/GPU),以及優化器的不同 (SGD/Adagrad/Adadelta/RMSProp/Adam)對結果的影響。感興趣的同學可以查看論文原文。?
最后
本文代碼已開源,使用非常方便,也可以加自定義的 feature,幾乎不用自己寫代碼就可以使用了。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
??DeepMind論文解讀:讓機器更深入地理解文本
??基于詞向量的簡單模型 | ACL 2018論文解讀
??上海交大提出多模態情緒識別框架EmotionMeter
??綜述:圖像風格化算法最全盤點
??CVPR 2018 最佳論文解讀:探秘任務遷移學習
??深度學習模型復現難?句子對模型復現論文
? ? ? ? ??
AI活動推薦
?
中國人工智能大會 CCAI 2018
AI領域規格最高、規模最大
影響力最強的專業會議之一
熱點話題√核心技術√科學問題√
?
?活動時間?
2018年7月28日-29日?
中國·深圳
長按識別二維碼,查看大會簡介
▼
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ?
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結
以上是生活随笔為你收集整理的COLING 2018 最佳论文解读:序列标注经典模型复现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯医疗AI实验室:3篇论文被国际顶尖会
- 下一篇: 刚刚,阿里开源了一系列重磅技术炸弹!|