Byte Cup 2018机器学习大赛进入冲刺阶段,最全资料帮你快速上手!
?
2018 Byte Cup 國際機器學習競賽(以下簡稱 Byte Cup)是一項面向全球的機器學習競賽,旨在促進機器學習的學術研究和具體應用。?
Byte Cup 2018 的主題是自動生成文本標題。自從互聯網誕生以來,人類產生和獲取的文字信息量增加了很多。移動互聯網更是能讓每個人隨時隨地都可以接收到最新的信息,并且可以隨時隨地創作內容。內容信息的過載讓機器創作變得十分重要。
首先,機器創作標題和摘要可以快速總結文章內容,方便迅速瀏覽。其次,根據今日頭條等產品的數據,內容創造和內容的閱讀量符合冪律:大量內容只有很少的人閱讀。如果這部分內容可以由機器自動創作,可以極大地減小成本。此外,自動摘要和自動標題生成也是自然語言處理領域的重要研究課題。?
目前,比賽已經進入了測試集階段,為期一周,我們收集了以下資料,幫你快速進入文本摘要和標題生成這一領域。?
PaperWeekly 曾于 2016 年發表了一系列關于自動摘要生成的文章,全面地介紹了這一領域的各種進展,同時介紹了不少領域內的經典論文。
目錄:
https://rsarxiv.github.io/tags/自動文摘/
自動文摘(一)
https://rsarxiv.github.io/2016/03/20/自動文摘(一)/
自動文摘(二)
https://rsarxiv.github.io/2016/03/30/自動文摘(二)/
自動文摘(三)
https://rsarxiv.github.io/2016/04/06/自動文摘(三)/
自動文摘(四)
https://rsarxiv.github.io/2016/04/17/自動文摘(四)/
自動文摘(五)
https://rsarxiv.github.io/2016/04/24/自動文摘(五)/
自動文摘(六)
https://rsarxiv.github.io/2016/04/30/自動文摘(六)/
自動文摘(七)
https://rsarxiv.github.io/2016/05/07/自動文摘(七)/
自動文摘(八)
https://rsarxiv.github.io/2016/05/10/自動文摘(八)/
自動文摘(九)
https://rsarxiv.github.io/2016/05/11/自動文摘(九)/
自動文摘(十)
https://rsarxiv.github.io/2016/05/12/自動文摘(十)/
自動文摘(十一)
https://rsarxiv.github.io/2016/05/12/自動文摘(十一)/
自動文摘(十二)
https://rsarxiv.github.io/2016/05/17/自動文摘(十二)/
自動文摘(十三)
https://rsarxiv.github.io/2016/05/18/自動文摘(十三)/
著名的 IT 博主阮一峰也曾用深入淺出的語言描述了這個領域內的一篇經典論文(1958 年 IBM),并附上了 C# 和 Python 鏈接:
?
《TF-IDF與余弦相似性的應用(三):自動摘要》,阮一峰:
http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html
2004 年,Mihalcea R, Tarau P 等人在 ACL 上發表了一篇基于 TextRank 進行文本摘要的論文。以下是一篇 TextRank 文本摘要的介紹:
《使用TextRank算法為文本生成關鍵字和摘要》,樂天筆記:
?
https://www.letiantian.me/2014-12-01-text-rank/
?
代碼:
?
https://github.com/letiantian/TextRank4ZH
此后,Seq2Seq 和 Attention 等技術,將自動摘要帶上了一個新的臺階,也是當前主流的標題生成方法。參考:
《玩轉Keras之Seq2Seq自動生成標題》
代碼:
?
https://github.com/bojone/seq2seq/blob/master/seq2seq.py
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 訪問大賽主頁
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的Byte Cup 2018机器学习大赛进入冲刺阶段,最全资料帮你快速上手!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 综述:Image Caption 任务之
- 下一篇: 从变分编码、信息瓶颈到正态分布:论遗忘的