收下这12篇最新论文,炼丹不愁没灵感 | 本周值得读
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第 99?篇文章@guohao916 推薦
#Machine Reading Comprehension
本文提出了一個基于上下文的機器閱讀理解數據集 QuAC,該數據集存在兩類人群:Student 和 Teacher。Student 依次提出一系列自由式的問題,而 Teacher 進行回答,該回答是基于文章內部的片段產生的。不同于以往的機器閱讀理解數據集,該數據集存在以下特點:?
1. 問題是開放式的,也就是說問題的答案不一定存在于文章的片段中。因此 Student 在提問前不知道是否能夠被回答;
2. Teacher 的回答必需基于文章內部的片段,不存在自由片段(游離于文章內容的片段);
3. 對話終止的條件包括:從開始對話到現在,(a). 已經有 12 個問題被回答了;(b). Student 和 Teacher 中的某一位主動提出結束對話;(c). 有兩個問題不能夠被回答。?
論文采用了 Pretrained InferSent,Feature-rich logistic regression,BiDAF++ 以及 BiDAF++ w/ x-ctx 作為基準算法,選用 HEQQ,HEQD 和 F1 等作為效果度量指標,進行了一系列實驗。實驗結果表明,目前的基準算法得到的最好結果,相較于人工判斷的效果還存在很大提升空間。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2255
數據集鏈接
http://quac.ai/
@wangshy 推薦
#Text Classification
本文是清華大學發表于 IJCAI 2018 的工作。針對文本分類任務中卷積神經網絡通常無法靈活學習可變 n 元特征(n-gram)的問題,論文提出了一種具有適應式注意力機制的密集連接的卷積神經網絡。該模型通過建立底層特征和高層特征之間的跨層連接,從而獲得了豐富的多尺度特征,而注意力模型能夠自適應地選擇合適尺度的特征以適用于各種不同的文本分類問題。該法面向六個公開數據集均實現了超過基線的預測精度。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2240
源碼鏈接
https://github.com/wangshy31/Densely-Connected-CNN-with-Multiscale-Feature-Attention
On the Decision Boundary of Deep Neural Networks
@lykaust15 推薦
#Deep Neural Networks
近年來,深度學習在各個領域以及工業界都取得了令人矚目的成功。但是人們一直無法解釋為什么深度學習在分類上的 performance 會比傳統的方法要好那么多。尤其是,人們無法解釋為什么模型復雜度那么高的神經網絡沒有災難性的 overfitting 問題(確實存在 overfitting 問題,但是沒有嚴重到過于影響到模型的performance)。
這是一個非常值得研究的問題。它能夠幫助我們更進一步理解深度學習從而進一步提升深度學習的 performance。同時,它也有可能幫助我們解決一些實際的問題,比如 adversarial attacking,catastrophic forgetting。?
在前人的工作基礎上,本文從理論和實驗上證明了深度學習和 SVM 的內在聯系。如果訓練數據的 cross entropy loss 趨向于 0,那么使用 SGD 訓練深度學習會使神經網絡的最后一層的參數的方向趨向于 SVM solution 的方向。
也就是說,如果將深度神經網絡劃分成兩個部分,最后一層和除了最后一層的所有層。我們可以將除了最后一層的所有層當做一個 mapping function,這個 mapping function 將原始的輸入映射到一個 hidden representation 上。而網絡的最后一層實際上是一個 linear classifier。如果使用 hidden representation 和原始的 label 訓練一個 SVM,我們會發現 SGD 會使神經網絡的最后一層的參數的方向 converge 到這個 SVM solution 的方向上。
本文還用大量的實驗證明神經網絡最后一層 classifier 的 bias 也非常接近 SVM 的 bias。本文顯示 margin theory 有可能解釋深度學習的 generalization property。?
和前人的工作不同,本文沒有對神經網絡進行任何的簡化,研究的模型就是平時常用的模型,比如 resnet,densenet。本文的結論非常具有實用性。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2252
源碼鏈接
https://github.com/lykaust15/NN_decision_boundary
@daven88 推薦
#Recommender System
本文提出了一種基于 self-attention 的基于序列的推薦算法,該算法是用 self-attention 從用戶的交互記錄中自己的去學習用的近期的興趣,同時該模型也保留了用戶的長久的興趣。整個網絡是在 metric learning 的框架下,是第一次將 self-attention 和 metric learning的結合的嘗試。
實驗結果表明,通過 self-attention,模型可以很好的學習用戶的短期興趣愛好, 并且能有效的提升模型效果。通過和近期的文章得對比發現,該方法可以在很大程度上改善序列化推薦的效果。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2246
@yangdali 推薦
#Abstractive Summarization
本文是騰訊發表于 IJCAI 2018 的工作,文章提出了一種基于卷積神經網絡的總結式文本摘要生成方法,并結合主題模型的注意力機制,利用強化學習方法進行優化,在 DUC、Gigaword 和 LCSTS 數據集上達到 state of the art。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2234
@lunar 推薦
#Sentence Embeding
本文給出了一個新穎的看法,即一些垃圾數據對訓練也可以是有用的。作者人為制造出很多假數據(通過隨機從文本中丟失一些詞和打亂一些詞的順序),訓練出一個二分類網絡用于判別真假文本,這種方式訓練出的模型在很多任務上有更好的表現。有點像 CV 界數據增強的逆向玩法。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2229
@chlr1995 推薦
#Bayesian Deep Learning
本文從數學角度嘗試解釋 Dropout 的作用,深入探究 dropout 的本質。論文提出了一種從權重層面引入噪聲的方法。實驗結果顯示,這種方法不僅可以提高網絡的最終收斂結果,也可以加速收斂。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2212
源碼鏈接
https://github.com/noahfl/densenet-sdr
@lunar 推薦
#Genetic Algorithms
本文是 Google Brain 發表于 ICML 2018 的工作,作者希望能夠找到一種能夠替代反向傳播的方法。因此,他們設計了一種 domain-specific language (DSL) 來函數式描述數學公式(例如反向傳播),然后利用演化算法來發現新的傳播算法,旨在找到泛化性能比 BP 更好的算法。最終通過實驗,他們找到的算法能夠在訓練前期收斂得更快,但是收斂時并沒有表現得更好。?
BP 算法雖然取得了很大的成就,但是近年學界前沿也指出它的一些局限性,本文給這方面的研究探出了一小步。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2211
@Qfengly 推薦
#Dialog System
本文是百度發表于 ACL 2018 的工作,論文將 attention 應用于多輪對話,打破之前的 RNN 和 CNN 結構,在多輪上速度快,達到了目前最好效果。其次,本文使用 self-attention 和 cross-attention 來提取 response 和 context 的特征。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2250
@EricShen 推薦
#Recommender Systems
本文在 ACL 2018 上獲得了 Best Paper Honourable Mention Award。現有的句子表示大多都是基于連續的 vector(skip-thought vector 等),而本文考慮用離散的 binary vector 來表示句子(文檔),并首次提出用端到端的 Variational Autoencoder 來學習 binary 的句子表示。基于這些 binary 的向量,兩個文檔的相似度就可以通過他們 representations 之間的 hamming distance(即有多少 bit 不同)來進行判斷。
相較于連續的 vector 上的 inner product 操作,這種策略有更快的計算速度(這種方法被稱為 semantic hashing)。同時,離散的向量在 storage 上也比連續的向量更加節省空間。
在 information retrieval 的幾個 benchmark 數據集上,本文的模型相對于以前的 semantic hashing 方法在搜索準確率上實現了明顯的提升。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2225
@pxwluffy 推薦
#Deep Learning
本文從幾何的角度理解深度學習,為深度學習提供嚴密的數學論證。深度學習目前還停留在實驗科學的階段,其嚴格的數學解釋還未完全建立。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2216
@aforever 推薦
#Multi-task Learning
本文是阿里發表于 AAAI 2018 的工作,論文利用用戶搜索日志進行多任務學習以壓縮商品標題,生成的商品短標題在離線自動評測、人工評測以及在線評測中均超過傳統抽取式摘要方法。端到端的訓練方式避免了傳統方法的大量人工預處理以及特征工程。多任務學習中的 Attention 分布一致性設置使得最終生成的商品短標題中能透出原始標題中重要的詞,尤其是能引導成交的核心詞,對于其他電商場景也有重要意義。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2253
#文 末 福 利#
以下是簡單粗暴送書環節
PaperWeekly?× 圖靈教育?
《Python深度學習》
<5本>
熱門暢銷√大神執筆√入門必備√
作者:Franc?ois Chollet
譯者:張亮
■?30多個代碼示例,帶你全面掌握如何用深度學習解決實際問題
■?Keras框架速成的明智之選
■?夯實深度學習基礎,在實踐中培養對深度神經網絡的良好直覺
■?無須機器學習經驗和高等數學背景
由 Keras 之父、Google 人工智能研究員 Franc?ois Chollet 執筆,美亞 4.6 星評,16 開全彩印刷,通俗易懂,幫助讀者建立關于機器學習和深度學習核心思想的直覺。書中用 30 多個代碼示例,步驟講解詳細透徹,介紹了用 Python 和 Keras 進行深度學習的探索實踐,包括計算機視覺、自然語言處理、產生式模型等應用。
?
?參與方式?
請在文末留言分享
對于各位初級煉丹師而言,
應該如何選擇適合自己的深度學習框架?
小編將隨機抽取5位同學
送出圖靈教育新書
截止時間:8月31日(周五)20:00
點擊以下標題查看往期推薦:?
??暑假沒人帶怎么辦?還有我們為你推薦論文
??本周份AI論文推薦新鮮出爐!真的很skr了~
??本周最熱 AI 論文大集合,還不快一鍵收藏?
還在熬夜憋思路?這12篇最新論文打包送給你
本頂會論文輪番炸場,本周哪些論文最值得讀?
總結
以上是生活随笔為你收集整理的收下这12篇最新论文,炼丹不愁没灵感 | 本周值得读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RealNVP与Glow:流模型的传承与
- 下一篇: 教科书上的LDA为什么长这样?