深到骨子里的自律,是每周坚持刷几篇最新论文 | PaperDaily #10
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?10?篇文章[ 自然語言處理 ] Don't Decay the Learning Rate, Increase the Batch Size
@RamonYeung 推薦
#Learning Theory
埋下伏筆:來自 Google Brain 的論文。
文章主要講明白四點:
1. 主動降低學習率(Decaying the Learning Rate)是模擬退火,因為降低學習率導致 SGD 訓練時,隨機波動的幅度也減少了;
2. 我們提出一個替代方案:不降低學習率,在訓練時提高 batch_size。在訓練相同 #epochs 下,這種策略在測試集上達到了幾乎相同的模型性能,但是顯著減少了參數更新的次數。我們的方案不需要通常的訓練做法(Fine-tuning)。當需要將學習率降低為原來的 1/α 時,我們將 batch_size 改為原來的 α 倍。
3. 參數更新次數可以進一步縮短:
-
提高學習率 ?,同時按 B∝? 的方式提高 batch_size;
-
提高動量系數(Momentum Coefficient)m, 同時按 B∝1/(1?m) 的方式提高 batch_size。
4. 結合這些策略,我們在 ImageNet 上對 Inception-ResNet-V2 進行 2500 次參數更新,達到 77% 的驗證集精度。為了實現這一點, 訓練時 batch_size=65536。相比之下,Goyal 等人(2017)需要 14000 個參數更新, 使用 ResNet-50 達到 76% 的驗證精度,batch_size=8192。
前提是:你有錢買更多的 GPUs 裝入更大的 batch_size。
Memory-augmented Neural Machine Translation@yuer3677 推薦
#Neural Machine Translation
該篇文章將傳統 SMT 的詞對應關系以 Memory 的形式組合到 NMT 上,結合了兩者的優勢。一方面增加了 rare word 的出現概率,提升了翻譯 performance;另一方面提供了一種解決 unknown words 的思路。該方法尤其在小數據集上效果明顯。
Sequence-to-Dependency Neural Machine Translation
@jerryshi 推薦
#Text Classification
1. 文章有什么貢獻? 提出了一種新的 Sequence-to-Dependency Neural Machine Translation (SD-NMT) 的方法,來將目標語言句法知識利用進了 NMT 系統,相比起沒有使用句法知識的基準 NMT 系統,性能得到了相對的提高。?
2. 研究的問題有何價值?目前的 NMT 系統主要是直接用線性 RNN 來進行 Seq2Seq,但是這樣的系統對于捕捉不明顯的長距離詞的依存還是有很大難度的。因此在解碼的時候,將句法知識考慮進解碼器中后,可以提高翻譯結果語法的正確性,并且也可以利用局部依存信息來生成之后的詞語。?
3. 研究問題有什么挑戰?一,如何利用 RNN 來構建句法結構;二,如何在一個神經網絡中,有效地同時進行詞語生成,還有句法結構的構建;三,如何有效地利用目標語言的句法背景,來幫助詞語的生成。?
4. 本文的解決思路?
利用了兩個 RNN 網絡,Action RNN 和 Word RNN,分別進行詞語生成和句法結構的構建。Action RNN 利用了 transition-based dependency parsing(基于轉換的依存句法分析)中的 arc-standard shift-reduce algorithm 算法,來生成構建所需依存結構的動作。而同時因為兩個 RNN 生成的的序列長度不一致,所以 Word RNN 利用了些技巧,使得它能夠參考 Action RNN 的結果輸出詞語,或者保持不變以和 Action RNN 的時序保持一致。?
通過定義生成依存結構時的棧頂部兩個詞語,最左和最右修飾語的一元和二元語言特征,生成相對當前詞匯的局部依存背景。之后將這個背景與 Word RNN 的輸出結合起來,幫組生成新的詞匯。
@LUOHAO 推薦
#Person Re-identification
1. 文章提出了一種新的度量學習方法 Margin sample mining loss - MSML。Triplet loss 是一種非常常用的度量學習方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的兩個改進版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 兩個優點的綜合體,實驗證明 MSML 能夠在 person ReID 的公開數據集上取得很好的結果;
2. 這個方法不止可以應用于 person ReID,而是一種通用的度量學習方法,進一步可以延伸到圖像檢索等相關的各個領域。
Fader Networks: Manipulating Images by Sliding Attributes@Gapeng 推薦
#GAN
跟其他 GAN 方法不同,Fader nets 通過在隱層編碼引入對抗來實現屬性相關編碼和屬性無關編碼的分離。D 嘗試從 Encoder 的編碼中預測出屬性,而 Encoder 則盡量學習不帶屬性的編碼,以使 D 的預測失效。Decoder 接收 Encoder 的編碼以及額外的屬性作為輸入,以重構/修改圖像。文章的效果非常好,目前復現存在難度,過段時間作者會開源代碼。
Scale-adaptive Convolutions for Scene Parsing
@lisabug 推薦
#Semantic Segmentation
ICCV'17 Poster。 簡而言之,文章提出了一個 scale-adaptive 的 dilation conv層。
1. 與 fixed coefficient 的 dilation conv 相比,本文提出的 scale-adaptive conv 層通過前一層的 feature 對于每一個位置預測一個 variant coefficient。對于大物體,我們應該需要更大的感受野,因此得到一個大的系數;對于小物體,我們應該關注細節而忽略背景,則縮小感受野更加強調細節的 feature??梢詤⒖嘉恼聢D 3 理解;
2. dilation 系數非整數時,使用常見的 STN 中的 bilinear interpolation 做到可以 e2e 的學習;
3. 合理的初始化系數回歸層的參數,并在訓練時進行對其 clip,使得 dilation 系數位于一個合理的范圍內;
4. 文章提到在高層使用效果較好;
5. 即插即用,較小的額外參數和計算開銷。相比 baseline 不加多尺度訓練的情況下可以在 cityscape 上漲 2 個多點。
[ 機器學習 ]
Paraphrase Generation with Deep Reinforcement Learning@paperweekly 推薦
#Deep Reinforcement Learning
用增強學習來解決端到端 paraphrase 生成問題,取得了不錯的效果。
@AkiyamaYukari 推薦
#Generative Networks
一種新的概率生成模型(probabilistic generative model )被提出了,而且在一定任務上表現超過了現有的神經網絡。
@tmasada 推薦
#Bayesian Inference
This paper proposes new probability distributions on permutations. The variational inference is performed by using reparameterization trick.
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看更多優質論文
總結
以上是生活随笔為你收集整理的深到骨子里的自律,是每周坚持刷几篇最新论文 | PaperDaily #10的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 综述 | 知识图谱发展概述
- 下一篇: 基于对偶学习的跨领域图片描述生成