Baseline needs more love
- Baseline needs more love
- 1.Paper Info
- 2.Paper highlights
- 2.1.Highlights
- 2.2.Other words
Baseline needs more love
Author: Cao Shengming
Email: caoshengming@trio.ai
Company: Trio 北京(三角獸)科技有限公司
1.Paper Info
- Release time: 24 May 2018
- link: https://arxiv.org/abs/1805.09843
- code: https://github.com/dinghanshen/SWEM
2.Paper highlights
2.1.Highlights
? ? 文章的亮點是對于我們最熟悉的詞向量,進行了精細化的探討。文章將模型訓練所涉及的參數分類了兩個部分,分別是 embedding paremeters 和 model parameters。這其實就是無監督學習引入的參量,和具體有監督學習附帶的參量。而這些參量是否更新,以及后者的維度對于模型表達能力的影響等問題,作者也進行了相應的探討。
? ? 對我們的啟示就是對于一些簡單的任務來說,單純的詞向量變換和更新,就可以滿足需求了。這里的變換主要涉及三種,max,average 和 hierarchical,這其實就是用 pooling 操作取代了傳統的操作,max 取得是核心元素(距離短),average 取得是平均結果(距離長),而 hierarchical 則采用窗口概念,將操作單元轉換為 n-gram(n 為窗口大小),這樣就保留了一部分語序信息在里邊。
? ? 作者針對詞序信息(word-order)信息在 NLP 相關任務中的作用,實際與直觀上的一致,對于序列標注等對語序依賴較強的任務,還是 LSTM、CNN 等操作更為有效。這里作者給了這些網絡一個提法,叫 composition function,我們就可以理解為一個映射函數,會將輸入映射到特征空間進行操作。
? ? 在參量大幅度下降,而指標又不會下降太多的情況下,采取簡單詞向量變換的方法不失為一種合理的選擇。
? ? 作者整篇行文也十分嚴謹,文末已經提到了模型所涉及的過擬合問題,因為所測試的語料都是一些開放數據集,可能這些結論在小規模數據集上的結果表現尚可,但是其泛化能力或在大規模數據集上的表現還有待考證。我也很有興趣,作者如何在 simple embedding 上考慮一系列的懲罰措施。后續會繼續跟進。
2.2.Other words
? ? 以后會不定期、長期更新相關論文的理解,比較有新意的會解析代碼或者做遷移實驗,希望可以多多交流。
總結
以上是生活随笔為你收集整理的Baseline needs more love的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最大后验概率和极大似然
- 下一篇: 自然语言处理中的符号表征