ML 自学者周刊:第 5 期
刊首語
這里記錄ML自學者群體,每周分享優(yōu)秀的學習心得與資料。由于微信不允許外部鏈接,需要點擊文末的「閱讀原文」,才能訪問文中的鏈接。
本期內容
論文閱讀
?ACL2018:多語義詞向量的編碼?阿里電商訴訟預測多任務模型?EMNLP2019: 短文本分類的異質圖注意力網絡
學習心得
?小強:Encoder-Decoder?君君:YOLO 框架學習?昨夜星辰:詞向量學習?君君:研究圖像模態(tài)轉換模型?奔騰:科大訊飛比賽總結?曲奇:優(yōu)化理論的多目標規(guī)劃問題
疑問解答
?特征工程中的歸一化有什么作用?如何解釋準確率、召回率和F值?特征抽取、特征選擇、變化組合區(qū)別
論文閱讀
ACL2018:多語義詞向量的編碼
閱讀論文 ACL2018 上的: Probabilistic FastText for Multi-Sense Word Embeddings
已有方法不能很好的應對稀有詞與詞匯表沒有的詞的語義問題,文章提出來一種概率詞模型,將高斯混合概率與FastText模型結合,具有靈活的子詞結構。
高斯分量可以得到多義詞意義上的分離,FastText子詞結構獲取到更多字符級信息與不確定的信息,從而提供了高質量的語義表達。文章模型在一些詞相似度數據集上的表現優(yōu)于之前的模型,在罕見詞數據集和其他語言數據集上也有較好的效果。本文工作首次利用多模態(tài)嵌入來解決罕見詞的問題。
論文地址[1]
阿里電商訴訟預測多任務模型
今天給大家分享一篇阿里使用多任務模型做電商訴訟預測的論文。論文地址:Legal Intelligence for E-commerce。
首先介紹一下文章背景,一般來說會先有電商糾紛(一般是在線的,所以此過程也稱為ODR,online dispute resolution),如果買賣雙方對糾紛處理結果不滿意的話一般會通過律法途徑將糾紛問題轉為訴訟問題。而訴訟需要請律師(高額的費用),同時法官也需要收集各方面的信息(包括買賣方的歷史數據及平臺聊天記錄等),這些都給訴訟處理帶來了很大的困難。
那么訴訟預測會面臨什么問題呢?
LDJ(legal dispute judgement)任務在NLP領域做得相對較為成熟,但是電商糾紛/訴訟預測與LDJ還是有一定的區(qū)別,所以不能直接套用LDJ預測的方法來解決電商糾紛/訴訟預測任務,但是作者表示這兩者有一定的相似度。
相對于糾紛數據來說,電商訴訟數據更為稀疏,也就是訓練數據少。
總體上來說,作者使用了多任務網絡的模型,糾紛數據訓練底層表示,使用訴訟數據微調更上層的網絡。
這篇文章會介紹好幾次,這次先講個大概吧。
論文地址[2]
EMNLP2019: 短文本分類的異質圖注意力網絡
短文本分類在新聞及微博等領域得到了廣泛的應用。但是,目前的文本分類算法主要集中于長文本分類并且無法直接應用于短文本分類。這是由于短文本分類的兩個獨有挑戰(zhàn):數據的稀疏和歧義、標簽數量較少。
針對上述兩個挑戰(zhàn),本文創(chuàng)新地將短文本建模為異質圖,通過圖數據的復雜交互來解決數據稀疏和歧義帶來的挑戰(zhàn)。同時,本文提出了一種異質圖注意力 HGAT 來學習短文本的表示并進行分類。HGAT 是一種半監(jiān)督學習算法可以更好的適用于標簽數量較少的場景,如短文本的分類。
論文地址[3]
學習心得
小強:Encoder-Decoder
本周在看 encoder–decoder,seq2seq,attention 相關的東西。
由于時間不夠,先簡單說幾點收獲,過幾天發(fā)成文。
encoder–decoder 是一個很大的范疇,不論編碼和解碼用的什么算法,只要是『編碼–解碼』的結構都算這個范疇。
seq2seq 和 encoder–decoder很像。也是編碼和解碼的過程,不過范圍更小,基本限定在了nlp和語音這種序列特征很強的。
如果說encoder–decoder是一種『有損壓縮』,在把長文本轉化為固定向量的過程會損失一些信息。那么attention就更傾向于無損壓縮,更好的保留了信息。
君君:YOLO 框架學習
這周看了R-CNN,fast R-CNN,SPP,YOLOv1,YOLOv2的框架結構。覺得YOLO這么簡單地模型能有這么高的精確率以及效率是真的厲害。
另外在darknet上跑了下YOLO的預測模型,好奇darknet是怎么用yolo.cfg構造tensorflow模型,就去一行一行看darknet源代碼,看得人腦殼疼。看過之后莫名覺得代碼能力level+1。
為了高效刷leetcode,找了本算法書籍補補算法代碼基礎(純數學系畢業(yè)工作才接觸的Python+深度學習,覺得硬算法方面太欠缺了),看得比較零散暫時沒有總結。
昨夜星辰:詞向量學習
最近在學詞向量的發(fā)展史及代碼實戰(zhàn)。從 one-hot,詞袋,tf-idf到分布式表示,如NNLM,以及后來的 word2vec,fasttext,glove,elmo,gpt。
在看到bert時,還是避免不了之前transformer等基礎。因此在代碼實戰(zhàn)上閱讀paper原文,掌握原理。希望將當前的基本打牢。
君君:研究圖像模態(tài)轉換模型
最近在研究圖像模態(tài)轉換的模型。從改進的condition cycle GAN ,到cycle GAN,再到Wasserstein cycle GAN。condition cycle GAN被放棄的原因正是因為condition,condition模塊的存在使得預測(模態(tài)轉換)過程必須具備當前圖像的label,導致切圖轉換再還原這個流程走不通。
cycle GAN訓練過程中l(wèi)oss_D起伏波動無法很好收斂(盡管大多數類別圖像模態(tài)轉換已經很逼真,但還有少數類別無法完美轉換),網上查找之后發(fā)現這個原因很有可能是因為GAN本身難收斂的原因,并且為了緩解這種情況已經有人提出了Wasserstein GAN(WGAN)以及WGAN_GP。打算試試Wasserstein cycle GAN這條路能不能走通。
中間為了改進cycle GAN,在github上找了好多基于基礎GAN改進的condition GAN、Wasserstein GAN的相關實現代碼。參考然后嫁接到自己模型上面,發(fā)現GAN的玩法真的是太多了。下面附上兩個我覺得總結很到位的GAN鏈接。有興趣的可以嘗試參考第一個鏈接[4]中的變種GAN,在第二個鏈接[5]中改進cycle GAN。
曲奇:優(yōu)化理論的多目標規(guī)劃問題
天津大學強化學習實驗室同網易伏羲人工智能實驗室、NTU 合作的 ASE 2019 論文《Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning》。
該論文主要融合了進化算法與深度強化學習算法,從多目標優(yōu)化的角度,旨在解決大規(guī)模商業(yè)游戲的自動化智能測試問題,并榮獲 ASE 2019 的最佳論文獎 (Distinguished Paper Award)。
奔騰:科大訊飛比賽總結
科大訊飛四個比賽總結
?AD分類決賽總結[6]?工業(yè)壽命預測[7]?大數據應用分類[8]?移動反欺詐[9]
疑問解答
特征工程中的歸一化有什么作用[10]
引入歸一化,是由于在不同評價指標中,其量綱或者是量綱單位往往不同,變化區(qū)間處于不同的數量級,若不進行歸一化,可能導致某些指標被忽視,影響到數據分析的結果。
所以,為了消除特征數據之間的量綱影響,需要進行歸一化處理,已解決特征指標之間的可比性。原始數據經過歸一化處理后,各指標處于同一數量級,以便進行綜合對比評價。
如何解釋準確率、召回率和F值[11]
準確率和召回率是廣泛用于信息檢索和統(tǒng)計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統(tǒng)的查準率;召回率是指檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統(tǒng)的查全率。
一般來說,Precision就是檢索出來的條目(比如:文檔、網頁等)有多少是準確的,Recall就是所有準確的條目有多少被檢索出來了。
正確率、召回率和 F 值是在魚龍混雜的環(huán)境中,選出目標的重要評價指標。不妨看看這些指標的定義先:
?正確率 = 提取出的正確信息條數 / 提取出的信息條數?召回率 = 提取出的正確信息條數 / 樣本中的信息條數
兩者取值在0和1之間,數值越接近1,查準率或查全率就越高。
?F 值 = 正確率 * 召回率 * 2 / (正確率 + 召回率) (F 值即為正確率和召回率的調和平均值)
特征抽取、特征選擇、變化組合區(qū)別[12]
特征抽取,一般是從原始數據中通過計算得到一些特征,如計算用戶的購買力區(qū)間,平均每個月的購買次數。特征選擇:假設你抽取了100個特征,通過信息增益、互信息等等指標選擇了最重要的30個用于建模;特征變換:如有個特征是用戶的年薪,但是這個年薪的區(qū)間太大,我們做了一個函數變換,如log(年薪)。特征組合:如年齡區(qū)間+年薪區(qū)間做組合。
加入我們
公眾號內回復「自學」,即可加入ML自學者俱樂部社群。可以投稿每周學習心得或者優(yōu)質學習資料,助力團體共同學習進步。
上期精彩內容
References
[1]?論文地址:?https://www.aclweb.org/anthology/P18-1001/
[2]?論文地址:?https://dl.acm.org/citation.cfm?id=3331212
[3]?論文地址:?http://www.shichuan.org/doc/74.pdf
[4]?第一個鏈接:?https://github.com/MASILab/SynSeg-Net
[5]?第二個鏈接:?https://github.com/znxlwm/pytorch-generative-model-collections
[6]?AD分類決賽總結:?https://blog.csdn.net/herosunly/article/details/102708654
[7]?工業(yè)壽命預測:?https://blog.csdn.net/herosunly/article/details/102711266
[8]?大數據應用分類:?https://blog.csdn.net/herosunly/article/details/102711596
[9]?移動反欺詐:?https://blog.csdn.net/herosunly/article/details/102713094
[10]?特征工程中的歸一化有什么作用:?https://www.zhihu.com/question/20455227/answer/325347915
[11]?如何解釋準確率、召回率和F值:?http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/
[12]?特征抽取、特征選擇、變化組合區(qū)別:?https://www.zhihu.com/question/20716506/answer/45658573
總結
以上是生活随笔為你收集整理的ML 自学者周刊:第 5 期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅-ELMO、BERT、GPT视频笔
- 下一篇: 首发:吴恩达的 CS229的数学基础(线