NAACL 2019最佳论文:量子概率驱动的神经网络
作者丨李秋池、王本友
學校丨帕多瓦大學博士生
研究方向丨信息檢索/自然語言處理
今天要介紹的文章與當前大火的 BERT 同獲最佳論文,摘得 NAACL 2019 最佳可解釋NLP論文(Best Explainable NLP Paper)。NAACL 與 ACL 和 EMNLP 并稱之為 NLP 三大頂會,去年 ELMO 獲得 outstanding paper,今年一共有五篇最佳論文,分別是 Best Thematic Paper,Best Explainable NLP Paper,Best Long Paper 以及最佳短文和最佳 resource 論文。
?
目前用深度學習的方法來做 NLP 任務已經越來越火了,很多具有復雜結構的神經網絡被聲稱在給定規范良好的輸入和輸出的某些數據集有著更好表現。但是神經網絡本身的可解釋性的問題,像一顆定時炸彈,始終縈繞在大家心頭。
如果始終在 how 的問題上,在應用上下猛藥,也可能像煉丹術一樣,有可能并沒有對準病癥。而 why 的問題,也就是它為什么 work 的機制,是一個更難的問題,正吸引越來越多的研究者從不同的角度和視野去挑戰。
哈士奇還是狼?
對于神經網絡的工作原理,有一個形象的例子,那就是哈士奇還是狼(husky or wolf)的問題 [1]。大部分人都可以很正確地判斷出左圖中的動物是狼,而右圖中的動物是哈士奇,這兩個圖對人而言還是相對不難。不出意外地,神經網絡模型也能夠把這兩張圖分得很準。
??
當讓神經網絡模型分下面這張圖,它就凌亂了,認為下圖是狼。
?
原來神經網絡模型分類這兩個類別,靠的是背景,而不是真的知道哈士奇和狼之間細微的區別。換句話說,一旦哈士奇大哥偶爾跑到雪地上,神經網絡就傻眼了。如果有一天用戶或者產品經理跑過來說,這只站在雪地里的哈士奇,一定要在下一個版本被正確地分類,那么這時候負責模型設計人員多半會手足無措。
提到這一個例子的目的是說明,因為神經網絡內部本身的約束非常少,神經元的值可以在任意的取值區間,這使得神經網絡只是被當做一個黑盒子去擬合輸入輸出,其內部的機制并不能夠被大家所清晰地理解。因此,目前的神經網絡往往并不是十全完美的解決方案,而需要改進結構的設計便于人們理解其內部的機制。
可解釋性 (Interpretation)
可解釋性的問題較早就有人提出來,有著不一樣的叫法,比如 interpretable, explainable, intelligible, transparent 和 understandable,不一而足。
值得提到的是此處的可解釋性與推薦系統的推薦理由或多或少有一些聯系和細微的區別,本文提到的可解釋性并不限于對于機器學習某個預測(某個特定 case)的理由,更多的理解為對這個模型的通用(general)的理解。無論何種理解,可解釋性都與最終的性能關系并不緊密。
通常,可解釋性是人們在機器學習模型中尋求的各種特征的代理。這些輔助的特征可能是公平性(Fairness,能否減輕各類偏見 bias?),可靠性(Reliability),因果(Causality,是一種相關性還是因果性?如分類哈士奇和狼是靠的兩種類別之間的差異,還是由于背景帶來的相關性),可信度(Trust,模型能夠知道預測本身的置信度如何?)。
本文主要參考 Lipton 的說法 [2],主要解釋為透明度 Transparency 和事后解釋性 Post-hoc Explainability。
前者 Transparency 主要關心模型的運作機制和功能。這樣方便人類去做檢查,比如人工剔除模型的一些顯著的弱點。一旦發現了 bad cases,人類有辦法按照自己預期的目標,去干預和改變它的預測。在實時的應用中,數據可能包含比標注語料更多的噪音,所以透明性更加重要。
事后解釋性通常在模型訓練完成之后的馬后炮解釋。在模型訓練之后,比如對一些組件做一些統計分析,像對 CNN 核的可視化,對機器翻譯 attention 的可視化 [3][4]。
CNM復值匹配網絡
值得注意的是,本文提到的可解釋網絡并非標準范式,本文作者給出一些新的神經網絡范式,從新的角度去闡述可解釋性。
本文提到的網絡不同于多層感知機,卷積神經網絡和循環或遞歸神經網絡。從網絡結構本身,可以理解為一個玩具(toy)網絡(代碼開源在 Github 上),因為目前它是一個較淺的神經網絡,在結果本身并沒有太大的競爭力,關注的是可解釋性。
透明度和事后解釋性解釋為兩個稍微具體一點的研究問題:
1. Transparency – 模型怎么工作的?網絡由什么驅動來給出最終預測?
2. Post-hoc Explainability – 神經網絡學到了什么?網絡中每一層某個神經元的激活值大或者小意味著什么?
對于這兩個問題,在本文的網絡架構里姑且給出一個可能的思路就是:
1. 由量子概率來驅動網絡來做出預測;
2. 將同一個希爾伯特空間的狀態(state)來一統不同粒度的語言單元。包括可學習組件也將嵌入到與詞語相同的希爾伯特空間,這樣人們有機會去通過人類易于理解的語言單元(比如詞級別)來詮釋學習到的組件
?
動機
量子物理認為微觀粒子可以同時處于不同的狀態(量子疊加),這種有別于經典物理的常識,比如在沒有觀測之前,人們難以想象一個同時處于死了和或者的貓。不僅如此,一對糾纏粒子可以在相聚很遠的時候,其中一個粒子的測量的結果可以影響到與之糾纏的另外一個粒子。
從量子物理發展來描述物理系統中的不確定的數學語言,是否對語言的形式化描述也有所裨益?這是本文關心的問題。在語言本身,詞語存在一些不確定性,比如 apple 這個英文單詞可以是一種水果,也可以一個生產 iPhone 和 Mac 的公司。如果把水果和生產?iPhone 和 Mac?的公司定義成基本語義單元,那么 apple 這個詞就可以認為是這些基本語言單元的疊加態。
此外,詞語與詞語之間并不是完全獨立的,有人做過一個詞匯聯想實驗,有論文嘗試將這種詞匯聯想可以用量子糾纏來解釋 [5],更有相關的學者嘗試用量子力學的數學框架來構建認知模型,比如霍金的導師 Penrose 推崇的量子大腦這類大膽想法(當然也招來大量批評)。
本文的出發點是受上述觀點的啟發,作者聲稱,量子力學去建模不確定的數學形式化是通用的(general),而且相對成熟,有潛力在建模語言的場景去嘗試。在語言中的不確定性首先體現在單詞級別的一次多義的場景里;次之,在語義組合的級別(意即如何組合多個詞的意思成一個詞組或者更大語義單元),也存在不同的組合方法。
用概率來驅動神經網絡
通常對神經網絡的批評來自于人們無法理解神經元到底有什么物理含義,當一個神經元的值變大或者變小對當前實例而言究竟是有什么意義。一個可行的方案是不在單獨去看一個神經元,而是把神經元組成一個簇(可以參看 Capsule Network [6]),對神經元簇去做一個整體,每個神經元簇是一個向量,向量的方向表征著不同的特性,長度可以對應一些強度(或者說未經歸一化前的概率)。
在量子的上下文下,將這一類的簇稱之為狀態。量子概率是一套基于投影幾何的概率理論,可以看做是一個更加 general 的概率理論。這些所有的狀態都是由一些基本基態組成的,這些基態被稱之為不可分割且互不相關的語言基本單元(義原),形式化為一些 one-hot 向量。一個越加豐富復雜的語言體系,應有更多這樣的 one-hot 向量。
?
比如圖中是一個簡化的例子,比如某種原始的動物語言只有兩個基本義原,比如 yes 和 no,分別對應于 |0> 和?|1>,分別是 one-hot 的向量 [1,0]?和 [0,1]。
在該動物的意識深處永遠處于一種糾結的狀態,它“汪”一聲只能表示其中兩種意思的混合狀態,但是有著不同程度,有時候是非常想說 yes 但是只是有一點不情愿,有時候是想說 no,這種不確定性可以由投影來測量,測量長度的平方對應于概率。
?
但是當把三個這樣的原始動物聚在一起,每個動物都有著不情愿的程度,意即圖中不同的處于疊加的狀態。上帝問“今天愿意去祭祀嗎?”(上帝的語言系統好像比大家都復雜豐富很多)。
這樣三只動物就一起“汪汪汪”就一起叫了起來,上帝把它們的狀態都往 (x 軸表示 yes)投影,然后對投影長度的平方求平均,就知道這些動物愿不愿意去祭祀的情況。?
更有趣的是,上帝仗著自己語言系統比較豐富,突然玩起了花樣,不再是問“愿意還是不愿”,上帝問“你們三個是不是都是半情愿半不情愿(50%-50%)”,然后把所有的狀態朝著 x 軸正方向和 y 軸正方向之間的 45 度角方向投影,投影最后的結果照樣把三個投影長度的平方平均一下就可以得到最后的結果。
所以再推而廣之,那么對所有的方向都可以去做投影,最后的結果就類似圖中的虛線橢圓(虛線與實線向量相接的點描述投影的長度,它的數學描述來自后文提到的密度矩陣)。
于是就把這樣的基于投影幾何的概率理論嘗試搬到語言建模中來。單詞被認為是純的狀態疊加態,就像圖中的單位向量。很多單詞一起的的混合系統就像圖中三個動物一起的小集體,這樣的小集體的概率描述是一個圖中的虛線橢圓來描述(也就是密度矩陣),對混合系統的測量(就像上帝問的問題)的結果就呈現平均的結果。
如果選一組完備且正交的測量向量去測量這樣的混合系統(實際上本文用數據驅動的方式去找一些更有判別力的測量向量),可以得到一組概率分布(即概率和為 1)。值得注意的是,所有狀態都是單位的,而且這樣的狀態向量都是復數的。
希爾伯特空間一統不同粒度的語言單元
?
上文對量子概率有了一個簡短的描述,為了方便大家接受,丟棄了幾乎所有的數學形式化符號,全部同簡單的投影幾何的語言描述量子概率理論是如何在兩維的空間運作。但是實際上語言本身應該是更復雜,所以這樣互斥的基本語言單元的數量(也就是空間維度)的數量會更大,意即空間的維度更大。
這樣自然語言于物理形式化的語言的類比如下:
義原(不可分割的語言單元) <--> 基態
詞 <--> 疊加態?
詞組/N-gran <--> 混合態
語義測量 <-->? 投影算子 (投影方向對應于網絡里面任意的一個疊加態)
句子 <--> 和投影算子一一對應的一組概率值
所有一些對應的內容均是有著良好的歸一化和數學約束,如下表所示:
幾乎每一個組建都有著相對較好的約束的定義,與之對應的好處是,在整個神經網絡中出現的神經元要么是一個單位狀態的一個元素,抑或是概率值。
語義匹配
文本匹配是自然語言處理和信息檢索很常見的任務,目標是匹配兩個對象。源對象和目標對象可以是查詢和文檔,問題和答案,假設和推論,以及對話系統里兩個 utterance。通常的做法是先對兩個文本對象構建一個對稱的表示層,然后再在得到兩個表示上做一個交互層。
?
如圖所示,詞就像粒子一樣(同時處于不同的位置,有一個波函數來描述它出現的不同地方的概率,但是義原是離散的,所以它實際上是一個離散的概率分布來描述),被認為是嵌入在希爾伯特空間的一個狀態,也就是一個復數的單位狀態向量,一個在基本語義單元空間的復值權重的線性疊加(對應在基本語義單元的一個概率分布)。
與 CNN 類似,本文用滑動窗口來對一些列 N-gram 來構建一個混合系統,這樣混合系統的的概率屬性由一個密度矩陣來描述。本文模型將需要匹配的兩個文本對象各自的 N-gram 同時向一個投影平面投影,投影的長度的平方對應混合系統投影到該投影平面的概率。
根據投影長度來判斷兩個文本對象是否匹配。如果兩個文本對象是匹配(比如該答案對應正確的問題),希望找到一些投影方向讓兩個密度矩陣投影后的長度相近;反之希望投影長度相差更大。
因為投影平面是由一個向量張成的子空間,該投影向量跟詞語同時嵌入在同一個希爾伯特空間,所以可以通過最靠近該投影向量的詞向量來理解投影向量可能蘊含的含義。
?
選取了其中五個投影向量,將起最近的五個詞展示出來。由圖中學到的測量向量的含義可以通過詞語來描述。如下圖:
?
復值語義組合
?
將詞向量相加來表示句子一個非常常見的做法,在一些文本分類的任務中,直接對文本的所有詞的詞向量平均然后接一個全聯接層就可以得到不錯的結果。但是這種直接加法是一種粗糙的做法,因為其有一個非常強的假設,那就是由詞組成的詞組/句子/文檔的含義是由其包含的詞線性相加得到的。
一個簡單例子“artificial intelligence”的含義就是像人一樣工作的智能,基本可以由兩個詞的含義的線性疊加。另外一個例子是“ivory tower”的組合起來的意思,并不是一個由象牙做成的塔,而是心無旁騖追求自己目標(通常為智慧方面)的樂土,這樣一個組合起來的意思并不能由象牙和塔的直接線性疊加。
復值(形如 z=a+bi 或者 z=r(cos θ+i sin θ))的表示可以隱式地表達更加豐富的語義組合。與傳統的實值詞向量相比,本文詞向量是由復值向量。每一個復數由一個實部和虛部組成,可將其轉換成振幅和相位的形式,振幅 (r) 對應經典的傳統的實數詞向量的值,而相位 (θ) 可能表征一些高階的語義。
當對兩個復數相加時,不是直接對振幅進行相加,同時會考慮它們的相位信息,有的時候振幅相加會得到增益的效果,有時候可以得到相消的結果。這時候相位就像一種經典的門的機制,它能夠控制如何讓兩種信息源如何融合起來。在組合大粒度語義單元時,這樣額外的相位(作為一個種門機制)可以有潛力隱式建模非線性的語義組合。
?
網絡的結構
?
網絡的結構跟上文形式化建模一致,模型不涉及顯式的全聯接層,不包含卷積網絡,不包循環或遞歸的神經網絡單元。
本文模型用滑動的窗口構建兩個文本對象的 N-gram 的密度矩陣表示,然后采用一組測量投影操作,同時測量兩個文本對象所有的 n-gram 窗口里的混合系統(由密度矩陣描述)。最后通過一組 max pooling 操作得到每個測量向量在所有 n-gram 最大的投影概率,最后通過向量的 cosine 距離得到匹配的分數。
?
?
其中自底向上構建密度矩陣的操作,也就是從 embedding 層到 mixture 層的做法如下(叉操作是外積/張量積,點操作是一個標量乘以矩陣的每一個元素,加操作是矩陣點對點加法):
?
首先對選取的一個 N-gram 窗口,對其中每一個詞向量用 l2-norm 歸一化(也就是直接除以它的長度),然后計算該歸一化向量與其共軛轉置的外積(外積操作,如 x=[a,b], 外積是一個 22 的矩陣為 x=[[aa?,ab?],[a?b,bb?]] 大家常見的內積操作的結果是一個標量 ab?,? 是共軛轉置)。
由于向量經過了歸一化,得到的外積矩陣有著良好的性質,對角線元素是實數且和為 1,非對角線元素是復數。然后把所有外積矩陣加權起來得到的是一個密度矩陣,權重是由詞向量的模經過 softmax 得到的一組和為 1 的向量,所以也能保證密度矩陣也是單位的(對角線元素和為 1)。其中一個好處是對網絡對不同的詞有著顯式的權重,這樣權重依賴于局部的上下文。
對于這樣一個的一個對詞向量本身的外積,在機器學習領域也是比較常見的操作,類似于推薦系統里面的特征交叉。對一個詞而言,其特征是其詞向量的每一個元素,傳統的神經網絡的假設空間簡化為,采取外積操作后的矩陣相當于構造了一個二階的特征交叉矩陣作為新的特征,新的假設空間為?。
與本文自底向上構建密度矩陣不同的是,也可以通過最大似然估計來得到密度矩陣,這類的方法最出名的當屬發表在 2013 年 SIGIR 的 Alessandro Sordoni,Jianyun Nie 和 Yoshua Bengio 的量子語言模型 [7],本文自底向上構建密度矩陣是能夠輕量地直接結合在神經網絡里面。
?
Case Study
基于一個局部窗口構建基于詞袋模型的密度矩陣表示,對于下列的 case 顯得更加有效。
文句和答句同時包含來某個實體(president of chief executive of Amtrak 與 Amtrak’spresident and chief executive),但是它們的順序有可能有一些顛倒,其中顛倒的本身會有一些詞的變化,比如從 of 變成 ’s。?
密度矩陣在一個 local 的窗口內是位置不敏感的,所以可以處理 Amtrak 與 president/chief executive 的交換的情況;而且有著顯式的詞權重建模,of 與 ’s 之類的詞由于本身詞頻高,可以與很多詞同時出現,假想其應該有更小的權重(實驗結果基本支持該假想)。
第二個例子是一個稍難一點的例子,因為兩個需要匹配的兩個文本片段,包含有一些不重疊的詞。這類匹配例子寄希望于詞向量的軟匹配能力。
??
結果
實驗結果取得與一些經典模型可比較的結果。由于評測的數據集相對比較小,在結果上提供的貢獻比較有限。相比較 CNN 和 RNN,本文模型相對較淺且參數有限,貢獻更多是體現提供一個新的視角來看待神經網絡。
代碼已經開源見:
https://github.com/wabyking/qnn
展望
短期看,暴力擬合數據會取得更好的結果。最近伯克利的研究人員聲稱,兒童只需要 18M 的存儲空間來掌握它們的母語 [10],整個社區還有很長的路要走。大數據大模型的紅利總有一天會吃完,未來人們不得不去摘取高枝上的果實,啃難啃的骨頭。
長期看,社區或許能從數學或者物理的角度來理解和分析深度學習中受益,或者結合語言特性本身,來設計一些具有較強動機(而不是完全從經驗結果出發)的模型和方法。
當然實現這樣長期的一些目標,也需要行業內的科研和工程從業人員對一些有好的思路和想法有更多的寬容,在一個寬松的環境不再要求所有的論文的方法都去追求 the state of art;在一個良好設置的基準線上能夠驗證論文本身的觀點(即便是 toy model),就應該是科學的論文;刷榜固不可少,小清新也別有風味。
一個有潛力的物理啟發的研究方向是從當前的一個低維的角度朝向指數高維度的張量空間,某些傳統神經網絡,被認為是對應于特定假設空間里高維參數張量的分解。例如單層 CNN 被認為對應于 CP 分解;某種特定設置下的多層 CNN 對應于層次化Tucker分解 [8];RNN 則與張量鏈分解(Tensor Train Decomposition)有關 [9]。
通過分析不同張量分解模型來理解其能近似的張量的秩(rank)能夠很好地了解神經網絡的表達能力。不僅如此,基于高維張量空間的視角,有很大的潛力去指導設計神經網絡結構。
參考文獻
[1] Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "Why should i trust you?: Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2016.?
[2] Lipton, Zachary C. "The Mythos of Model Interpretability." Queue 16.3 (2018): 30.?
[3] Zeiler, Matthew D., and Rob Fergus. "Visualizing and understanding convolutional networks." European conference on computer vision. springer, Cham, 2014.?
[4] Ding, Yanzhuo, et al. "Visualizing and understanding neural machine translation." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017.?
[5] Bruza, Peter, et al. "Is there something quantum-like about the human mental lexicon?." Journal of Mathematical Psychology53.5 (2009): 362-377.?
[6] Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. "Dynamic routing between capsules." Advances in neural information processing systems. 2017.?
[7] Sordoni, Alessandro, Jian-Yun Nie, and Yoshua Bengio. "Modeling term dependencies with quantum language models for IR." Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2013.?
[8] Cohen, Nadav, Or Sharir, and Amnon Shashua. "On the expressive power of deep learning: A tensor analysis." Conference on Learning Theory. 2016.?
[9] Khrulkov, Valentin, Alexander Novikov, and Ivan Oseledets. "Expressive power of recurrent neural networks." arXiv preprint arXiv:1711.00811 (2017).?
[10] https://news.berkeley.edu/2019/03/27/younglanguagelearners/
點擊以下標題查看往期內容推薦:?
ACL 2019 | 基于知識增強的語言表示模型
圖神經網絡綜述:模型與應用
ICLR 2019最佳論文 | 用有序神經元表達層次結構
F-Principle:初探理解深度學習不能做什么
復旦大學邱錫鵬:詞法、句法分析研究進展綜述
基于小樣本學習的意圖識別冷啟動
從CNN視角看在自然語言處理上的應用
自然語言處理中的語言模型預訓練方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的NAACL 2019最佳论文:量子概率驱动的神经网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全网最具有挑战的NLP训练营是什么样的?
- 下一篇: CVPR 2019 | 旷视研究院提出T