【论文翻译】学习新闻事件预测的因果关系
?
一、摘要
本文在這項工作中解決的問題是產生一個可能由給定事件引起的可能的未來事件。 論文提出了一種使用機器學習和數據挖掘技術建模和預測未來新聞事件的新方法。論文的Pundit算法概括了因果關系對的例子,以推斷因果關系預測因子。為了獲得精確標記的因果關系示例,本文挖掘了150年的新聞文章,并將語義自然語言建模技術應用于包含某些預定義因果關系模式的標題。為了更全面,該模型使用從LinkedData挖掘的大量世界知識本體,包含200個關系約200億的數據集。對真實新聞文章的實證評估表明,論文的Pundit算法達到了人類級別的表現。
二、相關工作
1.使用因果關系模式從文本中抽取因果關系:手工制作、機器學習自動生成
2.識別邏輯上相隨的文本:文本蘊含
3.預測文本中描述的事件或事件表達的事件順序:學習基于預定義對的特征來預測一對事件的時間順序的分類器。
三、事件表示
算法的基本元素是事件,我們利用Kim的工作中的元素設計一種表示方案,允許我們比較、概括、推理事件。Kim將事件定義為三元組[對象,關系,時間間隔]。
本文提出了一種表示,除了屬性關系之外,還進一步引入角色來構造事件。
每個事件將由以下元素構成:
1.事件的對象展示的時間動作或狀態(P)
2.執行動作的一個或多個參與者O1
3.執行動作的一個或多個對象O2
4.動作的一個或多個工具O3
5.事件發生的和一個或多個地點O4
6.時間t
事件最終被表示為<P,O1,...,O4,t>
?
舉例:發生在2004年11月的?美國軍隊用炸藥摧毀了伊拉克的一個倉庫
事件建模為<摧毀(動作),美國軍隊(主角),倉庫(對象),炸藥(工具),伊拉克(地點),2004年11月(時間)>
?
文獻中關于事件表示的方法可以分為兩組:
1.通過完整的文本或單個術語描述句子級別的事件
2.以語法驅動的方式描述事件
在第一種方法中,例如事件“美國軍隊用炸藥摧毀了伊拉克的一個倉庫”,“伊拉克襲擊美國基地”和“恐怖分子基地遭到美國海軍陸戰隊在喀布爾的攻擊”單獨使用條款可能會產生前第一和第二個事件可能比第一和第三個事件更相似,因為它缺乏理解,兩個事件的主角都是軍事團體,喀布爾和伊拉克是事件的地點。第二種方法以語法驅動的方式描述事件,其中每個元素都映射到名詞短語。在這個例子中,該表示難以找到與原事件具有恰當的相似性的事件,因為在語法級別中,第二和第三事件都是相似的。
使用這些表示,很難以語義或實用的方式對執行事件的所有元素概括和比較。論文的方法是語義——它識別主角,對象等。這類似于大型知識論中提出的復雜事件表示,例如Cyc [22]將每個事件(例如,美國陸軍)的原子元素映射到語義概念(例如,主角)為可比較和可推廣的事件的規范表示提供了肥沃的土壤。
四、預測算法
此節展示Pundit算法,這是一個學習算法,用于對給定的當前事件,預測其可能的影響,輸出預測事件g。在訓練過程中,在訓練期間,學習算法概括了給定的例子并產生了一個抽象樹。對于抽象樹中的每個節點,基于節點中的示例生成預測規則。 在預測階段,新事件與抽象樹中的節點匹配,并且在其上應用相關規則以產生影響事件。
?
4.1問題的定義:
1.所有事件的集合:Ev
2.預測函數:2^Ev --> 2^Ev??
3.問題的子類函數:Ev --> Ev
?
解決方法:從例子中學習函數
1.假設不知道存在因果關系函數。
2.假設給出一組例子E={<e1,g(e1)i>,...,<en,g(en)i>}
3。目標是產生一個假設g',g'是g的一個很好的近似值。
?
4.2泛化對象和動作
我們的目標是開發一種學習算法,該算法基于因果關系對的示例自動誘導因果關系函數。推斷的casualty函數應該能夠對給定事件進行預測,即使之前從未發生過。 例如,給出訓練的示例<土耳其的地震,毀壞>和<澳大利亞地震,毀壞>,現在的新事件是“日本地震”,那么合理的預測應該是毀壞。為了能夠處理這樣的預測,我們必須賦予我們的學習算法具有泛化能力。 例如,在上述情景中,算法需要能夠將澳大利亞和土耳其概括為國家,并推斷出各國的地震可能會導致破壞。這種類型的推斷為了概括一組示例,每個示例由一對事件組成,我們對這些事件的組件進行泛化。
為了概括一組示例,每個示例由一對事件組成,我們對這些事件的組件進行泛化,分為對象和動作。
為了概括對象,我們假設語義網絡Go =(V,E)的可用性,其中節點V=O是現實世界中的對象,邊上的標簽是諸如“...是一個”,“...是某部分”,“...是首都”。在這項工作中,本文使用了最大的語義網絡之一的LinkedData本體[4],我們將在第五部分中詳細介紹。
如果它們以相同的方式與第三個對象相關,則將兩個對象定義為相似。該關系可以是語義網絡中的標簽或標簽序列。例如,巴黎和倫敦將被視為相似,因為它們的節點都通過路徑“是...首都”和“在大陸”連接。
?
定義1:
a,b屬于V,如果語義網G中存在兩條路徑,(a,v1,l1),...,(vk,vk+1,lk)和(b,w1,l1),...(wk,wk+1,lk)使得vk+1=wk+1則L=l1,l2,...,lk是標簽L的序列,L是a,b的泛化路徑,定義為Path(a,b),
?
在事件泛化過程中應該避免過度概括 - 例如,給定兩個類似事件,一個發生在巴黎,一個發生在倫敦,我們希望產生泛化“歐洲城市”(首都->大陸->歐洲)而不是最抽象的概況“大陸上的城市”(首都->大陸->是個->大陸),即對象的最小泛化。
?
定義2:最小泛化路徑:定義為MGenPath(a,b),最短的泛化路徑,定義distGen(a,b)為MGenPath(a,b)的長度。
?
如上所述,基于路徑的語義距離在許多NLP應用程序中被證明是成功的。例如,使用相似的距離來測量兩個單詞的語義相關性,作為連接表示單詞[31,37]的兩個節點的分類法(例如,Wordnet或維基百科)中最短路徑的長度的函數。 我們以此度量為基礎,并將其擴展為處理事件,這些事件是結構化的,并且可以包含來自不同本體的多個對象。
?
為了有效地生成MGenPath,我們設計了一種基于動態編程的算法(如圖1所示),該算法計算G中所有對象對的MGenPath。
步驟1:初始化將保持所有具有共同泛化的節點的隊列。
步驟2:該算法識別具有通過相同類型的邊(1)連接到它們的公共節點(c)的所有節點(a,b)。 c可以被認為是a和b泛化。 Mgen結構映射一對節點對它們的泛化(Mgen.Gen)及其泛化路徑(MGen.Pred)。
步驟3:以動態編程方式,算法迭代Mgen中的所有節點(a,b),為此我們在先前的迭代中找到了最小的泛化,并找到兩個節點 - 一個(x)連接到a和1( y)通過相同類型的邊(l)連接到b(階段3.4)。
因此,x和y的最小泛化是a和b的最小泛化,并且路徑是a,b的MGenPath,并且添加了邊類型(l)。此更新在3.4.1-3.4.4階段執行。
步驟4:最終,當不再擴展具有最小泛化的節點時(即,找不到通過相同邊緣類型連接到它們的兩個節點),算法停止并返回Mgen。
?
我們還使用本體Gp定義動作之間的距離,類似于我們定義對象之間距離的方式。 具體來說,我們使用VerbNet本體,這是最大的英語動詞詞典之一。 它映射到許多其他在線資源,如Wordnet。本體是分層的,基于對Levin類的動詞分類[15]。 使用這個本體,我們描述了動詞之間的聯系。 圖6顯示了該本體中的一個節點,它概括了“打”和“踢”的動作。
?
4.3泛化事件
為了為泛化提供有意義的支持,本文希望找到相似的事件,它可以被泛化成一個抽象的事件。在本文的示例中,希望將<土耳其地震,毀壞>和<澳大利亞地震,毀壞>作為相同事件組的示例。因此,希望以這樣一種方式對事件進行聚類,即具有相似原因和類似效果的事件將聚集在一起。與所有聚類方法一樣,應定義分類對象(在我們的示例中為事件)之間的距離度量。
?
ei = <Pi,O1i,...,O4i,ti>和ej = <Pj,O1j,...,O4j,tj>為兩個事件。在前面的小節中,定義了對象(動作)間的距離函數。在此,將兩個事件ei和ej的相似性定義為它們的對象和動作之間的距離之和:
是圖G中的距離函數distGen。
同樣,兩對因果事件<ci,ei>和<cj,ej>之間的相似性定義為:
使用上面建議的相似性度量,聚類過程可以被認為是訓練樣本的分組,其方式的影響很小(類似于信息增益方法,其中示例按類別聚類)并且他們的事業有很高的相似性。本文使用HAC層次聚類算法[11]作為聚類方法。該算法首先將最接近的事件對連接成一個集群,并通過將最近的兩個集群連接在一起直到所有元素鏈接在一起成為我們稱之為抽象樹(AT)的事件的分層圖來繼續重復該過程。在預測階段,輸入原因事件將與其中一個創建的集群匹配。為了實現這一點,為每一個抽象樹中的每個節點分配一個代表性的原因事件,即最接近節點原因事件的質心的事件。
?
4.4 因果預測規則生成
學習的最后階段是創建規則,允許在給定事件事件的情況下生成預測事件。由于輸入原因事件與節點質心匹配,則本可以自然地返回匹配質心的效果事件。然而,這不會為我們提供所需的結果。假設今天發生了一起事件ei =“地震襲擊海地”,該事件與質心所代表的節點相匹配:“地震襲擊土耳其”,其效果是“紅十字幫助送往安卡拉”。顯然,由于海地發生地震,預測紅十字會幫助將被送往安卡拉是不合理的。我們希望能夠抽象出過去的原因和過去的原因之間的關系,并學習一個連接它們的謂詞條款,例如:為“地震對應[國名]”而“紅十字會的幫助發送到[國家的首都]”。在預測期間,這樣的條款將應用于當前輸入事件ei,其產生關于ei的效果。在我們的例子中,邏輯謂詞子句將是“……的首都”,如(土耳其)“的首都”= 安卡拉。當應用于當前事件ei:(海地)“的首都”= 太子港時,輸出現在將是“紅十字會幫助太子港”。請注意,條款的應用只能應用于某些類型的對象 - 在我們的例子中是國家/地區。這些條款可以是任何長度,例如,“在布魯克林被捕的嫌疑人”,“布隆伯格宣布緊急”產生了短語市長(自治市鎮(x)),因為布魯克林是紐約的一個區,其市長是布隆伯格。
?
下面將展示如何在抽象樹圖中為每個節點學習這樣的子句。回想一下,語義網絡圖GO是邊緣標記圖,其中每個邊是三元組hv1,v2,li,其中l是謂詞(例如“……的首都”)。規則學習過程分為兩個主要步驟:首先,我們在事件事件的任何對象與事件的任何對象之間找到GO中長度最多為k的無向路徑pi。請注意,我們不一定在同一角色中查找兩個對象之間的路徑。在上面的例子中,我們在原因事件(布魯克林)的位置和影響事件的演員(布隆伯格)之間找到了一條路徑。其次,我們使用路徑pi的標簽作為謂詞構造一個子句。我們稱之為大小為k的謂詞投影,pred = l1,...lk從事件ei到事件ej。在預測期間,投影將應用于新事件e = <Pi,O1,...O4,t>通過在具有pred標簽序列的Oi中找到GO中的無向路徑。由于k是未知的,對于AT中的節點中的每個訓練示例<ct,et>的算法,找到具有從ct的對象到GO圖中的et的對象的k大小增加的所有可能的謂詞路徑。每個這樣的路徑由它在節點中出現的次數加權。謂詞生成的完整過程如圖2所示。函數LearnPredicateClause從給定的原因和事件中調用不同k大小和不同對象的內部函數FindPath。 FindPath是一個遞歸函數,試圖在圖中找到兩個對象之間的長度為k的路徑。如果找到,它將返回此路徑的標簽。
?
4.5預測
給出一個訓練模型g’,它可以被應用到新的事件e=<Pi,O1,...O4,t>,并輸出它的影響。該過程分為兩個主要步驟:在抽象樹中傳播事件,檢索與新事件匹配的所有類似節點,然后在事件上應用節點規則以產生事件的效果。
給定一個新事件,Pundit從根開始遍歷抽象樹。對于搜索前沿中的每個節點,算法計算輸入事件與該節點上每個孩子的質心的相似性(SIM(ei,ej)),并擴展那些具有比其父結點更好相似性的孩子結點。最后,算法返回搜索邊界中所有節點的集合,并根據它們與輸入事件的相似性進行排序。直覺上,我們嘗試找到最不通用但仍然類似于新事件的節點。完整的算法如圖3所示。該算法保存了一組可能的匹配結果(候選者)和一個保持搜索前沿(Q)的隊列。在階段4中,算法遍歷圖。在階段4.2中,對于每個邊緣,算法測試新事件e與父節點(edge.Source)的相似性是否高于子節點(edge.Destination)。如果測試成功,則將具有相似性得分的父節點添加到可能的結果中。在暴露所有邊緣之后,算法在階段5中返回可能的結果。可以在圖4中看到該過程的可視化。
對于在前一階段中檢索的每個節點,節點謂詞投影pred應用于新事件e = <Pi,O1,...,O4,t>通過在具有pred標簽的Oi中找到GO中的無向路徑。此規則基于檢索到的結點生成可能的事件。
投影結果是到達頂點的所有對象。形式上,如果存在V0:O包含于V0,存在V1,...,Vk:(V0,V1,l1),...,(Vk-1,Vk,lk)∈Edges(Go)可以應用pred。投影結果是所有對象o∈Vk。所有節點的投影結果由目標原因與節點MGen的相似性加權(用于打破平局)。
5.因果挖掘過程:實現細節
在上一節中,作者提出了一個高級算法,該算法需要訓練示例T,關于實體GO的知識以及事件的動作類P.這項工作的主要挑戰之一是構建可擴展的系統以獲得這些要求。
本文提出了一個系統,挖掘新聞來源以提取事件,構建他們的規范語義模型,并在這些事件之上構建因果圖。系統爬取幾個動態信息源超過4個月。最大的信息來源是New-York-Times檔案館,其上進行了光學字符識別(OCR)。總體收集的數據連續超過150年(1851年至2009年)。
對于對象的泛化,系統自動讀取Web內容并提取世界知識。這些知識是從結構化和半結構化的公共信息庫中挖掘出來的。使用Map-Reduce框架將因果圖的生成分布在20臺機器上。此過程有效地整合了不同的來源,提取事件并消除了實體的歧義。由此產生的因果關系圖由超過3億個實體節點,10億個靜態邊緣(連接事件中遇到的不同對象)和超過700萬個因果關系邊緣(連接Pundit發現的相互引起的事件)組成。抽象樹中的每個規則都是基于3個實例的平均值生成的,標準差為2。
在因果關系圖之上,構建了搜索和索引基礎結構,以便能夠搜索數百萬個文檔。該索引允許在事件圖上快速遍歷,從而在算法的重用階段期間實現有效的推理能力。
?
5.1世界知識挖掘
在這項工作中,作者利用來自幾個眾所周知的本體的知識來構建實體圖Go。圖由維基百科,ConceptNet [26],WordNet [30],Yago [38]和OpenCyc的概念組成。概念之間的關系(例如,CapitalOf)是從LinkedData云項目[4]獲得的,其中概念使用人類編輯器相互鏈接。圖Go的十億標記邊是這些本體的謂詞。該系統通過收集上述內容,處理訂閱源和處理格式化數據集(例如維基百科)來創建實體圖。然后,作者的抓取工具以原始格式存檔這些文檔,并使用LinkedData的鏈接信息將它們轉換為RDF格式。本文使用SPARQL查詢作為搜索創建的知識圖的一種方式。
?
5.2因果事件挖掘和抽取
監督學習算法需要許多學習示例才能夠很好地概括。由于時間數據的數量非常大,跨越數百萬篇文章,因此獲得人類注釋示例的目標變得不可能。因此,作者提供了一個自動程序來從動態內容中提取用于學習因果關系的標記示例。特別是在這項工作中,我們使用了1851—2009年的紐約時報檔案,WikiNews和BBC總共超過1400萬篇文章(見表1中的數據統計)。當作者單獨對新標題進行分析時,這個階段的準確性(在有代表性的數據子集上執行)為78%(參見第6.2.2節)。系統挖掘這些標題中的非結構化自然語言文本,并搜索因果語法模式。作者使用[40,23]中描述的因果連接器構造這些模式。這些連接器分為三組:
1.因果連接:在這組連接器中,我們使用單詞:because、as、after作為連接器。
2.因果介詞:在這組連接器中,我們使用了:due to、because of
3.使役動詞:在這組連接器中,我們使用了:cause、lead to。
我們構造了一組用于提取因果關系的規則。每個規則的結構如下:<模式,約束,優先級>,其中模式是包含因果關系連接符的正則表達式,約束是可以應用模式的句子的語法約束,而優先級是規則的優先級(如果有多個規則可以匹配)。例如,對于因果關系連接器“之后”,使用模式“After [sentence1],[sentence2]”,其中約束為[sentence1]不能以數字開頭。這種模式可以匹配“在阿富汗投票之后,虛假表面的抱怨”,但不會與“在州議員湯姆喬治回歸10年后”的句子相匹配。另一個模式示例是“[sentence1] as [sentence2]”,其中[sentence2]的約束具有動詞。使用該約束,該模式可以匹配句子“諾基亞切割工作,因為它試圖趕上競爭對手”匹配,但不是句子“民權攝影師揭露為線人”。規則應用程序的結果是一對句子:一個標記為原因,一個標記為結果。
給定自然語言句子(從文章標題中提取),表示事件(在學習或預測期間),以下過程將其轉換為結構化事件:
1.使用源自WordNet詞干分析器的形態分析器提取變形詞的根形式。例如,在2010年2月10日的文章標題中:“美國攻擊殺死了巴基斯坦的17名武裝分子,“攻擊”,“殺死”和“武裝分子”分別轉變為“攻擊”,“殺戮”和“激進分子”。
2.執行詞性標注,并識別動詞。使用VerbNet詞匯識別動詞的類別,例如,kill屬于P =謀殺類。
3.應用與動詞匹配的句法模板來提取語義關系,從而提取單詞的作用(參見圖6中的示例)。這些模板基于VerbNet,它為每個動詞類提供一組語法模板。這些模板將語法與句子中實體的主題角色相匹配。我們匹配模板,即使它們在句子樹中不連續。即使在主語和主要動詞之間存在輔助動詞的情況下,這也允許句子的匹配。在我們的例子中,模板是“NP1 V NP2”,它將NP1轉換為“Agent”,NP2轉換為“Patient”。因此,我們將美國的攻擊與作為主角,以及武裝分子作為Patient相匹配。如果沒有模板可以匹配,句子被轉換為語法關系的類型依賴圖[28]。在該示例中,美國攻擊被識別為句子的主體(主角的候選者),武裝者作為對象(Patient的候選者),并且巴基斯坦作為介詞(位置或工具的候選者,基于啟發式,例如,位置詞典) )。使用此分析,我們確定位置是巴基斯坦。
4.Oi中的每個單詞都映射到基于維基百科的概念。如果一個單詞與多個概念匹配,我們通過計算新聞文章主體與與該概念相關的維基百科文章正文之間的余弦相似性來進行歧義消除:例如,美國與幾個概念相匹配,例如:美國,索爾福德大學和Us(阿里兄弟專輯)。內容最相似的是美國維基百科的概念。
5.事件t的時間是在新聞中發表文章的時間,例如t = 10/02/2010。在我們的例子中,最終結果是事件e = <謀殺類,美國,軍隊,NULL,巴基斯坦,10/02/2010>。該階段的最終結果是由因果事件對組成的因果圖。這些事件的結構如第3節所述。在下圖說明了這樣的一對。
?
6實驗評估
進行了各種實驗來測試我們的算法的性能和行為。
6.1方法
在本節中,我們概述了我們用于實驗的方法。我們提供兩種類型的實驗 - 一種評估構建的因果圖的精度,另一種評估我們系統的預測準確性。
6.1.1預測評估
我們實現了上述算法并評估了它們的性能。使用1851年至2009年期間的新聞文章訓練預測算法。第5節中提到的網絡資源快照可追溯到2009年。評估是在單獨的數據上進行的 - 來自2010年的維基新聞文章。我們將此數據稱為測試數據。與許多監督學習問題一樣,評估是使用人類標記的數據進行的。我們進行了兩個評估程序 - 一個比較系統預測能力(預測的準確性)和預測的合理性(確保預測不是微不足道的并且與原因事件相關)。合理性評估程序分為以下步驟:
1.事件識別:我們的算法假設預測器h的輸入是事件。為了找到代表事件的新聞標題,我們從測試數據中隨機抽取n個標題。對于每個標題,要求人們確定標題是否是可能導致其他事件的事件。我們將標記為事件的標題集表示為E.我們再次從E中隨機抽取k個標題。我們將此組稱為C.
2.算法事件預測:在每個事件標題ci∈C上,Pundit從標題執行事件提取,并產生具有由ci表示的事件的最高分數的事件eai。這個階段的結果:{(ci,eai)|ci∈C}
3.人類事件預測:人們被問及ci∈C可能引起的事件。給予人類的指示是閱讀給定的事件并提供他們對可能導致的事件的最佳理解。他們被允許使用任何資源,并且不受時間的限制。人類結果表示為ehi。該要求人以結構化的方式提供答案(正如我們的算法產生的那樣。這一階段的結果是:{(ci,ehi)|ci∈C}
4.人類對結果的評價:向m每個人展示三元組(ci,ehi,eai)。我們要求評(ci,ehi)和(ci,eai)的精度,在0-4的范圍內(0是非常不可能的預測,4是高度可能的預測)。
準確性評估與上述評估類似,但在第三步中,我們在事件事件發生后一年內檢查新聞(和其他網絡資源),預測事件是否出現在新聞中。評估者被要求為他們的評估提供置信度(因為一些事件,如葬禮,并不總是在新聞中報道)。 我們在評估中只考慮了自信和高度自信的結果。
所有人類評估均使用Amazon Mechanical Turk(MTurk)進行。我們使用驗證碼過濾了評估者,并過濾掉了異常值。我們進行了上述實驗,其值n = 1500,k = 50,m = 10。
?
6.1.2抽取評估
作為我們算法的分析實驗的一部分,我們提供了對該工作中描述的信息提取技術的評估,并用于訓練系統。具體而言,我們提供兩種類型的評估:事件提取評估和因果提取評估。事件提取評估檢查事件的提取情況。在給定原始新聞標題的情況下,要求用戶以1-5的等級評估動作,主角,對象,樂器和時間的提取情況。我們對隨機抽樣的1000個新聞標題進行了此評估,我們為每個標題分配了5個MTurkers。我們使用驗證碼過濾了評估者,并過濾掉了異常值。類似地,因果提取評估評估兩個文本事件之間的因果關系的合理性。此評估表明我們制定的因果關系模板的精確度。系統顯示兩個系統認為具有原因和影響關系的句子,并要求他們以1-5的等級評估這種關系的合理性。我們對500個隨機抽樣對進行了評估,每個對我們分配了5個MTurkers。
?
6.2結果
在本節中,我們提供了兩種評估的結果:預測評估(合理性和預測評估)以及我們提供的作為系統輸入的培訓數據的評估。
6.2.1預測評估
表2中報告了準確度評估結果。盡管Pundit的表現較高,但對k個配對得分的配對t檢驗得出非統計學顯著的p值(0.08)。結果提供了一些證據,證明該算法預測未來事件的能力與人類預測能力的能力相似。
合理性評估得出Pundit的平均預測精度為3.08 / 4(3是“可能的預測”),人類預測平均精度為2.86±0.18 / 4。對于每個事件,我們對m個量子的結果進行平均,得出事件中算法性能的平均得分,以及人類預測的平均得分(參見表3)。我們對k個配對分數進行了配對t檢驗。發現該算法優于人類的優勢在統計學上顯著,p <0.05。我們現在可以得出結論,算法產生合理的未來事件的能力優于人類的預測能力。
對于每個提取的因果關系事件,我們計算了事件結構的語義提取的精度(表4)。我們得出結論,使用我們使用的模板在該域中提取事件具有相當高的精度。為了比較,用于提取不同類型關系的實體的其他工作[7]達到42-53%的精度。如此高精度的主要原因是使用特定于域的模板以獲得高精度(具有較低的召回率)。我們進行了額外的實驗,以評估基于語義相似性的上述每個實體與世界知識本體的匹配。結果總結在表5中。
召回整個過程是10%。我們的目標一般是達到一套高精度的規則,從中可以進行泛化。我們并未聲稱在因果關系提取方面達到了最高性能,但僅僅提出了后來的研究可以建立的模塊化方法。
我們在線共享提取事件的整個數據集2。
6.3討論
我們在本節中對結果進行定性分析,以便更好地理解算法的優勢和劣勢。給定事件“路易斯安那洪水”,該算法預測將逃離的[人數]。該預測基于以下過去的新聞文章:佛羅里達州的居民逃離希爾頓和風暴;隨著颶風臨近北卡羅萊納州海岸,150000居民逃離;隨著巨大風暴襲擊德克薩斯州海岸,一百萬人逃離;德克薩斯州的數千人逃離艾克颶風;成千上萬的人逃離佛羅里達海岸的暴風雨;在佛羅里達州至少有1000人逃離洪水。過去的事件被推廣到“[美國南部各州]的[天氣災害]”的因果關系“導致逃離的[人數]”。在預測期間,發現事件“路易斯安那洪水”與上述廣義因果關系最相似。重用分類功能,輸出將逃離的[人數]。
另一個例子是,給定事件“6.1級大地震襲擊海地”,它輸出了以下預測:“[人數]將會死亡”,“[人數]將失蹤”,“[人數]余震將在海地附近襲擊海島”和“地震將轉向美屬維爾京群島”。雖然前三個預測似乎非常合理,但第四個預測是有問題的。在這種情況下,系統學到的規則是 :襲擊岸邊國家的自然災害傾向于靠近國家。在我們的案例中,它預測地震將影響美屬維爾京群島,這些島嶼在地理上與海地關系密切。然而,預測“地震將轉向美屬維爾京群島”并不是很現實,因為地震不能改變它的路線。它的創建基于與龍卷風襲擊海岸國家的過去例子的匹配。原因是訓練的稀疏性。兩者都是自然災害,沒有負面的例子或足夠的積極例子來支持這種區分。然而,我們仍然覺得這個例子很有意思,因為它使用空間位置發布預測(美國維爾京群島[靠近]海地)。同樣問題的另一個例子是預測:<閃電殺死了5人,閃電將被捕>,這是基于訓練例子預測的,在示例中殺害其他人的人被捕。表6中可以看到測試中超過50個的更多示例。
?
7結論
在信息提取和本體構建方面已經完成了許多工作。在這項工作中,我們討論如何將這些知識用于事件預測的大規模AI問題。我們提出了一個系統,該系統經過培訓,可以使用因果事件作為輸入來預測將來可能發生的事件。每個事件都表示為一個謂詞的元組和4個一般語義角色。用于訓練的事件對是使用簡單的句法模式從新聞標題中自動提取的。通過以下方式實現對未見事件的推廣:1)創建抽象樹(AT),其包含來自觀察事件的實體以及從可用在線本體中提取的其包含類別; 2)找到連接實體的謂詞路徑,從而將事件引發到所引起事件中的實體,其中再次從可用本體中提取路徑。
?
我們討論了構建這樣一個系統的許多挑戰:獲得足夠大的數據集,知識的表示以及此類任務所需的推理算法。我們使用基于Web的對象層次結構和操作類,執行大規模挖掘并應用自然語言技術將150多年歷史檔案的原始數據轉換為事件的結構化表示。這顯示了所提出方法的可擴展性,這對于需要大量數據才能正常工作的任何方法都是一個重要因素。我們還提出,由不同的人為不同目的(例如不同的本體)建立的眾多資源實際上可以通過概念圖合并,以構建一個在實踐中可以很好地運作的系統。
?
我們對大數據語料庫進行大規模學習,并提出新穎的推理技術。我們考慮規則提取和泛化。我們提出了使用現有本體進行規則泛化的新方法,我們認為這些方法可用于許多其他相關任務。
?
對于未來的方向,我們希望研究如何衰減系統中事件的信息,因為在1851年學到的因果關系可能與2010年的預測不太相關。但是,即使很久以前發生過,許多常識知識仍然可以使用。另外的方向可以包括更好的事件提取,例如Do等人提出的。
?
我們的實驗評估表明,Pundit算法的預測至少與人類一樣好。我們相信,我們的工作是第一個利用網絡上可用的大量信息來執行通用,基于知識和類似人類的預測的工作之一。
?
參考文獻:Learning Causality for News Events Prediction
論文獲取地址:https://dl.acm.org/citation.cfm?id=2187958
?
總結
以上是生活随笔為你收集整理的【论文翻译】学习新闻事件预测的因果关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: A Comprehensive Surv
- 下一篇: 企业咨询:常用分析和咨询方法列表