领域应用 | 常识性概念图谱建设以及在美团场景中的应用
轉載公眾號 | 美團技術團隊
常識性概念圖譜,是圍繞常識性概念建立的實體以及實體之間的關系,同時側重美團的場景構建的一類知識圖譜。本文介紹了美團常識性概念圖譜構建的Schema,圖譜建設中遇到的挑戰以及建設過程中的算法實踐,最后介紹了一些目前常識性概念圖譜在業務上的應用。
一、引言
二、常識性概念圖譜介紹
2.1 圖譜三類節點
2.2 圖譜四類關系
三、常識性概念圖譜構建
3.1 概念挖掘
3.2 概念上下位關系挖掘
3.3 概念屬性關系挖掘
3.4 概念承接關系挖掘
3.5 POI/SPU-概念關系建設
四、應用實踐
4.1 到綜品類詞圖譜建設
4.2 點評搜索引導
4.3 到綜醫美內容打標
五、總結與展望
一、引言
在自然語言處理中,我們經常思考,怎么樣才能做好自然語言的理解工作。對我們人類來說,理解某一個自然語言的文本信息,通常都是通過當前的信息,關聯自己大腦中存儲的關聯信息,最終理解信息。例如“他不喜歡吃蘋果,但是喜歡吃冰淇淋”,人在理解的時候關聯出大腦中的認知信息:蘋果,甜的,口感有點脆;冰淇淋,比蘋果甜,口感軟糯、冰涼,夏天能解暑;小孩更喜歡吃甜食和冰淇淋。所以結合這樣的知識,會推理出更喜歡冰淇淋的若干原因。但是現在很多自然語言理解的工作還是聚焦在信息的層面,現在的理解工作類似于一個貝葉斯概率,從已知的訓練文本中尋找符合條件的最大化文本信息。
在自然語言處理中做到像人一樣去理解文本是自然語言處理的終極目標,所以現在越來越多的研究上,引入了一些額外的知識,幫助機器做好自然語言文本的理解工作。單純的文本信息只是外部客觀事實的表述,知識則是在文本信息基礎之上對外部客觀事實的歸納和總結,所以在自然語言處理中加入輔助的知識信息,讓自然語言理解的更好。
建立知識體系則是一種直接的方式,能夠幫助自然語言理解得更準確。知識圖譜就是圍繞這個思想提出,期望通過給機器顯性的知識,讓機器能夠像人一樣進行推理理解。所以在2012年Google 正式提出了知識圖譜(Knowledge Graph)的概念,它的初衷是為了優化搜索引擎返回的結果,增強用戶的搜索質量及體驗。
圖1 信息和知識二、常識性概念圖譜介紹
常識性概念圖譜就是建立概念與概念之間的關系,幫助自然語言文本的理解。同時我們的常識性概念圖譜側重美團的場景,幫助提升美團場景中的搜索、推薦、Feeds流等的效果。
按照理解的需求,主要是三個維度的理解能力:
是什么,概念是什么,建立核心概念是什么的關聯體系。例如“維修洗衣機”,“維修”是什么,“洗衣機”是什么。
什么樣,核心概念某一方面的屬性,對核心概念某一方面的細化。“帶露臺的餐廳”、“親子游樂園”、“水果千層蛋糕”中“帶露臺”、“親子”、“水果千層”這些都是核心概念某一個方面的屬性,所以需要建立核心概念對應屬性以及屬性值之間的關聯。
給什么,解決搜索概念和承接概念之間的Gap,例如“閱讀”、“逛街”、“遛娃”等沒有明確對應的供給概念,所以建立搜索和供給概念之間的關聯網絡,解決這一類問題。
總結下來,涵蓋“是什么”的概念Taxonomy體系結構,“什么樣”的概念屬性關系,“給什么”的概念承接關系。同時POI(Point of Interesting)、SPU(Standard Product Unit)、團單作為美團場景中的實例,需要和圖譜中的概念建立連接。
圖2 常識性概念圖譜關系從建設目標出發,拆解整體常識性概念圖譜建設工作,拆分為三類節點和四類關系,具體內容如下。
2.1 圖譜三類節點
Taxonomy節點:在概念圖譜中,理解一個概念需要合理的知識體系,預定義好的Taxonomy知識體系作為理解的基礎,在預定義的體系中分為兩類節點:第一類在美團場景中可以作為核心品類出現的。例如,食材、項目、場所;另一類是作為對核心品類限定方式出現的,例如,顏色、方式、風格。這兩類的節點的定義都能幫助搜索、推薦等的理解。目前預定義的Taxonomy節點如下圖所示:
圖3 圖譜Taxonomy預定義體系原子概念節點:組成圖譜最小語義單元節點,有獨立語義的最小粒度詞語,例如網紅、狗咖、臉部、補水等。定義的原子概念,全部需要掛靠到定義的Taxonomy節點之上。
復合概念節點:由原子概念以及對應屬性組合而成的概念節點,例如臉部補水、面部補水等。復合概念需要和其對應的核心詞概念建立上下位關系。
2.2 圖譜四類關系
同義/上下位關系:語義上的同義/上下位關系,例如臉部補水-syn-面部補水等。定義的Taxonomy體系也是一種上下位的關系,所以歸并到同義/上下位關系里。
圖4 上下位、同義關系示例概念屬性關系:是典型的CPV(Concept-Property-Value)關系,從各個屬性維度來描述和定義概念,例如火鍋-口味-不辣,火鍋-規格-單人等,示例如下:
圖5 概念屬性關系示例概念屬性關系包含兩類。
預定義概念屬性:目前我們預定義典型的概念屬性如下圖所示:
圖6 預定義屬性開放型概念屬性:除了我們自己定義的公共的概念屬性外,我們還從文本中挖掘一些特定的屬性詞,補充一些特定的屬性詞。例如,姿勢、主題、舒適度、口碑等。
概念承接關系:這類關系主要建立用戶搜索概念和美團承接概念之間的鏈接,例如踏春-場所-植物園,減壓-項目-拳擊等。
概念承接關系以「事件」為核心,定義了「場所」、「物品」、「人群」、「時間」、「功效」等能夠滿足用戶需求的一類供給概念。以事件“美白”為例,“美白”作為用戶的需求,可以有不同的供給概念能夠滿足,例如美容院、水光針等。目前,定義的幾類承接關系如下圖所示:
圖7 概念承接關系類型POI/SPU-概念關系:POI作為美團場景中的實例,實例-概念的關系作為知識圖譜中最后的一站,常常是比較能發揮知識圖譜在業務上價值的地方。在搜索、推薦等業務場景,最終的目的是能夠展示出符合用戶需求的POI,所以建立POI/SPU-概念的關系是整個美團場景常識性概念圖譜重要的一環,也是比較有價值的數據。
三、常識性概念圖譜構建
圖譜構建整體框架如下圖所示:
圖8 概念圖譜建設整體工作3.1 概念挖掘
常識性概念圖譜的各種關系都是圍繞概念構建,這些概念的挖掘是常識性概念圖譜建設的第一環。按照原子概念和復合概念兩種類型,分別采取相應的方法進行挖掘。
3.1.1 原子概念挖掘
原子概念候選來自于Query、UGC(User Generated Content)、團單等文本分詞后的最小片段,原子概念的判斷標準是需要滿足流行性、有意義、完整性三個特性的要求。
流行性,一個概念應是某個或某些語料內流行度較高的詞,該特性主要通過頻率類特征度量,如“桌本殺”這個詞搜索量很低且UGC語料中頻率也很低,不滿足流行性要求。
有意義,一個概念應是一個有意義的詞,該特性主要通過語義特征度量,如“阿貓”、“阿狗”通常只表一個單純的名稱而無其他實際含義。
完整性,一個概念應是一個完整的詞,該特性主要通過獨立檢索占比(該詞作為Query的搜索量/包含該詞的Query的總搜索量)衡量,如“兒童設”是一個錯誤的分詞候選,在UGC中頻率較高,但獨立檢索占比低。
基于原子概念以上的特性,結合人工標注以及規則自動構造的訓練數據訓練XGBoost分類模型對原子概念是否合理進行判斷。
3.1.2 復合概念挖掘
復合概念候選來自于原子概念的組合,由于涉及組合,復合概念的判斷比原子概念判斷更為復雜。復合概念要求在保證完整語義的同時,在美團站內也要有一定的認知。根據問題的類型,采用Wide&Deep的模型結構,Deep側負責語義的判斷,Wide側引入站內的信息。
圖9 復合概念挖掘的Wide&Deep模型該模型結構有以下兩個特點,對復合概念的合理性進行更準確的判斷:
Wide&Deep模型結構:將離散特征與深度模型結合起來判斷復合概念是否合理。
Graph Embedding特征:引入詞組搭配間的關聯信息,如“食品”可以與“人群”、“烹飪方式”、“品質”等進行搭配。
3.2 概念上下位關系挖掘
在獲取概念之后,還需要理解一個概念“是什么”,一方面通過人工定義的Taxonomy知識體系中的上下位關系進行理解,另一方面通過概念間的上下位關系進行理解。
3.2.1 概念-Taxonomy間上下位關系
概念-Taxonomy間上下位關系是通過人工定義的知識體系理解一個概念是什么,由于Taxonomy類型是人工定義好的類型,可以把這個問題轉化成一個分類問題。同時,一個概念在Taxonomy體系中可能會有多個類型,如“青檸魚”既是一種“動物”,也屬于“食材”的范疇,所以這里最終把這個問題作為一個Entity Typing的任務來處理,將概念及其對應上下文作為模型輸入,并將不同Taxonomy類別放在同一空間中進行判斷,具體的模型結構如下圖所示:
圖10 BERT Taxonomy關系模型3.2.2 概念-概念間上下位關系
知識體系通過人工定義的類型來理解一個概念是什么,但人工定義的類型始終是有限的,如果上位詞不在人工定義的類型中,這樣的上下位關系則沒辦法理解。如可以通過概念-Taxonomy關系理解“西洋樂器”、“樂器”、“二胡”都是一種“物品”,但沒辦法獲取到“西洋樂器”和“樂器”、“二胡”和“樂器”之間的上下位關系。基于以上的問題,對于概念-概念間存在的上下位關系,目前采取如下兩種方法進行挖掘:
基于詞法規則的方法:主要解決原子概念和復合概念間的上下位關系,利用候選關系對在詞法上的包含關系(如西洋樂器-樂器)挖掘上下位關系。
基于上下文判斷的方法:詞法規則可以解決在詞法上存在包含關系的上下位關系對的判斷。對于不存在詞法上的包含關系的上下位關系對,如“二胡-樂器”,首先需要進行上下位關系發現,抽取出“二胡-樂器”這樣的關系候選,再進行上下位關系判斷,判斷“二胡-樂器”是一個合理的上下位關系對。考慮到人在解釋一個對象時會對這個對象的類型進行相關介紹,如在對“二胡”這個概念進行解釋時會提到“二胡是一種傳統樂器”,從這樣的解釋性文本中,既可以將“二胡-樂器”這樣的關系候選對抽取出來,也能同時實現這個關系候選對是否合理的判斷。這里在上下位關系挖掘上分為候選關系描述抽取以及上下位關系分類兩部分:
候選關系描述抽取:兩個概念從屬于相同的Taxonomy類型是一個候選概念對是上下位關系對的必要條件,如“二胡”和“樂器”都屬于Taxonomy體系中定義的“物品”,根據概念-Taxonomy上下位關系的結果,對于待挖掘上下位關系的概念,找到跟它Taxonomy類型一致的候選概念組成候選關系對,然后在文本中根據候選關系對的共現篩選出用作上下位關系分類的候選關系描述句。
上下位關系分類:在獲取到候選關系描述句后,需要結合上下文對上下位關系是否合理進行判斷,這里將兩個概念在文中的起始位置和終止位置用特殊標記標記出來,并以兩個概念在文中起始位置標記處的向量拼接起來作為兩者關系的表示,根據這個表示對上下位關系進行分類,向量表示使用BERT輸出的結果,詳細的模型結構如下圖所示:
在訓練數據構造上,由于上下位關系表述的句子非常稀疏,大量共現的句子并沒有明確的表示出候選關系對是否具有上下位關系,利用已有上下位關系采取遠程監督方式進行訓練數據構建不可行,所以直接使用人工標注的訓練集對模型進行訓練。由于人工標注的數量比較有限,量級在千級別,這里結合Google的半監督學習算法UDA(Unsupervised Data Augmentation)對模型效果進行提升,最終Precision可以達到90%+,詳細指標見表1:
表1 使用UDA在不同訓練數據量下的提升效果3.3 概念屬性關系挖掘
概念含有的屬性可以按照屬性是否通用劃分為公共屬性和開放屬性。公共屬性是由人工定義的、大多數概念都含有的屬性,例如價位、風格、品質等。開放屬性指某些特定的概念才含有的屬性,例如,“植發”、“美睫”和“劇本殺”分別含有開放屬性“密度”、“翹度”和“邏輯”。開放屬性的數量遠遠多于公共屬性。針對這兩種屬性關系,我們分別采用以下兩種方式進行挖掘。
3.3.1 基于復合概念挖掘公共屬性關系
由于公共屬性的通用性,公共屬性關系(CPV)中的Value通常和Concept以復合概念的形式組合出現,例如,平價商場、日式料理、紅色電影高清。我們將關系挖掘任務轉化為依存分析和細粒度NER任務(可參考《美團搜索中NER技術的探索與實踐》一文),依存分析識別出復合概念中的核心實體和修飾成分,細粒度NER判斷出具體屬性值。例如,給定復合概念「紅色電影高清」,依存分析識別出「電影」這個核心概念,「紅色」、「高清」是「電影」的屬性,細粒度NER預測出屬性值分別為「風格(Style)」、「品質評價(高清)」。
依存分析和細粒度NER有可以互相利用的信息,例如“畢業公仔”,「時間(Time)」和「產品(Product))」的實體類型,與「公仔」是核心詞的依存信息,可以相互促進訓練,因此將兩個任務聯合學習。但是由于兩個任務之間的關聯程度并不明確,存在較大噪聲,使用Meta-LSTM,將Feature-Level的聯合學習優化為Function-Level的聯合學習,將硬共享變為動態共享,降低兩個任務之間噪聲影響。
模型的整體架構如下圖所示:
圖12 依存分析-細粒度NER聯合學習模型目前,概念修飾關系整體準確率在85%左右。
3.3.2 基于開放屬性詞挖掘特定屬性關系
開放屬性詞和屬性值的挖掘
開放屬性關系需要挖掘不同概念特有的屬性和屬性值,它的難點在于開放屬性和開放屬性值的識別。通過觀察數據發現,一些通用的屬性值(例如:好、壞、高、低、多、少),通常和屬性搭配出現(例如:環境好、溫度高、人流量大)。所以我們采取一種基于模板的Bootstrapping方法自動從用戶評論中挖掘屬性和屬性值,挖掘流程如下:
圖13 開放屬性挖掘流程在挖掘了開放屬性詞和屬性值之后,開放屬性關系的挖掘拆分為「概念-屬性」二元組的挖掘和「概念-屬性-屬性值」三元組的挖掘。
概念-屬性的挖掘
「概念-屬性」二元組的挖掘,即判斷概念Concept是否含有屬性Property。挖掘步驟如下:
根據概念和屬性在UGC中的共現特征,利用TFIDF變種算法挖掘概念對應的典型屬性作為候選。
將候選概念屬性構造為簡單的自然表述句,利用通順度語言模型判斷句子的通順度,保留通順度高的概念屬性。
概念-屬性-屬性值的挖掘
在得到「概念-屬性」二元組后,挖掘對應屬性值的步驟如下:
種子挖掘。基于共現特征和語言模型從UGC中挖掘種子三元組。
模板挖掘。利用種子三元組從UGC中構建合適的模板(例如,“水溫是否合適,是選擇游泳館的重要標準。”)。
關系生成。利用種子三元組填充模板,訓練掩碼語言模型用于關系生成。
目前,開放領域的概念屬性關系準確率在80%左右。
3.4 概念承接關系挖掘
概念承接關系是建立用戶搜索概念和美團承接概念之間的關聯。例如,當用戶搜索“踏青”時,真正的意圖是希望尋找“適合踏青的地方”,因此平臺通過“郊野公園”、“植物園”等概念進行承接。關系的挖掘需要從0到1進行,所以整個概念承接關系挖掘根據不同階段的挖掘重點設計了不同的挖掘算法,可以分為三個階段:①初期的種子挖掘;②中期的深度判別模型挖掘;③后期的關系補全。詳細介紹如下。
3.4.1 基于共現特征挖掘種子數據
為了解決關系抽取任務中的冷啟動問題,業界通常采用Bootstrapping的方法,通過人工設定的少量種子和模板,自動從語料中擴充數據。然而,Bootstrapping方法不僅受限于模板的質量,而且應用于美團的場景中有著天然缺陷。美團語料的主要來源是用戶評論,而用戶評論的表述十分口語化及多樣化,很難設計通用而且有效的模板。因此,我們拋棄基于模板的方法,而是根據實體間的共現特征以及類目特征,構建了一個三元對比學習網絡,自動從非結構化的文本中挖掘實體關系之間潛在的相關性信息。
具體來說,我們觀察到不同商戶類目下用戶評論中實體的分布差異較大。例如,美食類目下的UGC經常涉及到“聚餐”、“點菜”、“餐廳”;健身類目下的UGC經常涉及到“減肥”、“私教”、“健身房”;而“裝修”、“大廳”等通用實體在各個類目下都會出現。因此,我們構建了三元對比學習網絡,使得同類目下的用戶評論表示靠近,不同類目的用戶評論表示遠離。與Word2Vec等預訓練詞向量系統類似,通過該對比學習策略得到的詞向量層天然蘊含豐富的關系信息。在預測時,對于任意的用戶搜索概念,可以通過計算其與所有承接概念之間的語義相似度,輔以搜索業務上的統計特征,得到一批高質量的種子數據。
圖15 概念承接關系挖掘的Triplet Network3.4.2 基于種子數據訓練深度模型
預訓練語言模型近兩年來在NLP領域取得了很大的進展,基于大型的預訓練模型微調下游任務,是NLP領域非常流行的做法。因此,在關系挖掘中期,我們采用基于BERT(參考《美團BERT的探索和實踐》一文)的關系判別模型,利用BERT預訓練時學到的大量語言本身的知識來幫助關系抽取任務。
模型結構如下圖所示。首先,根據實體間的共現特征得到候選實體對,召回包含候選實體對的用戶評論;然后,沿用MTB論文中的實體標記方法,在兩個實體的開始位置和結束位置分別插入特殊的標志符號,經過BERT建模之后,將兩個實體開始位置的特殊符號拼接起來作為關系表示;最后,將關系表示輸入Softmax層判斷實體間是否含有關系。
圖16 概念承接關系判別模型3.4.3 基于已有的圖譜結構進行關系補全
通過上述兩個階段,已經從非結構化的文本信息中構建出了一個初具規模的概念承接關系的圖譜。但是由于語義模型的局限性,當前圖譜中存在大量的三元組缺失。為了進一步豐富概念圖譜,補全缺失的關系信息,我們應用知識圖譜鏈接預測中的TransE算法以及圖神經網絡等技術,對已有的概念圖譜進行補全。
為了充分利用已知圖譜的結構信息,我們采用基于關系的圖注意力神經網絡(RGAT,Relational Graph Attention Network)來建模圖結構信息。RGAT利用關系注意力機制,克服了傳統GCN、GAT無法建模邊類型的缺陷,更適用于建模概念圖譜此類異構網絡。在利用RGAT得到實體稠密嵌入之后,我們使用TransE作為損失函數。TransE將三元組(h,r,t)中的r視為從h到t的翻譯向量,并約定h+r≈t。該方法被廣泛適用于知識圖譜補全任務當中,顯示出極強的魯棒性和可拓展性。
具體細節如下圖所示,RGAT中每層結點的特征由鄰居結點特征的均值以及鄰邊特征的均值加權拼接而成,通過關系注意力機制,不同的結點和邊具有不同的權重系數。在得到最后一層的結點和邊特征后,我們利用TransE作為訓練目標,對訓練集中的每對三元組(h,r,t),最小化||h+r=t||。在預測時,對于每個頭實體和每種關系,圖譜所有結點作為候選尾實體與其計算距離,得到最終的尾實體。
圖17 概念承接關系補足圖示目前,概念承接關系整體準確率90%左右。
3.5 POI/SPU-概念關系建設
建立圖譜概念和美團實例之間的關聯,會利用到POI/SPU名稱、類目、用戶評論等多個維度的信息。建立關聯的難點在于如何從多樣化的信息中獲取與圖譜概念相關的信息。因此,我們通過同義詞召回實例下所有與概念語義相關的子句,然后利用判別模型判斷概念與子句的關聯程度。具體流程如下:
同義詞聚類。對于待打標的概念,根據圖譜同義詞數據,獲取概念的多種表述。
候選子句生成。根據同義詞聚類的結果,從商戶名稱、團單名稱、用戶評論等多個來源中召回候選子句。
判別模型。利用概念-文本關聯判別模型(如下圖所示)判斷概念和子句是否匹配。
打標結果。調整閾值,得到最終的判別結果。
四、應用實踐
4.1 到綜品類詞圖譜建設
美團到綜業務涵蓋知識領域較廣,包含親子、教育、醫美、休閑娛樂等,同時每個領域都包含更多小的子領域,所以針對不同的領域建設領域內的知識圖譜,能夠輔助做好搜索召回、篩選、推薦等業務。
在常識性概念圖譜中除了常識性概念數據,同時也包含美團場景數據,以及基礎算法能力的沉淀,因此可以借助常識性圖譜能力,幫助建設到綜品類詞的圖譜數據。
借助常識性圖譜,補充欠缺的品類詞數據,構建合理的品類詞圖譜,幫助通過搜索改寫,POI打標等方式提升搜索召回。目前在教育領域,圖譜規模從起初的1000+節點擴展到2000+,同時同義詞從千級別擴展到2萬+,取得了不錯的效果。
品類詞圖譜建設流程如下圖所示:
圖19 到綜品類詞圖譜建設流程4.2 點評搜索引導
點評搜索SUG推薦,在引導用戶認知的同時幫助減少用戶完成搜索的時間,提升搜索效率。所以在SUG推薦上需要聚焦兩個方面的目標:①幫助豐富用戶的認知,從對點評的POI、類目搜索增加自然文本搜索的認知;②精細化用戶搜索需求,當用戶在搜索一些比較泛的品類詞時,幫助細化用戶的搜索需求。
在常識性概念圖譜中,建立了很豐富的概念以及對應屬性及其屬性值的關系,通過一個相對比較泛的Query,可以生成對應細化的Query。例如蛋糕,可以通過口味這個屬性,產出草莓蛋糕、芝士蛋糕,通過規格這個屬性,產出6寸蛋糕、袖珍蛋糕等等。
搜索引導詞Query產出示例如下圖所示:
圖20 推薦Query挖掘示例4.3 到綜醫美內容打標
在醫美內容展示上,用戶通常會對某一特定的醫美服務內容感興趣,所以在產品形態上會提供一些不同的服務標簽,幫助用戶篩選精確的醫美內容,精準觸達用戶需求。但是在標簽和醫美內容進行關聯時,關聯錯誤較多,用戶篩選后經常看到不符合自己需求的內容。提升打標的準確率能夠幫助用戶更聚焦自己的需求。
借助圖譜的概念-POI打標能力和概念-UGC的打標關系,提升標簽-內容的準確率。通過圖譜能力打標,在準確率和召回率上均有明顯提升。
準確率:通過概念-內容打標算法,相比于關鍵詞匹配,準確率從51%提升到91%。
召回率:通過概念同義挖掘,召回率從77%提升到91%。
五、總結與展望
我們對常識性概念圖譜建設工作以及在美團場景中的使用情況進行了詳細的介紹。在整個常識性概念圖譜中,按照業務需要包含三類節點和四類的關系,分別介紹了概念挖掘算法、不同種類的關系挖掘算法。
目前,我們常識性概念圖譜有200萬+的概念,300萬+的概念之間的關系,包含上下位、同義、屬性、承接等關系,POI-概念的關系不包含在內。目前,整體關系準確率在90%左右,并且還在不斷優化算法,擴充關系的同時提升準確率。后續我們的常識性概念圖譜還會繼續完善,希望能夠做到精而全。
參考資料
[1] Onoe Y, Durrett G. Interpretable entity representations through large-scale typing[J]. arXiv preprint arXiv:2005.00147, 2020.
[2] Bosselut A, Rashkin H, Sap M, et al. Comet: Commonsense transformers for automatic knowledge graph construction[J]. arXiv preprint arXiv:1906.05317, 2019.
[3] Soares L B, FitzGerald N, Ling J, et al. Matching the blanks: Distributional similarity for relation learning[J]. arXiv preprint arXiv:1906.03158, 2019.
[4] Peng H, Gao T, Han X, et al. Learning from context or names? an empirical study on neural relation extraction[J]. arXiv preprint arXiv:2010.01923, 2020.
[5] Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.
[6] Li X L, Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation[J]. arXiv preprint arXiv:2101.00190, 2021.
[7] Malaviya, Chaitanya, et al. "Commonsense knowledge base completion with structural and semantic context." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.
[8] 李涵昱, 錢力, 周鵬飛. "面向商品評論文本的情感分析與挖掘." 情報科學 35.1 (2017): 51-55.
[9] 閆波, 張也, 宿紅毅 等. 一種基于用戶評論的商品屬性聚類方法.
[10] Wang, Chengyu, Xiaofeng He, and Aoying Zhou. "Open relation extraction for chinese noun phrases." IEEE Transactions on Knowledge and Data Engineering (2019).
[11] Li, Feng-Lin, et al. "AliMeKG: Domain Knowledge Graph Construction and Application in E-commerce." Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.
[12] Yang, Yaosheng, et al. "Distantly supervised ner with partial annotation learning and reinforcement learning." Proceedings of the 27th International Conference on Computational Linguistics. 2018.
[13] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
[14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[15] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
[16] Liu J, Shang J, Wang C, et al. Mining quality phrases from massive text corpora[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015: 1729-1744.
[17] Shen J, Wu Z, Lei D, et al. Hiexpan: Task-guided taxonomy construction by hierarchical tree expansion[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2180-2189.
[18] Huang J, Xie Y, Meng Y, et al. Corel: Seed-guided topical taxonomy construction by concept learning and relation transferring[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1928-1936.
[19] Liu B, Guo W, Niu D, et al. A user-centered concept mining system for query and document understanding at tencent[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1831-1841.
[20] Choi E, Levy O, Choi Y, et al. Ultra-fine entity typing[J]. arXiv preprint arXiv:1807.04905, 2018.
[21] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
[22] Mao X, Wang W, Xu H, et al. Relational Reflection Entity Alignment[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1095-1104.
[23] Chen J, Qiu X, Liu P, et al. Meta multi-task learning for sequence modeling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).
作者簡介
宗宇、俊杰、慧敏、福寶、徐俊、謝睿、武威等,均來自美團搜索與NLP部/NLP中心。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的领域应用 | 常识性概念图谱建设以及在美团场景中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 常识用于回答生成式多跳问题
- 下一篇: 论文浅尝 | 面向单关系事实问题的中文问