图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引
轉(zhuǎn)載公眾號 | 老劉說NLP
C端是知識圖譜應用的一個重要領(lǐng)域,這個領(lǐng)域有大量的用戶行為數(shù)據(jù),存在著包括搜索、推薦、廣告投放等業(yè)務。
當前,主流的互聯(lián)網(wǎng)公司,如美團、阿里、騰訊都在嘗試相關(guān)落地,在此當中,概念圖譜的建設(shè)和應用受到關(guān)注。
概念圖譜可以用于特征的補充,實體的召回等數(shù)據(jù)增強等實際工作當中。
本文主要從工業(yè)界的角度,對已有開放的大廠工作進行匯總、介紹,并對C端場景的概念圖譜構(gòu)成、構(gòu)建與應用進行總結(jié)。
最近也在做這個方面的工作,寫出來,與大家一起思考,對于進一步的擴展閱讀,大家可以從延伸閱讀的鏈接中查詢。
一、美團常識性概念圖譜
《常識性概念圖譜建設(shè)以及在美團場景中的應用》?一文中提出了常識性概念圖譜,常識性概念圖譜就是建立概念與概念之間的關(guān)系,幫助自然語言文本的理解。特別的,常識性概念圖譜側(cè)重美團場景,幫助提升美團場景中的搜索、推薦、Feeds流等的效果。
1、圖譜構(gòu)成
常識性概念圖譜涵蓋“是什么”的概念Taxonomy體系結(jié)構(gòu),“什么樣”的概念屬性關(guān)系,“給什么”的概念承接關(guān)系。
同時POI(Point of Interesting)、SPU(Standard Product Unit)、團單作為美團場景中的實例,需要和圖譜中的概念建立連接。
從構(gòu)成上看,該圖譜包括Taxonomy節(jié)點、原子概念節(jié)點、復合概念節(jié)點、同義/上下位關(guān)系、概念屬性關(guān)系、概念承接關(guān)系、POI/SPU-概念關(guān)系等信息。
2、圖譜構(gòu)建
如下圖所示,在構(gòu)建流程上,該圖譜包括基礎(chǔ)數(shù)據(jù)抽取,從UGC,用戶搜索日志中展開,并進行概念挖掘,包括原子概念、復合概念,隨后進行上下文,同義關(guān)系抽取等一系列流程。
3、圖譜應用
基于美團的業(yè)務,常識性概念圖譜可以支持以下場景。
1、到綜品類詞圖譜建設(shè)。?借助常識性圖譜,補充欠缺的品類詞數(shù)據(jù),構(gòu)建合理的品類詞圖譜,幫助通過搜索改寫,POI打標等方式提升搜索召回。目前在教育領(lǐng)域,圖譜規(guī)模從起初的1000+節(jié)點擴展到2000+,同時同義詞從千級別擴展到2萬+,取得了不錯的效果。
2、點評搜索引導。?點評搜索SUG推薦,在引導用戶認知的同時幫助減少用戶完成搜索的時間,提升搜索效率。所以在SUG推薦上需要聚焦兩個方面的目標:幫助豐富用戶的認知,從對點評的POI、類目搜索增加自然文本搜索的認知;精細化用戶搜索需求,當用戶在搜索一些比較泛的品類詞時,幫助細化用戶的搜索需求。
在常識性概念圖譜中,建立了很豐富的概念以及對應屬性及其屬性值的關(guān)系,通過一個相對比較泛的Query,可以生成對應細化的Query。例如蛋糕,可以通過口味這個屬性,產(chǎn)出草莓蛋糕、芝士蛋糕,通過規(guī)格這個屬性,產(chǎn)出6寸蛋糕、袖珍蛋糕等等。
3、到綜醫(yī)美內(nèi)容打標。?在醫(yī)美內(nèi)容展示上,用戶通常會對某一特定的醫(yī)美服務內(nèi)容感興趣,所以在產(chǎn)品形態(tài)上會提供一些不同的服務標簽,幫助用戶篩選精確的醫(yī)美內(nèi)容,精準觸達用戶需求。但是在標簽和醫(yī)美內(nèi)容進行關(guān)聯(lián)時,關(guān)聯(lián)錯誤較多,用戶篩選后經(jīng)常看到不符合自己需求的內(nèi)容。提升打標的準確率能夠幫助用戶更聚焦自己的需求。借助圖譜的概念-POI打標能力和概念-UGC的打標關(guān)系,提升標簽-內(nèi)容的準確率。通過圖譜能力打標,在準確率和召回率上均有明顯提升。
延伸閱讀:
https://zhuanlan.zhihu.com/p/384740848
二、阿里巴巴概念圖譜AliCG
《機器知道哪吒是部電影嗎?解讀阿里巴巴概念圖譜AliCG》?一文中介紹了阿里巴巴的概念圖譜 AliCG。
該圖譜由海量的概念核心實例、數(shù)萬的細粒度概念和概念-實例三元組組成,這些數(shù)據(jù)包括了常見的人物、地點等通用實例。相較于傳統(tǒng)的知識圖譜,AliCG 包含大量中文細粒度概念,且具備自動更新、自動擴充的能力。
比如對于“劉德華”這一實例,AliCG 不僅包含“香港歌手”、“演員”等傳統(tǒng)概念,還具有“華語歌壇不老男歌手”、“娛樂圈絕世好男人”等細粒度標簽。
1、圖譜構(gòu)成
AliCG 分為四個級別的層次結(jié)構(gòu),其中,
Level1 層由表示這些實例所屬的領(lǐng)域概念組成;
Level2 層由實例類型或子類的概念組成;
Level3 層由基礎(chǔ)概念組成,這些概念是實例的細粒度概念化;
Instance 層包括實體和非實體短語等所有實例。
2、圖譜構(gòu)建
該工作主要聚焦于細粒度概念挖掘、長尾概念挖掘以及自動概念更新三個部分,如下圖所示。
其中,
細粒度概念獲取。不同于粗粒度概念,細粒度的概念有助于提升搜索的召回率。
在實現(xiàn)上,定義了一組精準的模板來從高置信度的匹配查詢中利用 Bootstrapping 方法提取概念短語。例如,“十大XXX”是一種可用于提取種子概念的模式。基于這種模式,可以抽取出“十大手機游戲”等概念。
長尾概念挖掘。傳統(tǒng)的概念抽取方法通常是基于 Hearst 模板提取概念。該系統(tǒng)首先基于短語挖掘算法,并利用外部領(lǐng)域知識圖譜中的術(shù)語進行長尾的概念挖掘。
具體來說,首先過濾停用詞,然后使用現(xiàn)成的短語挖掘工具 AutoPhrase 在無監(jiān)督的情況下對語料庫進行短語挖掘。同時采用了一種基于自訓練的序列標注算法,用于長尾概念的挖掘,進一步提取一些分散的概念。
自動概念更新。傳統(tǒng)的方法無法隨著時間的推移更新概念的信息。例如,“哪吒”在不同的時期有著不同的含義,可以指神話作品人物或者上映影片。因此,必須將時間演化納入概念分類體系構(gòu)建中。
在實現(xiàn)上,首先將部分概念與預定義的同義詞詞典對齊。然后,通過通過每天的用戶搜索實例熱度計算置信度得分,并根據(jù)用戶的點擊行為來估計概念置信度分布。最后,將兩個不同粒度的置信度得分聯(lián)合構(gòu)建實例-概念分類。
3、圖譜應用
AliCG 在四種不同場景下的潛在應用案例:
(1)交互式搜索系統(tǒng)。?例如,“哪吒”鏈接到概念層 level3 的淺層概念,可引導用戶依據(jù)列出的概念進行實時交互,實現(xiàn)實體消歧,精準定位搜索內(nèi)容,最終索引到“哪吒之魔童降世”內(nèi)容,高層級的概念有助于幫助定位目的實例;
(2)開放式對話系統(tǒng)。?可根據(jù)用戶給定的實例聯(lián)系概念知識圖譜,實例-概念、概念-概念之間的鏈接通路使對話更有信息量,提高交互能力;
(3)閱讀理解系統(tǒng)。?可根據(jù)文本內(nèi)容對鏈接到“李白”這一實例的概念進行置信度排序,向用戶展示最有可能的理解輸出,在這里系統(tǒng)根據(jù)上下文可以準確判斷“李白”并不是指代高頻概念“盛唐時期的詩人”,這說明了細粒度的概念知識圖譜對于識別精度有很大幫助;
(4)廣告推薦系統(tǒng)。?根據(jù)用戶歷史購物信息,向中文概念圖譜中索引高層次概念實例,多個概念之間進行組合推斷,識別到“運動裝備”、“工業(yè)產(chǎn)品”、“用具”,可以有效向用戶推送戶外相關(guān)產(chǎn)品,并給出推薦理由。
延伸閱讀:https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw%3D%3D&idx=1&mid=2247530031&scene=21&sn=8628218cbf4386a2ff667305d3d8d3cd#wechat_redirect
三、騰訊興趣點概念圖譜
《騰訊信息流內(nèi)容理解技術(shù)實踐》一文介紹了興趣圖譜的概念。
其應用場景在于推薦系統(tǒng)需要積累用戶模型,因此需要保留完整的上下文,語義粒度要完整;不同的人消費同一篇文章背后原因可能不同,因此需要有一定的推理能力。因此,推出了興趣點圖譜。
1、圖譜構(gòu)成
如上圖所示,興趣點圖譜由四層組成:分別為分類層、概念層、實體詞和事件層。
其中,分類層一般是由 PM 建設(shè),是一個嚴格樹狀的結(jié)構(gòu),一般在1000左右個節(jié)點,主要解決人工運營的需求;
概念層指的是有相同屬性的一類實體稱之為概念,例如老年人專用手機、省油耐用車等,用于推理用戶消費的真實意圖,負責一般興趣點的召回;
實體層指的是知識圖譜中的實體,如:劉德華,華為 P10 等;
事件層:用來刻畫某一個事件,例如:王寶強離婚、三星手機爆炸等。
在關(guān)系刻畫上,興趣點圖包括三種關(guān)系:
上下位關(guān)系,例如“紅米note2”的上位詞是“性價比高的智能手機”;
關(guān)聯(lián)關(guān)系;
參與關(guān)系,比如在“凱美瑞召回”事件中,“凱美瑞”是“凱美瑞召回”的一個參與實體。
2、圖譜構(gòu)建
圖譜構(gòu)建包括概念挖掘、 熱門事件挖掘、關(guān)聯(lián)關(guān)系挖掘等步驟。
其中,例挖掘概念使用的是搜索數(shù)據(jù),每一個概念都有多個點擊的網(wǎng)頁,對網(wǎng)頁進行實體抽取,然后統(tǒng)計實體和概念的共現(xiàn)頻次就可以獲得較為準確的上下位關(guān)系。進一步的,文章?《騰訊提出概念挖掘系統(tǒng)ConcepT》?一文中對該部分的實現(xiàn)做了更為細致的分析。
事件指的是熱門事件。如果一個事件比較熱門,網(wǎng)友就會有了解需求,會通過搜索引擎來查詢事件,因此使用 query 作為熱門事件挖掘的來源。
在關(guān)聯(lián)關(guān)系的挖掘上,利用實體之間的共現(xiàn)數(shù)據(jù)進行訓練,可以作為正例,負樣本采用同類實體隨機負采樣,通過 pair wise 的 loss 進行訓練,得到每個實體的 embedding,然后計算任意兩個實體的關(guān)聯(lián)度。
3、圖譜應用
作為擁有微信等強流量的騰訊,主要應用于信息流等內(nèi)容理解場景。例如,下面介紹了對于每一篇文章,希望能預測出適合描述該文章的興趣點的需求,興趣圖譜主要用于召回。
在整個興趣點的理解上,可以拆解成兩步,第一步是召回,第二步是匹配。召回又可以分為基于關(guān)系的召回和基于語義的召回。基于關(guān)系的召回主要是利用圖譜中的上下位關(guān)系。例如一篇文章中出現(xiàn)了“雷凌”這個實體,它的上位概念是“省油家用車”,就可以把“省油家用車”作為候選的興趣點召回。
延伸閱讀:https://zhuanlan.zhihu.com/p/94706925?from_voters_page=true
總結(jié)
C端是知識圖譜應用的一個重要領(lǐng)域,這個領(lǐng)域有大量的用戶行為數(shù)據(jù),存在著包括搜索、推薦、廣告投放等業(yè)務。
建立概念圖譜,百科圖譜,甚至是事件圖譜、事理圖譜作為基礎(chǔ)底庫,對于特征擴充,召回擴展有重要意義。
當然,我們很明顯的能夠看到,這些工作很費人力,很臟,是一個基礎(chǔ)設(shè)施建設(shè)的范疇,也必須去做。
概念圖譜的工作之前也有做過,深有體會,大家可以一起加入進來去建設(shè)。
關(guān)于老劉
老劉,劉煥勇,NLP開源愛好者與踐行者,主頁:https://liuhuanyong.github.io。
就職于360人工智能研究院、曾就職于中國科學院軟件研究所。
老劉說NLP,將定期發(fā)布語言資源、工程實踐、技術(shù)總結(jié)等內(nèi)容,歡迎關(guān)注。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | ICLR 2020 - 图
- 下一篇: 论文浅尝 | 混合注意力原型网络的含噪音