领域应用 | 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG
轉(zhuǎn)載公眾號 |?PaperWeekly
概念是人類認(rèn)知世界的基石。比如對于“哪吒好看嗎?”,“哪吒銘文搭配建議”兩句話,人可以結(jié)合概念知識理解第一個哪吒是一部電影,第二個哪吒是王者榮耀的英雄。然而機(jī)器能理解嗎?
針對這一問題,浙江大學(xué)和阿里巴巴的算法工程師們一起提出了一種全新的自動化概念圖譜構(gòu)建方法,其能夠自動的從海量文本及半結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建細(xì)粒度的中文概念層次結(jié)構(gòu),相關(guān)技術(shù)的論文已經(jīng)被國際頂會 KDD 2021 錄用。
論文標(biāo)題:
AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba
收錄會議:
KDD 2021
論文鏈接:
https://arxiv.org/abs/2106.01686
提出的相關(guān)技術(shù)同時支持了阿里巴巴商品知識圖譜的建設(shè),應(yīng)用于細(xì)粒度商品標(biāo)簽的獲取、挖掘和更新等任務(wù)。阿里巴巴商品知識圖譜擁有千億級別的實體和關(guān)系,為不同業(yè)務(wù)商品數(shù)據(jù)的組織和管理起到了重要作用,并獲得了 2020 年度錢偉長中文信息處理科學(xué)技術(shù)獎和 2020 年度 ECR 中國零售供應(yīng)協(xié)會創(chuàng)新項目獎。
背景
概念是人類認(rèn)知從具體進(jìn)入抽象的第一步,也是人類認(rèn)知世界的基石。概念知識圖譜是一種特殊的知識圖譜,在語義搜索、自動問答等場景具有廣泛的應(yīng)用價值。例如,微軟開發(fā)了 Microsoft Concept Graph [1]?可以幫助機(jī)器更好地理解人類語言進(jìn)而提升語義理解效果。網(wǎng)絡(luò)搜索引擎(如谷歌和必應(yīng))利用概念分類來更好地理解用戶查詢并提高搜索質(zhì)量。
此外許多電商平臺(如阿里巴巴?[2]?和亞馬遜)將產(chǎn)品分為不同粒度的層次結(jié)構(gòu),以便客戶可以輕松地搜索和導(dǎo)航不同分類,找到他們想要購買的商品。然而,以往的概念圖譜構(gòu)造方法?[3]?通常只從文本中抽取高頻率、粗粒度和靜態(tài)的概念實例。在實際應(yīng)用中,其較難覆蓋長尾和細(xì)粒度概念信息,且存在更新困難的問題。
具體的說,以往的方法面臨以下三個挑戰(zhàn):
細(xì)粒度概念獲取。不同于粗粒度概念,細(xì)粒度的概念有助于提升搜索的召回率。例如,“圍巾”是一件“服飾”,我們較難獲取“圍巾”的細(xì)粒度上級概念“保暖服飾”,這些細(xì)粒度概念很少被現(xiàn)有的概念圖譜所覆蓋。
長尾概念挖掘。傳統(tǒng)的概念抽取方法通常是基于 Hearst 模板提取概念。然而,這些方法較難從帶噪聲的開放語料中提取長尾概念。
自動概念更新。傳統(tǒng)的方法無法隨著時間的推移更新概念的信息。例如,“哪吒”在不同的時期有著不同的含義,可以指神話作品人物或者上映影片。因此,必須將時間演化納入概念分類體系構(gòu)建中。隨著時間的變化,我們需要對齊概念圖譜中具有相同含義的節(jié)點,并估計給定實例中概念的置信度分布。
AliCG
阿里巴巴的概念圖譜 AliCG 由海量的概念核心實例、數(shù)萬的細(xì)粒度概念和概念-實例三元組組成,這些數(shù)據(jù)包括了常見的人物、地點等通用實例。
相較于傳統(tǒng)的知識圖譜,AliCG 包含大量中文細(xì)粒度概念,且具備自動更新、自動擴(kuò)充的能力。比如對于“劉德華”這一實例,AliCG 不僅包含“香港歌手”、“演員”等傳統(tǒng)概念,還具有“華語歌壇不老男歌手”、“娛樂圈絕世好男人”等細(xì)粒度標(biāo)簽。
如圖所示,AliCG 分為四個級別的層次結(jié)構(gòu):Level1 層由表示這些實例所屬的領(lǐng)域概念組成;Level2 層由實例類型或子類的概念組成;Level3 層由基礎(chǔ)概念組成,這些概念是實例的細(xì)粒度概念化;Instance 層包括實體和非實體短語等所有實例。
構(gòu)建算法
3.1 細(xì)粒度概念獲取
這一模塊的目的是從包含噪聲的海量開放語料中提取常見的細(xì)粒度概念,然后獲取候選概念和實例,并通過概率推理和概念匹配將候選概念和實例與相應(yīng)的概念聯(lián)系起來。我們定義了一組精準(zhǔn)的模板來從高置信度的匹配查詢中利用 Bootstrapping 方法提取概念短語。例如,“十大XXX”是一種可用于提取種子概念的模式。基于這種模式,我們可以抽取出“十大手機(jī)游戲”等概念。
3.2 長尾概念挖掘
這一模塊的目的是通過短語挖掘和自訓(xùn)練從有帶噪的搜索日志中提取長尾概念。我們首先基于短語挖掘算法,并利用外部領(lǐng)域知識圖譜中的術(shù)語進(jìn)行長尾的概念挖掘。具體來說,我們首先過濾停止詞,然后使用現(xiàn)成的短語挖掘工具 AutoPhrase 在無監(jiān)督的情況下對語料庫進(jìn)行短語挖掘。我們同時采用了一種基于自訓(xùn)練的序列標(biāo)注算法,用于長尾概念的挖掘,進(jìn)一步提取一些分散的概念。
3.3 自動概念更新
這一模塊的目的是隨時間變化更新概念信息。我們首先將部分概念與預(yù)定義的同義詞詞典對齊。然后,我們通過通過每天的用戶搜索實例熱度計算置信度得分,并根據(jù)用戶的點擊行為來估計概念置信度分布。最后,我們將兩個不同粒度的置信度得分聯(lián)合構(gòu)建實例-概念分類如下圖所示。關(guān)于構(gòu)建方法的細(xì)節(jié)可以參閱我們的論文原文。
實驗與應(yīng)用
我們對概念圖譜構(gòu)建系統(tǒng)和應(yīng)用做了豐富的實驗。如下圖所示,實驗結(jié)果表明,相比于傳統(tǒng)的概念挖掘算法,我們能夠獲得更加細(xì)粒度的概念實例三元組,且具備對長尾概念的挖掘能力。
此外,我們在還展示了 AliCG 在四種不同場景下的潛在應(yīng)用案例:
(1)交互式搜索系統(tǒng),“哪吒”鏈接到概念層 level3 的淺層概念,可引導(dǎo)用戶依據(jù)列出的概念進(jìn)行實時交互,實現(xiàn)實體消歧,精準(zhǔn)定位搜索內(nèi)容,最終索引到“哪吒之魔童降世”內(nèi)容,高層級的概念有助于幫助定位目的實例;
(2)開放式對話系統(tǒng),可根據(jù)用戶給定的實例聯(lián)系概念知識圖譜,實例-概念、概念-概念之間的鏈接通路使對話更有信息量,提高交互能力;
(3)閱讀理解系統(tǒng),可根據(jù)文本內(nèi)容對鏈接到“李白”這一實例的概念進(jìn)行置信度排序,向用戶展示最有可能的理解輸出,在這里系統(tǒng)根據(jù)上下文可以準(zhǔn)確判斷“李白”并不是指代高頻概念“盛唐時期的詩人”,這說明了細(xì)粒度的概念知識圖譜對于識別精度有很大幫助;
(4)廣告推薦系統(tǒng),根據(jù)用戶歷史購物信息,向中文概念圖譜中索引高層次概念實例,多個概念之間進(jìn)行組合推斷,識別到“運動裝備”、“工業(yè)產(chǎn)品”、“用具”,可以有效向用戶推送戶外相關(guān)產(chǎn)品,并給出推薦理由。
(5)在商品知識圖譜中的應(yīng)用,商品知識圖譜包含大量商品標(biāo)簽用于描述商品,標(biāo)簽基于命名實體識別和新詞發(fā)現(xiàn)兩條鏈路生產(chǎn)。商品標(biāo)簽本質(zhì)上也是概念,存在不同粒度的分層結(jié)構(gòu),同時也面臨著長尾標(biāo)簽和更新的問題。文章提出的算法重點解決這幾個問題,我們把對應(yīng)的算法模塊融到了商品知識圖譜標(biāo)簽生產(chǎn)的流程之中。
總結(jié)與展望
在本文中,我們介紹了阿里巴巴概念圖譜的構(gòu)建及應(yīng)用,并提出了一種并提出一種全新的自動化概念圖譜構(gòu)建方法,其能夠自動的從海量文本及半結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建細(xì)粒度的中文概念層次結(jié)構(gòu),并把相關(guān)技術(shù)應(yīng)用在了阿里巴巴商品知識圖譜中。
隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,數(shù)據(jù)驅(qū)動漸入天花板。盡管超大規(guī)模的預(yù)訓(xùn)練語言模型如 GPT-3 取得了令人驚艷的效果,它仍然經(jīng)常鬧笑話。數(shù)據(jù)+知識是驅(qū)動未來認(rèn)知 AI 的重要路線之一。我們的方法能夠自動挖掘概念知識,并在真實場景中起到了較好的效果。
浙江大學(xué)-慕課-《知識圖譜》:
歡迎選修浙江大學(xué)《知識圖譜》開放共享慕課
參考文獻(xiàn)
[1] Microsoft concept graph: Mining semantic concepts for short text understanding
[2] AliCoCo: Alibaba e-commerce cognitive concept net
[3] CN-Probase: a data-driven approach for large-scale Chinese taxonomy construction
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的领域应用 | 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 小米在知识表示学习的探索与
- 下一篇: 论文浅尝 | BERT:Pre-trai