(分享)2017云栖大会知识图谱专场
對知識圖譜有興趣的讀者可以關注我的知乎專欄,主要介紹知識圖譜的相關概念、技術,也包含一些具體實踐。
今天和大家分享一下阿里2017云棲大會知識圖譜專場的內容,一共有六場報告。
網上有整個報告的視頻,接近四個小時。我在下面列出了每個報告的提綱或者部分內容,讀者可以觀看自己感興趣的部分或者完整視頻。
一、阿里知識圖譜現狀
在阿里,知識圖譜有兩個重量級應用:淘寶的商品知識圖譜和神馬搜索的通用知識圖譜。下圖是各自的發展歷程:
第一部分:如何建設商品知識圖譜
淘寶商品知識圖譜的大致框架、建設步驟、核心技術和實際中的應用:
- 建設步驟
- Schema和工具
- 核心數據
- 智能服務
- 核心技術
- 信息提取:NER、EL、Relation Extraction
- 知識表示與推理
- 面向應用
- 數據分析與數據模型構建
- 智能問答
- 搜索
下圖是商品知識圖譜的數據大圖:
其包含了四個核心節點:商品、產品、品牌、條碼。圍繞著這四個節點進行擴展,最終形成知識圖譜中實體的關系結構。
讀者可能不能很好地區分圖中產品和商品的概念,主講人給出了解釋:產品是由阿里進行統一規范,商品是產品的次級概念,由商家在這個基礎上擴充其定義。比如iphoneX是一個產品,商家A賣的iphoneX則定義為商品iphoneX-A,商家B賣的iphoneX則定義為商品iphoneX-B。這種結構使系統能夠對商品進行更好地分析(比如統計銷量)。
存儲
商品圖譜數據在百億級,圖數據庫存儲開銷很大。為了保證毫秒級響應和成本控制的考量,阿里的研究團隊采用了分級存儲的架構:
分級存儲:
- 在線圖數據庫提供在線服務,毫秒級查詢,
- 在線關系數據庫,解決在圖數據庫中跨多個本體,長路徑的查詢響應慢的問題。
- 搜索引擎,支持模糊匹配,節點倒排索引。
- 緩存,數據模型(算法包)和數據分析。
- 離線關系數據庫,存儲全量數據。
智能識別引擎
對用戶查詢進行自然語言處理,得到關鍵詞,查詢知識圖譜,返回用戶需要的商品。
推理引擎
- 一級翻譯器:將自然語言轉換成邏輯語言(規則/神經網絡模型)
- 推理單元:基于商品知識圖譜邏輯展開
- 二級翻譯器:邏輯語言轉為數據庫語言
應用:導購
- 賣點標注
- 知識圖譜有商品條碼,包含配料表信息。保證商家上傳的配料表正確。
- 推理引擎判斷是否符合國家標準,匹配對應的標簽。
- 熱點挖掘
- 從公共媒體挖掘熱點 。
- 利用推理引擎和商品知識對相關商品自動識別和標注。
- 場景構建
- 根據場景推薦相關商品(去海邊玩,可以買哪些東西)。
第二部分:通用知識圖譜構建和應用
移動搜索的發展路徑:
神馬知識圖譜的特點:
構建方法:
知識圖譜在通用領域的應用:
1.知識卡片
在專欄的第一篇文章中我們也提到過,知識卡片能夠提升用戶查詢的體驗。
2.精準問答
3.基于知識圖譜的實體推薦
二、知識工程:機器智能的加速器
1.數據、知識與智能
為數據添加語義信息,從而得到知識;知識為智能的產生提供支持。
2.知識工程四十年
這一部分我們在之前的文章也有介紹過,知識圖譜是怎么從語義網絡、專家系統、語義網發展過來的。
3.大數據環境下知識工程挑戰及研究內容
4.在科技大數據中的應用
李老師以清華大學學術大數據項目AMiner為例,介紹了知識圖譜的具體應用場景。Aminer構建了一個學者的社交網絡,提供了比較全面的搜索和數據挖掘服務。AMiner對搞學術研究的讀者幫助比較大,可以方便地查到某個領域有哪些頂尖學者、或者出眾的論文。有時候我們可能會碰到這種情況,想了解論文作者的具體信息,但是有些情況下,我們在搜索引擎中并不能通過作者的名字查到相關信息,尤其是中國的作者(同名和多字同音增加了搜索難度)。但是通過AMiner,也許你能夠更快地找到你需要的信息。例如,一開始我并不知道蘇儉老師名字的儉,我通過搜索引擎搜索su jian加上她所在的單位,最后才費力地找到她的中文名。通過AMiner,輸入su jian,第一個結果就是她的條目(超過1000個結果,但是她的引用數最高)。有興趣的讀者可以自己去探索一下這個系統。
三、Semantic and sentiment analysis for KG construction
蘇儉老師分享了他們在在自然語言處理方面的工作。包括命名實體識別、指代消歧、實體鏈接、關系抽取、事件抽取、文本分類、情感分析。
四、中文知識圖譜概況
浙江大學陳華均老師介紹了:
五、當知識圖譜遇上聊天機器人:機遇與挑戰
狗尾草CTO王昊奮結合他們的產品——琥珀,從四個方面做了如下報告:
1.聊天機器人簡介
2.技術挑戰
3.需要什么樣的知識圖譜
4.聊天機器人的機遇和挑戰
六、知識圖譜推理技術的進展及應用
漆桂林老師報告內容分為下面三塊:
總結
以上是生活随笔為你收集整理的(分享)2017云栖大会知识图谱专场的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: EVENT2---cookie
- 下一篇: 渠道商的概念