人力资源知识图谱搭建及应用
背景介紹
人力資源行業其實是做關于人的決策的數據密集型行業,其中的傳統數據就包括簡歷、JD、面試評價、績效等。隨著時代和技術的發展,對數據的處理已經從簡單人工處理進入到了人工智能技術的應用,而知識圖譜則能把這些數據連接起來,挖掘其中更多價值,幫助企業管理層及HR們更明智的做出關于人的決策。
什么是知識圖譜?
在互聯網時代,搜索引擎是人們在線獲取信息和知識的重要工具。當用戶輸入一個查詢詞,搜索引擎會反饋它認為與這個關鍵詞最相關的網頁。
直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁面中首次引入“知識圖譜”:用戶除了得到搜索網頁鏈接外,還將看到與查詢詞有關的更加智能化的答案。
從雜亂的網頁到結構化的實體知識,搜索引擎利用知識圖譜能夠為用戶提供更具條理的信息,甚至順著知識圖譜可以探索更深入、廣泛和完整的知識體系,讓用戶發現他們意想不到的知識。谷歌高級副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在:“構成這個世界的是實體(things),而非字符串(not strings)”。
知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識(identifier)。類似于我們對于一個網頁會有一個URL,對于數據庫中的一條記錄會有一個主鍵id等思想是一樣的,強調去刻畫thing,這里的thing是和傳統web上的網頁對比較的。每個屬性—值對(attribute-valuepair,又稱AVP)用來刻畫實體的內在特性,而關系(relation)用來連接兩個實體,刻畫它們之間的關聯。知識圖譜亦可被看作是一張巨大的圖,圖中的節點表示實體或概念,而圖中的邊則由屬性或關系構成。上述圖模型可用W3C提出的資源描述框架RDF或屬性圖(property graph)來表示。
e
e成科技技能實體知識圖譜示例
圖例說明:
實體:方形框為概念/類,圓形框為實例(具備唯一的本體,不與其他實例存在上下位關系)
關系:常用關系為subclassof(概念之間的上下位關系),instanceof(概念與實例的上下位關系),use(使用),part_of(包含)
人力資源行業應用場景
人才盤點
人崗匹配:對已有的jd/簡歷數據做了充分的深加工,使之構成知識圖譜,簡歷和JD的匹配不是基于關鍵詞而是對簡歷和需求的深度了解,甚至是相似崗位大數據的基礎構成知識網絡,達成精細化匹配。
人才畫像:通過圖譜推理補全,可以對員工進行全方位的技能以及素質描畫,基于完備的人才畫像,可以更好的對其晉升及培養提供指導意見。
Chat Bot
基于知識圖譜的智能問答機器人,可以在多輪對話中,跟蹤并推理用戶潛在意圖和缺失知識點,在面試及人才盤點場景中可以更智能理解用戶真實需求。
知識圖譜的構建
知識圖譜的構建過程,主要分為兩個部分:首先從各種數據源中抽取構建圖譜所需的候選實體(概念)以及屬性關系,第二步需要將這些獨立零散的知識體系整合集成。并最終存儲在特定的數據結構中。
圖譜存儲
常見知識圖譜數據存儲方式:
1.三元組表(S,P,O):類似RDF存儲結構,以元組為單元進行存儲,語義較為明確,但存在大量自連接的操作,開銷巨大
2.屬性表:屬性相似的主語聚為一張表,類似關系型數據結構,每一條數據代表一個實體,每一列代表一個屬性。
目前圖結構存儲有兩種通用的存儲方案:RDF存儲 和 圖數據庫(Graph Database)。 圖數據庫的結構定義相比RDF數據庫更為通用,實現了圖結構中的節點,邊以及屬性來進行圖數據的存儲,典型的開源圖數據庫就是Neo4j/Dgraph/tinkerpop/OrientDB等, 這種做法的優點是數據庫本身提供完善的圖查詢語言、支持各種圖挖掘算法。
本文介紹三元組+圖數據庫的存儲方式,使用Dgraph圖數據庫。Dgraph 是一個可擴展的,分布式的,低延遲的圖數據庫,目標是提供 Google 生產水平的規模和吞吐量,在超過 TB 的結構數據里,為用戶提供足夠低延遲的實時查詢。Dgraph有獨立開發的網頁端查詢和操作界面,同時支持 GraphQL 作為查詢語言。
實體提取
實體定義:
能夠獨立存在的,作為一切屬性的基礎和萬物本原的東西,也就是說實體是屬性賴以存在的基礎,必須是自在的,也就是獨立的、不依附于其他東西而存在的。
數據來源:e成科技已經有8萬注冊企業用戶,積累了上億份簡歷數據,以此作為數據源可以廣泛覆蓋多行業人才知識體系
實體類型:證書/公司/部門/職能/行業/專業/學校/技能等八大實體
模型提取:使用了當前業界通用的CRF序列標注模型結合領域專屬詞表
關系抽取
常見語義關系主要包括:同義關系、上下位關系、部分整體關系和因果關系等。其中上下位關系是一種非常重要的語義關系而且在知識圖譜的構建過程中占有很大的比重。上下位關系的抓取就成為構建知識圖譜的核心之一。
上下位關系的抓取分為有監督的和無監督的,以下我們將各自進行介紹:
有監督模型
基于遠程監督(Distant Supervision)和卷積神經網絡(CNN)相結合的方法對上下位關系進行提取以及后續可以改進的地方。PCNNs(Piecewise Convolutional Neural Networls)模型是由Zeng et al. 在2015年提出的,該模型主要解決了以下兩個問題:第一,對于遠程監督的wrong label問題,模型采用了多個示例進行學習訓練,抽取置信度高的樣本訓練模型;第二,解決了傳統特征抽取特征錯誤或者無效的問題,PCNN利用卷積神經網絡進行自動特征學習。
主要計算步驟如下:
步驟一:切詞,對文本進行切詞,并標記實體的位置。
步驟二:向量化(Vector Representation),利用word2vec對切分的詞進行word embedding(d維)表示,position embedding (d維)采用隨機初始化。這樣就將一段文本表示成了d×S,其中S是文本的token數。
步驟三:卷積(Convolution)構造卷積核對步驟二的矩陣進卷積操作
步驟四:池化(pooling),這里采用的是max-pooling,但是這里與一般的池化層有一定的區別,這里池化的位置是實體的分割位置。
步驟五:Softmax分類輸出。
無監督模型
有監督模型對于訓練樣本的標注以及語料都有比較高的要求。在實際應用中,無監督模型可以在沒有標注數據的情況下獲得部分數據的實體上下位關系,同時也可以支持有監督的方法。
1.基于pattern的方法,例如熟悉CNN、LSTM等神經網絡。在例句中CNN和LSTM就是神經網絡(上位詞)的下位詞
2.根據假設Distributional Inclusion Hypothesis(DIH)即下位詞的上下文包含與上位詞的上下文和實體詞的上下文來發現上下位關系
外部知識體系
知識圖譜的構建與知識體系積累已經取得了很多研究成果,使用相對成熟的外部知識源補充手工構建的知識圖譜也是一種常用手段。
在這次人力資源圖譜構建過程中,主要使用了wikidata以及mba智庫兩個外部數據源。
Wikidata是一個大型數據庫,由維基媒體德國分會首先提出,其目標是開發“世界知識的一個協作編輯的數據庫”。該數據庫提取了包括中文版在內的不同語言版本的維基百科和Freebase中具有共同認知的條目,并設想通過這樣的共享數據庫,提高維基百科內容的質量和一致性 。更重要的是 Wikidata非常重視數據的來源,并對其進行標注。該項目在2014年已完成,目前總條目數已經達到14755076個,且在持續增長中。
MBA智庫百科是一部內容開放的百科全書,也是人人可以參與編寫的百科全書。其目標是專注于經濟管理領域知識的創建與分享。該數據庫中的詞條按照領域進行了分類,并構成了一個樹形的多級領域結構。對于人力資源行業,常見的Wikidata等數據庫中對該領域的覆蓋率不夠;而MBA智庫百科中的經管類數據則對提升數據的覆蓋率起到了一定的作用。
實體對齊/鏈接
對于多個外部數據源引入后,會出現大量的相似實體,故需要引入實體對齊/鏈接技術。
實體對齊/鏈接(ObjectAlignment):旨在發現具有不同標識實體但卻代表真實世界中同一對象的那些實體,并將這些實體歸并為一個具有全局唯一標識的實體對象添加到知識圖譜中。目前常用的方式是對實體進行聚類分析,聚類的關鍵在于定義合適的相似度計算。
本文介紹兩種相似度計算:具有相同描述的實體可能代表同一實體(字符相似);具有相同鄰居的實體可能指向同一個對象(結構相似)。
后續工作
知識圖譜的構建是一個浩大的工程,本文僅列舉部分常用模塊,實體消歧/知識推理/關系補全等其他相關工作將另文介紹。
參考文獻
Daojian Zeng and Kang Liu and Yubo Chen and Jian Zhao,Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks,EMNLP,2015
Stephen Roller, Douwe Kiela, Maximilian Nickel,Hearst Patterns Revisited: Automatic Hypernym Detection from Large Text Corpora,ACL,2018
Vered Shwartz, Enrico Santus, Dominik Schlechtweg,Hypernyms under Siege: Linguistically-motivated Artillery for Hypernymy Detection,EACL,2017
Baoxu Shi, Tim Weninger,Open-World Knowledge Graph Completion,AAAI,2018
Zhuang Yan, Li Guoliang, Feng Jianhua,A Survey on Entity Alignment of Knowledge Base,2016
關于e成科技
e成科技作為人力資本數字化平臺,是數字化人才戰略領先者,開創性地將AI技術與人才戰略升級場景深度結合,形成數字化招聘、員工服務、AI咨詢等支柱產品線,為企業招對人,用好人,助力人才戰略成功創造價值。e成科技始終秉持"Talent Before Strategy(人才重于戰略)"的愿景,將“科技驅動人才升級”作為自身使命不懈奮斗。
總結
以上是生活随笔為你收集整理的人力资源知识图谱搭建及应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【欣赏】logo设计原则 + 一组设计独
- 下一篇: 通过代理服务器发微信告警,用shell脚