MaxCompute+ Geabase 大话健康知识图谱取经之路
https://yq.aliyun.com/articles/628991?spm=a2c4e.11163080.searchblog.11.4f492ec1Hzl9la
小嘰導(dǎo)語:正如Google的高級搜索副總裁Amit Singhal在介紹知識圖譜時提到的:“The world is not made of strings , but is made of things.” 大千世界,萬物相聯(lián),借助知識圖譜,實現(xiàn)了搜索領(lǐng)域的things, not strings。保險領(lǐng)域的知識圖譜之路,何去何從呢?
背景
隨著互聯(lián)網(wǎng)和AI智能的發(fā)展,近年來我國的健康險業(yè)務(wù)迎來了飛速發(fā)展和變革。健康險,即健康保險,是保險業(yè)務(wù)的一個重要分支,有著廣闊的發(fā)展前景,是本財年保險領(lǐng)域排兵布陣的重要戰(zhàn)場。健康險是以被保險人的身體為保險標(biāo)的,依據(jù)合同約定當(dāng)被保險人遭遇疾病或意外傷害時,對被保險人的醫(yī)療費(fèi)用或財產(chǎn)損失進(jìn)行補(bǔ)償或給付的一種保險。
為了支撐日益劇增的理賠單量的挑戰(zhàn),在不增加客服小二工作量的前提下,健康險理賠需要做到智能化、自動化和低風(fēng)險化。因此,理賠天平團(tuán)隊在智能理賠、理賠機(jī)器智能問答和反騙賠等方面做出了相應(yīng)嘗試,而健康險知識圖譜是以上各種嘗試所依賴的底層基礎(chǔ)技術(shù)。
本文首先介紹了健康知識圖譜構(gòu)建流程、整體框架和遇到的問題,然后總結(jié)了健康知識圖譜在保險理賠領(lǐng)域應(yīng)用場景和對應(yīng)的玩法。
健康知識圖譜和Schema示例
圖1 健康知識圖譜樣例
健康知識圖譜樣例如圖1所示,其中存儲著用戶、險種、疾病、醫(yī)院等各類節(jié)點信息以及它們之間的關(guān)聯(lián)信息。比如,用戶張三投保了門診保險金,當(dāng)該用戶患慢性肺炎申請理賠時,我們可以根據(jù)圖譜來判斷購買的險種對慢性肺炎時免責(zé)的,進(jìn)行智能拒賠即可。
健康知識圖譜的具體節(jié)點和邊屬性如下:
健康知識圖譜整體框架
圖2 健康知識圖譜整體技術(shù)框架
健康知識圖譜整體框架如圖2所示,主要由信息源、實體抽取、數(shù)據(jù)源、更新框架和數(shù)據(jù)存儲和質(zhì)量控制等部分組成,具體如下:
1、信息源
保單類:用戶購買的保單信息,包含用戶、險種、時間、保障疾病范圍等信息。
外部網(wǎng)站數(shù)據(jù):通過爬蟲,可以獲取各種渠道的信息,包括醫(yī)院信息、科室信息等。
2、實體/關(guān)系抽取
信息源有很多形式,包括圖片、文字、語音、視頻等類型,需要從中提取有用的實體信息和實體關(guān)系。這部分可以通過機(jī)器學(xué)習(xí)(包括深度學(xué)習(xí)、規(guī)則引擎等)或者人工方式實現(xiàn)。
3、數(shù)據(jù)源
數(shù)據(jù)源包括各種類型的數(shù)據(jù),包括上傳的文件、ODPS中的用戶畫像信息、關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)、事件或日志等。
4、更新框架
一般通過三種方式將提取的數(shù)據(jù)導(dǎo)入到Geabase中,如下圖所示:
初始化方式,將全量數(shù)據(jù)寫入ODPS表某個分區(qū)中,全量初始化導(dǎo)入Geabase。
T+1批量更新方式,通過MR Job定時任務(wù)將更新數(shù)據(jù)寫入最新分區(qū)中,每天批量新增、更新和刪除Geabase中數(shù)據(jù)。
實時更新,將更新的數(shù)據(jù)發(fā)送到事件系統(tǒng)或者日志搜集系統(tǒng),然后實時消費(fèi),將數(shù)據(jù)更新到Geabase數(shù)據(jù)庫中。
5、數(shù)據(jù)存儲
Geabase為了實現(xiàn)對數(shù)據(jù)進(jìn)行分布式存儲和計算,將整個圖按節(jié)點分割為多個子圖,每個子圖存放在同一個shard中,每個shard都有自己的備份。Geabase數(shù)據(jù)庫線上存儲的都是有向邊,如果需要存儲無向邊,則需要存儲兩份,即正向和反向都要進(jìn)行存儲。
Geabase在分塊過程中,對于交界處的邊,Geabase會同時生成2條邊,即一條出邊和一條入邊,分別屬于相鄰的兩個Shard。
6、保障機(jī)制
數(shù)據(jù)抽樣/校驗:對更新數(shù)據(jù)(批量或者實時)進(jìn)行隨機(jī)抽取特定比例的樣本,進(jìn)行校驗,來驗證數(shù)據(jù)導(dǎo)入準(zhǔn)確性。
日志監(jiān)控:對Geabase更新異常、查詢性能等進(jìn)行實時監(jiān)控。
開關(guān):可以利用開關(guān)控制數(shù)據(jù)版本,來決定采用哪個版本的穩(wěn)定數(shù)據(jù)。另外,對接口或者流程中的某些環(huán)節(jié)進(jìn)行開關(guān)切換控制。
應(yīng)用場景
智能系統(tǒng)理賠
將險種和疾病之間的免責(zé)/非免責(zé)關(guān)系,作為理賠因子,加入到系統(tǒng)智能核賠規(guī)則中,完善智能理賠。
比如,用戶張三購買了門診報銷金險種,進(jìn)行理賠慢性肺炎時,會從圖譜中查看門診報銷金和慢性肺炎的關(guān)系-免責(zé),因此會在理賠系統(tǒng)審核階段的規(guī)則引擎中直接拒掉,無需進(jìn)入人工審核,實現(xiàn)快賠快拒。
智能問答
在熱線工作臺或者機(jī)器人端應(yīng)用時,當(dāng)用戶咨詢某種疾病是否可以理賠或者投保時,可以將圖譜和知識庫、模版庫相結(jié)合,實現(xiàn)智能問答,提升小二工作效率或者減少小二工作量。
機(jī)器人端
反騙賠
場景1:
利用知識推理算法,比如用戶1的周邊用戶(用戶10-用戶14)都是灰度騙賠用戶,則用戶1騙賠的概率就很大,存在騙賠風(fēng)險。
場景2:
比如用戶1的一代和二代直系親屬都沒有多指癥(屬于先天性遺傳病),那么用戶1患這種先天性疾病的概率就比較小,存在騙賠風(fēng)險。
另外,還可以通過用戶的報案位置和醫(yī)院位置就行判斷騙賠的風(fēng)險。
個性化推薦
可以根據(jù)張三的一度(甚至可以擴(kuò)展到二度、三度)關(guān)系中,查找和張三用戶畫像比較類似的朋友,將他們購買的險種推薦給張三。
未來展望
下一步,我們主要從以下幾個方面提升知識圖譜價值:
提高數(shù)據(jù)覆蓋率,存儲更加豐富的海量數(shù)據(jù)。
利用知識推理算法,挖掘健康圖譜數(shù)據(jù)價值。
將圖譜進(jìn)行平臺化,擴(kuò)展到其他領(lǐng)域。
References:
[1] Ehrlinger L, W W. Towards a Definition of Knowledge Graphs[C]// JointProceedings of the Posters and Demos Track of, International Conference onSemantic Systems - Semantics2016 and, International Workshop on Semantic Change& Evolving Semantics. 2016.
[2] Das R, Neelakantan A, Belanger D, et al. Chains of Reasoning over Entities,Relations, and Text using Recurrent Neural Networks[J]. 2016:132-141.
[3] https://docs.antfin.com/geabase/docs
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9542148.html
總結(jié)
以上是生活随笔為你收集整理的MaxCompute+ Geabase 大话健康知识图谱取经之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oozie和Azkaban的技术选型和对
- 下一篇: 你所不知道的日志异步落库