领域情报搜索实践:真实场景下的问答实施策略与风险分析
知識(shí)搜索,對(duì)于一個(gè)企業(yè)而言,目前無論是在對(duì)內(nèi)管理還是對(duì)外服務(wù)的業(yè)務(wù)上,都有著大量的需求,并表現(xiàn)出急迫性的特征。
例如,很多企業(yè)都積累了大量的企業(yè)知識(shí)資產(chǎn),并且規(guī)模以每年200%的速度增長(zhǎng),其中80%以上的數(shù)據(jù)是以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)的形式,存放于企業(yè)內(nèi)計(jì)算機(jī)系統(tǒng)中的各個(gè)角落,并且這些數(shù)據(jù)的總量,遠(yuǎn)遠(yuǎn)超過了互聯(lián)網(wǎng)信息的總量,這些數(shù)據(jù)給整理帶來很大的難度。
又如,銀行各個(gè)部門擁有眾多IT系統(tǒng),系統(tǒng)中存儲(chǔ)大量數(shù)據(jù)、信息,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,每個(gè)系統(tǒng)都擁有簡(jiǎn)單的“數(shù)據(jù)庫(kù)檢索”功能,但常常出現(xiàn)找不到、找不準(zhǔn)、找不全,速度慢等問題。
因此,如何讓不同領(lǐng)域的企業(yè)根據(jù)自身業(yè)務(wù)的需求,選擇相應(yīng)的搜索模式,提升搜索效率,顯得尤為迫切。本期圍繞“領(lǐng)域情報(bào)搜索”這一主題,分析現(xiàn)有的搜索場(chǎng)景,并結(jié)合當(dāng)前我們的工作,從領(lǐng)域知識(shí)搜索的場(chǎng)景、知識(shí)搜索相關(guān)技術(shù)、知識(shí)搜索實(shí)踐中積累的思考等方面進(jìn)行相關(guān)內(nèi)容的介紹。
一、 領(lǐng)域知識(shí)搜索的場(chǎng)景
不同的領(lǐng)域?qū)χR(shí)的搜索需求不同,但最終的目的都是做知識(shí)的整合、梳理、索引和管理,并在此基礎(chǔ)上提升客戶應(yīng)答效率。下面從常見的搜索領(lǐng)域和搜索功能兩個(gè)方面介紹:
1、 常見搜索領(lǐng)域
1) 銀行保險(xiǎn)等金融領(lǐng)域搜索
針對(duì)銀行業(yè)務(wù)、理財(cái)產(chǎn)品、保險(xiǎn)的售前、售中以及售后環(huán)節(jié)提供垂直智能化服務(wù)支撐方案,面向客戶、服務(wù)人員以及代理人提供系統(tǒng)化智能服務(wù)方案,為企業(yè)有效降低服務(wù)成本、強(qiáng)化組織管理、提升服務(wù)體驗(yàn)。
2) 電子政務(wù)與法律領(lǐng)域
針對(duì)政府機(jī)構(gòu),對(duì)便民服務(wù)、市長(zhǎng)熱線、來電辦理、問題督辦等場(chǎng)景在線智能處理,提供民眾自主辦理、快速響應(yīng)。
3) 游戲娛樂等消費(fèi)領(lǐng)域
針對(duì)游戲行業(yè)在注冊(cè)、宣傳、賬號(hào)管理等核心場(chǎng)景,提供專屬智能服務(wù)解決方案,面向廣大游戲愛好者提供針對(duì)的方案,提供更好客戶體驗(yàn),有效提升客戶價(jià)值。
4) 教育培訓(xùn)與醫(yī)療領(lǐng)域
將AI技術(shù)與教育行業(yè)深度集合,以師生服務(wù)、招生、教學(xué)保障為核心場(chǎng)景,通過手機(jī)APP、互聯(lián)網(wǎng)等溝通渠道,為教育企業(yè)有效降低服務(wù)和教學(xué)成本,提升教學(xué)質(zhì)量并能更高效挖掘潛在數(shù)據(jù)價(jià)值。
2、 常見搜索場(chǎng)景
1)知識(shí)定位搜索
知識(shí)定位搜索,指的是針對(duì)用戶文檔中的信息進(jìn)行查找和定位的一類搜索模式。例如,對(duì)于答案在文中有明確結(jié)果的,返回確切值;對(duì)于答案隱藏在段落中的,返回文章中的細(xì)節(jié)段落;對(duì)于答案在文章表格中的,返回經(jīng)過事先解析好的文章表格內(nèi)容和具體位置等信息。
從定位的數(shù)據(jù)類型來看,大致可將搜索分為句子/段落/全文型、表格型和圖片型三種,圖片型是其中值得關(guān)注的一類。例如,金融領(lǐng)域許多研究報(bào)告、公告當(dāng)中包含著大量記錄和反映數(shù)據(jù)指標(biāo)的圖表,該圖表作為檢索的對(duì)象,既可以方便寫作素材調(diào)取,也可以作為文本聚合的重要參考依據(jù)。
圖1-基于報(bào)告的圖片搜索示意圖
2) 知識(shí)實(shí)證搜索
“實(shí)證搜索”是當(dāng)前一種可信的搜索模式,與直接給出問題答案不同,要求在給定具體結(jié)果的同時(shí),將答案的來源給出,這樣能夠提升用戶對(duì)知識(shí)的把控和鑒別能力。例如,“學(xué)跡”中的“學(xué)習(xí)來源”,就是對(duì)結(jié)構(gòu)化答案的實(shí)證實(shí)踐。
圖2-基于實(shí)證的知識(shí)搜索示意圖
3) 知識(shí)結(jié)構(gòu)化搜索
結(jié)構(gòu)化搜索,又稱圖譜搜索,即一類以非大段文本和知識(shí)卡片形式進(jìn)行知識(shí)問答的搜索模式,其特點(diǎn)是簡(jiǎn)潔、明了和結(jié)構(gòu)化,在谷歌上線知識(shí)圖譜問答以來,成為了一個(gè)很火熱的方向。例如,下圖中以“生產(chǎn)口罩的公司”為例,可以得到以下結(jié)構(gòu)化數(shù)據(jù):
圖3-結(jié)構(gòu)化知識(shí)搜索示意圖
3、 知識(shí)搜索模式變遷
目前知識(shí)搜索先后經(jīng)歷了傳統(tǒng)全文檢索模式、FAQ模式以及泛QA模式三種模式的變遷,三種方式對(duì)技術(shù)的要求也不斷增加,下圖中列舉了對(duì)應(yīng)的優(yōu)勢(shì)和劣勢(shì)。
圖4-知識(shí)搜索模式變遷示意圖
在實(shí)際的業(yè)務(wù)實(shí)施過程當(dāng)中,我們常需要根據(jù)具體的問題,選擇相應(yīng)特定的應(yīng)答策略,這通常表現(xiàn)成一個(gè)多問題類型集成的泛QA模式,需要充分考慮搜索引擎、業(yè)務(wù)系統(tǒng)對(duì)接、搜索系統(tǒng)管理以及其他能力調(diào)用等模塊之間的協(xié)作。
圖5-泛QA知識(shí)搜索模式架構(gòu)示意圖
二、 全文檢索范式下的場(chǎng)景搜索
全文檢索是當(dāng)前我們所能看見最多的一類搜索方式,百度、谷歌、必應(yīng)等搜索引擎,絕大多數(shù)服務(wù)都基于全文檢索實(shí)現(xiàn)。
1、關(guān)鍵技術(shù)
全文檢索通過在服務(wù)端預(yù)先對(duì)待搜索字段(如標(biāo)題、正文等)進(jìn)行分詞、倒排索引,在搜索端通過捕獲用戶搜索內(nèi)容,利用搜索引擎(如solr, es)中內(nèi)置的匹配排序算法(如BM25,TFIDF)進(jìn)行排序,最終將結(jié)果返回給用戶,下圖展示了一個(gè)典型的全文檢索功能架構(gòu)。
圖6-全文搜索架構(gòu)示意圖
全文索引、搜索字符串?dāng)U展和搜索評(píng)分模型是全文檢索中三個(gè)核心模塊。
首先,全文索引的前提是整篇文檔都已經(jīng)是純文本形式或處于可索引的狀態(tài),因此,這就需要針對(duì)不同的文本如PDF、DOCX等文檔進(jìn)行解析和轉(zhuǎn)換。
圖7-全文搜索文檔轉(zhuǎn)換與解析路線圖
在某些情況下,還涉及到表格的解析、段落的記錄以及圖片的分離等操作,如通過對(duì)表格進(jìn)行縱橫兩個(gè)方向的掃描組合方式,將表格中的數(shù)據(jù)轉(zhuǎn)換成可檢索和標(biāo)引的數(shù)據(jù)類型。
圖8-全文搜索表格解析示意圖
其次,使用用戶原始字符串(或經(jīng)過停用詞等處理)進(jìn)行匹配,無法直接解決“同義不同形”的問題,即“召回率低”。構(gòu)造同義詞庫(kù)配置、保留專有詞匯、可插拔的相似度算法,先全文候選后相似度二次計(jì)算是其中的兩個(gè)重要解決方式。
圖9-全文搜索內(nèi)置引擎示意圖
最后,在搜索評(píng)分模式上,可以根據(jù)采用的搜索引擎框架,干預(yù)其評(píng)分模型,如ES中提供了更改評(píng)分函數(shù)的接口,可以根據(jù)實(shí)際的業(yè)務(wù)搜索需求,將其他評(píng)分因素加權(quán)到原有評(píng)分函數(shù)當(dāng)中。
2、項(xiàng)目案例
金融領(lǐng)域的底稿管理是全文檢索方式的一個(gè)用武之地,例如,項(xiàng)目現(xiàn)場(chǎng)底稿數(shù)量繁多,撰寫材料所需數(shù)據(jù)分散,數(shù)據(jù)查找繁瑣,易遺漏,整理歸檔、材料查詢費(fèi)時(shí)費(fèi)力。為此,進(jìn)行紙質(zhì)底稿電子化,方便數(shù)據(jù)整理、版本管理,可以讓數(shù)據(jù)查找更方便、更全面,節(jié)省用戶時(shí)間,下圖是該項(xiàng)目的實(shí)際搜索效果:
圖10-全文搜索項(xiàng)目上線運(yùn)行截圖
三、 FAQ范式下的搜索
FAQ是英文Frequently Asked Questions的縮寫,中文意思就是“經(jīng)常問到的問題”,或者更通俗地叫做“常見問題解答”,是較全文檢索信息進(jìn)一步聚合、回復(fù)進(jìn)一步精確的搜索方式。
1、關(guān)鍵技術(shù)
FAQ實(shí)施的過程包括兩個(gè)核心點(diǎn),即:問答對(duì)數(shù)據(jù)的構(gòu)建和問題匹配評(píng)分模型。
其中,問答對(duì)的規(guī)模取決于具體的業(yè)務(wù)積累,在前期冷啟動(dòng)環(huán)節(jié)中常需借助業(yè)務(wù)專家標(biāo)注,設(shè)定一些相關(guān)的標(biāo)準(zhǔn)問答對(duì)。
問題匹配負(fù)責(zé)將用戶的自然問句和問答庫(kù)中的問題進(jìn)行匹配,找出最佳標(biāo)準(zhǔn)問,常見的方式包括基于es相似度,編輯距離等傳統(tǒng)方式,siamese孿生網(wǎng)絡(luò)、BERT-finetune等深度方式。此外,針對(duì)問題較為復(fù)雜的場(chǎng)景,還常有問題分類這一前置任務(wù)。
問句壓縮,是FAQ模式的一個(gè)重要技術(shù),由于FAQ的問題通常較短,用戶在提問的過程當(dāng)中,往往會(huì)夾帶著一些主觀噪聲(即我們常說的口水句,如下圖),這會(huì)對(duì)實(shí)際的標(biāo)準(zhǔn)問匹配造成困擾。
圖11-FAQ口水句壓縮效果示意圖
針對(duì)這類問題,解決的方案包括基于語(yǔ)法樹分析與關(guān)鍵詞的規(guī)則方法以及基于文本摘要和句子壓縮的方法。前者通過標(biāo)點(diǎn)或空格將長(zhǎng)句分割成若干個(gè)短句,對(duì)短句進(jìn)行口水句分類,然后基于概率和句法分析進(jìn)行句子壓縮,盡可能剔除非必要成分,只留下關(guān)鍵詞、主謂賓等核心成分。后者的可用模型較多,從傳統(tǒng)的textrank到采用RNN、CNN等的深度學(xué)習(xí)模型,均可以生成相應(yīng)的摘要效果。
圖12-問題就錯(cuò)技術(shù)路線示意圖
2、項(xiàng)目案例
針對(duì)該類的搜索,我們針對(duì)法律領(lǐng)域,完成了基于20W法務(wù)問答對(duì)的13類問題分類與法律資訊問答搜索系統(tǒng),在問題分類步驟,達(dá)到了96%的準(zhǔn)確率。
圖13-FAQ項(xiàng)目上線效果示意圖
四、 KBQA范式下的搜索
KBQA是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的一種直截了當(dāng)?shù)膯柎鸱绞?#xff0c;可以根據(jù)設(shè)定的問題類型,通過問句解析的方式,形成若干三元組及相關(guān)的操作條件,并轉(zhuǎn)換成特定的查詢語(yǔ)句,直接返回相應(yīng)結(jié)果,是當(dāng)前一種較為流行和新穎的搜索方式,但技術(shù)還較為早期。
1、 關(guān)鍵技術(shù)
1) 意圖分析
意圖分析是KBQA范式下的第一步,其任務(wù)在于對(duì)用戶所提出的問題進(jìn)行問題分類,因此又稱為意圖分類。由于不同的問題所涉及的問題要素不一,后續(xù)所需進(jìn)行的標(biāo)簽識(shí)別、條件體與目標(biāo)體識(shí)別也不同,意圖分類的準(zhǔn)確性會(huì)影響整個(gè)后續(xù)環(huán)節(jié)的性能。
問題分類的方法主要包括基于學(xué)習(xí)和基于規(guī)則兩種方式。例如,在本文提及的FAQ法律問答當(dāng)中,我們針對(duì)13類問題語(yǔ)料進(jìn)行訓(xùn)練,得到了基于學(xué)習(xí)型方法的問題分類,在缺少訓(xùn)練語(yǔ)料時(shí),基于關(guān)鍵詞和規(guī)則的問題方式往往成為首選,下圖針對(duì)醫(yī)療知識(shí)問答中提出的幾類問題,給出了規(guī)則示例:
圖14-意圖分類中關(guān)鍵詞與規(guī)則示意圖
多意圖分類是問題解析中的一個(gè)難點(diǎn),用戶往往會(huì)在一個(gè)問題中表達(dá)多種意圖,這時(shí)候,需要采用多分類模型對(duì)其中所涉及到意圖進(jìn)行捕獲。
2) 標(biāo)簽(實(shí)體、操作符)識(shí)別
標(biāo)簽識(shí)別,是指識(shí)別出與目標(biāo)數(shù)據(jù)庫(kù)中相關(guān)聯(lián)的實(shí)體、屬性、關(guān)系或操作符集合,也有人稱為槽位識(shí)別。實(shí)體識(shí)別包括常見的機(jī)構(gòu)、日期、金額、地點(diǎn)、人物等實(shí)體,職位、指標(biāo)名稱等屬性關(guān)系。
包含操作符的回答是處理難度較大的一類,如我們會(huì)經(jīng)常涉及到一些最高、最低、平均、總和、相差多少等問法,這種問題比確定性問題的解決方法要復(fù)雜一些,下圖列舉了一些常見的操作符示例。
圖15-標(biāo)簽識(shí)別中的操作符示意圖
3) 條件體與目標(biāo)體識(shí)別
在識(shí)別完特定的標(biāo)簽之后,還需要在此基礎(chǔ)上形成可供查詢轉(zhuǎn)換的條件部分和目標(biāo)部分。條件體,即在進(jìn)行答案搜索過程中需要進(jìn)行匹配的條件,如某個(gè)實(shí)體或標(biāo)簽應(yīng)該滿足的屬性值或關(guān)系類型(也常稱為意圖槽填充)。目標(biāo)體指具體需要返回的數(shù)據(jù),通常包括某個(gè)實(shí)體或標(biāo)簽、某個(gè)實(shí)體或標(biāo)簽的屬性或關(guān)系、符合條件體的布爾型數(shù)據(jù)(是否存在這樣的數(shù)據(jù))。
用于條件體和目標(biāo)體識(shí)別的常用的方法包括基于問題模板和基于標(biāo)簽依存兩種。
例如,在進(jìn)行電影知識(shí)圖譜進(jìn)行問答時(shí),在識(shí)別出電影名稱、人物、角色等標(biāo)簽后,可針對(duì)某一類問題,自定義識(shí)別模板。下圖給出了“演員導(dǎo)演作品”、“作品導(dǎo)演”、“導(dǎo)演自導(dǎo)自演的作品”三類問題的模板示例。
圖16-條件體與目標(biāo)體識(shí)別模板示意圖
自定義模板映射的方式具有準(zhǔn)確率較高,易維護(hù)和擴(kuò)展的優(yōu)點(diǎn),但人工成本要求較多,同一個(gè)問題通常會(huì)有多種不同問法,在短時(shí)間內(nèi)無法窮舉所有可能。
圖17-數(shù)地工場(chǎng)問句標(biāo)簽依存解析效果圖
上圖以“比亞迪的老總和董秘是誰”這一問題出發(fā),通過識(shí)別出比亞迪(公司實(shí)體)、老總(職位關(guān)系)、董秘(職位關(guān)系)并進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化后,進(jìn)一步形成 <Root,比亞迪>、<比亞迪,董事長(zhǎng)>、<比亞迪,董事會(huì)秘書>兩個(gè)父子依存關(guān)聯(lián),這種關(guān)聯(lián)關(guān)系在圖中清晰的展示,該接口已經(jīng)上線到數(shù)地工場(chǎng)中,歡迎大家測(cè)試和使用。網(wǎng)址:https://nlp.datahorizon.cn
2)查詢語(yǔ)句生成
查詢語(yǔ)句生成是整個(gè)KBQA過程中的最后一步,通過問題意圖分析之后,得到了查詢體中的條件體和目標(biāo)體,即可以通過模板轉(zhuǎn)換的方式,進(jìn)行語(yǔ)句的映射和轉(zhuǎn)換。
當(dāng)然,查詢語(yǔ)句的轉(zhuǎn)換要和目標(biāo)數(shù)據(jù)庫(kù)相對(duì)齊,如下圖分別展示了以ES、Cypher、SPARQL三種目標(biāo)數(shù)據(jù)查詢語(yǔ)句的生成方式。
圖18-面向ES,Neo4j,RDF的查詢語(yǔ)句生成過程圖
2、項(xiàng)目案例
1)KBQA-Neo4j組合的醫(yī)療知識(shí)問答
Neo4j是目前使用規(guī)模較大的一類圖數(shù)據(jù)庫(kù),其具有多層關(guān)系存儲(chǔ)、路徑搜索推理等多項(xiàng)應(yīng)用場(chǎng)景,并提供了人性化和語(yǔ)義化的查詢語(yǔ)句cypher。
本項(xiàng)目立足醫(yī)藥領(lǐng)域,以垂直型醫(yī)藥網(wǎng)站為數(shù)據(jù)來源,以疾病為核心,構(gòu)建起一個(gè)包含7類規(guī)模為4.4萬的知識(shí)實(shí)體,11類規(guī)模約30萬實(shí)體關(guān)系的知識(shí)圖譜。
該知識(shí)圖譜中記錄了關(guān)于診斷檢查項(xiàng)目、醫(yī)療科目、疾病、藥品、食物、在售藥品、疾病癥狀等多項(xiàng)醫(yī)療實(shí)體,疾病常用藥品、宜吃食物、所需檢查、忌吃食物、推薦藥品、推薦食譜等實(shí)體屬性信息項(xiàng),疾病名稱、簡(jiǎn)介、病因、預(yù)防措施、治療周期、治療方式、治愈概率等關(guān)系信息,可以支撐關(guān)于這些信息項(xiàng)的問答服務(wù)。
該項(xiàng)目利用基于關(guān)鍵詞的方式完成問題分類,基于規(guī)則完成了問句解析和查詢語(yǔ)句轉(zhuǎn)換,以一種較為簡(jiǎn)易的方式提供了預(yù)設(shè)的問題回答服務(wù),初步取得了一定的效果。
圖19-醫(yī)療知識(shí)圖譜問答過程與效果圖
3、KBQA-Mongo組合的軍事武器裝備知識(shí)圖譜問答
Mongo作為一個(gè)文檔型數(shù)據(jù)庫(kù),也是知識(shí)圖譜的一類重要存儲(chǔ)方式,基于構(gòu)建好的mongo結(jié)構(gòu)化數(shù)據(jù),采用相同的前置問答解析方式,轉(zhuǎn)換成mongo的查詢語(yǔ)句,即可輸出相關(guān)結(jié)果。
我們通過對(duì)開源的軍事武器裝備數(shù)據(jù)進(jìn)行整合、清洗和融合,建成了規(guī)模達(dá)到十萬的軍事武器信息三元組,共包括8大類、148小類的武器裝備。基于該武器裝備知識(shí)圖譜,提供一個(gè)基于模式和打標(biāo)簽方式的問答系統(tǒng)。
值得注意的是,在該項(xiàng)目中,我們巧妙的借助了jieba的詞性標(biāo)注功能,快速地進(jìn)行了相關(guān)實(shí)體的識(shí)別與解析,提供了用戶模板的配置接口,基于查詢模板完成多類問題的查詢,并展示了這一問答過程。
圖20-軍事知識(shí)圖譜問答過程與效果圖
4、KBQA-MySql組合的鋼鐵領(lǐng)域知識(shí)問答
同樣的,Mysql也是KBQA范式中常用的一個(gè)數(shù)據(jù)庫(kù)選型,傳統(tǒng)的mysql關(guān)系型數(shù)據(jù)庫(kù)廣泛適用于銀行、學(xué)校等信息系統(tǒng)當(dāng)中。因此,在實(shí)施的環(huán)節(jié)中,只需要根據(jù)sql查詢語(yǔ)句,在sql生成的階段作相應(yīng)的調(diào)整。
在項(xiàng)目上,我們研制了面向鋼鐵領(lǐng)域的一套自動(dòng)問答系統(tǒng),并構(gòu)建了涵蓋多個(gè)交易所期貨的資訊數(shù)據(jù)、情緒數(shù)據(jù)和關(guān)聯(lián)指標(biāo)數(shù)據(jù)庫(kù),提供資訊類問答、情緒類問答、數(shù)據(jù)指標(biāo)類問答三個(gè)方面的服務(wù)。
例如,對(duì)于問題“今天螺紋鋼有哪些利好資訊”,可通過對(duì)“螺紋鋼”進(jìn)行期貨名稱識(shí)別、時(shí)間項(xiàng)識(shí)別與情緒項(xiàng)識(shí)別,形成搜索條件,完成搜索并以結(jié)果列表頁(yè)的方式進(jìn)行返回;在問及某一期貨的情緒和關(guān)聯(lián)的指標(biāo)時(shí),可結(jié)合圖標(biāo)可視化的方式加以表達(dá)。
該項(xiàng)目引入了對(duì)結(jié)果的可視化組織方式,以一種更為鮮明、友好的方式加強(qiáng)用戶的搜索體驗(yàn)。
圖21-鋼鐵領(lǐng)域知識(shí)問答過程與效果圖
五、 知識(shí)搜索的幾點(diǎn)思考
利用現(xiàn)有的知識(shí)抽取和知識(shí)搜索技術(shù),的確可以在一定程度上滿足一些搜索場(chǎng)景的需求,但在具體搜索項(xiàng)目課題立項(xiàng)以及項(xiàng)目實(shí)施的過程中,依舊存在多個(gè)需要考慮的關(guān)鍵點(diǎn)、誤區(qū)和風(fēng)險(xiǎn)點(diǎn)。
1、實(shí)施關(guān)鍵點(diǎn)
1)明確搜索的對(duì)象:受眾,面向個(gè)人or面向統(tǒng)一平臺(tái)的,DIY式的搜索和大眾搜索所帶來的維護(hù)成本、開發(fā)成本時(shí)截然不同;
2)確定問題的邊界:有所問,有所不問。這個(gè)尤其重要,需要將用戶問題約束住,切勿脫離數(shù)據(jù)而設(shè)定問題,脫離現(xiàn)實(shí)技術(shù)而設(shè)定問題,以免預(yù)期落空;
3)根據(jù)問題找數(shù)據(jù):需要根據(jù)預(yù)先調(diào)研和確定好的問題來構(gòu)建相關(guān)的數(shù)據(jù)庫(kù)。如前面所提到的,若是走問答對(duì)的形式,則走問答對(duì)構(gòu)建以及問句類型設(shè)計(jì)的路線;
若走全文檢索的路線,則需要根據(jù)所需檢索的字段確定搜索的單元,如針對(duì)文檔內(nèi)部的搜索,常常需要將文檔的層級(jí)結(jié)構(gòu)信息,段落、子段落、常句、表格、標(biāo)題等進(jìn)行有效索引;
若實(shí)施KBQA,則需要構(gòu)建相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),并考慮多個(gè)不同結(jié)構(gòu)化數(shù)據(jù)庫(kù)的存儲(chǔ)、通信、后續(xù)數(shù)據(jù)的接入問題。
4)關(guān)注搜索架構(gòu)的魯棒性:一個(gè)成功的搜索系統(tǒng),需要從搜索性能、搜索變更能力、搜索維護(hù)壓力、數(shù)據(jù)的標(biāo)準(zhǔn)化、外圍數(shù)據(jù)接入與通信方式等多個(gè)方面進(jìn)行考慮,尤其是在系統(tǒng)升級(jí)的過程中,能夠做到快速、平穩(wěn)的切換。
5)關(guān)注數(shù)據(jù)的安全性與更新機(jī)制:一個(gè)搜索系統(tǒng),在上線運(yùn)行之后,通常會(huì)處于一個(gè)不斷積累數(shù)據(jù)和功能擴(kuò)充的狀態(tài),涉及到數(shù)據(jù)的安全性問題,這個(gè)在銀行、涉密等多個(gè)環(huán)境下尤為重要。
2、誤區(qū)與風(fēng)險(xiǎn)點(diǎn)
1)認(rèn)識(shí)要冷靜:AI搜索助手沒不會(huì)那么”AI”,大多時(shí)候會(huì)覺得它很“智障”,尤其是現(xiàn)在“神化知識(shí)圖譜”或“神化KBQA”的風(fēng)氣不減的當(dāng)下,更是要保持冷靜。
2)預(yù)期要實(shí)際:“深度學(xué)習(xí)”有所為有所不能為,需要大量的人工、規(guī)則、模板,動(dòng)輒的“模型迭代”和“自我學(xué)習(xí)”在工業(yè)級(jí)場(chǎng)景大多很難實(shí)施,受到人力、算力、客戶忍耐度、維護(hù)等多方因素的制約,警惕將學(xué)術(shù)論文評(píng)測(cè)的做法引入到工業(yè)級(jí)落地當(dāng)中。
3)人機(jī)結(jié)合是正道:選擇平穩(wěn)、可靠的AI助手的最佳方式:靈活可配置的人工參與接口,可迭代升級(jí),盡可能減少后期維護(hù)成本額,這樣才能省心、省人力。在整個(gè)項(xiàng)目實(shí)施上,可以小步快跑,步步迭代,切勿超之過急,先做好每個(gè)細(xì)分功能點(diǎn)
4)數(shù)據(jù)整合占大塊:功能的設(shè)計(jì)、業(yè)務(wù)的梳理、數(shù)據(jù)的整理,占據(jù)整個(gè)項(xiàng)目超過70%的時(shí)間。針對(duì)不同數(shù)據(jù)庫(kù)之間的搜索,需要花費(fèi)大量的人工進(jìn)行數(shù)據(jù)梳理;針對(duì)結(jié)構(gòu)化查詢,需要準(zhǔn)備大量的外部知識(shí)庫(kù)(業(yè)務(wù)詞典、同義詞詞典等)。
5)項(xiàng)目設(shè)立要慎重:在確定是否需要建設(shè)一個(gè)搜索系統(tǒng)之前,需要考慮當(dāng)前的數(shù)據(jù)類型是否適合于搜索,自己當(dāng)前的資源是否能夠支撐搜索代價(jià),預(yù)設(shè)的數(shù)據(jù)架構(gòu)是否能夠涵蓋后續(xù)的數(shù)據(jù)類型,不慎的話會(huì)影響后期維護(hù)和擴(kuò)展。
六、 總結(jié)
不同的領(lǐng)域?qū)χR(shí)的搜索需求不同,但最終的目的都是做的知識(shí)的整合、梳理、索引和管理,并在此基礎(chǔ)上提升客戶應(yīng)答效率。本文結(jié)合我們團(tuán)隊(duì)的工作,對(duì)知識(shí)搜索這一內(nèi)容進(jìn)行了相關(guān)的分析。
知識(shí)搜索,在銀行保險(xiǎn)等金融領(lǐng)域、電子政務(wù)與法律領(lǐng)域、游戲娛樂等消費(fèi)領(lǐng)域、教育培訓(xùn)與醫(yī)療領(lǐng)域上有大量搜索需求。
知識(shí)定位搜索、知識(shí)實(shí)證搜索以及知識(shí)結(jié)構(gòu)化搜索是先有搜索服務(wù)的三種常見搜索場(chǎng)景,為了支撐該搜索,常用的搜索范式包括基于全文檢索的、基于FAQ的,基于KBQA三種路線。
文本預(yù)處理以及全文匹配搜索評(píng)分是全文檢索的兩個(gè)核心點(diǎn),我們?cè)诮鹑陬I(lǐng)域的底稿管理這一項(xiàng)目中進(jìn)行了實(shí)踐,提升了底稿業(yè)務(wù)的效率;
問答對(duì)數(shù)據(jù)的構(gòu)建、問題匹配評(píng)分模型、問題的壓縮、問題的糾錯(cuò)是FAQ搜索范式的幾個(gè)關(guān)鍵點(diǎn),我們以法律咨詢問答項(xiàng)目中對(duì)該技術(shù)進(jìn)行了驗(yàn)證和實(shí)踐,可快速地針對(duì)用戶問提給出準(zhǔn)確答案;
KBQA搜索是面向結(jié)構(gòu)化數(shù)據(jù)搜索的重要搜索范式,我們分別從醫(yī)療知識(shí)圖譜問答、軍事武器問答、鋼鐵領(lǐng)域知識(shí)問答三個(gè)項(xiàng)目出發(fā),探索了圖數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)的對(duì)接策略,提出了基于模版可靈活配置模式的標(biāo)簽識(shí)別、標(biāo)簽依存關(guān)系識(shí)別的方法,具有魯棒性的優(yōu)點(diǎn)。
在具體搜索項(xiàng)目課題立項(xiàng)以及項(xiàng)目實(shí)施的過程中,存在著多個(gè)風(fēng)險(xiǎn)點(diǎn)和關(guān)鍵點(diǎn),我們需要明確搜索的對(duì)象、確定問題的邊界、根據(jù)問題找策略、關(guān)注搜索架構(gòu)的魯棒性、數(shù)據(jù)的安全性與更新機(jī)制,此外,還要充分保持冷靜、預(yù)期實(shí)際、承認(rèn)人機(jī)結(jié)合的科學(xué)道路,并認(rèn)識(shí)到前期數(shù)據(jù)整理和設(shè)計(jì)需要花費(fèi)的代價(jià)。
參考鏈接
[1]https://xueji.zhiwenben.com
[2]https://nlp.zhiwenben.com
[3]https://liuhuanyong.github.io
[4]https://www.iwencai.com
[5]http://www.iwencai.com
[6]https://ask.shannonai.com
[7]https://www.bilibili.com/video/BV1Ub411H73G
總結(jié)
以上是生活随笔為你收集整理的领域情报搜索实践:真实场景下的问答实施策略与风险分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 特定领域因果事件图谱构建项目
- 下一篇: 深入解析Node.js setTimeo