计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿
作者簡(jiǎn)介:
陳運(yùn)文,達(dá)觀數(shù)據(jù)創(chuàng)始人 & CEO,國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)會(huì)員。
陳運(yùn)文博士畢業(yè)于復(fù)旦大學(xué)計(jì)算機(jī)專業(yè),目前是國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)會(huì)員和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,擁有多項(xiàng)國(guó)家專利及在國(guó)際頂級(jí)學(xué)術(shù)期刊和會(huì)議上發(fā)表多篇SCI論文,多次代表中國(guó)參加國(guó)際數(shù)據(jù)挖掘競(jìng)賽并獲得 ACM 冠軍榮譽(yù)。曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官(CDO),騰訊文學(xué)高級(jí)總監(jiān)、數(shù)據(jù)中心負(fù)責(zé)人,百度核心技術(shù)研發(fā)工程師,在大數(shù)據(jù)挖掘、用戶個(gè)性化建模、文本信息處理、推薦和搜索技術(shù)等方面有豐富的研發(fā)和管理經(jīng)驗(yàn)。
以下內(nèi)容根據(jù)陳運(yùn)文在神策2017數(shù)據(jù)驅(qū)動(dòng)大會(huì)人工智能分論壇演講整理。
文本挖掘的主要目的是從非結(jié)構(gòu)化文本文檔中提取有趣的、重要的模式和知識(shí),提供價(jià)值。目前中國(guó)的文本挖掘企業(yè)服務(wù)還是比較早期的方向,但是隨著人工智能時(shí)代的到來,文本挖掘的重要性也逐漸被企業(yè)意識(shí)到。達(dá)觀與神策的戰(zhàn)略合作,也是構(gòu)建大數(shù)據(jù)產(chǎn)業(yè)新生態(tài)的一次創(chuàng)新嘗試。這里主要分享達(dá)觀在人工智能方向的探索。
▌人工智能與企業(yè)大數(shù)據(jù):
人工智能和大數(shù)據(jù)對(duì)企業(yè)應(yīng)用的意義
企業(yè)希望通過數(shù)據(jù)挖掘技術(shù)提升效率,增加收入降低成本,但是具體如何做?首先要把數(shù)據(jù)基礎(chǔ)打好,盡可能地把數(shù)據(jù)采集全。其次現(xiàn)在很多挖掘還是人工來用手工的規(guī)則和腳本實(shí)現(xiàn),但是我們認(rèn)為計(jì)算機(jī)可以自動(dòng)處理,并且做的更快、更好,減輕人的重復(fù)勞動(dòng),幫助企業(yè)提升效率。
我們有非常多的數(shù)據(jù),圖象,語音等類型的內(nèi)容需要操作,識(shí)別歸類和搜索。人工智能就是把這兩者聯(lián)結(jié)在一起,讓計(jì)算機(jī)自動(dòng)完成從數(shù)據(jù)的采集到識(shí)別搜索以及歸類轉(zhuǎn)化。
常見數(shù)據(jù)類型以及其中文本數(shù)據(jù)的特點(diǎn)
從企業(yè)角度來說,數(shù)據(jù)并非只有傳統(tǒng)意義上的阿拉伯?dāng)?shù)字,如企業(yè)的財(cái)務(wù)報(bào)表,經(jīng)營(yíng)狀況,APP 日活……除了這些之外還有一些其他數(shù)據(jù),比如文字型的數(shù)據(jù):新聞內(nèi)容,商品介紹,用戶評(píng)論,企業(yè)內(nèi)部各種各樣的合同……達(dá)觀數(shù)據(jù)就是專業(yè)處理文字型數(shù)據(jù)的企業(yè)。
文字?jǐn)?shù)據(jù)是信息的抽象提煉。這些數(shù)據(jù)其實(shí)是“一句話濃縮了很多內(nèi)容”。文字?jǐn)?shù)據(jù)的場(chǎng)景非常多,差別也很大。
讓計(jì)算機(jī)代替人工進(jìn)行自動(dòng)化做處理,可以更好地發(fā)揮價(jià)值,尤其是在一些垂直行業(yè),如人事行業(yè),法律行業(yè),財(cái)務(wù)行業(yè)等,都有大量的文字資料。人工智能可以幫助企業(yè)節(jié)約大量人力物力成本。
文本挖掘技術(shù)的應(yīng)用現(xiàn)狀
搜索引擎本身就是一個(gè)文字挖掘的人工智能系統(tǒng),文字搜索創(chuàng)造了非常大的經(jīng)濟(jì)效益。但這個(gè)領(lǐng)域機(jī)遇與挑戰(zhàn)并存,中文的文字處理困難重重,雖然我們每天都在流暢地使用中文,中文不嚴(yán)格的語法和隨意的行文特點(diǎn),為計(jì)算機(jī)識(shí)別中文造成了相當(dāng)大的難度。
▌人工智能技術(shù)三大挑戰(zhàn):字詞關(guān)系、歧義語義、句式解析
讓計(jì)算機(jī)來做自然語言處理或者挖掘,有什么新的技術(shù)挑戰(zhàn)?首先來看一些具體的例子。
挑戰(zhàn)一:字詞關(guān)系的處理
漢語往往通過一個(gè)詞語表達(dá)一個(gè)基本概念。但是讓計(jì)算機(jī)理解字詞之間的關(guān)系很困難,因?yàn)橛?jì)算機(jī)需要挖掘詞語之間的關(guān)系。比如說相關(guān)詞,同義詞,甚至還有單詞。進(jìn)一步還要做同義詞、反義詞、近義詞的關(guān)系和挖掘,還可能跨語言,分析簡(jiǎn)稱等。
比如“中華人民共和國(guó)”是一個(gè)大詞,它由很多詞構(gòu)成。“共和國(guó)”、“中國(guó)”、甚至“中”,都和它的意思很接近。那么計(jì)算機(jī)如何判斷“中”是表達(dá)中華人民共和國(guó),還是表達(dá)河南方言的“好”?
還有局部轉(zhuǎn)義問題。比如說巧克力囊腫是一種常見的腫瘤名稱,但是把巧克力拿出來是一個(gè)食物,再如球鞋,運(yùn)動(dòng)鞋,跑步鞋需要判斷什么時(shí)候是同義詞,什么時(shí)候是有差別的。
挑戰(zhàn)二:歧義語義的理解
中文復(fù)雜的歧義,讓計(jì)算機(jī)需要像人一樣閱讀文章。
像“咬死了獵人的狗”,這句話一種是主語被省略了,主語可能是一只老虎,它咬死獵人的狗,這時(shí)狗是賓語。還有一種情況狗咬死了獵人。需要結(jié)合上下文才能理解內(nèi)容。
這些代表著計(jì)算機(jī)處理詞語歧義,需要很多算法解決文章詞法、句法、上下文的理解難題等等。
挑戰(zhàn)三:多樣化的句式結(jié)構(gòu)的解析
搜索引擎經(jīng)常需要處理意思相同,但是文字表達(dá)方式不一樣的情況。這種情況下我們常見的處理方法叫做語義歸一化,這也是處理搜索引擎詞時(shí)經(jīng)常遇到的問題。常見的做法是通過定位和調(diào)整主謂賓定狀補(bǔ)等句子元素,生成句法依存樹來理解句子結(jié)構(gòu)。
“達(dá)觀是技術(shù)驅(qū)動(dòng)的企業(yè)”這句話中達(dá)觀是主語還是謂語?通過這樣的解析,可以理解這句話的意思。計(jì)算機(jī)將語言拆開來,揉碎了,像人一樣先進(jìn)地閱讀文字。
▌追本溯源:文本挖掘技術(shù)發(fā)展歷程
1956年的達(dá)特矛斯會(huì)議,為了實(shí)現(xiàn)機(jī)器翻譯和密碼破譯,計(jì)算機(jī)大牛們提出人工智能,并明確了人工智能技術(shù)成熟的兩個(gè)標(biāo)志性目標(biāo):?
(1)在國(guó)際象棋上可以戰(zhàn)勝人類
(2)在機(jī)器翻譯上能夠超越人類
大家都知道了目標(biāo)一早已經(jīng)完成。所有的棋類中圍棋是最后一個(gè)被攻克的。但是目標(biāo)二仍然未能完全實(shí)現(xiàn),這也可見語言理解的復(fù)雜度。
文本挖掘技術(shù)發(fā)展歷程和現(xiàn)階段流行方法
關(guān)于自然語言處理,學(xué)術(shù)界有兩個(gè)派別:
1.?理性派,結(jié)構(gòu)主義,認(rèn)為所有語言其實(shí)都有潛在內(nèi)生結(jié)構(gòu),都是有內(nèi)在的語法。
2.?經(jīng)驗(yàn)派,功能主義,認(rèn)為只要完成某一個(gè)功能就可以了,計(jì)算機(jī)完全不需要理解人說什么。
早期人工智能剛剛提出來,符號(hào)主義流行。60 年代時(shí)用了很多的詞典和符號(hào)規(guī)則做自然語言的處理,但是后來發(fā)現(xiàn)這樣翻譯走不通。在 70-80 年代,在語法規(guī)則的基礎(chǔ)上增加了語言模型,當(dāng)時(shí)很多語言專家做自然語言處理時(shí)遇到非常嚴(yán)峻的挑戰(zhàn),因?yàn)檎Z言模型并沒有嚴(yán)格的規(guī)律可言,很多表達(dá)都是習(xí)慣使然。
90年代開始,統(tǒng)計(jì)學(xué)習(xí)模型異軍突起,當(dāng)前大量自然語言處理的應(yīng)用都是基于統(tǒng)計(jì)學(xué)習(xí)的模型。能夠講大數(shù)據(jù)也是因?yàn)楝F(xiàn)在已經(jīng)積累的文本數(shù)據(jù)非常多,我們每天在各種平臺(tái)上看到、寫下的文字?jǐn)?shù)據(jù)都可以成為計(jì)算機(jī)訓(xùn)練的語料,通過訓(xùn)練能讓計(jì)算機(jī)發(fā)現(xiàn)語言的規(guī)律。
2010 年迎來了深度學(xué)習(xí)的浪潮。深度學(xué)習(xí)是經(jīng)驗(yàn)派功能主義的典型表現(xiàn)。近幾年知識(shí)圖譜非常流行,它帶有結(jié)構(gòu),所以是理性派結(jié)構(gòu)主義的表現(xiàn)。目前很多主流方法是兩者做結(jié)合,統(tǒng)計(jì)學(xué)習(xí)方法加上一些結(jié)構(gòu),才能夠更好的理解、處理文字內(nèi)容。
文本結(jié)構(gòu)解析的三個(gè)層次
現(xiàn)在流行的方法從結(jié)構(gòu)的角度來說分三個(gè)層次:
1.詞語級(jí) ?2.句法級(jí) ?3.篇章級(jí)
詞匯級(jí)有很多具體的模塊開發(fā),結(jié)構(gòu)分析包括句子結(jié)構(gòu)之間的關(guān)系等。想想我們學(xué)漢語的時(shí)候先認(rèn)識(shí)基本字,再找詞。在漢語里面單詞表現(xiàn)很弱,兩個(gè)字或者三個(gè)字才構(gòu)成一個(gè)有表達(dá)力的詞。組詞之后是造句,很多句話構(gòu)成了一篇作文。同樣,讓計(jì)算機(jī)來閱讀文字從結(jié)構(gòu)角度來說是相似的,先讓計(jì)算機(jī)看字、詞,然后理解句子的意思,最后理解整篇文章每個(gè)段落的含義。
知識(shí)圖譜的作用是沉淀領(lǐng)域知識(shí),利用結(jié)構(gòu)化的背景知識(shí)理解文本語義。例如律師在閱讀法律的文章時(shí),通過積累的律行業(yè)相關(guān)知識(shí),建立起行業(yè)領(lǐng)域知識(shí)的知識(shí)圖譜,完成文字閱讀。知識(shí)圖譜的核心在于構(gòu)建{實(shí)體E - 屬性A - 關(guān)系R}三元素。
確保文本挖掘技術(shù)效果的兩個(gè)要點(diǎn)
要點(diǎn) 1:因地制宜,針對(duì)特定應(yīng)用場(chǎng)景定制語言模型
雖然用的都是漢語或英語,但在在不同的場(chǎng)景需要的方法有很大不同。例如:讓計(jì)算機(jī)自動(dòng)提取合同文本信息,自動(dòng)判斷合同文本中關(guān)聯(lián)的要素和法律風(fēng)險(xiǎn)。在做具體的專家文本判別時(shí),需要建立這些具體的行業(yè)文本的知識(shí)庫(kù)。
目前很多企業(yè)將文本分析技術(shù)應(yīng)用于評(píng)論分析。企業(yè)每天收到網(wǎng)上用戶留下的成千上萬條評(píng)論意見,其中可能有是競(jìng)爭(zhēng)對(duì)手的情報(bào)信息和評(píng)論信息,且通常有大量的省略和簡(jiǎn)稱,如小米手機(jī)第六代通常說米6,沒有專業(yè)領(lǐng)域知識(shí)很難解讀。
口語和書面語的處理方式也需要區(qū)別對(duì)待,書面語是常寫在內(nèi)部文件中,但是通常彈幕、網(wǎng)絡(luò)評(píng)論都是口語表達(dá)。
要點(diǎn) 2:持續(xù)的學(xué)習(xí)能力,?確保泛化能力始終提升
機(jī)器學(xué)習(xí)的好處是可以通過迭代持續(xù)優(yōu)化。在文本挖掘中很多企業(yè)的挖掘都是依照規(guī)則的方法,但長(zhǎng)期來看這種方法泛化能力或自主學(xué)習(xí)能力不夠。通過機(jī)器學(xué)習(xí)提升挖掘的效果,是計(jì)算機(jī)處理模塊很重要的能力。
▌文本挖掘基礎(chǔ)性應(yīng)用類型劃分
計(jì)算機(jī)不像人一樣真的可以理解文字,很多時(shí)候計(jì)算機(jī)輸入一段字庫(kù),輸出相應(yīng)的結(jié)構(gòu)。一邊是編碼,一邊是解碼。
文本挖掘基礎(chǔ)應(yīng)用的類型可以分為四大類:?
抽取:計(jì)算機(jī)自動(dòng)解析文本,需要識(shí)別關(guān)鍵要素。例如,當(dāng)計(jì)算機(jī)閱讀一份法律合同文書時(shí),能夠識(shí)別里面的判決書編號(hào)、被告人、辯護(hù)人、判決依據(jù)等等,并從文本中提取出關(guān)鍵要素進(jìn)行結(jié)構(gòu)化處理。抽取對(duì)于文本密集型產(chǎn)業(yè)尤其有價(jià)值。
劃分:舉一個(gè)應(yīng)用的案例,企業(yè)拿到大量客戶的意見,需要判斷意見的好壞,不同的意見需要后續(xù)給哪個(gè)部分負(fù)責(zé)處理,這些是典型評(píng)論意見觀點(diǎn)的識(shí)別和觀點(diǎn)劃分的應(yīng)用。
轉(zhuǎn)換:計(jì)算機(jī)需要進(jìn)行語言的轉(zhuǎn)換,把文本轉(zhuǎn)換成更正確的語言方式。例如下面這份刑事裁定書里面有很多不符合語法習(xí)慣的地方,“政治權(quán)力”“云南省趨近市”這些都是錯(cuò)誤的表達(dá),計(jì)算機(jī)能智能的幫人們發(fā)現(xiàn)并修改錯(cuò)誤。
合成:計(jì)算機(jī)寫作也許是未來比較熱門的行業(yè)。目前的寫作還是以模板為主,但未來我們希望除了模板外,計(jì)算機(jī)還可以幫助人們修改潤(rùn)色文章。甚至可以擺脫模板的方式,通過“閱讀”大量的文字來實(shí)現(xiàn)機(jī)器寫作。
▌文本挖掘技術(shù)的延伸應(yīng)用
企業(yè)的一些應(yīng)用需求后,還可以進(jìn)一步延伸。比如大家每天都在用的搜索和推薦都是進(jìn)一步的應(yīng)用。
搜索其實(shí)是非常典型的自然語言處理的應(yīng)用。它的核心技術(shù)有兩部分,其一是對(duì)文本語義的深入理解,第二是解決搜索時(shí)間的性能問題。通常索引資料庫(kù)很大,可能有上千億的內(nèi)容,在搜索的過程中我們不需要計(jì)算機(jī)一個(gè)一個(gè)找,而是在很短的時(shí)間內(nèi),用零點(diǎn)幾秒解決響應(yīng)的問題。這些需要用特殊的數(shù)據(jù)結(jié)構(gòu)來完成。
另外,在搜索時(shí)如何讓計(jì)算機(jī)幫助人來匹配更多優(yōu)質(zhì)資源,需要做更多語義的延伸。同一句話不同的人可以用不同的語言方式來表達(dá)。計(jì)算機(jī)幫助人做語義的擴(kuò)展,需要了解詞和詞,句子和句子之間的關(guān)系。
除搜索之外,個(gè)性化推薦也是語義理解的重要的應(yīng)用。做內(nèi)容和人的連接時(shí),更好的完成用戶畫像需要分析出哪一個(gè)人之前看過這些內(nèi)容,它的語義如何。文本挖掘技術(shù)在提升企業(yè)的運(yùn)營(yíng)質(zhì)量方面發(fā)揮了很大作用,達(dá)觀數(shù)據(jù)的個(gè)性化推薦引擎在幫助企業(yè)用戶提升點(diǎn)擊率、留存以及關(guān)鍵指標(biāo)上都有著明顯的效果。
達(dá)觀數(shù)據(jù)和神策數(shù)據(jù)的合作,旨在優(yōu)化企業(yè)級(jí)大數(shù)據(jù)服務(wù),挖掘數(shù)據(jù)價(jià)值,推動(dòng)產(chǎn)品層面的深度融合。未來雙方也將共同為大數(shù)據(jù) + 人工智能創(chuàng)造價(jià)值。
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖
總結(jié)
以上是生活随笔為你收集整理的计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 包图网签约神策数据,助力产品优化
- 下一篇: 中商惠民李超:500,000+ 便利店背