没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!
2020年的鐘聲即將敲響,在這辭舊迎新之際,經(jīng)過近幾年在Fintech領(lǐng)域中的自然語言處理技術(shù)研發(fā)和產(chǎn)品迭代積累,數(shù)據(jù)地平線Datahorizon迎來重大更新,以數(shù)據(jù)、事件、邏輯的語義toolbox為愿景的數(shù)地工場開放平臺V1.0正式對外發(fā)布。
數(shù)地工場鏈接:http://nlp.zhiwenben.com
歡迎大家前來體驗(yàn)并提出建議。
01,什么是數(shù)地工場
數(shù)地工場是由中科院軟件所智慧金融團(tuán)隊(duì)(數(shù)據(jù)地平線)以近年來在金融領(lǐng)域的技術(shù)積累為基礎(chǔ),基于并行計(jì)算系統(tǒng)、分布式爬蟲技術(shù)、語義知識庫構(gòu)建技術(shù)、語義分析技術(shù),一站式滿足用戶網(wǎng)頁信息采集、多源異構(gòu)信息抽取、語義計(jì)算、輿情分析、語言資源構(gòu)建等中文自然語言處理需求的語義開放平臺。
本平臺旨在圍繞數(shù)據(jù)、事件、邏輯三駕馬車,通過細(xì)化和沉淀相關(guān)技術(shù),讓用戶能夠基于平臺對外提供API實(shí)現(xiàn)問答搜索、輿情分析、文本結(jié)構(gòu)化、事件分析等語義分析應(yīng)用,也能夠通過與我們合作定制產(chǎn)品特色的自然語言處理文本解決方案。
02,數(shù)地工場的語義接口服務(wù)
數(shù)地工場目前針對中文自然語言處理,圍繞數(shù)據(jù)采集、信息抽取、語義計(jì)算、輿情分析四個(gè)模塊,提供不同層次、不同粒度的語義接口服務(wù),目前提供16類接口服務(wù), 大家可以點(diǎn)擊直接體驗(yàn)。
1)采集類模塊
提供針對特定網(wǎng)頁元數(shù)據(jù)結(jié)構(gòu)化服務(wù),包括新聞資訊內(nèi)容的標(biāo)題、發(fā)布時(shí)間、正文提取以及網(wǎng)頁表格類提取等接口。
1、 網(wǎng)頁正文解析類API
給定新聞url,識別出該頁面下的正文、發(fā)布時(shí)間、標(biāo)題信息。支持Html網(wǎng)頁的標(biāo)題、正文等十?dāng)?shù)種重要字段的抽取,以及特殊類型網(wǎng)頁的定制化抽取服務(wù)。抽取后臺完成網(wǎng)頁內(nèi)容的歸一化、結(jié)構(gòu)化處理工作,用戶只需要調(diào)用抽取API即可高效完成從指定頁面獲得豐富的結(jié)構(gòu)化信息。
2、 網(wǎng)頁表格解析API
給定包含表格的url,基于表格信息識別方法,識別出該頁面下的表格解析結(jié)果。為用戶提供基于頁面的半結(jié)構(gòu)化信息提取服務(wù),抽取后臺完成網(wǎng)頁內(nèi)容的歸一化、結(jié)構(gòu)化處理工作,用戶只需要調(diào)用抽取API即可高效完成從指定頁面獲得豐富的結(jié)構(gòu)化信息。
2)信息抽取類模塊
提供不同粒度層級的信息提取服務(wù),包括關(guān)鍵詞提取、摘要提取、新詞發(fā)現(xiàn)、實(shí)體識別、短語組塊識別、事件三元組、數(shù)據(jù)三元組以及邏輯三元組提取接口。
1、 關(guān)鍵詞提取API
針對給定文本,抽取出該文本的關(guān)鍵詞集合,為用戶實(shí)現(xiàn)諸如新聞內(nèi)容關(guān)鍵詞自動提取、評論關(guān)鍵詞提取等提供基礎(chǔ)服務(wù),助理文本分析。
2、 摘要提取API
針對給定文本,抽取出該文本的摘要片段,為用戶提供自動摘要生成服務(wù),可進(jìn)一步實(shí)現(xiàn)對文本信息的簡化。
3、 主謂賓三元組提取API
針對給定文本,抽取出文本中的主謂賓事件三元組,為用戶提供以事件三元組為核心的文本結(jié)構(gòu)化服務(wù)。
4、 邏輯三元組抽取API
針對給定文本,識別出文本中的因果邏輯事件對,為用戶提供事件識別以及邏輯關(guān)系的自動識別服務(wù)。
5、 實(shí)體識別API
針對給定文本,識別出文本中的實(shí)體集合。支持人物、公司、日期、地點(diǎn)類實(shí)體的識別,后期不斷擴(kuò)充實(shí)體類別,為用戶提供領(lǐng)域?qū)嶓w自動發(fā)現(xiàn)和判別服務(wù)。
6、 短語組塊識別API
針對給定文本,基于句法分析,識別出文本中短語組塊集合,為用戶提供名詞性短語、動詞性短語、主謂短語等語義更為豐富的組塊服務(wù),可進(jìn)一步滿足文本分析需求。
7、 數(shù)據(jù)元組提取API
數(shù)據(jù)元組提取,基于特定的數(shù)據(jù)指標(biāo)提取算法,對數(shù)據(jù)指標(biāo)描述非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)項(xiàng)、數(shù)據(jù)金額、數(shù)據(jù)日期等金額類元組等提取,可為泛金融領(lǐng)域知識抽取提供服務(wù)。
3)語義計(jì)算類模塊
提供針對詞級、句子、文檔級別的語義分析服務(wù),包括相似度計(jì)算、概念抽象、語義聯(lián)想等接口。
1、 文本共指判定API
針對給定的兩個(gè)文本,基于融合知識和深度學(xué)習(xí)的相似度計(jì)算模型,為兩個(gè)文本是否可以共指進(jìn)行判定,可用于信息檢索、問句匹配、知識融合、數(shù)據(jù)標(biāo)準(zhǔn)化等文本服務(wù)。
2、語義聯(lián)想API
針對給定一個(gè)詞,基于底層積累的語義知識庫(同義詞 、近義詞、反義詞、語法詞、語義詞)以及語義關(guān)聯(lián)算法,為用戶提供領(lǐng)域詞匯的語義聯(lián)想服務(wù),進(jìn)一步提升搜索、數(shù)據(jù)增強(qiáng)、推薦以及知識融合等服務(wù)。
3、 概念抽象API
針對給定一個(gè)詞,基于底層積累形成的概念抽象知識庫以及抽象關(guān)聯(lián)算法,為用戶提供詞語抽象概念路徑生成和查詢服務(wù),可進(jìn)一步提升搜索、推薦等服務(wù)。
4)輿情分析類模塊
提供針對領(lǐng)域文本的情感極性、主觀性等分析服務(wù),包括情感極性、主觀性計(jì)算等接口。
1、情感極性判定API
針對給定的文本,對信息進(jìn)行情感上的正向、負(fù)向及中性進(jìn)行評價(jià),為有情感分析需求的產(chǎn)品提供該文本的情感傾向服務(wù),在輿情監(jiān)控、話題監(jiān)督、口碑分析等商業(yè)分析領(lǐng)域有非常重要的應(yīng)用價(jià)值。
2、情感對提取API
針對給定的文本,在情感極性判定的基礎(chǔ)上,進(jìn)一步提取出情感實(shí)體二元對,對具體情感涉及的實(shí)體及情感傾向性描述進(jìn)行識別,為用戶提供更細(xì)粒度、更為精準(zhǔn)的情感服務(wù)。在輿情監(jiān)控、話題監(jiān)督、口碑分析等商業(yè)分析領(lǐng)域有非常重要的應(yīng)用價(jià)值。
3、實(shí)體屬性情感提取API
針對給定的文本,提取出情實(shí)體三元對,對具體情感涉及的實(shí)體、實(shí)體屬性方面以及情感傾向性描述進(jìn)行識別,為用戶提供更細(xì)粒度、更為精準(zhǔn)的情感服務(wù)。在輿情監(jiān)控、話題監(jiān)督、口碑分析等商業(yè)分析領(lǐng)域有非常重要的應(yīng)用價(jià)值。
4、主觀性計(jì)算API
針對給定的文本,基于主觀性判方法,對文本描述中所體現(xiàn)出來的主觀性(該文章更不確定性,而是表達(dá)一種觀點(diǎn)或者心理活動)進(jìn)行刻畫,為用戶提供文本的主觀性得分計(jì)算服務(wù),在輿情監(jiān)控、話題監(jiān)督、口碑分析等商業(yè)分析領(lǐng)域有非常重要的應(yīng)用價(jià)值。
03,數(shù)地工場開放接口的使用方式
我們在平臺網(wǎng)站“文檔與支持”一欄對數(shù)據(jù)工場中的各個(gè)接口提供了文檔與支持,對請求接口和輸入輸出格式都進(jìn)行了固定,用戶可以點(diǎn)擊查看。
04,數(shù)地工場的未來規(guī)劃
1、 更多穩(wěn)定精準(zhǔn)的語義接口
接下來,我們將逐步開放更多好用的技術(shù)類API,圍繞數(shù)據(jù)、事件、邏輯三個(gè)方向,逐步深化數(shù)據(jù)提取(面向多源異構(gòu)數(shù)據(jù)的結(jié)構(gòu)化提取與標(biāo)準(zhǔn)化),事件提取(領(lǐng)域事件識別、元素識別與建模管理),邏輯推理(事件關(guān)系識別、事件體系構(gòu)建、事件邏輯推理)等技術(shù),同時(shí)緊密結(jié)合實(shí)際業(yè)務(wù)需求以及探索與應(yīng)用場景,將數(shù)地工場打造成“面向數(shù)據(jù)、事件、邏輯的語義工具箱”。
2、 數(shù)地工場技術(shù)分享專題計(jì)劃
此外,數(shù)地工場技術(shù)服務(wù)公眾號將緊緊圍繞以Fintech金融文本技術(shù)為中心,不定期為大家?guī)硐嚓P(guān)技術(shù)和實(shí)戰(zhàn)項(xiàng)目分享。具體,我們將從語言資源構(gòu)建、自然語言處理基礎(chǔ)、知識庫構(gòu)建、知識圖譜與事理圖譜、文本挖掘、語言計(jì)算以及深度等幾個(gè)專題進(jìn)行分享,并適時(shí)結(jié)合fintech前沿相關(guān)技術(shù),歡迎大家關(guān)注。
05,結(jié)束語
數(shù)地工場作為數(shù)據(jù)地平線的一個(gè)重要技術(shù)對外開放平臺,將緊緊圍繞以金融Fintech為核心,以自然語言處理和底層技術(shù),朝著數(shù)據(jù)、事件、邏輯三大技術(shù)方向的技術(shù)進(jìn)行深入研發(fā),更多好用、靠譜的API以及技術(shù)資源分享將與大家見面,歡迎大家試用!
試用地址http://nlp.zhiwenben.com。
更多商業(yè)合作,請咨詢mkt@datahorizon.cn。
如有自然語言處理、[知識圖譜、事理圖譜]、社會計(jì)算、語言資源建設(shè)等問題或合作,如果對事件知識庫有興趣的落地或者研究,可聯(lián)系我:
1、我的github項(xiàng)目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學(xué)院軟件研究所,lhy_in_blcu@126.com
4、懂語言者得天下,得語言者分天下,得知識邏輯者,游得天下。
總結(jié)
以上是生活随笔為你收集整理的没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【HTML/CSS】CSS权重、继承及引
- 下一篇: 【TensorFlow】通过两个简单的例