ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存
ChineseSemanticKB
ChineseSemanticKB,chinese semantic knowledge base, 面向中文處理的12類、百萬規模的語義常用詞典,包括34萬抽象語義庫、34萬反義語義庫、43萬同義語義庫等,可支持句子擴展、轉寫、事件抽象與泛化等多種應用場景。
項目地址
https://github.com/liuhuanyong/ChineseSemanticKB
項目介紹
語義知識庫是自然語言處理中十分重要的一個基礎資源,與學術界追求算法模型不同,工業界的自然語言處理對于底層的詞匯知識庫、語義知識庫等多種資源依賴度很高,具體體現在:
1、具有落地場景的自然語言處理任務都是業務高度相關,一個業務需求剛進去,需要解決的是業務的詞匯問題,無基礎詞庫,無項目冷啟動;
2、規則和正則啟動下的工業級應用,規則的擴展、泛化都需要底層的詞匯網絡做支撐;
3、目前包括搜索、問答、輿情監控、事件分析等應用,與標簽體系的運作關系密切,而這與先驗的底層詞匯庫依賴性很強;
4、自然語言場景越來越關注推理層面,即所謂的“認知”層面,認知背后的各種邏輯關系庫,是驅動這一決策的根本途徑;
5、當前,面向中文開源詞庫的工作存在少量、分散的狀態,無論從規模,還是質量,都需要進一步聚合;
因此,我從過往的開源工作中進一步抽離和整理,形成了中文處理的12類、百萬規模的語義常用詞典,包括34萬抽象語義庫、34萬反義語義庫、43萬同義語義庫等,用于相關下游任務。
項目放于dict當中,可直接下載,不建議二次建庫共享,尊重開源。
詞庫的類別
| 抽象關系庫 | 346,048 | 座椅,抽象,家具 | 事件抽象與泛化,人民幣貶值到貨幣貶值,再到美元貶值,可支持查詢擴展、推薦等任務 |
| 反義關系庫 | 34,380 | 開心@苦惱 | 可用于句子改寫,開心改苦惱,支持數據增強,句子生成 |
| 同義關系庫 | 424,826 | 開心@高興 | 可用于查詢擴展、數據增強,也可結合抽象關系庫完成推薦等任務 |
| 簡稱關系庫 | 136,081 | 北京大學@北大 | 可用于句子標準化、句子改寫、實體消歧等任務 |
| 程度副詞 | 222 | 極其,2.0 | 可用于情感強度計算,帶情感色彩的句子生成 |
| 否定詞 | 586 | 不,無,沒有 | 可用于情感計算等任務 |
| 節日時間詞 | 54 | 春節、五四節 | 可用于時間詞識別等任務 |
| 量比詞 | 7 | 占比、環比、同比 | 可用于金融領域指標類數據提取任務 |
| 數量介詞 | 24 | 大約、達到、超過 | 可用于金融事件抽象或主干化的搭配詞處理任務 |
| 停用詞 | 3,861 | ?、的、著 | 常規的文本特征提取等任務 |
| 修飾副詞 | 222 | 所、有所 | 可結合程度副詞完成情感強度計算等任務 |
| 情態詞 | 77 | 肯定、應該、大概 | 可用于句子主觀性計算、輿情與可信度計算 |
總結
1、本項目開源了一個目前可用于事件處理以及工業輿情的12類語義詞庫,總規模數目一百余萬; https://github.com/liuhuanyong/ChineseSemanticKB
2、本項目開源的34萬抽象語義庫、34萬反義語義庫、43萬同義語義庫,在作者的實際工作中【事件處理、事理抽取、事件推理】等有重要用途;
3、中文常用語義常用詞典,均來源于公開文本+人工整理+機器抽取形成,其中若有質量不高之處,可積極批評指正;
4、中文開源事業還是要堅持做下去,盡可能地縮短自然語言處理學術界和工業界之間的鴻溝。
If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,數據地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,數據地平線,大規模實時事理學習系統:https://xueji.datahorizon.cn.
6、我的工業項目:劉煥勇,數據地平線,面向事件和語義的自然語言處理工具箱:https://nlp.datahorizon.cn
總結
以上是生活随笔為你收集整理的ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Redis持久化(RDB 和 AOF)
- 下一篇: (设计模式)简单工厂模式之通过配置文件动