中文语料库
1. 語料庫的類別:
語料庫可分為生語料庫和標注語料庫。標注語料庫,如分詞庫,分詞與詞性標注庫,樹庫,命題庫,篇章樹庫。
中文分詞庫的目的是訓練和測試漢語的自動分詞系統,其他庫的目的類似。
樹庫以句法結構信息為主要標注內容。
命題庫以謂詞-論元結構信息為主要標注內容。
篇章樹庫以篇章結構信息為主要內容。
也有語料庫可用于文本分類,主題檢測(如搜狗文本分類語料庫)。
語料庫可分為通用庫和專用庫。
專用庫如,科技語料庫,北京口語語料庫,中文地名標注語料庫等。
2. 部分公開發布的語料庫的網址:
1998年北京大學人民日報語料庫:
(中文分詞語料庫)
LDC中文樹庫:
網址http://www.cis.upenn.edu/~chinese/ctb.html,包含詞性標注和句法標注。
北京語言大學的語料庫:
清華大學的漢語均衡語料庫TH-ACorpus:
山西大學的語料庫: ?
臺灣中研院的語料庫:?
現代漢語平衡語料庫:?
近代漢語標記語料庫:
古漢語語料庫:
臺灣南島語典藏:
閩南語典藏:
漢籍電子文獻:
香港城市大學的 LIVAC 共時語料庫:
浙江師范大學的歷史文獻語料庫:
中國科學院計算所的雙語語料庫:
中文語言資源聯盟:http://www.chineseldc.org/xyzy.htm?
2.語料庫
文本分類作為一項基礎的研究,技術上已經很成熟了。下面提供一些網上能下載到的中文的好語料,供研究人員學習使用。?
??
1.中科院自動化所的中英文新聞語料庫????http://www.datatang.com/data/13484?
中文新聞分類語料庫從鳳凰、新浪、網易、騰訊等版面搜集。英語新聞分類語料庫為Reuters-21578的ModApte版本。?
??
2.搜狗的中文新聞語料庫????http://www.sogou.com/labs/dl/c.html?
包括搜狐的大量新聞語料與對應的分類信息。有不同大小的版本可以下載。?
??
3.李榮陸老師的中文語料庫????http://www.datatang.com/data/11968?
壓縮后有240M大小?
??
4.譚松波老師的中文文本分類語料????http://www.datatang.com/data/11970?
不僅包含大的分類,例如經濟、運動等等,每個大類下面還包含具體的小類,例如運動包含籃球、足球等等。能夠作為層次分類的語料庫,非常實用。?
??
5.網易分類文本數據????http://www.datatang.com/data/11965?
包含運動、汽車等六大類的4000條文本數據。?
??
6.中文文本分類語料????http://www.datatang.com/data/11963?
包含Arts、Literature等類別的語料文本。?
總結
- 上一篇: [pytorch、学习] - 4.5 读
- 下一篇: STM32 MDK编译后生成的 .map