语料库与语言知识库
目錄
- 1.包含內容
- 1.1大規模語言數據
- 1.2NLP中的知識庫
- 2.語料庫
- 2.1定義
- 2.2類型
- 2.3典型語料庫
- 3.詞匯知識庫
- 3.1WordNet
- 3.1.1介紹
- 3.1.2四種語義關系
- 3.1.3應用
- 3.2HowNet(知網)
- 4.思維導圖
1.包含內容
1.1大規模語言數據
?\bullet? 模型訓練參數
?\bullet? 測評標準
1.2NLP中的知識庫
?\bullet? 詞匯語義庫
?\bullet? 詞法、句法規則庫
?\bullet? 常識庫等
2.語料庫
2.1定義
指經科學取樣和加工的大規模電子文本庫,其中存放的是真實出現過的語言材料
2.2類型
?\bullet? 按語言種類:
(1) 單語
(2)雙語的或者多語的:篇章對齊/句子對齊/結構對齊
?\bullet? 是否標注:
(1)詞性標注
(2)句法結構信息標注(樹庫)
(3)語義信息標注
?\bullet? 平行語料庫:
兩種或多種語言之間的平行采樣和加工,比如機器翻譯中的雙語對齊語料庫
2.3典型語料庫
?\bullet? 賓夕法尼亞大學樹庫:在ChineseTreeBank(CTB)Chinese Tree Bank(CTB)ChineseTreeBank(CTB)中漢語詞性被劃分為33類,23類句法標記
對于一句話的標注如下(樹形結構):
?\bullet? 北京大學開發的CLKB:包含的內容較多,其中對于漢語短語結構規則庫有600條語法規則,對于平行語料庫含對譯的英漢句對100萬…
多級加工語料樣例:
?\bullet? 口語語料庫:BTECBTECBTEC,目標是開展語音翻譯的國際合作交流,開發實用的語音翻譯技術。
3.詞匯知識庫
3.1WordNet
3.1.1介紹
?\bullet? 開發者:普林斯頓大學認知科學實驗室
?\bullet? 開發目的:解決詞典中同義信息的組織問題
?\bullet? 五大類詞匯:名詞、動詞、形容詞、副詞、虛詞
?\bullet? 特色:按詞義組織詞匯信息,它算是一部語義詞典
3.1.2四種語義關系
?\bullet? 同義關系
?\bullet? 反義關系
?\bullet? 上下位關系或從屬/上屬關系:{樹}是{植物}的下位
?\bullet? 部分關系或部分/整體關系
3.1.3應用
?\bullet? 詞匯消歧
?\bullet? 語義推理
?\bullet? 理解
3.2HowNet(知網)
4.思維導圖
總結
- 上一篇: amd sata controller下
- 下一篇: koa --- [MVC实现之四]Ro