自然语言处理笔记4-哈工大 关毅
目錄
文章目錄
- 目錄
- 前言
- 漢語語料庫的多級加工(1)
- 漢語語料庫的多級加工(2)
- 漢語語料庫的多級加工(3)
- 漢語語料庫的多級加工(4)
- 漢語語料庫的多級加工(5)
- 漢語語料庫的多級加工(6)
- 漢語語料庫的多級加工(7)
前言
碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅。
漢語語料庫的多級加工(1)
兩條路線:基于規則的和基于模型的。
路線{基于規則的if?基于模型的if?路線\begin{cases} 基于規則的&\text{if } \\ 基于模型的 &\text{if } \end{cases} 路線{基于規則的基于模型的?if?if??
語料庫語言學
經常使用概率統計及信息論中的方法。
語料庫規模對效果影響很大。
語料分布,語音識別,情況處理。
句法分析和語料分析各項處理。
句法分析加工停止
語料多級加工停止。
預料多級加工實例,語法樹。規范語料庫加工。
切分詞性標準,人民日報語料庫,未登錄詞和命名實體。
漢語語料庫的多級加工(2)
中文人名的識別方法,人名用字比較集中。定義和使用型識別。
人名姓氏中文資料,人名識別,詞性修剪。傳統的規則方法。
中文的黃可以做名詞可以做形容詞。
有效的方法是兩種東西的結合:
以堅實的理論基礎做架構從而實現的極大熵模型。
英語譯名手冊,考察上下文信息。
統計機器翻譯,地名識別,得資源者得一切。中文信息的翻譯。
漢語語料庫的多級加工(3)
采用一種統計分類模型進行統計處理。定位詞+中心詞。
識別命名實體,輔助規則,堅實的理論模型,統計規則,最大熵模型。
特征模板,系數規則生成器。
系統在滿足約束的情況下,熵趨向于最大,任何原理都有適用范圍。
平常要多做應用,調參數調多了自然就有感覺了。
統計分類模型,目前的效果超好。
推薦一篇論文,A maximum entropy approach to natural language processing。
下載源代碼后,做一個軟件包,進行實時的處理,好好寫東西。
漢語語料庫的多級加工(4)
漢語的兼類詞,動名詞,名形容詞,動名兼類,37%。
基于規則的詞性標注,詞性多重修改。詞性相同類舉,基于隱markov模型,效果超好。
選擇訓練集,構建訓練樣本。訓練集異常重要,garbage in,就會garbage out。
關鍵數據,結果訓練,機器學習,標記不同值。
未經標注的文本-》 初始標準器-》已經標注的樣本-》學習器-《糾錯規則,黃金標注文本。《-轉換規則。
轉發規則,原tag+環境-》目標tag。
漢語語料庫的多級加工(5)
詞性標注的模板。規則的顆粒度不同。轉移數量-》標注精度。選擇這樣的工作。TBL,效果良好,精度有限,好的標注器。基于決策樹的方法,效果良好。
句法分析的總體結構如上圖所示
句法詞性處理結構轉換。自動短語定界和句法標注實例語義難,
涉及到一個核心問題,意義的意義是什么?
漢語語料庫的多級加工(6)
語義與語法的關系,語法是形式,語義是內容。自動語義標注。
語法標注和語義標注。
聽到詞匯后分詞,再進行處理,詞與詞的關系。
概念在頭腦中正確聯系,漢語語言判定容易。以單位詞的詞義,定義多義詞的詞義比較方便。
萊斯克以單位詞源定義多義詞源。
詞義分析很難,利用上下文的搭配關系,確定該詞的關系。
深層語言結構,效果超好。
詞匯間的語義關系是詞匯的靈魂,整體關系和上下級關系。
漢語語料庫的多級加工(7)
語義標注實例,semantic tree。語義樹。
任何一個實體所有的屬性比如他在書店看書,AGT(word_no=0,他,r,rrl)
他就完全被定義了。
眾多學者號召做出千萬級的語料庫,計算語言學的基礎理論。
十萬句句法休整。語義知識庫,英語。
framenet,語言架構,自動切詞標注了系統。
語料庫多級加工系統,人的精力得到解放。
總結
以上是生活随笔為你收集整理的自然语言处理笔记4-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android Theme
- 下一篇: wordpress category.p