自然语言处理(1)-概述
自然語言處理-概述
- 概述
- 1.基本概念
- 2.人類語言技術HLT發(fā)展簡史
- 3.HLT 研究內容
- 4.基本問題和主要困難
- 5.基本研究方法
概述
本系列文章計劃總結整理中國科學院大學宗成慶老師《自然語言處理》課程相關知識,參考數(shù)目《統(tǒng)計自然語言處理》-第二版,宗成慶。
1.基本概念
語言學:(Linguistics) 研究語言本質、結構、和發(fā)展規(guī)律的科學。-商務印書館,《現(xiàn)代漢語詞典》,1996年
自然語言: 人類特有的書面和口頭形式的語言。
自然語言理解(Natural Language Understanding,NLU): 研究模仿人類語言認知過程的自然語言處理方法和實現(xiàn)技術的一門學科。 《計算機科學技術百科全書》第三版,P1223,宗成慶,黃昌寧
計算語言學(Computation Linguistics,CL): 通過建立形式化的計算模型來分析、理解和生成自然語言的學科,是人工智能和語言學的分支學科。計算語言學更加側重基礎理論和方法的研究《計算機科學技術百科全書》第三版,2018,5,P476,常寶寶
自然語言處理(Natural Language Processing,NLP): 自然語言處理是研究如何利用計算機技術對語言文本(句子、篇章或話語)等進行處理和加工的一門學科。 《計算機科學技術百科全書》第三版,P1223,宗成慶,黃昌寧
人類語言技術(Human Language Technology,HLT): 就字面意思理解,研究人類語言的技術。
上個世紀五十年代,學術界對機器翻譯產(chǎn)生了濃厚的興趣;并得到了實業(yè)界的支持。因此國際上出現(xiàn)了研究機器翻譯的熱潮。隨著機器翻譯的發(fā)展,各種自然語言處理技術應運而生;并逐漸發(fā)展壯大,形成了這一語言學與計算機技術相結合的新興學科。
2.人類語言技術HLT發(fā)展簡史
1950s: 基于模板的NLP方法
1960-1980s: 基于規(guī)則的方法
1990-2013: 統(tǒng)計NLP方法
2013~: 深度學習的方法
3.HLT 研究內容
機器翻譯、信息檢索、自動文摘、問答系統(tǒng)、信息過濾、信息抽取、文檔文類、語音識別、說話人識別。有很多研究方向都密切相關。
4.基本問題和主要困難
基本問題: 形態(tài)學問題、句法問題、語義問題、語用學問題、語音學問題。
主要困難:
大量歧義現(xiàn)象:詞法歧義、詞性歧義、結構歧義、語義歧義、語音歧義(多音字歧義)。
大量未知語言現(xiàn)象:隨著社會生活的發(fā)展,每時每刻都會產(chǎn)生大量的具有新意義的詞匯。
5.基本研究方法
1.理性主義會基于規(guī)則的分析方法建立符號處理系統(tǒng)。
2.經(jīng)驗主義會基于大規(guī)模真實語料(語言真實數(shù)據(jù))建立計算方法。
總結
以上是生活随笔為你收集整理的自然语言处理(1)-概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PCB布局,布线技巧总结
- 下一篇: 无限踩坑系列(5)-MySQLdb