快速了解什么是自然语言处理
快速了解什么是自然語言處理
摘要:自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)等于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學(xué)的一部分。(本文原創(chuàng),分享供于學(xué)習(xí),轉(zhuǎn)載標(biāo)明出處:快速了解什么是自然語言處理)
相關(guān)文章
【文本處理】自然語言處理在現(xiàn)實生活中運用
【文本處理】多種貝葉斯模型構(gòu)建及文本分類的實現(xiàn)
【文本處理】快速了解什么是自然語言處理
【文本處理】領(lǐng)域本體構(gòu)建方法概述
【文本挖掘(1)】OpenNLP:駕馭文本,分詞那些事
【文本挖掘(2)】【NLP】Tika 文本預(yù)處理:抽取各種格式文件內(nèi)容
【文本挖掘(3)】自己動手搭建搜索工具
1 計算機對自然語言處理的過程
1.1把需要研究是問題在語言上建立形式化模型,使其可以數(shù)學(xué)形式表示出來,這個過程稱之為"形式化"
1.2把數(shù)學(xué)模型表示為算法的過程稱之為"算法化"
1.3根據(jù)算法,計算機進行實現(xiàn),建立各種自然語言處理系統(tǒng),這個過程是"程序化"
1.4對系統(tǒng)進行評測和改進最終滿足現(xiàn)實需求,這個過程是"實用化"
2 自然語言處理涉及的知識領(lǐng)域
語言學(xué)、計算機科學(xué)(提供模型表示、算法設(shè)計、計算機實現(xiàn))、數(shù)學(xué)(數(shù)學(xué)模型)、心理學(xué)(人類言語心理模型和理論)、哲學(xué)(提供人類思維和語言的更深層次理論)、統(tǒng)計學(xué)(提供樣本數(shù)據(jù)的預(yù)測統(tǒng)計技術(shù))、電子工程(信息論基礎(chǔ)和語言信號處理技術(shù))、生物學(xué)(人類言語行為機制理論)。故其為多邊緣的交叉學(xué)科
3 自然語言處理涉及的范圍
3.1語音的自動合成與識別、機器翻譯、自然語言理解、人機對話、信息檢索、文本分類、自動文摘等等,總之分為四大方向:
- 語言學(xué)方向
- 數(shù)據(jù)處理方向
- 人工智能和認知科學(xué)方向
- 語言工程方向
3.2也可細分為13個方面
- 口語輸入:語音識別、信號表示、魯棒的語音識別、語音識別中的隱馬爾科夫模型方法、語言模型、說話人識別、口語理解
- 書面語輸入:文獻格式識別、光學(xué)字符識別(OCR):印刷體識別/手寫體識別、手寫界面、手寫文字分析
- 語言分析理解:小于句子單位的處理、語法的形式化、針對基于約束的語法編寫的詞表、計算語義學(xué)、句子建模和剖析技術(shù)、魯棒的剖析技術(shù)
- 語言生成:句法生成、深層生成
- 口語輸入技術(shù):合成語音技術(shù)、語音合成的文本解釋、口語生成
- 話語分析與對話:對話建模、話語建模口語對話系統(tǒng)
- 文獻自動處理:文獻檢索、文本解釋:信息抽取、文本內(nèi)容自動歸納、文本寫作和編輯的計算機支持、工業(yè)和企業(yè)中使用的受限語言
- 多語問題的計算機處理:機器翻譯、人助機譯、機助人譯、多語言信息檢索、多語言語音識別、自動語種驗證
- 多模態(tài)的計算機處理:空間和時間表示方法、文本與圖像處理、口語與手勢的模態(tài)結(jié)合、口語與面部信息的模態(tài)結(jié)合:面部運動和語音識別
- 信息傳輸和信息存儲:語音壓縮、語音品質(zhì)的提升
- 自然語言處理中的數(shù)學(xué)方法:統(tǒng)計建模和分類的數(shù)學(xué)理論、數(shù)字信號處理技術(shù)、剖析算法的數(shù)學(xué)基礎(chǔ)研究、神經(jīng)網(wǎng)絡(luò)、有限狀態(tài)分析技術(shù)、語音和語言處理中的最優(yōu)化技術(shù)和搜索技術(shù)
- 語言資源:書面語料庫、口語語料庫、機器詞典與詞網(wǎng)的建設(shè)、術(shù)語編撰和術(shù)語數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)挖掘和信息提取
- 自然語言處理系統(tǒng)的評測:面向任務(wù)的文本分析評測、機器翻譯系統(tǒng)和翻譯工具的評測、大覆蓋面的自然語言剖析器的評測、語音識別:評估和評測、語音合成評測、系統(tǒng)的可用性和界面的評測、語音通信質(zhì)量的評測、文字識別系統(tǒng)的評測
?4?自然語言處理的發(fā)展的幾個特點
- 基于句法-語義規(guī)則的理性主義方法受到質(zhì)疑,隨著語料庫建設(shè)和語料庫語言學(xué) 的崛起,大規(guī)模真實文本的處理成為自然語言處理的主要戰(zhàn)略目標(biāo)。
- 自然語言處理中越來越多地使用機器自動學(xué)習(xí)的方法來獲取語言知識。
- 統(tǒng)計數(shù)學(xué)方法越來越受到重視。
- 自然語言處理中越來越重視詞匯的作用,出現(xiàn)了強烈的"詞匯主義"的傾向。
總結(jié)
以上是生活随笔為你收集整理的快速了解什么是自然语言处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql查询结果单位换算后小数位数的保
- 下一篇: 翻译:WebApi 认证--用户认证Oa