自然语言理解难在哪儿?
原文:自然語言理解難在哪兒? - 知乎
1. 本質和關鍵
自然語言理解任務的本質是結構預測,關鍵則是對語言單元的語義表示能力。
1.1 自然語言理解本質是結構預測
????????自然語言文本是典型的無結構數據,由語言符號(如漢字)序列構成。要實現對自然語言的表意的理解,需要建立對該無結構文本背后的語義結構的預測。因此,自然語言理解的眾多任務,包括并不限于中文分詞、詞性標注、命名實體識別、共指消解、句法分析、語義角色標注等,都是在對文本序列背后特定語義結構進行預測。例如,中文分詞就是在原本沒有空格分隔的句子中增加空格或其他標識,將句子中每個詞的邊界標記出來,相當于添加了某些結構化語義信息到這個文本序列上。
1.2 自然語言理解的關鍵是語義表示
????????要實現對文本的完整理解,需要建立更完備的語義結構表示空間,這種更完備的語義表示經常成為上述NLP任務進行結構預測的依據。
特征工程:構建特征的過程,就是構建語義結構表示空間。只有這個空間的語義表示能力足夠好、足夠接近人類理解程度,模型才有可能將人類通過語言要表達的意義進行完美表示和解讀。
- 在統計學習時代,一般采用符號表示(Symbol-based Representation)方案,即每個詞都看做互相獨立的符號。例如,詞袋模型(Bag-of-Words,BOW)是最常用的文本表示方案,忽略文本中詞的出現順序信息,廣泛用于文本分類、信息檢索等任務。N-Gram也是基于符號表示的語言模型,與BOW模型相比,將句子中詞的出現順序考慮了進來,曾在機器翻譯、文本生成、信息檢索等任務中廣泛使用。
缺點:符號表示過于粗略,忽略了對詞語內部語義或詞序信息的考量,無法考慮語言符號背后反映的豐富語義信息;也受到數據稀疏問題的影響
- 到深度學習時代,一般采用分布式表示(Distributed Representation或Embeddings)方案,每個語言單元(包括但不限于字、詞、短語、句子、文檔)都用一個低維稠密向量來表示它們的語義信息。分布式表示是深度學習和神經網絡的關鍵技術。分布式表示方案是受到了人腦神經機制的啟發。
缺點:分布式表示雖然具有更強大的表示能力和自由度,但目前只能通過特定任務下的數據學習,只能建立滿足特定需求的語義表示,一方面缺少可解釋性,魯棒性差,另一方面通用性和遷移性不足。這些與人腦展現的語義表示能力相比,還有千里之遙。
2. 自然語言的特點?
- 創新性
- 遞歸性
- 多義性
- 主觀性
- 社會性
3. 自然語言理解難在哪
-
結構語義表示空間構建
????????讓計算機理解人類語言,需要建構結構化的語義表示空間,只有這個空間的語義表示能力能夠與人類心智相媲美,才有可能將人類通過語言要表達的意義進行完美表示和解讀。同時,這個語義表示空間還要接受客觀世界的校正,消除人類認知中存在的偏見和缺陷,讓人工智能更好地服務人類社會。
????????現在的語義表示方案中,符號表示過于粗略,無法考慮語言符號背后反映的豐富語義信息;而分布式表示雖然具有更強大的表示能力和自由度,但目前只能通過特定任務下的數據學習,只能建立滿足特定需求的語義表示,一方面缺少可解釋性,魯棒性差,另一方面通用性和遷移性不足。這些與人腦展現的語義表示能力相比,還有千里之遙。
????????未來,需要探索更強大的結構化語義表示空間。例如,是否可以將分布式表示與符號表示相結合,既保留分布式表示的泛化能力,又兼顧模塊化和層次化符號表示帶來的抽象能力。也許這是下一輪自然語言理解取得革命進展的突破口之一。
-
多模態復雜語境的理解
????????人類并非孤立地使用語言,語言使用需要考慮其復雜的語境。以語言的多義性為例,存在多義的語言單元,總需要其外部的復雜語境信息進行消歧:字的多義性至少需要所組成的詞來消歧;詞的歧義性至少需要所在的句子來消歧;句子的意思至少要放在語篇或對話語境中,甚至需要復雜的世界知識來幫助理解。
總結
以上是生活随笔為你收集整理的自然语言理解难在哪儿?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CRF++ 特征工程
- 下一篇: goip技术原理图解_12式木人桩模块化