情感分析(Sentiment Analysis)的难题--转
我們對在線文本進行文本挖掘的任務之一,就是進 行情感分析(SentimentAnalysis),即分析發貼人對某個對象的態度是正面還是負面。這個過程當然不是僅僅查找"好","壞"這些關鍵字那 么簡單,有時候相似度很高的句子,卻反映了截然不同的態度,譬如下面這兩句話
"這瓶洗發水,適合頭發很干的人用"
"用了這瓶洗發水,頭發變得很干"
兩個句子中的主要成分都差不多,"洗發水","頭發","很干",但是第一句是褒義,第二句則很可能是貶義。對于后一句的處理還算簡單,告訴計算機 程序頭發"很干"不好,因此讓頭發"變得""很干"的洗發水,也就不是好的洗發水。而前一句呢,我們能夠理解"適合頭發很干的人用"是指使用該洗發水后, 能讓頭發變得不那么干燥點。但是假設我們告訴計算機,"某某產品適合XXX的人用"就是指用了某某產品后,XXX的人就會變得不那么XXX,那么當計算機 處理"這件衣服,適合漂亮女生穿",你猜它會怎么理解?(漂亮的女生穿了就會變得不那么漂亮)
還有一類問題是諷刺(反話)和幽默,國外的一個自然語言處理專家也在他的blog上感嘆道,"Humor is hard"。在國內,很多褒義詞受到論壇文化的影響,往貶義詞發展的趨勢,例如"我太崇拜你了","你太有才了"。
說到底,這些都是自然語言處理面對的一個挑戰,即如何將生活經驗、文化傳統等表達為一種可以被計算機理解和利用的形式。
寫到這兒,我同事的電腦剛剛藍了一次屏,他跟我說,"這電腦也太穩定了吧"。
轉:http://blog.csdn.net/CICTech/archive/2008/04/15/2294240.aspx
總結
以上是生活随笔為你收集整理的情感分析(Sentiment Analysis)的难题--转的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本挖掘技术在CIC的应用--转载
- 下一篇: 对大量转载贴识别算法的研究