文本分类入门(九)文本分类问题的分类
開始之前首先說說分類體系。回憶一下,分類體系是指事先確定的類別的層次結構以及文檔與這些類別間的關系。
其中包含著兩方面的內容:
一,類別之間的關系。一般來說類別之間的關系都是可以表示成樹形結構,這意味著一個類有多個子類,而一個子類唯一的屬于一個父類。這種類別體系很常用,卻并不代表它在現實世界中也是符合常識的,舉個例子,“臨床心理學”這個類別應該即屬于“臨床醫學”的范疇,同時也屬于“心理學”,但在分類系統中卻不便于使用這樣的結構。想象一下,這相當于類別的層次結構是一個有環圖,無論遍歷還是今后類別的合并,比較,都會帶來無數的麻煩。
二,文檔與類別間的關系。一般來說,在分類系統中,我們傾向于讓一篇文檔唯一的屬于一個類別(更嚴格的說,是在同一層次中僅屬于一個類別,因為屬于一個類別的時候,顯然也屬于這個類別的父類別),這使得我們只適用一個標簽就可以標記這個文檔的類別,而一旦允許文檔屬于多個類別,標簽的數目便成為大小不定的變量,難于設計成高效的數據結構。這種“屬于多個”類的想法更糟的地方在于文檔類別表示的語義方面,試想,如果姚明給災區捐款的新聞即屬于災區新聞,也屬于體育新聞的話(這在現實中倒確實是合情合理的),當用戶使用這個系統來查找文檔,指定的條件是要所有“屬于災區新聞但不屬于體育新聞的新聞”(有點拗口,不過正好練嘴皮子啦,笑)的時候,這篇姚明的報道是否應該包含在查詢結果中呢?這是一個矛盾的問題。
文本分類問題牽涉到如此多的主題,本身又含有如此多的屬性,因此可以從多個角度對文本分類問題本身進行一下分類。
分類系統使用何種分類算法是分類系統的核心屬性。如果一個分類算法在一次分類判斷時,僅僅輸出一個真假值用來表示待分類的文檔是否屬于當前類別的話,這樣的系統就可以叫做基于二元分類器的分類系統。有些分類算法天然就是獨立二元的,例如支持向量機,它只能回答這個文檔是或不是這個類別的。這種分類算法也常常被稱為“硬分類”的算法(Hard Categorization)。而有的算法在一次判斷后就可以輸出文檔屬于多個類別的得分(假設說,得分越大,則說明越有可能屬于這個類別),這類算法稱為“排序分類”的算法(Ranking Categorization),也叫做m元分類算法。kNN就是典型的m元分類算法(因為kNN會找出與待分類文檔最相近的訓練樣本,并記錄下這些樣本所屬的分類)。
?
參考:
http://wiki.52nlp.cn/
http://www.blogjava.net/zhenandaci/category/31868.html
[1]李曉明,閆宏飛,王繼民,“搜索引擎——原理、技術與系統”.科學出版社,2004
[2]馮是聰, "中文網頁自動分類技術研究及其在搜索引擎中的應用," 北京大學,博士論文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999
[5]王濤:文本自動分類研究,圖書館學研究,2007.12
[6]周文霞:現代文本分類技術研究,武警學院學報,2007.12
[7]奉國和:自動文本分類技術研究,情報雜志,2007.12
[8]崔彩霞,張朝霞:文本分類方法對比研究,太原師范學院學報(自然科學版),2007.12
[9]吳軍:Google黑板報數學之美系列,http://googlechinablog.com
[10]劉霞,盧葦:SVM在文本分類中的應用研究,計算機教育,2007.1
[11]都云琪,肖詩斌:基于支持向量機的中文文本自動分類研究,計算機工程,2002,28(11)
[12]周昭濤,卜東波:文本的圖表示初探,中文信息學報,第19卷 第2期
[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生,張磊:文本分類研究進展
[15]李莼,羅振聲:基于語義相關和概念相關的自動分類方法研究,計算機工程與應用,2003.12
[16]單松巍,馮是聰,李曉明:幾種典型特征選取方法在中文網頁分類上的效果比較,計算機工程與應用,2003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97),l997
[18]董振東:知網簡介,知網,http://www.keenage.com/zhiwang/c_zhiwang.html
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies,1997
[20] Edda? Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines:How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002
[24]TRS公司,TRS文本挖掘基礎件白皮書
[25]蘇金樹,張博鋒:基于機器學習的文本分類技術研究進展,Journal of Software,2006.9
總結
以上是生活随笔為你收集整理的文本分类入门(九)文本分类问题的分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本分类入门(七)相关概念总结
- 下一篇: 文本分类入门(十)特征选择算法之开方检验