基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法
- 基于分類
需要認為提前設定好一定的分類標準,并需要規定好各個主題類別信息,它是一種有監督或者半監督的方法,對于一個新文本的歸類過程也是對其文本主題信息解讀的過程。 - 基于聚類
無監督
通過對聚類各個類簇進行解讀,從而發現文本的主題信息。
三種流程
-
基于分類號
從分類角度識別專利技術主題信息
專利文本通常都有IPC分類號,該分類號對解讀文本技術主題信息具有重要作用。一個專利通常都有一個以上IPC分類號,第一個為主分類號,體現專利文本的主要技術主題西悉尼。專利文本的IPC分類號是傳統專利計量分析的重要指標,通過考察某個領域的IPC分布情況,可以在整體上把握該領域的技術主題的分布、研究熱點或發展趨勢。
使用IPC分類號識別專利文本涉及的技術主題需要結合《國際專利分類表》,即IPC對照表,通過該對照表便可對相應的IPC分類號進行解讀,進而識別專利文本涉及的主要技術主題信息。
IPC分類號的構成形式一般為:- 部(用1個字母表征)
- 大類 (用2個數字表征)
- 小類(用1個字母表征)
- 大組(用1-3個數字表征)/
- 小組(用2-4個數字表征)
在傳統的專利分析計量中,常用的是提取每個具體IPC分類號的前3至4位代碼作為統計分析的基準。
基于IPC分類號的專利文本主題挖掘方法的優點是簡單易行,便于統計分析,是傳統專利計量分析常用的方法之一,有著廣泛的應用基礎。但是其缺點在于對IPC分類表的使用需要具備較強的專業知識,并且IPC分類表中對各個類別技術主題的解釋說明是總體上的規約,并不指代各個專利文本所具體表達的技術主題信息。
另外,這種統計分析方法不深入到具體的文本內容,識別的技術主題粒度較粗,當需要細粒度的專利文本主題識別與分析時,該種方法的適用性就會變得較弱。
-
基于共詞分析
共詞分析法是內容分析法的一種常用方法,最早由法國的文獻計量學家在20世紀70年代中后期提出和使用。該方法已經被廣泛地應用在許多研究領域,在分析領域研究熱點,把我主題演化趨勢等方面有著重要的作用。
共詞分析的基本原理是基于文本的關鍵詞或主題詞為基本研究單元,通過兩兩統計它們在同一個文本中出現的頻詞,然后基于詞頻確定高頻關鍵詞并構建共詞關系矩陣,然后再結合聚類分析等方法分析共詞間的親疏關系,進而揭示研究領域的主題結構、研究熱點等。常用的聚類方法有K-means聚類、層次聚類等。
將共詞分析法用于專利文本的主題挖掘通常需要解決:一是文本關鍵詞的獲取;二十共詞關系矩陣的構建。不同于論文等文獻有作者標注關鍵詞或者主題詞可直接使用,專利文本一般不提供關鍵詞或主題詞,需要先采用一定的方法從文本中提取關鍵詞,常用的關鍵詞提取算法有基于詞頻的TF-IDF算法、基于詞間圖關系的TextRank算法等。而共詞關系矩陣的構建主要是將提取的關鍵詞構建成相應的共現關系矩陣,以便用于聚類分析等。
基于共詞分析的專利文本技術主題挖掘方法的原理簡單,可操作性強,相比基于IPC分類號的方法,該方法再一定程度上實現了對專利文本非結構化內容的分析,特別是再研究熱點分析方面有較大優勢。但是由于該方法主要依據對文本關鍵詞的聚類分析來識別主題信息,提取的關鍵詞的質量直接影響著分析結果的好壞。而專利文本非結構化部分通常具有較為復雜的文本結構信息和富含語義信息,僅依靠提取的少量關鍵詞有時并不能充分表征文本內容,并且關鍵詞間還可能存在同義詞、近義詞等,這些都影響著共詞分析法對專利文本主題挖掘效果。 -
基于LDA模型
從聚類角度實現
LDA是文本語義主題挖掘的一大利器,已經被廣泛地應用再各個領域。該模型實現了對文本從“文本-詞”的模式到“文本-主題-詞”模式的轉變,文本被看作是一系列抽象主題的混合,而抽象主題又被看作是一系列詞的混合。這種模式的轉變顯著降低了文本表示維度,并且還很大程度上保留了文本的語義信息。主題模型中最終名和被廣泛使用的就是LDA模型。
將LDA模型用于專利文本的技術主題挖掘需要關注:一是專利文本的特征選擇問題;二是主題數量K的確定。由于LDA模型架設了文本的詞袋模型,詞與詞之間是相互獨立的,并且主題的詞分布是基于詞共現的,而詞頻會影響主題中詞分布比例,另外,文本的長度也影響主題識別效果,文本太短不利于模型的訓練。因此文本的特征選擇是應用LDA模型的關鍵一步,需要加以重視。LDA模型是一種基于聚類思想的文本分析方法,需要提前指定主題樹K,該值影響著模型擬合文本集的效果。擦汗給你簡單確定最優K值的方法有基于困惑度的方法,基于主題相似度的方法和基于主題連貫性的方法等,使用較多的是基于困惑度的方法。困惑度反映著主題模型推斷文本術語哪個主題有多么不確定,困惑度值越小就說明模型聚類效果越好,也就是主題推斷效果越好。模型訓練中,通過設置不同的K值,困惑度值最低時對應的K被認為是莫i行的最優K值。
相比基于IPC分類號和基于共詞分析的方法,LDA模型的數學原理和模型訓練過程都較為復雜,但是其優點是可以從文本集全局角度表達文本、主題和詞之間的關系,不需要人工標注語料庫,便能夠從文本及章抽取文本語義主題信息,并對文本主題建模,并且使用主題表征文本內容可以很大程度改善文本的同義詞、近義詞和多義詞問題,也降低了文本表示維度。但是由于LDA模型架設了文本的詞袋模型,詞間是相互獨立的,并且主題的分布是基于全局詞共現詞頻計算的,再模型訓練過程中,文本集中所有不重復的詞通常都會以不同的概率出現再每個主題中,這樣導致主題挖掘的結果容易受到非文本主題詞的干擾,不利于對文本主題的識別和解讀。較多研究表明,較好地進行文本預處理工作,并適當引入文本特征信息,讓具有類似特征的我那本的詞分配盡可能地再其所在類范圍之中,減少非文本主題詞的分配,可以獲取較好的文本主題挖掘效果。
總結
以上是生活随笔為你收集整理的基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 智能化整体图例,布线、安防、广播会议、电
- 下一篇: 51CTO学习笔记--Linux运维故障