主题模型LDA的实现
生活随笔
收集整理的這篇文章主要介紹了
主题模型LDA的实现
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
數(shù)據(jù)集位于lda安裝目錄的tests文件夾中,包含三個(gè)文件:reuters.ldac, reuters.titles, reuters.tokens。
reuters.titles包含了395個(gè)文檔的標(biāo)題
reuters.tokens包含了這395個(gè)文檔中出現(xiàn)的所有單詞,總共是4258個(gè)
reuters.ldac有395行,第i行代表第i個(gè)文檔中各個(gè)詞匯出現(xiàn)的頻率。以第0行為例,第0行代表的是第0個(gè)文檔,從reuters.titles中可查到該文檔的標(biāo)題為“UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20”。
總結(jié)
以上是生活随笔為你收集整理的主题模型LDA的实现的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 安装docx模块出现Import Err
- 下一篇: 我国歼20战机到底多少钱呢?