关于话题演化关系网络生成的路线思考:从话题聚类到话题网络展示
話題演化關(guān)系網(wǎng)絡(luò)生成,是實(shí)現(xiàn)事件演化追蹤的一個(gè)重要方法。通過(guò)對(duì)文本話題進(jìn)行聚類(lèi)、內(nèi)容處理、話題演化關(guān)聯(lián)、話題演化網(wǎng)絡(luò)的展示,能夠在一定程度上為用戶揭示出一個(gè)事件發(fā)展的情況。本文就筆者對(duì)該方向的實(shí)現(xiàn)路線思考進(jìn)行總結(jié),分享給大家。
一、文本話題聚類(lèi)
1、使用single-pass趟次聚類(lèi)算法,將聚類(lèi)的相似度閾值設(shè)置為0.6,對(duì)給定主題的所有文本進(jìn)行聚類(lèi),得到多個(gè)話題類(lèi)及每個(gè)類(lèi)別下對(duì)應(yīng)的文檔集合。
2、假設(shè)一個(gè)話題下必須包含的文檔數(shù)量大于某個(gè)閾值,否則不能成為話題。在本次實(shí)驗(yàn)中,將類(lèi)下文檔數(shù)量小于2的主題進(jìn)行刪除,得到最終的話題類(lèi)別集合,并選擇top30作為高頻話題集合,即熱點(diǎn)話題集合
3、熱點(diǎn)話題熱度的計(jì)算,某個(gè)話題的熱度等于該話題下文本數(shù)量與該主題文本數(shù)量的比值
4、對(duì)熱點(diǎn)話題集合進(jìn)行話題內(nèi)容處理和話題演化關(guān)聯(lián)操作
二、話題內(nèi)容處理
1、話題開(kāi)始時(shí)間和結(jié)束時(shí)間獲取
1)獲取某一話題所有文本的時(shí)間,并以日為單位,移除單日發(fā)文量小于2的日期,將每個(gè)時(shí)間點(diǎn)按照持續(xù)時(shí)間不超過(guò)30天則為一個(gè)話題的持續(xù)時(shí)間原則進(jìn)行時(shí)間段合并,劃分成若干個(gè)時(shí)間片段。將時(shí)間片段按照包含文本的數(shù)量從大到小排序,取得最佳的話題時(shí)間范圍
2)將得到的時(shí)間段中的第一個(gè)時(shí)間為話題的開(kāi)始時(shí)間
3)將得到的時(shí)間段中的最后一個(gè)時(shí)間為話題的結(jié)束時(shí)間
2、話題名稱(chēng)抽取
1)獲取某一話題下,開(kāi)始時(shí)間和結(jié)束時(shí)間范圍內(nèi)的所有文本標(biāo)題,形成標(biāo)題集合
2)獲取所有文本標(biāo)題中所有標(biāo)題的最大公共子串:標(biāo)題兩兩比對(duì),得到最長(zhǎng)公共字串,并計(jì)數(shù)
3)對(duì)最長(zhǎng)公共子串中的標(biāo)題進(jìn)行得分計(jì)算,得分為:log(最長(zhǎng)公共字串的頻次)*log(最長(zhǎng)公共字串的長(zhǎng)度)
4)將得分最高的最長(zhǎng)公共子串作為該話題的名稱(chēng)
3、話題代表新聞的提取
1)獲取每個(gè)話題類(lèi)下離類(lèi)中心最近的新聞標(biāo)題作為話題代表新聞。
4、話題標(biāo)簽的提取
1)獲取每個(gè)話題類(lèi)下所有的文本集合,形成一個(gè)話題文本,使用TFIDF算法進(jìn)行關(guān)鍵詞提取,取關(guān)鍵詞的top20作為該話題的標(biāo)簽
三、話題演化關(guān)聯(lián)
1、獲取每個(gè)話題類(lèi)別下的所有文本,并利用word2vec詞向量做平均池化的方法,形成該話題的向量表示。
2、針對(duì)話題集合中每個(gè)話題類(lèi)別進(jìn)行兩兩組合(如話題a,話題b),并建立有向演化關(guān)系邊,滿足有效條件:
1)話題演化必須是從一個(gè)較早出現(xiàn)的話題演化到一個(gè)較晚出現(xiàn)的話題,在時(shí)間上滿足時(shí)序,即話題a的開(kāi)始時(shí)間必定早于話題b的開(kāi)始時(shí)間
2)話題a和話題b之間在時(shí)間上必定存在交集,如果兩個(gè)話題沒(méi)有時(shí)間重疊,那么兩個(gè)話題存在演化關(guān)系的可能性很小
3)話題a和話題b之間時(shí)間的交集跨度越大,那么兩個(gè)話題之間的演化可能性就越大
4)話題a和話題b之間必定存在共用的關(guān)鍵詞或者普通詞語(yǔ),即內(nèi)容相關(guān)性。話題a和話題b之間的相似度必須大于某個(gè)閾值,才能存在演化關(guān)系
5)話題a和話題b之間的相似度越高,那么兩個(gè)話題之間的演化可能性就越大
3、計(jì)算話題之間的演化權(quán)重。
1)每?jī)蓚€(gè)話題之間的演化權(quán)重,為話題間時(shí)間相關(guān)性與內(nèi)容相關(guān)性之積,即log(話題重疊日期數(shù))*話題內(nèi)容相似度
2)話題間內(nèi)容相似度為話題之間的余弦相似度
3)若話題間內(nèi)容相似度小于閾值,則演化權(quán)重為0,本實(shí)驗(yàn)中設(shè)置閾值等于0.6
4)若話題間演化權(quán)重大于0,則在兩個(gè)話題間構(gòu)建一條有向邊,如a->b,表示由話題a演變成了話題b
四、話題演化網(wǎng)絡(luò)的展示
1、使用visjs對(duì)生成的話題演化圖進(jìn)行有向圖可視化展示
2、話題節(jié)點(diǎn)以話題名稱(chēng)+話題開(kāi)始時(shí)間+話題結(jié)束時(shí)間來(lái)表示,話題之間演化關(guān)系,以兩個(gè)話題之間的演化權(quán)重作為邊的標(biāo)簽 。
關(guān)于作者
劉煥勇,liuhuanyong,現(xiàn)任360人工智能研究院算法專(zhuān)家,前中科院軟件所工程師,主要研究方向?yàn)橹R(shí)圖譜、事件圖譜在實(shí)際業(yè)務(wù)中的落地應(yīng)用。
得語(yǔ)言者得天下,得語(yǔ)言資源者,分得天下,得語(yǔ)言邏輯者,爭(zhēng)得天下。
1、個(gè)人主頁(yè):https://liuhuanyong.github.io。
2、個(gè)人博客:https://blog.csdn.net/lhy2014/。
歡迎對(duì)自然語(yǔ)言處理、知識(shí)圖譜、事件圖譜理論技術(shù)、技術(shù)實(shí)踐等落地應(yīng)用的朋友一同交流。
總結(jié)
以上是生活随笔為你收集整理的关于话题演化关系网络生成的路线思考:从话题聚类到话题网络展示的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 前端如何做极致的首屏渲染速度优化
- 下一篇: Android官方开发文档Trainin