D-Map: Visual Analysis of Ego-centric Information Diffusion Patterns in Social Media
圖1:系統(tǒng)界面:源微博表格視圖(a),用于選擇不同的源組微博; 來源微博分布圖(b),包括文檔視圖(b1)和關鍵詞視圖(b2); D-Map視圖(c),總結(jié)中心用戶參與人員之間的社交互動; 社區(qū)雷達視圖(d),顯示具有雷達視圖(d1)和統(tǒng)計信息窗口(d2)的社區(qū)的高維特征; 分層視圖(e),說明轉(zhuǎn)貼結(jié)構(gòu); 時間表視圖(f),突出顯示擴散的時間趨勢; 小型多視圖(g),識別D-Map快照的關鍵時間幀
摘要
流行的社交媒體平臺可以迅速在眾多人群中傳播重要的社交網(wǎng)絡信息。在本文中,我們提出了D-Map(擴散映射),一種新穎的視覺化方法,通過地圖隱喻來支持在典型社交媒體上的信息傳播和傳播過程中對社會行為的探索和分析。在D-Map中,我們收集了轉(zhuǎn)發(fā)(即重新發(fā)送其他人最初發(fā)布的消息)微博的用戶并映射到基于其行為的相似性和轉(zhuǎn)發(fā)的時間順序的六邊形網(wǎng)格中。通過交互和鏈接,D-Map能夠刻畫具有影響力的用戶的視覺肖像,并描述他們的社交行為。并開發(fā)一個全面的視覺分析系統(tǒng),以支持與D-Map的交互式探索。我們用真實世界的社交媒體數(shù)據(jù)評估我們的工作,并在用戶中查找有趣的模式和重要的參與者,識別重要的信息傳播路徑以及社區(qū)之間的互動。
關鍵字
社交媒體,地圖,信息傳播
1 前言
社交媒體已經(jīng)成為我們?nèi)粘I畹闹匾M成部分,對我們的交流方式產(chǎn)生了重大影響。 每天有數(shù)百萬甚至數(shù)十億來自世界各地的人通過發(fā)布或回復信息的形式在時間和空間上互相交流,從而產(chǎn)生大量在社交媒體平臺上傳播的信息。 社交媒體數(shù)據(jù)的豐富性為理解人們的信息傳播和社交行為過程提供了極大的機會,在這些過程中,識別關鍵人物(如意見領袖)和理解其影響是兩個關鍵的任務。
現(xiàn)有的可視化技術主要集中在說明社會對象(如,從消息中提取的消息,主題或意見)如何在空間和時間上傳播[7,48,52]。 本文的研究集中在揭示人們?nèi)绾螀⑴c融合過程,并受到原創(chuàng)微博傳播過程的中心用戶的影響。 此外,一個原始微博如何被轉(zhuǎn)發(fā),可以通過轉(zhuǎn)發(fā)樹進行可視化[36],但是難點是合并這些轉(zhuǎn)發(fā)樹以理解轉(zhuǎn)發(fā)樹并揭示受影響用戶之間的社交互動。因此,迫切需要對傳播過程進行清晰,直觀的總結(jié),以說明消息在不同群體中的傳播模式,揭示中心用戶的社會影響。
設計滿足上述要求的可視化面臨以下挑戰(zhàn)。首先,社交媒體數(shù)據(jù)通常非常復雜。更具體地說,它們是異構(gòu)的,龐大的,動態(tài)的,既包含結(jié)構(gòu)化的數(shù)據(jù),也包含非結(jié)構(gòu)化的數(shù)據(jù),使得匯總信息在社區(qū)間的傳播結(jié)構(gòu)非常困難。其次,捕捉用戶的影響力需要深入了解用戶的社交行為,并對用戶的歷史信息記錄進行詳細的分析。這種分析通常是困難的,因為用戶的行為模式在現(xiàn)實世界中是復雜的,并且可能經(jīng)常變化,從而捕獲擴散動態(tài)并揭示規(guī)則擴散模式是一個挑戰(zhàn)性的任務。第三,不同人群之間信息傳播過程和模式的可視化需要多種類型的信息,如用戶之間的關系,角色,所傳播的信息以及整個信息傳播過程。同時,避免可視化中的重疊節(jié)點和邊界交叉等雜亂現(xiàn)象也非常重要。
為了解決上述挑戰(zhàn),本文引入了D-Map,一個互動信息擴散圖,它可以總結(jié)中心用戶在社會空間背景下發(fā)布的歷史信息傳播過程,探索具有影響力的用戶群體。 具體而言,本文基于六邊形合成地圖以消除節(jié)點重疊來減少視覺混亂。 在本文的設計中,社交媒體用戶的行為和角色被編碼為具有顏色和大小的十六進制節(jié)點。 這些用戶根據(jù)自己的行為在地圖上分成不同的區(qū)域,形成中心用戶的社交肖像。 這種方式在視覺上突顯了中心用戶的社會影響力。
本文的主要貢獻有以下兩點:
- 視覺隱喻設計。本文引入一種新穎的動態(tài)信息圖設計來揭示人們?nèi)绾螀⑴c擴散過程以及受中心用戶影響的動態(tài)模式。 這些技術確保了以自我為中心的擴散過程的清晰和直觀的視覺表現(xiàn),從而形成了中心用戶的社交肖像。
- 視覺分析系統(tǒng)。 本文開發(fā)了一個全面的視覺分析系統(tǒng)(圖1),結(jié)合了先進的社區(qū)檢測技術和多個協(xié)調(diào)的可視化視圖。提供了一個理解中心用戶和不同融合過程中社交互動的影響的解決方案。 本文使用從中國最大的微博平臺微博收集的數(shù)據(jù)來評估系統(tǒng),并且反映了許多有趣的真實世界模式,據(jù)我們所知,這些模式以前從未被可視化過。
2 相關工作
2.1 社交網(wǎng)絡可視化
對社交網(wǎng)絡的廣泛研究涵蓋了廣泛的主題,包括社區(qū)檢測[18],角色識別[29]以及最近的信息傳播和影響分析[27,38]。 可視化技術在分析社交網(wǎng)絡中扮演著重要的角色[23,24,25]。 現(xiàn)有技術大多集中于捕捉社會網(wǎng)絡的結(jié)構(gòu),并通過節(jié)點鏈接圖[23],鄰接矩陣[24]或兩種方法的組合[25]進行顯示。而本文利用網(wǎng)絡地圖來說明不同人群之間以及不同社區(qū)之間的傳播途徑。
2.2 信息擴散分析和可視化
信息傳播已成為近年來社交媒體分析領域的重要研究領域[22]。研究涵蓋了廣泛的主題,包括主題的演變[15],影響分析[42],可視化和分析擴散過程[7]。許多視覺分析技術被開發(fā)出來,幫助用戶通過交互式的探索和分析更好地理解擴散過程。例如,Marcus等人[31]介紹了TweetInfo從空間,時間和事件維度對tweets的靈活集合,從而支持事件傳播過程的可訪問性探索。 Viegas等人[47]介紹了Google+ Ripples,它采用了一個分層結(jié)構(gòu)的循環(huán)打包模式來說明重新共享的行為和消息傳播過程。曹等人[7]介紹了Whisper,一種花式的可視化,旨在實時監(jiān)控特定主題的信息傳播。 Ren等人[36]提出了基于眾包的信息傳播過程靈活解釋的微博事件。所有這些技術都成功地從不同的角度展示了信息的融合過程,但是沒有一個能夠以地圖的形式對擴散過程進行靜態(tài)總結(jié),一眼就可以揭示擴散模式。最近,更多的研究集中在探索集體主題或意見擴散動態(tài)[41,48,50]。并且已經(jīng)開發(fā)了多種視覺分析技術來檢測消息[52],意見領袖[10]和具有可疑行為的用戶賬戶的異常傳播[11]。這些視覺分析技術著眼于不同應用領域的問題,而不是總結(jié)擴散過程,因此與我們的工作不同。
2.3 動態(tài)網(wǎng)絡和以自我為中心的可視化
研究人員提出了動態(tài)網(wǎng)絡的先進可視化方法[1]。動畫和小倍數(shù)是兩種常見的方法[3]。最近,為了揭示關系演化的更多見解,研究人員提出了基于時間線的動態(tài)網(wǎng)絡可視化方法[2,16,46]。在動態(tài)網(wǎng)絡中,識別關鍵參與者及其影響是理解信息傳播的另一個重要分析任務[42]。分類和聚類分析被廣泛用于角色識別[35,44]。這些技術根據(jù)用戶的行為特征將用戶分為不同的角色類別。 Cha et al [14]根據(jù)不合理的程度,轉(zhuǎn)發(fā)和提及的次數(shù)來衡量用戶對Twitter的影響力。這些問題也引起了可視化領域的關注。特別是以自我為中心的觀點能夠更好地觀察個體行為,從而提供更詳細的行為模式[8,39,49]。例如,Brandes等人提出了一個漣漪隱喻來展示時間的流逝和電影演員的傳記[5]。施等人選擇1.5D形式沿時間軸嵌入網(wǎng)絡,揭示時間和自我網(wǎng)絡結(jié)構(gòu)[39]。曹等人[8]開發(fā)了Episogram,討論了以自我為中心的社會互動中的數(shù)據(jù)模型。與這些技術不同的是,D-Map引入了一種新穎的信息擴散圖設計,說明了不同社區(qū)的人如何受到中心用戶的影響。本文所提出的方法捕捉以自我為中心的社交互動網(wǎng)絡的拓撲和內(nèi)容信息,形成中心用戶的社交肖像,還未被研究過。
2.4 面向地圖的圖形可視化
早期的工作是用類似于地圖的可視化來表示網(wǎng)絡數(shù)據(jù)。甘斯納等人[20]引入GMap,一個互動的可視化設計,將社交網(wǎng)絡轉(zhuǎn)換為地圖視圖,突出不同社區(qū)之間的界限。此外,他們提出了動態(tài)網(wǎng)絡數(shù)據(jù)的這種地圖視圖的穩(wěn)定布局[27,32]。他們將動態(tài)地圖生成技術應用于Twitter數(shù)據(jù)[21]和計算機科學文獻[19]。盡管這些作品在分析動態(tài)數(shù)據(jù)方面做了很好的保留人類心智圖的工作,但重點不在于以自我為中心的用戶的社會聯(lián)系。曹等人[12]介紹FacetAtlas基于節(jié)點鏈接圖可視化和捆綁技術來表示一個文本語料庫的多方面圖集。遵循類似的想法,Nachmanson等人[33]導入的GraphMaps,它也在節(jié)點鏈接圖中應用邊緣綁定來幫助探索大圖。楊等人 [51]提出了六邊形算法來可視化分層數(shù)據(jù)。最近,曹等人 [11]在多維數(shù)據(jù)的三角形圖上顯示社交互動圖[9]。然而,這些技術都沒有產(chǎn)生一個緊湊的可視化作為中心社交媒體用戶的肖像來說明用戶對傳播信息的影響,這也是本文的研究重點。
3 數(shù)據(jù)描述
在這項研究中,數(shù)據(jù)是從新浪微博提取的,其主要服務與Twitter類似。 每個微博都是一個微博客,就像Twitter上的Twitt一樣。 我們的目標是評估一個有影響力的人在社交網(wǎng)絡中的社會影響。因此,本文的數(shù)據(jù)是來自一個用戶的一系列微博,所有的微博都是來自這些源微博。我們提取了微博的內(nèi)容,時間戳,id和pid,源微博的id。 根據(jù)所選微博的pid和id,我們建立了一個分層的轉(zhuǎn)發(fā)樹來顯示單個微博的擴散過程。將所有的轉(zhuǎn)發(fā)樹與超級中心節(jié)點合并。這些數(shù)據(jù)構(gòu)建了以一個用戶為基礎的社交網(wǎng)絡(圖2)。
基于對數(shù)據(jù)的觀察,我們從四個方面總結(jié)了以自我為中心的微博數(shù)據(jù)的特征:
- 參與功能。中心用戶吸引了不同的參與者。其中,積極的用戶經(jīng)常轉(zhuǎn)發(fā)微博,不活躍的人只轉(zhuǎn)發(fā)一次。
- 參與者的影響力。參與者的轉(zhuǎn)貼導致不同時間的多層次轉(zhuǎn)發(fā)。一個用戶所吸引的直接轉(zhuǎn)發(fā)和總轉(zhuǎn)發(fā)數(shù)量都表明了這個用戶的影響力。
- 核心用戶分布。我們可以定義那些微博被大量轉(zhuǎn)發(fā)的用戶為核心用戶。核心用戶可能對不同群體或不同類型的人產(chǎn)生影響。
- 動態(tài)擴散。社交媒體擴散的生命周期由多個階段組成,包括開始,爆發(fā)和死亡。在每個階段,轉(zhuǎn)播頻率,延遲時間,影響力和參與人數(shù)都不相同。
我們的設計考慮是基于這些特征來探索傳播過程和用戶關系,以更深入地理解用戶的社交行為。
4 D-Map
在本節(jié)中,我們提出了設計D-Map的概念模型,并詳細介紹了視覺設計和實現(xiàn)過程。
4.1 概念模型
我們的目標是從多個方面評估一個中心用戶的社會影響。 具體而言,我們感興趣的是源微博如何散布在多個人群中的。 在這個過程中,應該指出核心用戶和重要的擴散路徑。 另外,不同人群之間的互動模式可以反映中心用戶的社會關系結(jié)構(gòu)(圖3)。
為了實現(xiàn)這些目標,我們需要合并所有的轉(zhuǎn)發(fā)鏈,并進行分析。用戶通信記錄的直接節(jié)點鏈接圖可視化通常會導致視圖的混亂,而不能有效地揭示數(shù)據(jù)的深意[40],毛球雜亂無法使用戶感覺到不同的分組,并且不能選擇單個用戶,為分析添加了太多的干擾,浪費了大量的可視化空白空間。此外,它缺乏時間信息來進一步研究擴散過程。因此,考慮到力導向圖的局限性和轉(zhuǎn)發(fā)行為的特點,我們總結(jié)了如下設計要求。
- 清晰直觀的展示參與者的社區(qū)分布。為了調(diào)查參與者,我們需要對具有相似轉(zhuǎn)發(fā)行為的用戶進行分類和分組。
- 了解人與人之間的社交互動。轉(zhuǎn)發(fā)導致了消息的傳播,反映了社交互動。我們需要比較用戶的轉(zhuǎn)發(fā)模式
- 了解用戶轉(zhuǎn)發(fā)行為的特征。中心用戶的社交肖像是建立在轉(zhuǎn)發(fā)人的特征上的。核心用戶和他們之間的聯(lián)系應予以強調(diào)。
- 動態(tài)的描述信息擴散過程。理解擴散過程可以更好的的查看歷史。我們應該允許用戶選擇擴散狀態(tài)和個別路徑的細節(jié)。
為了達到上述要求,我們提出了D-Map設計來生成社交用戶肖像。
4.2 社區(qū)發(fā)現(xiàn)
社區(qū)是一組內(nèi)部連接密集,與其他組間的連接稀疏的節(jié)點。 經(jīng)常轉(zhuǎn)發(fā)同一個人的微博并具有相似行為的人們可以被視為一個社區(qū)。 作為D-Map設計的基礎,我們需要根據(jù)轉(zhuǎn)發(fā)行為來檢測所有參與者的社區(qū)。 地圖的輸入圖是社交媒體用戶的多邊轉(zhuǎn)發(fā)網(wǎng)絡,從源始微博的所有轉(zhuǎn)發(fā)樹進行合并(圖6a)。 連接不同樹中節(jié)點的虛線連接的節(jié)點代表同一個用戶。在合并過程之后,每個節(jié)點是一個社交媒體用戶,并且每一條邊表示用戶A從用戶B一次轉(zhuǎn)發(fā)。 兩個節(jié)點之間可能有多條邊。為了找到多邊形圖的社區(qū)結(jié)構(gòu),我們使用度修正的隨機塊模型[30]。
符合我們設計目標的這種方法的優(yōu)點是它不僅可以識別節(jié)點的社區(qū)分配,還可以找到社區(qū)之間的交互。 另一方面,我們不排除使用其他算法的可能性。 設G是n個節(jié)點上的無向多邊圖。 假設有K個組,gi是節(jié)點i的組分配。 這里我們給出非歸一化的對數(shù)似然函數(shù):
mrs是r組和s組之間的邊的總數(shù)。 kr,ks分別是r和s中度數(shù)的和。 目標是最大化節(jié)點組分配的概率。 網(wǎng)絡被分成k個社區(qū)的初始隨機集合。 通過重復地將一個頂點從一個組移到另一個,該方法將找到L值最大的狀態(tài)。
當L被最大化時,K被確定。 繼[34]的工作之后,我們可以為K計算設置一個最小和最大范圍。 對于大量的人群,例如 我們將K的范圍設置為5到30。在我們的測試中,大多數(shù)用戶的社區(qū)結(jié)果落在這個范圍內(nèi)。 用戶也可以在不同場景下調(diào)整范圍。
4.3 視覺編碼
為了避免混亂,我們選擇緊湊的布局,馬賽克地圖和基于voronoi的鑲嵌地圖。我們選擇馬賽克圖譜,因為它們與可計數(shù)的單元進行數(shù)據(jù)交流,這很容易進行視覺比較[6]。我們希望選擇一種形狀,以最大限度地減少項目之間的浪費空間,并最大限度地擴大其中的面積。三角形網(wǎng)格引入了兩種類型的三角形 - 正三角形和倒三角形,這可能會在視覺表現(xiàn)上引入更大的變化。正方形分箱在垂直和水平方向上伸出[13]。其他具有較多邊緣的形狀太復雜。點和圓網(wǎng)格不緊湊。在圖像領域中,六邊形[26]的使用是非常普遍的,能夠增強了用戶的審美,熟悉度和接受度[17]。考慮到這些因素,我們最終選擇使用六邊形網(wǎng)格作為D-Map的基準。
在地圖設計中,每個節(jié)點代表一個人或一組具有相似行為的人。每個具有多個節(jié)點的顏色區(qū)域表示一個社區(qū)(圖4)。中心用戶用高亮的橙色表示。核心用戶是由轉(zhuǎn)發(fā)人數(shù)的閾值決定的。在我們的實驗中,我們將閾值設置為總?cè)藬?shù)的平方根。核心用戶突出顯示為一個放大的黑色的六邊形,表明他們對其他人的影響更大。在每個六邊形內(nèi),都有一個小六邊形,其大小顯示了這些人轉(zhuǎn)發(fā)了多少個微博。為了避免混亂,我們默認顯示社區(qū)之間的聚合鏈接,并按需顯示所選人員的單獨鏈接。鏈接的寬度編碼兩個社區(qū)之間所有轉(zhuǎn)發(fā)的數(shù)量。轉(zhuǎn)發(fā)包括直接和間接轉(zhuǎn)發(fā)。用戶可以通過控制閾值來過濾轉(zhuǎn)發(fā)次數(shù),從而減少混亂。每個社區(qū)的節(jié)點根據(jù)相對時間由內(nèi)而外布置,表示每個社區(qū)的動態(tài)擴散過程(圖4)。這種重新排序有一個設計權(quán)衡。為了獲得關鍵的時間關系,我們可能會失去本地集群的拓撲關系。為了彌補這一點,用戶可以通過多種交互來感知關系。而且,用戶仍然可以將距離感知為不同社區(qū)之間的關系。
我們使用顏色區(qū)域來編碼不同的社區(qū)。 地區(qū)大小代表每個社區(qū)的規(guī)模。 我們的目標是為每個中心用戶生成一個獨特的地圖,顯示他的社交網(wǎng)絡的屬性。 一個重要的特點是使地圖可以在多個中心用戶之間進行比較。 我們提供了一個顏色映射方案和尺寸映射功能來實現(xiàn)這個目標。 正如第3節(jié)所討論的那樣,有四類重要特征,包括參與性,影響力,核心用戶分布和擴散過程統(tǒng)計。 我們設計了四個不同細節(jié)層次的顏色系列(圖5)。 在設計過程中,我們考慮色彩的平衡感知特性[43]和數(shù)據(jù)的特性。 設置顏色后,有兩種方法可以將顏色映射到每個社區(qū):
- 將特征向量投影到RGB空間我們定義高維的距離,并采用降維方法來獲取顏色。 優(yōu)點是投影考慮了所有的屬性。 然而,缺點是顏色可能是隨機的,不容易比較。
- 選擇最具代表性的特征的預定義顏色我們計算所有社區(qū)中所有特征的排名。對于每個社區(qū),我們選擇社區(qū)所有特征中排名最高的維度作為最具代表性的特征。缺點是信息的丟失。但是,我們可以得到一個可比的和精心設計的美學色彩方案來糾正這一點。
考慮到兩種方法之間的設計權(quán)衡,我們選擇第二種,因為可比性和可理解性是地圖最重要的目標之一。對于每個社區(qū),我們在最具代表性的特征的顏色系列中選擇相應的排列顏色(圖5)。為了補償丟失的細節(jié),我們提供了交互式的雷達圖可視化來說明每個維度的特征分布。每個類目都是從第3部分討論的數(shù)據(jù)特征導出的特征子類。每個類目的名稱是右側(cè)相同顏色的相應子類別的縮寫(圖5)。因此,用戶可以理解為什么選擇顏色,也能夠感知具有代表性的用戶。
4.4 地圖設計
通過輸入已檢測到的社區(qū)的多邊緣網(wǎng)絡(圖6a),地圖構(gòu)建過程包括自定義的力導向布局,節(jié)點合并,布局壓縮,基于時間的布局調(diào)整和重新排序(算法1)。
為了讓同一社區(qū)中的用戶定位在一起,我們選擇一個具有自定義鏈接設置的強制導向布局[28]。除了人與人之間的原始聯(lián)系之外,我們還在圖中添加了一個人為的鏈接類型。如前所述,我們有來自中心用戶的一系列源微博。我們在轉(zhuǎn)發(fā)同一個源微博的參與者之間加入了邊。邊的增加過程使得轉(zhuǎn)發(fā)相同微博的人距離更近,這也可能表明他們具有相似的興趣。此外,它增加了每個社區(qū)內(nèi)部的聯(lián)系,這有助于在最終的D-Map中更好地進行社區(qū)劃分。下一步,我們合并向鄰近的節(jié)點,以減少視覺復雜度(圖6b)。這些節(jié)點通常具有相似的行為,所以它們排列在一起。在每個社區(qū)中應用分層合并操作。計算每個節(jié)點的成對距離。對距離值進行排序后,合并兩個距離值最小的節(jié)點。通過反復合并,可以得到具有預期六邊形粒度的節(jié)點合并效果。用戶可以調(diào)整適應不同場景的粒度(圖7)。為了降低計算復雜度,我們將每個社區(qū)平均分成多個塊,并對每個塊進行合并處理。最后,我們合并每個塊中的所有節(jié)點以獲得最終的結(jié)果(算法1-步驟2)。
合并過程之后,我們需要刪除節(jié)點間的空白,并使布局緊湊(圖6c)。我們用力的強度把每個節(jié)點從不同的方向吸引到中心用戶節(jié)點的位置。用戶可以應用不同的分度值。最為常用的分度值為45°,我們可以吸引節(jié)點,同時保持鄰接節(jié)點的相對位置。為了實現(xiàn)吸引過程,我們使用八個方向直方圖存儲每個45°范圍內(nèi)的節(jié)點,并逐一使最近的節(jié)點與中心節(jié)點靠攏(算法1-步驟3)。吸引完成之后,有時會有大量的節(jié)點被打包在一個特定的方向上。為了解決這個問題,我們使用第二輪壓縮過程來使布局緊湊,從而節(jié)省空間并提高數(shù)據(jù)利用率(圖6d,算法1-步驟4)。在每個社區(qū)中,我們計算出每個微博相對于其來源微博的相對時間。如果節(jié)點包含多個微博,我們設置節(jié)點的最小時間。我們計算每個社區(qū)的中心,并根據(jù)它們的相對時間從內(nèi)向外映射節(jié)點(圖6e,算法1-步驟5)。
D-Map的設計代表了社區(qū)中的人們參與特性并描述了信息的擴散過程。為了從多個方面展現(xiàn)D-Map的分析能力,我們提出了一個交互式可視化分析系統(tǒng)。
5 可視化分析系統(tǒng)
可視化分析系統(tǒng)結(jié)合了D-Map,Souce Weibo Table View,Community Radar View,Hierarchical View,Timeline View和Small Multiple View(圖1)。 通過分析微博數(shù)據(jù)的多個方面,用戶可以系統(tǒng)地探索社區(qū)之間的擴散過程(圖8)。系統(tǒng)中的顏色與社區(qū)的顏色是一致的(圖5)。
5.1 視覺分析概述和入口
通過將來自中心用戶的源微博投影到二維空間,并作為可視化分析的起點。其中一個研究目標是了解社區(qū)的特點以及一些社區(qū)傳播的消息類型。有兩個關鍵點 - 參與人和微博的內(nèi)容。一方面,用戶可以通過參與者轉(zhuǎn)發(fā)每個源微博的分布來分析人際關系。另一方面,用戶可以通過探索參與者對不同關鍵字和內(nèi)容的偏好來了解社區(qū)的特點。因此,我們讓用戶從這兩個角度分析源微博。默認情況下,我們?yōu)槊總€源微博構(gòu)建一個高維向量。每個維度是每個社區(qū)的規(guī)模。與4.3節(jié)一致,我們選擇參與人數(shù)最多的社區(qū)的顏色來編碼源微博。利用計算的高維距離,我們將文檔投影到具有t-SNE的二維空間[45](圖9a)。從內(nèi)容的角度來看,我們首先通過分詞處理源微博的文本,并去除停用詞。停用詞包括沒有具體含義的標準術語。為了得到距離矩陣,我們采用TF-IDF [37]來創(chuàng)建一個加權(quán)矢量,并根據(jù)矢量之間的余弦距離來測量每個源微博的相似度。最后,我們基于與t-SNE的內(nèi)容相似性將源微博投影到二維空間(圖9c)。
同時支持點擊和選擇(如圖9b)這樣的交互操作,用戶也可以點擊關鍵字來選擇相關的微博和轉(zhuǎn)發(fā)人(圖9c)。此外,我們還提供了源微博表格的排序功能以及關鍵字搜索和過濾功能(圖1a)。選定的源微博會突出顯示。源微博的參與者在D-Map上會高亮顯示,以供進一步探索。
5.2 動態(tài)擴散探索
我們用一個縮略圖(圖1g)來應用時間線視圖(圖1f)來支持用D-Map來探索動態(tài)擴散過程。在時間軸視圖中,y軸是檢測到的社區(qū),x軸是對應的時間。考慮到每個微博的短暫生存時間,我們顯示了微博被轉(zhuǎn)發(fā)的24小時之內(nèi),時間線寬度的80%。我們提供了一個動畫功能來快速展示傳播擴散過程。我們提出兩種方法來分割時間線,并基于百分比劃分和基于熵的劃分顯示小倍數(shù)中的關鍵期范圍。我們可以用百分位群來概述社區(qū)之間的信息傳播(圖1g)。我們將數(shù)據(jù)分為25%,50%和75%的數(shù)量閾值。對于基于熵的劃分,我們使用香農(nóng)熵來度量分布的散布程度或集中度。對于給定的直方圖X = {ni,i = 1,…,N},社區(qū)i在樣本中出現(xiàn)n次。 S =Σn=(ni)是i 1的總數(shù)社區(qū)觀察。 H(X)定義如下:
我們的目標是找到低熵值和大熵變的時間段。 低熵值的社區(qū)可能集中了社區(qū)內(nèi)的轉(zhuǎn)發(fā)。 熵的變化表明源微博被轉(zhuǎn)移到少數(shù)社區(qū)的其他人,反之亦然。 在小型多視圖中,按照受影響人數(shù)(圖1g)的順序?qū)⒑诵挠脩麸@示為矩形。 當我們點擊縮略圖時,相應的D-Map會顯示在主窗口中。 在選定的D-Map上,用戶可以探索不同人的特定擴散路徑。 發(fā)現(xiàn)突出顯示的核心用戶的擴散路徑中的用戶。
5.3 社區(qū)分析
一系列的轉(zhuǎn)發(fā)行為導致了信息的傳播,反映了社會的互動。具體來說,我們的系統(tǒng)支持查看每個社區(qū)的特點,社區(qū)間的傳播擴散過程和用戶之間的影響。
首先,在社區(qū)雷達視圖(圖1d1)中,高維特征反映了社區(qū)特征。當用戶選擇社區(qū)內(nèi)的節(jié)點時,將顯示選定的人員編號(圖1d2)。除了統(tǒng)計數(shù)據(jù)之外,內(nèi)部社區(qū)行為的概述可以被視為箭形設計。這些行為通常包括單中心擴散(圖11e),或社區(qū)成員之間的強聯(lián)系(圖11f)。箭頭設計也可以通過減少鏈接的長度來避免視圖混亂。
其次,選擇地圖上的社區(qū),相關社區(qū)將被突出顯示。因此,我們可以推斷出社區(qū)有多大的影響力,以及用戶影響力是多少。此外,分層視圖在擴散過程中聚集了相同社區(qū)的節(jié)點,這有助于用戶了解選定社區(qū)在分層轉(zhuǎn)發(fā)樹中的位置(圖11c)。當用戶選擇多個社區(qū)時,在社區(qū)雷達視圖(圖11b)能夠交互式地進行功能比較。
第三,通過選擇地圖上的節(jié)點,我們可以查看用戶的直接轉(zhuǎn)發(fā)和轉(zhuǎn)發(fā)節(jié)點。擴散路徑和核心用戶可以反映中心用戶的影響(圖1c)。
可視化分析系統(tǒng)使用HTML5 / Javascript構(gòu)建,服務器端處理使用Python和MongoDB。客戶端使用SVG和D3.js [4]。我們通過新浪微博通過開放的API抓取微博數(shù)據(jù),并利用微博事件履歷[36]為每個源數(shù)據(jù)構(gòu)建了轉(zhuǎn)發(fā)樹。數(shù)據(jù)存儲在MongoDB中,并提供用于獲取數(shù)據(jù)的定制API。
6 案例分析
我們提出了三個案例,展示了我們系統(tǒng)的不同功能,并討論了社會學專家感興趣的的主題。
6.1 案例1:動態(tài)擴散模式分析
在這種情況下,我們探討了社區(qū)之間的傳播模式。我們選擇了一個有影響力的人的300個微博,并且從5917個獨特的用戶(圖10)中構(gòu)建了一個D-Map和7694個微博。有兩個最大的社區(qū),2,986(C1)和1,811人(C4),以紅色顯示。通過探索擴散過程,我們可以更好地了解這些社區(qū)是如何形成的以及他們的行為模式是什么。
有兩個主要的擴散狀態(tài)(圖10a)。第一個狀態(tài)包括三個階段(T1 - T3)。在前15分鐘(T1),中心用戶發(fā)布微博,主要影響第一層轉(zhuǎn)發(fā)者C1。稍后一小時(T2),周邊社區(qū)的人們轉(zhuǎn)發(fā)了更多的微博,而微博在C1內(nèi)部蔓延。通過在T3中選擇C2(圖10b2),我們發(fā)現(xiàn)它具有最多的內(nèi)部傳播計數(shù)為298,這表明C2中的人群較活躍。在晚些時候(10小時),轉(zhuǎn)發(fā)主要在每個社區(qū)內(nèi)延續(xù)和傳播。之后,轉(zhuǎn)到第二個主要階段,又分為三個重要階段(T4-T6)。影響較大的紫色社區(qū)C3轉(zhuǎn)發(fā)了來自C1的微博,并且很快在C3和C4(T5)中爆發(fā)了擴散。進一步的信息傳播到所有的社區(qū)(T6)。
通過進一步調(diào)查社區(qū),我們可以看出社區(qū)劃分和行為模式的原因。 除了大量常見的第一層轉(zhuǎn)發(fā)者(C1,圖10b1)之外,中心用戶還有另一個長期發(fā)展的傳播社區(qū)(C3)。 通過點擊C3中的關鍵人物(圖10b3),我們發(fā)現(xiàn)他是新浪微博中最有影響力的人物之一,他們的追隨者比中心用戶多得多。 因此,我們可以意識到不同的人的層次水平,以及隨著時間的推移狀態(tài)的變化。
6.2 案例2:社區(qū)行為分析
我們在新浪微博上研究了一個分享技術信息的微博賬號“We Media”。我們從他三個月內(nèi)發(fā)布了500條微博里,從10,209個用戶那里提取了79,013個微博(圖11)。
十個社區(qū)中有七個社區(qū)有很多用戶(圖11a)。最大的兩個社區(qū)包括4,391(紅色,C1)和2913(藍色,C2)。我們首先通過選擇每個組中的所有人來分許社區(qū)特征。在C1中,人們傾向于直接從中心用戶(圖11e)直接轉(zhuǎn)發(fā)微博,因為箭頭字形的方向是統(tǒng)一的。 C2中的轉(zhuǎn)發(fā)行為更不規(guī)則。他們在社區(qū)內(nèi)有多種來源和強有力的溝通。更有意思的是,我們發(fā)現(xiàn)這個社區(qū)與C3社區(qū)(粉紅色)有大量的互動(圖11f)。通過觀察時間表,我們發(fā)現(xiàn)中心用戶在第一個8小時內(nèi)發(fā)布了微博,并且主要影響了C1和C2的用戶。在8-16小時內(nèi),C2中的人大部分轉(zhuǎn)貼了C3的微博,這意味著第二輪爆發(fā)。時間線視圖和分層視圖也證實了這一現(xiàn)象–C2中的人長時間保持活動(圖11d),并參與了第二輪轉(zhuǎn)發(fā)(圖11c)。總共有C2人轉(zhuǎn)發(fā)了53542次,比C1中的人活躍了10237次。 C3對他人有顯著的影響,導致最高的轉(zhuǎn)發(fā)次數(shù)–10,310(圖11b)。具體而言,我們認為C3中的人對C2有較大的影響(圖11h)。為了進一步調(diào)查人的行為,我們可以找出C3中影響最大的核心用戶(圖11i)。
在這種情況下,我們總結(jié)出三個社區(qū)的特征 - 直接轉(zhuǎn)發(fā)人(C1),高影響力人(C3)和積極轉(zhuǎn)發(fā)人(C2)的特征。我們還展示了調(diào)查每個社區(qū)間動態(tài)傳播模式的能力,并描述了相關的社交之間的互動。
6.3 案例3:人物肖像
為了進一步評估D-Map,我們在新浪微博上測試了更多有影響力的案例。我們從廣泛的領域搜索了34個有影響力的賬戶。五年來,這些有影響力的賬戶大約有五十萬個。至少有一百萬人參與了所有的這些微博。
我們可以選擇一個中心用戶,并加載全部或部分的微博及其轉(zhuǎn)發(fā)微博。由于API的抓取限制,我們對每個用戶的微博進行了過濾。源微博的規(guī)模為500條,參與人數(shù)在1萬到5萬之間。運行每個案例的參數(shù)是相同的,社區(qū)范圍從5到30,六邊形的數(shù)量約為3,000。我們找到很多模式,并選擇其中的九個(圖12)。從左到右,檢測到的社區(qū)數(shù)量增加。從上到下,社區(qū)之間的影響變大了。中心用戶有大量屬于“紅色”的“第一層轉(zhuǎn)發(fā)用戶。更有意思的是,根據(jù)他們的轉(zhuǎn)發(fā)結(jié)構(gòu),我們可以找到不同的模式。
首先,社區(qū)少,社區(qū)影響力弱的中心用戶往往是服務賬戶,運營較差(圖12a)。雖然他們有很多的追隨者和轉(zhuǎn)發(fā)者,但他們不能積極地讓人或追隨者進一步轉(zhuǎn)發(fā)。通常情況下,他們是一些相關的服務賬戶轉(zhuǎn)發(fā)彼此的微博,并且一些賬號甚至是僵尸賬號。其次,擁有較大社區(qū)但社區(qū)間影響力較低的中心用戶更有可能是社交媒體的企業(yè)家(圖12c)。他們善于創(chuàng)造話題,吸引不同類型的人轉(zhuǎn)發(fā)。這些人發(fā)揮了重要的中心作用,但是在其他社區(qū)之間的社區(qū)影響力較弱。第三,社區(qū)數(shù)量少,社區(qū)間影響力強的中心用戶通常有一個或一些有影響力的關鍵人物。核心用戶在中心用戶的地圖上建立了他們的“領土”,形成了雙中心模式(圖12d,g)。最后,具有積極的社區(qū)間行為的中心用戶傾向于擁有更多的同等規(guī)模的社區(qū)(圖12f,i)。每個社區(qū)都有其核心用戶,他們之間有聯(lián)系。這些中心用戶很可能是特定領域的領域?qū)<?#xff0c;在同一地區(qū)擁有眾多的追隨者,并積極地轉(zhuǎn)發(fā)彼此的微博。
隨著時間的推移模式的趨勢也不同。 例如,商人的擴散模式與擴散時間的起點幾乎保持一致。 我們建立商人繼續(xù)影響其他社區(qū)的假設,轉(zhuǎn)發(fā)他以前的微博,以再次獲得公眾的關注。 與商人不同的是,領域?qū)<业奈⒉┯刹煌鐓^(qū)的核心用戶轉(zhuǎn)發(fā)(可能是同一領域的其他專家),并在后期擴散到多個社區(qū)。 這個例子證實了系統(tǒng)描繪和比較中心用戶社交模式的能力。 我們可以檢查一個賬號是否有影響或不好操作。發(fā)現(xiàn)有趣的模式,如雙中心擴散(圖12d,g),強中心作用(圖12c)和強相互作用(圖12f,i)。
7 討論
在本節(jié)中,我們討論提議的D-Map可視化的優(yōu)缺點。特別是,通過將節(jié)點放入六邊形網(wǎng)格中,D-Map消除了節(jié)點重疊的現(xiàn)象,從而能夠明確的表明中心用戶的社交模式,形成了一幅描繪用戶社交行為的擴散圖,揭示了用戶在社交空間中傳播信息的影響力。這種可視化使得信息擴散過程能夠被動態(tài)地展開,并且促進了擴散模式的快速比較。
雖然新穎強大,但D-Map設計的仍有改進空間。特別是以力為導向的初始布局算法和社區(qū)檢測方法都可能給最終的結(jié)果帶來隨機性,使得相同數(shù)據(jù)的結(jié)果圖有時出現(xiàn)不同。有兩種方法可以解決這個問題:(1)精確地控制力指向布局和社區(qū)檢測中使用的初始參數(shù),以減少隨機性;(2)采用優(yōu)化而不是啟發(fā)式算法進行布局。另一個問題是鏈路覆蓋引入混亂。我們提供濾波閾值和箭頭字形設計來減少雜波。
我們設想以幾種方式擴展D-Map。首先,我們可以考慮多個中心用戶,并建立一個更大的D-map。第二,我們可以在地圖構(gòu)建和分析過程中將更多的主題信息與擴散結(jié)構(gòu)相結(jié)合,可以提供更多的語義豐富的結(jié)果。第三,基于不同用戶的興趣模式,我們可以進一步用預先模型來擴展D-Map。通過實時的數(shù)據(jù)源,我們可以預測人員的擴散路徑和目標社區(qū)。此外,我們還會從社會學專家那里對所提出的方法進行系統(tǒng)的評估。
8 結(jié)論
我們提出了一種新穎的可視化方法D-Map,用于視覺總結(jié)和探索中心用戶的社交網(wǎng)絡。 我們將所有轉(zhuǎn)發(fā)中心用戶的微博的用戶映射到六邊形地圖。 可以檢測差異融合模式和社區(qū)互動,重點關注核心用戶和重要的擴散路徑。 通過全面的視覺分析系統(tǒng),我們可以用真實世界的社交媒體數(shù)據(jù)來評估我們的工作,并在了解個人社會影響的獨特特征時找到有趣的模式。
總結(jié)
以上是生活随笔為你收集整理的D-Map: Visual Analysis of Ego-centric Information Diffusion Patterns in Social Media的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 招聘网站爬虫及可视化分析
- 下一篇: 设置苹果手机button按钮颜色显示问题