社交网络分析调研上
//2019年08月15日
文章來源:https://mp.weixin.qq.com/s/39_r3idlE3plqJwlhrvpAQ
?
一、相關概述
1、定義:“由許多節點構成的一種社會結構,節點通常是指個人或者組織,而社交網絡代表著各種社會關系?!?/p>
*在之前是社會學和人類學的研究分支,現在所指的社交網絡分析專指在線社交網絡分析,該科學的發展是隨著在線社交服務的出現而誕生的。
*在線社交服務種類:即時消息類(QQ\wechat\whatsApp\Skype)、在線社交類應用(QQ空間、人人、Facebook)、微博類、共享空間類應用(論壇、博客、視頻分享、評價分享等)
*在線社交網絡的特點:迅捷、蔓延、平等、自組織
2、研究背景
*社交網絡因為四大特性,產生了正面影響,很多事件會在社交網絡上迅速發酵
*與此同時,也產生了很多負面影響,一些謠言和假新聞會借助社交網絡迅速傳播,造成不可控的影響
*社交網絡分析是基于信息學、數學、社會學、管理學和心理學等科學的交叉學科
3、研究方向和內容
*結構與演化
*群體和互動
*信息與傳播
二、社交網絡的結構特性和演化機理
1、社交網絡的結構分析(建模)
(1)統計特征:模型中的很多概念來源于圖論,因為其本質就是一個由節點和邊組成的“圖”
相關概念:
- 度:網絡平均度反映了網絡的稀疏程度;度的分布可以刻畫不同節點的重要性;
- 網絡密度:定義為網絡中實際存在的邊數與可容納邊上限的比值,刻畫節點間相互連邊(社交關系)的密集程度
- 聚類系數:描述網絡中與同一節點相連的結點間也互為鄰節點的程度,刻畫社交網絡中一個人朋友們之間也互相是朋友的概率,反映了社交網絡中的聚集性
- 介數:圖中某點承載整個圖所有最短路徑的數量,通常用來評價節點的重要程度
(2)網絡特性
- 小世界現象:“地理位置相距較遠的人”可能具有較短的社會關系間隔
- 無標度特性:節點度分布不存在有限衡量分布范圍的性質稱為無標度,無標度網絡表現出來的度分布特征為冪律分布,這是此類網絡的無標度特性。
*小世界現象,最初的提出是哈佛教授提出的”六度分割理論”,然后19998年正式提出這個概念,并建立了小世界模型。
(3)網絡模型
- WS模型:即小世界模型,通過該模型生成的小世界網絡,是從規則網絡向隨機網絡過渡的中間形態
- BA模型:考慮現實網絡中節點的冪律分布特性,生成無標度網絡
- 其它:森林火災模型、Kronecker模型、生產模型
2、虛擬社區發現技術
(1)定義:虛擬社區基于子圖局部性(社區結構是若干節點子集的集合,每個子集內部點連接緊密,不同子集節點之間的連邊相對稀疏),瑞格爾德對其最早的定義“一群主要藉由計算機網絡彼此溝通的人們,他們彼此有某種程度的認識、分享某種程度的知識和信息、在很大程度上如同對待朋友般彼此關懷,從而所形成的團體”。
*個人理解:應該是社交網絡中聯系緊密的一個子圖
(2)研究意義
*有助于理解網絡拓撲結構特點,揭示復雜系統內在功能特性,理解社區內關系
*為信息檢索、信息推薦、信息傳播控制和公共事件管控提供有力支撐。
理解:就相當于現在所做的工作,將所有的信息建模,然后找到相應的一堆關系子圖,其實就是尋找到社交網絡有價值的群體子圖???然后再根據此子圖進行研究。
(3)社區發現評價指標
- 模塊度:通過比較現有網絡與基準網絡在相同社區劃分下的連接密度差來衡量網絡社區的優劣
- NMI:利用信息熵來衡量預測社區結構一直社區結構的差異,差值越大,劃分越好;
- Rand Idex:表示在兩個劃分中都屬于同一社區或者都屬于不同社區的結點對的數量的比值?
- Jaccard Index:用來衡量樣本之間的差異性
(4)發現算法
*社區靜態發現
- 模塊度最優化算法
- 多目標優化算法
- 基于概率模型的算法
- 信息編碼算法
*社區動態發現
- 派系過濾算法
- 基于相似度的聚合算法
- 標簽傳播算法
- 局部擴展優化算法
3、虛擬社區的演化分析
*在線社交網絡中存在的大量顯性或者隱性的虛擬社區結構,但是這些社區的結構不是永恒不變的,隨著事件的變化,社區結構也在不斷演變,所以要分析動態的虛擬社區結構演化
(1)虛擬社區的涌現:其從無到右的過程,最重要的特征是網絡聚集現象。
- 周期閉包:網絡節點傾向于和自己在網絡中鄰居的鄰居建立連接關系而形成的結構,這是虛擬社區形成的主要因素。(焦點閉包:兩個節點間有共同的興趣或者參與共同的活動)
- 偏好連接:很多真實網絡中,新增加的邊并不是隨機連接的,而是傾向于和具有較大度數的連接
(2)虛擬社區的演化
*影響因素很多,重點是如何挖掘虛擬社區演化中的關鍵因素!
*用戶個體的累積效應,結構的多樣性和結構平衡性對虛擬社區的演化都存在影響
(3)演化虛擬社區的發現(有很多研究資料)
相關算法
- 基于相鄰時刻相似度直接比較的演化虛擬社區發現
- 基于演化聚類分析的演化虛擬社區發現
- 基于拉普拉斯動力學方法的演化虛擬社區發現
- 基于派系過濾算法的虛擬社區發現
- 基于節點行為趨勢分析的演化虛擬社區發現
問題理解:這個演化虛擬社區發現和之前靜/動的演化社區發現有什么區別,這里的研究工作還是在虛擬社區發現上是嘛?
三、社交網絡群體行為和互動規律
1、用戶行為
*定義:使用戶對自身需求,社會影響和社交網絡技術進行綜合評估的基礎上做出的使用社交網絡服務的益園,以及由此引起的各種使用活動的總和。
*用戶行為的研究:
- 將在線社交網絡作為一種特定的信息技術,研究用戶對在線社交網絡技術的采納行為、拒絕行為和用戶忠誠;
- 將在線社交網絡視為提供各種服務和應用的平臺,研究用戶使用各種服務和應用所表現出來的特征和規律
(1)用戶采納和忠誠度:用戶在對自身需求、社會影響和在線社交技術進行綜合評估的基礎上做出的使用在線社交網絡服務的意愿或行為,在線社交網絡再出現初期能否被盡可能多的用戶采納和試用對于其后續的擴散至關重要。
目前,會對用戶忠誠做相關的研究
*相關算法
- 基于技術接受模型的在線社交網絡用戶采納模型
- 基于計劃行為理論的在線社交網絡用戶采納模型
- 基于期望確認理論的在線社交網絡用戶忠誠模型
- 基于心流體驗理論的在線社交網絡用戶忠誠模型
(2)用戶個體使用行為
- 一般使用行為
- 內容創建行為
- 內容消費行為
(3)用戶群體互動行為
- 群體互動關系選擇
- 群體互動的內容選擇
- 群體互動的時間規律
2、社交網絡情感分析
*網絡已經是人們獲取信息,發表意見的主要途徑,根據文本內容,可以分成兩種:客官描述信息和主觀性信息。
*情感分析在這里等同于“意見挖掘“,是針對主觀性信息進行分析、處理和歸納過程。
(1)文本情感分析
(2)社交網絡情感分析技術
3、個體影響力分析
*發現社交網絡中有影響力的個體
(1)基于網絡結構的個體影響力計算:度中心度(與該節點直接相連的節點的數量)、接近中心度(某節點與網絡中所有其他節點的最短距離之和)、介數(衡量某節點在社交網絡中中介作用大小,網絡中某兩個節點所有最短路徑的數量除以這些路徑中經過A節點路徑的數量便是A節點的介數)
(2)基于行為的個體影響力計算
(3)基于話題的個體影響力計算
4、群體聚集及影響機制分析
*群體極化:在群體決策的情境中,個體意見或決定往往會受到群體間的彼此討論的影響,而產生一個群體性的結果。群體極化往往表現 為群體內的個體不經過個人思考而同意大多數人的觀點。
*產生條件:
- 必須有激發事件出現
- 群體內的個人能看到前人的選擇
- 群體信息缺乏
- 群體有一定的同質性
四、社交網絡信息傳播與演化機理
1、在線社交網絡信息檢索
*信息檢索:從大規模非結構化數據中獲取信息的過程
(1)社交網絡內容搜索
- 時間先驗方法
- 多特征組合的方法
(2)社交網絡內容分類
(3)社交網絡推薦
- 協同過濾推薦
- 基于模型的推薦:鄰居模型,矩陣分解模型,融入社交網絡信息
2、社交網絡信息傳播規律
*信息傳播是人們通過符號、信號、傳遞、接收與反饋信息的活動,是人們彼此交換意見、思想、情感已達到互相了解和影響的過程。
(1)基于網絡結構的傳播模型
- 線性閾值模型
- 獨立級聯模型
(2)基于群體狀態的傳播模型
- 線性影響力模型
(3)基于信息特征的傳播模型
?
3、話題發現與演化
(1)基于主題模型的話題發現
(2)基于向量空間模型的話題發現
(3)基于詞項關系圖的話題發現
(4)基于主題模型的話題演化
(5)基于相鄰時間片關聯的話題演化
、4、影響力最大化
*在社交網絡中選定信息初始傳播用戶,使得信息的傳播范圍能達到最大,即影響力最大。
*目的:找到一定數量的用戶作為影響力傳播的初始節點,對影響力最大化的問題的建模是基于社交網絡信息傳播模型的。
- 貪心算法
- 啟發式算法
?
理解總結:社交網絡總共的方向是三個,社交網絡的構建和分析、社交網絡的群體和用戶分析、社交網絡的信息傳播。在社交網絡中,社交網絡的構建和分析是基礎,其中包括網絡的分析(分析現實網絡的規律和特性,從而更好的進行建模,研究構建算法)、虛擬社區的發現和分析(在構建的網絡中發現有價值的網絡信息)、虛擬社區的演化(就是在網絡的發展過程中,這個社區是不斷變化和發展的,要在動態中去發現新的社區);在這些基礎上,去研究個體的行為和群體的行為,然后得到有價值的信息,與此同時利用構造的網絡,利用算法,進行信息的傳播。
?
問題理解:
1、動態社區發現與社區演化的區別:
靜態和動態是計算方法的不同,所謂靜態計算發現方法,是通過優化網絡的局部目標函數,搜索網絡社區劃分的空間,靜態的找出最佳的虛擬社區結構;動態計算方法是基于網絡局部拓撲信息,由網絡中的結點動態逐步推演,最終形成虛擬社區結構。
對于社區的演化,是指網絡是不斷改變的,自己的理解,在動態的社交網絡中怎么去發現虛擬社區。
2、如何知道找到的虛擬社區是對的?
算法評價標準:上面所提到的準確度指標。
3、目前的研究難點
(1)網絡的規模急劇膨脹
(2)人際關系的復雜性決定了社會網絡的動態變化性
?
?
?
?
?
?
?
?
?
?
總結
- 上一篇: VS2010快捷键总结
- 下一篇: FP-XH 松下PLC控制器资料下载