bot机器人账号八大类特征分析---识别问题账号
賬戶數據本身的可分析性是分析算法的基礎。通過分析數據特征來為建模做準備。賬戶數據特征通常分為活動行為特征,社團特征,發文特征、語法語義特征、時空特征等:
1. 活動特征:發文數量,發文被回復的比例,連續發文的平均時間間隔,用戶在站點的發文級別,本站點首發的天數,通過發文回復關系得出的聚集系數和互惠性,兩人之間在一個共同討論中的次數。
2. 社團特征:對普通用戶的差評比例,被舉報的比例,被刪比例,被限制比例。
3. 發文特征:文本作者,虛假寫作樣式,釣魚內容,惡作劇內容,故意搗亂內容,
是否短句,是否罵人,是否第一人稱,字符數量,平均單詞長度,平均音節數,大句子數量,自動易讀指數ARI,語言探索與字詞計數LIWC特征的不同目錄數。
4. 詞法特征:此法是否和自動語言生成程序如Eliza類似,平均的hashtag數量,用戶@數量,鏈接數,特殊字符數。是否有地理信息,標點符號和鏈接的比例。
5. 語義特征:平均情緒分數,反駁排序度量值(Contradiction Rank),負面情緒長度,高頻主題,所用語言數量,情緒不連續度
6. 時態行為特征:用戶情緒隨時間是否來回自相矛盾,用戶情緒的變動情況方差,互相交流時間分布的熵,發文時間的可預測性,每日發文數量,失去粉絲的比例,信噪比。
7. 用戶概況特征:是否有圖,是否綁定主頁URL, 用戶名是否看起來是自動生成的,發文回復@的數量,粉絲數量,賬號和此人其他途徑網站賬號互相綁定的數量。GPS可定位性,是否在黑名單出現過。
8. 網絡特征:用戶情感與他關注的人以及粉絲的情緒分值的平均差,平均轉發數量,出度和入度中心度,平均聚集系數,Pagerank中心度和相互中心度,用戶網絡是否呈星型或團結構,用戶關注人是已知機器人賬號的數量,用戶所屬網絡中存在機器人賬號的數量和比例。
參考文獻:
1. Srijan Kumar, Justin Cheng, Jure Leskovec, V.S. Subrahmanian. "An Army of Me: Sockpuppets in Online Discussion Communities." WWW, 2017 – 26th International World Wide Web Conference, 2017
2. V.S. Subrahmanian, Amos Azaria, Skylar Durst, Vadim Kagan et al. " The DARPA Twitter Bot Challenge" Computer 49 (6), 38-46. IEEE, 2016
總結
以上是生活随笔為你收集整理的bot机器人账号八大类特征分析---识别问题账号的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是GP、LP、VC、PE、FOF
- 下一篇: ruoyi是怎么点击菜单跳转页面的_5分