基于公开数据的特殊人群在线活动特征挖掘
基于公開數(shù)據的特殊人群在線活動特征挖掘
劉楚楚,呂欣
國防科技大學系統(tǒng)工程學院,湖南 長沙 410073
中南大學商學院,湖南 長沙 410083
卡羅林斯卡研究所公共衛(wèi)生科學系,瑞典 斯德哥爾摩 17177
摘要:通過采集百度貼吧中的相關數(shù)據,從時間、文本、網絡3個維度分析不同人群的在線活動特征,探索社會特殊人群的活動規(guī)律和心理狀態(tài)。研究發(fā)現(xiàn),艾滋病人群在線活動更規(guī)律,在線活動的主要目的是了解病情知識、記錄日記,對本類型貼吧的關注很集中;男同性戀人群活躍時間晚,大多是為了娛樂交友,對本類型貼吧的關注具有很強的偏好性。總體上,艾滋病人群對自身病情十分關心,但男同性戀人群的艾滋病防護意識還不強。
關鍵詞:特殊人群;艾滋病;男同性戀;在線特征;復雜網絡
1 引言
“特殊人群”一般是指那些因主客觀原因導致的在社會競爭中處于不利形勢的“邊緣”人群。在我國,艾滋病(AIDS)人群和男同性戀(men who have sex withmen, MSM)人群承受了更大的社會環(huán)境壓力,擁有較高的社會距離和社交限制分值,在社會競爭中處于不利地位,是我國具有代表性的兩類特殊人群。由于多種原因,男同性戀人群感染艾滋病的概率比普通人群高19.3倍[6 ],現(xiàn)存活的艾滋病患者中經男男性傳播的比例大約為14.7%,且近年來呈明顯的上升趨勢。艾滋病病毒(HIV)感染者和MSM人群屬于艾滋病傳染的高危人群,對這兩類人群的行為特點進行研究,將對艾滋病的預防控制具有非常重要的意義。然而,由于受到社會環(huán)境壓力等因素的影響,全面地、有代表性地對這兩類特殊人群進行調查研究存在著許多困難。目前對HIV感染者和MSM人群的研究還主要停留在基于實地或網絡人群抽樣的現(xiàn)場訪談和問卷調查,這種傳統(tǒng)方法效率低、樣本有限,且特殊人群的隱蔽性使研究的開展受到頗多限制。
隨著互聯(lián)網技術的發(fā)展,人們的社交生活發(fā)生了巨大的改變,人們頻繁地在各種虛擬社區(qū)發(fā)布、傳遞、共享信息,使網絡虛擬社區(qū)中蘊含了海量的用戶活動數(shù)據,為研究特殊人群提供了新的突破口。張建等人通過對中國生殖健康網站“中國紅絲帶網”上直播的節(jié)目記錄文件進行分析,了解網民對待艾滋病的心理、行為和信息需求。艾德華通過對“同性愛”網站的觀察與分析,了解“同性愛”網站的網民的信息需求和交流情況。白冠男等人選取“艾滋病吧”中的1746條回帖作為研究對象,采用內容分析法,了解“艾滋病吧”中網民對艾滋病的態(tài)度及其主要健康問題。王國華等人則采用內容分析法和社會網絡分析法,以百度貼吧“HIV吧”中400條貼文作為研究對象,對艾滋病相關人群的社會支持信息和社會支持關系網進行了分析。Constantinos C K對一個HIV/AIDS在線社區(qū)的帖子進行內容分析,評估艾滋病群體中社會支持交流的類型和比例。同樣,Mo P K等人證明了在艾滋病群體的所有社會支持類型中,信息支持和情感支持占比最大。通過分析微博中艾滋病群體發(fā)布的博客內容,Shi J等人探討了微博中艾滋病群體的社會支持內容及結構;而 Guo Y 等人則試圖了解艾滋病群體在線社會支持的動態(tài)交互過程以及隨時間的衍變情況。網絡社區(qū)中特殊人群的活動數(shù)據能夠真實反映出該群體的在線活動情況,通過分析這些數(shù)據可以有效地挖掘出特殊人群的行為模式。總體而言,目前國內外對特殊人群在網絡社區(qū)中開源數(shù)據的研究,很大一部分集中在對特殊人群的社會支持上,并且大多使用的是內容分析的方法,對特殊人群在線多維特征(如在線活動的時間統(tǒng)計特征、社交網絡特征、社團效應、情感傾向等)的研究還很少。
本文聚焦百度貼吧中與HIV和MSM相關的兩類貼吧,分析貼吧的用戶活動數(shù)據,挖掘HIV感染人群和MSM人群的在線行為特征。從時間、內容、網絡3個維度出發(fā),分析特殊人群的在線活動時序規(guī)律、話題偏好以及由關注關系構成的共同關注者網絡的特征,并以新聞時事類貼吧用戶作為對照,深入了解社會特殊人群與普通人群的行為差異,從而全面了解特殊人群的在線活動模式,為社會公共衛(wèi)生管理提供指導,具有非常重要的創(chuàng)新意義和現(xiàn)實價值。
2 數(shù)據來源
百度貼吧吸引了大量基于共同興趣愛好的社會群體。自2003 年12月份正式上線以來,百度貼吧的用戶數(shù)目呈現(xiàn)出爆炸性增長,目前百度貼吧的活躍用戶數(shù)已達3億人,貼吧數(shù)目超過2 000萬個,其中蘊藏的海量數(shù)據具有巨大的挖掘價值。本研究運用Python Scrapy爬蟲框架采集百度貼吧中與艾滋病、男同性戀、新聞時事相關的最活躍的36個貼吧,貼吧名稱及發(fā)帖數(shù)(主帖、評論貼及回復的總數(shù))見表1。采集的數(shù)據內容包括貼吧信息、貼吧會員(貼吧關注者)信息和用戶發(fā)帖信息,采集后的數(shù)據存入PostgreSQL數(shù)據庫。貼吧信息包括貼吧名稱、貼吧主頁URL地址、貼吧話題類型、關注者人數(shù)(會員數(shù)目)、貼吧帖子總數(shù)、貼吧標語、貼吧所在目錄以及該貼吧的友情貼吧名稱。受百度防爬策略的約束,只能訪問每個貼吧的前458頁會員信息,即最新加入的前10 992個會員,共采集了270 229條會員數(shù)據,內容包括會員昵稱、會員主頁URL地址、會員關注的貼吧。本研究采集了截至2016年8月1日的36個貼吧的所有發(fā)帖信息,共6 316 158條。發(fā)帖信息包括帖子的標題、帖子所在主頁的URL地址、帖子創(chuàng)建時間、帖子被回復數(shù)、帖子所屬貼吧名、發(fā)帖人昵稱、發(fā)帖人主頁URL地址以及發(fā)帖人等級。為了避免“水軍”“僵尸”等對分析結果的影響,在數(shù)據分析過程中對貼吧中的用戶進行了篩選,主要去除了發(fā)帖數(shù)少于3的不活躍用戶以及帖子長度少于3個字符的文本。
3 研究結果
3.1 在線活動時間統(tǒng)計特征
3.1.1 日分布規(guī)律
對各類型貼吧每天的發(fā)帖時間分布進行比較,可以發(fā)現(xiàn),艾滋病類型和男同性戀類型中各貼吧每天的發(fā)帖趨勢基本一致,新聞時事類各貼吧的發(fā)帖時間分布差異相對較大。艾滋病人群和男同性戀人群在發(fā)帖時間上的規(guī)律性更強,其內部活動時間更一致。不同類型人群的日發(fā)帖規(guī)律也存在差異,如圖1(a)所示。艾滋病人群在每晚22:00—23:00達到發(fā)帖頂峰,凌晨3:00—5:00發(fā)帖少;男同性戀人群在每晚的0:00左右達到發(fā)帖頂峰,到早上5:00才跌至波谷;新聞時事類人群(普通人群)在一天中會出現(xiàn)多個發(fā)帖高峰,大多位于早上7:00—8:00、中午12:00—14:00和晚上19:00—20:00,凌晨2:00—4:00發(fā)帖少,在5:00左右回升。值得注意的是,普通人群在線活躍狀況從晚上20:00開始出現(xiàn)衰減趨勢,而此時特殊人群(艾滋病人群和男同性戀人群)活躍程度正處于上升階段,一直持續(xù)到凌晨,且男同性戀人群在凌晨2:00的發(fā)帖比普通人群中午12:00還要活躍,反映了特殊人群在線活動時間更偏好于晚上甚至深夜。這與不同人群在發(fā)帖內容上表現(xiàn)出來的差異吻合。艾滋病人群發(fā)帖大多圍繞著病情咨詢,這類人群更關注身體和作息,發(fā)帖高峰位于每晚的22:00左右,比男同性戀人群要早一些。男同性戀人群發(fā)帖大部分是關于交友、聊天、消遣,因此活躍時間在3 類人群中最晚,衰減趨勢也表現(xiàn)得更滯后。新聞時事類人群發(fā)帖的內容主要圍繞政治、經濟、社會等話題,發(fā)帖多位于一天中的休息時間,且與電視新聞的播放時間一致。艾滋病類貼吧和男同性戀類貼吧在一天中的發(fā)帖波動很一致,可以認為與普通人群相比,這兩類人群在線活動的時間規(guī)律表現(xiàn)出更高的相似性。
3.1.2 季節(jié)性特征
分析各貼吧每年在各月份的發(fā)帖量,發(fā)現(xiàn)同類型貼吧的發(fā)帖波動基本一致,但各個類型貼吧的發(fā)帖量沒有表現(xiàn)出隨月份明顯的季節(jié)性波動,不同年份的月發(fā)帖量分布沒有明顯的周期性,但具有一些相似性特征。hiv吧每年的12月份是一個波峰,2月份位于波谷位置,3月份開始回升(每年的1、2月份是中國農歷年末,春節(jié)到來導致發(fā)帖量下降)。gay吧近幾年在各月份上的發(fā)帖波動較一致,上半年比下半年發(fā)帖量大,且隨著暑期的結束,每年9月份的發(fā)帖量會比8月份有所降低(已有研究證實,在MSM虛擬社區(qū)中在校學生所占比例較大,而且MSM人群中青少年占有相當?shù)谋壤?#xff09;。新聞直播間吧發(fā)帖跟每個月實際發(fā)生的新聞事件相關,但每年的2月份(農歷年末)位于發(fā)帖的波谷位置。
3.1.3 長期特征
通過統(tǒng)計不同人群每年的發(fā)帖量,可以看出各類人群的發(fā)帖趨勢,如圖1(b)所示。艾滋病人群的年發(fā)帖量從2008年開始一路上升,2 013 年的年發(fā)帖量增長速度達到最大,2 015 年的年發(fā)帖量達到頂峰(2016 年數(shù)據不完全);男同性戀人群的年發(fā)帖量從2004年開始呈上升趨勢(百度貼吧于2003年12月正式上線),2008年達到一個波峰后開始衰減,2010年又上升,至2 013 年達到年發(fā)帖量的最高值,隨后跌落(可能由于近年來百度貼吧對內容管控逐步加強,且男同性戀交友網站大量增加);新聞時事類普通人群的發(fā)帖在2013年呈現(xiàn)出爆發(fā)性增長,此前年發(fā)帖量一直很低,這可能與2013年百度貼吧用戶數(shù)目大量增長有關。
2008年,男同性戀人群發(fā)帖量迎來一個小高峰,此時艾滋病人群發(fā)帖量開始增加;2013年男同性戀人群年發(fā)帖量達到最大值,此時艾滋病人群的發(fā)帖增長速度達到最大。排除重合用戶影響的可能性(共同用戶數(shù)目遠小于這兩類貼吧各自的用戶數(shù)目),艾滋病人群和男同性戀人群的在線活躍情況存在著一定程度的相關性。由于多種原因,男同性戀人群感染艾滋病的可能性遠遠高于普通人群,因此隨著男同性戀人群的增加,HIV在人群中快速傳播,艾滋病人群隨之快速增長。已有的研究已證明男同性戀人群是艾滋病傳播的高危人群和重要橋梁,這與本研究得出的結果相一致。
3.1.4 時間間隔特征
統(tǒng)計各貼吧發(fā)帖時間相鄰的各帖子之間的時間差,發(fā)現(xiàn)各貼吧前后發(fā)帖的時間間隔呈現(xiàn)明顯的冪率分布,如圖1(c)所示。絕大多數(shù)情況下后一個帖的創(chuàng)建時間與前一個帖子創(chuàng)建時間的時間差很小,少數(shù)帖子的創(chuàng)建時間與前一個帖子的創(chuàng)建時間間隔很大。
圖1?各類型貼吧在線活動時間統(tǒng)計特征
3.2 在線內容挖掘及熱點分析
3.2.1 熱詞發(fā)現(xiàn)
本文用詞項的TF-IDF(term frequencyinverse document frequency)值(即詞頻乘以逆向文本頻率)來定義一個詞的熱度。提取貼吧中帖子的標題信息,對標題文本進行分詞,剔除常用詞,計算各個詞項的TF-IDF值,選取前100個TF-IDF值最大的詞代表該貼吧的熱詞,比較不同類型貼吧的熱詞區(qū)別,分析不同類型人群的話題特點及差異。
通過比較各貼吧的熱詞可以發(fā)現(xiàn),不同類型人群發(fā)帖的熱詞差異較大(如圖2所示),不同人群在線發(fā)言存在著明顯的話題偏好。具體表現(xiàn)為,艾滋病人群的發(fā)帖內容主要圍繞著病情咨詢和日記記錄,男同性戀類人群的話題大多與交友聊天和感情生活有關。新聞時事類人群的討論熱點主要集中在政治、經濟和社會話題。各類型人群話題分布如圖3所示。
圖2?不同人群發(fā)帖熱詞差異
圖3?不同人群話題比較
研究發(fā)現(xiàn),不同類型人群之間的發(fā)帖熱詞相似度(熱詞交集比例)也存在差異。艾滋病人群與男同性戀人群發(fā)帖熱詞的相似度達到36%,高于與新聞時事類的熱詞相似度(12%),艾滋病人群與男同性戀人群在話題偏好上相比于普通人群具有更高的相似性。在共同關注網絡(見第3.3節(jié))中,艾滋病類型貼吧與男同性戀類型貼吧之間的連接數(shù)目為1 319,大于與新聞時事類貼吧的連接數(shù)目656,說明艾滋病人群和男同性戀人群的重合人數(shù)更多,導致這兩種人群的話題相似度要大于新聞時事類人群。
3.2.2 熱詞動態(tài)演變分析
研究發(fā)現(xiàn),不同類型人群每年的發(fā)帖熱詞都會發(fā)生變化,每年都會有新增的熱詞(如圖4所示),反映了不同人群的心理狀態(tài)變遷。
圖4?不同人群發(fā)帖熱詞變遷
艾滋病人群在2011年的發(fā)帖熱詞中新出現(xiàn)了“賤狗們”“詛咒”等表達負面情緒的詞匯;2012年的熱詞中出現(xiàn)了大量艾滋病檢測產品品牌;2013年關于艾滋病治療、藥品名稱以及患者情緒的詞匯增加;2014年艾滋病人群討論的話題變得輕松,關于病情交流和經驗分享的話題增加,出現(xiàn)了大量日記帖;2015年生活話題增多,目前國內最好的艾滋病治療藥物“替拉依”成為熱詞之一;在2016年,“工作”也成為艾滋病病友們的熱點討論話題。可以看出,艾滋病人群的話題逐步向積極健康的方向轉變,艾滋病人群的心理狀態(tài)從最初的緊張抵觸變得越來越平和輕松。筆者在后續(xù)的研究中用基于規(guī)則的情感分析方法,通過構建相應的情感詞庫,對艾滋病群體的情緒特點做了系統(tǒng)分析,發(fā)現(xiàn)在艾滋病社區(qū)中負面情緒仍偏多,主要表現(xiàn)為初期感染HIV的患者對病情的恐懼、擔憂和焦慮。但是,積極情緒也占據了相當大的比例,大多關于AIDS的及時診斷與積極治療,表達諸如信心、努力、堅強、感激等情緒。而且出于隱私保護,艾滋病人群常常選擇通過社交網絡平臺尋求幫助和建議。
男同性戀人群每年的發(fā)帖熱詞變化也十分顯著,每年的熱詞基本上與該年的網絡流行詞匯息息相關,如2011年出現(xiàn)了“神馬”“正太”“腐女”等詞;2012年新增了“基友”“微信”;2013年出現(xiàn)了“大神”;2014年出現(xiàn)的“叔叔”“qy”;2015年出現(xiàn)的“男票”“語音”;2016年出現(xiàn)的“寶寶”。此外,在2013年,關于同性戀的詞匯大量增加,這與前文(第3.1節(jié))中2013年男同性戀發(fā)帖數(shù)達到峰值的結論相吻合。而新聞時事類人群每年的發(fā)帖熱詞差異較大,話題主要與每年發(fā)生的熱點事件和新聞相關。
3.3 貼吧共同關注者網絡
3.3.1 共同關注者網絡可視化
從網絡角度挖掘特殊人群的在線活動特征,利用3種類型全部貼吧的會員數(shù)據構造共同關注者網絡,各貼吧作為網絡的節(jié)點,如果兩個貼吧之間存在共同關注者,則對應貼吧節(jié)點之間就形成一條連接邊,共同關注者數(shù)目作為邊的權重。權重越大,說明兩個貼吧之間的共同關注者數(shù)目越多。可視化有助于直觀了解一個網絡的特征。對3類貼吧的共同關注者網絡進行可視化處理后的結果如圖5所示,節(jié)點大小代表各貼吧度的大小,邊的權重表現(xiàn)為邊的粗細。可以看出,該網絡存在著明顯的社區(qū)結構,3個類型貼吧的內部聯(lián)系緊密,與外界聯(lián)系相對少,不同人群對本類型貼吧更關注。3類貼吧的用戶對本類型貼吧相關的主題明顯更為關心,說明在艾滋病類型貼吧和男同性戀類型貼吧中活躍的用戶,很大可能就是筆者要研究的特殊人群。
圖5?共同關注者網絡
3.3.2 各類型貼吧的共同關注者網絡差異比較
為了了解不同人群在貼吧關注上的特點,構造并比較了各類型貼吧的共同關注者網絡(如圖6所示),可以發(fā)現(xiàn),3類人群對本類型貼吧的共同關注網絡表現(xiàn)出很大的相似性,即都是全連接網絡,且網絡內部邊權遠遠大于外部邊權,各類人群對本類型貼吧更關注。但3個網絡在多樣性、內外連接數(shù)量比例、平均加權度等方面表現(xiàn)出較大的差異。
圖6?3種類型貼吧的共同關注者網絡
3類人群的共同關注網絡社區(qū)內部連邊(此處一條邊代表兩個貼吧之間的一個共同用戶)數(shù)量與外部連邊數(shù)量之比分別為14.2(艾滋病類)、8.9(男同性戀類)和8.1 (新聞時事類)。各社區(qū)的內外連接數(shù)量比都遠大于1,印證了這3類貼吧顯著的社區(qū)結構。為了了解不同人群的貼吧關注關系特點,筆者使用基于Shannon熵的社會多樣性度量來刻畫各個關注網絡的多樣性。
(1)
其中,k是節(jié)點i的連接數(shù)目,pij是鄰居j的邊權與其所有鄰居邊權和的比值。3個網絡的多樣性平均值分別為0.88(艾滋病類)、0.69(男同性戀類)和0.75(新聞時事類)。各類人群的關注網絡在平均加權度和模塊化指數(shù)上也存在差異。艾滋病網絡的平均加權度為5 102.73,大于男同性戀網絡的平均加權度2 472.29,大于新聞時事類網絡的平均加權度1 961.82。男同性戀網絡的模塊化系數(shù)(指網絡中連接社區(qū)結構內部頂點的邊所占的比例與隨機網絡相比的差值)為0.33,大于新聞時事類網絡的模塊化系數(shù)0.29,艾滋病網絡的模塊化系數(shù)最小,為0.14。各類型貼吧相互之間的關注者關系也表現(xiàn)出不同:艾滋病類貼吧與男同性戀類貼吧的共同邊數(shù)目為1 319,大于與新聞時事類貼吧的共同邊數(shù)656,艾滋病類貼吧和男同性戀貼吧之間具有更多的共同用戶。
可以發(fā)現(xiàn),艾滋病網絡的內外連邊比值、多樣性、平均加權度最大,模塊化最小,說明艾滋病人群對本類型貼吧的關注更多、更集中,一個用戶可能同時關注了多個艾滋病貼吧,且艾滋病人群在貼吧中的分布更均勻;男同性戀網絡的內外連接比、平均加權度大于普通人群,且多樣性最小,模塊化系數(shù)最大,說明男同性戀人群對本類型貼吧的關注較集中,但用戶在貼吧中的分布很不均勻,大多分布在幾個貼吧(gay吧、bl吧)中;且艾滋病類貼吧之間的相似性較大,男同性戀類貼吧差異大。這也從側面反映了艾滋病人群和男同性戀人群在線活動目的的差別。艾滋病人群在線活動的目的性更強,更可能是為了全面收集資訊、了解病情知識;而男同性戀人群在線活動主要是交友娛樂,偏好性很強,導致男同性戀類貼吧的用戶數(shù)目差異大。艾滋病類型貼吧和男同性戀類型的貼吧之間具有更多的共同用戶,說明艾滋病人群與男同性戀人群之間的重疊相比于普通人群更加突出,男同性戀人群相比普通人群更有可能攜帶或者感染了HIV,這也從側面驗證了Koblin B A等人和Liu H等人關于男同性戀患艾滋病的可能性要高于普通人的結論。
4 結束語
由于特殊人群的隱蔽性,傳統(tǒng)方法無法有效獲取這類人群真實的活動數(shù)據,難以了解特殊人群的行為特點和心理狀態(tài)。本文通過分析百度貼吧特殊人群的在線活動數(shù)據,首次對艾滋病人群和男同性戀人群與普通人群(新聞時事類貼吧用戶)的在線活動差異進行挖掘,以了解特殊人群在心理、社交上的特征。研究發(fā)現(xiàn),我國艾滋病人群和男同性戀人群在在線活動時間、討論話題、關注貼吧等各方面都表現(xiàn)出各自明顯的特點。艾滋病人群在每晚22:00—23:00達到活動高峰,凌晨3:00—5:00最不活躍;男同性戀人群在每晚0:00—1:00達到活動高峰,在早上5:00跌至波谷。且艾滋病類人群在貼吧的活躍程度呈上升趨勢,男同性戀人群的活躍程度呈下降趨勢。艾滋病人群在線活動的主題主要是病情咨詢和日記記錄,男同性戀人群大多與交友聊天和感情生活有關。艾滋病人群對本類型貼吧的關注更多、更集中,一個用戶同時關注多個艾滋病貼吧,且艾滋病人群在貼吧中的分布更均勻;男同性戀人群對本類型貼吧的關注較集中,但用戶在貼吧中的分布很不均勻,大多集中在gay吧和bl吧。
總體上,男同性戀人群與艾滋病人群的在線活躍情況存在著一定程度的相關性。并且,相比普通人群,男同性戀人群與艾滋病人群之間的關聯(lián)性更強,男同性戀人群感染HIV的概率明顯高于普通人群。在分析結果中可以看出,艾滋病人群對自身病情比較關心,但男同性戀人群的艾滋病防護意識并不強,且網絡男同性戀人群的年齡都偏低,有很大一部分是青少年。
根據百度貼吧中男同性戀相關人群和艾滋病相關人群表現(xiàn)出來的特點,對公共衛(wèi)生有關管理部門提出以下建議,以期能為我國特殊群體提供更好的關懷和管控以及更全面的教育和指導。
● 針對男同性戀人群艾滋病高危的特點,應加強男同性戀人群中艾滋病防護意識的培育和相關安全知識的宣傳,促進男同性戀人群自我保護意識的提升,減少并盡可能杜絕高危行為的發(fā)生。
● 由于社會輿論環(huán)境,我國艾滋病群體面臨著很大的社會歧視,因此表現(xiàn)出極強的隱蔽性。出于網絡社區(qū)等虛擬平臺的匿名性保證,很大一部分艾滋病患者傾向于通過互聯(lián)網渠道查找資料或尋求幫助。相關管理部門可以積極利用互聯(lián)網虛擬社區(qū)、論壇網站等虛擬平臺,加強艾滋病基礎知識的普及,多渠道擴展艾滋病咨詢和檢測通道,為廣大艾滋病群體提供更方便、更人性化的服務。
● 目前,男同性戀人群有低齡化發(fā)展的趨勢,很大一部分男同性戀者是青少年,并且近年來我國大中學生中的HIV感染者超過80%是男同性戀,因此提早對青少年開展安全性知識教育,提高其防患意識,有利于促進青少年群體對艾滋病病毒的預防。
基于開源數(shù)據的特殊人群研究,能最直接地從特殊人群在線活動產生的數(shù)據中發(fā)現(xiàn)問題,而已有的關于特殊人群(如艾滋病人群、男同性戀人群)的研究大多采用傳統(tǒng)調查分析的方法。本文克服了在傳統(tǒng)調查中由調查對象的主觀因素帶來的誤差,可以最真實、客觀地反映特殊人群的行為特點和動機偏好,對以抽樣調查為主的特殊人群研究方法是一個很大的補充。本研究對特殊人群和普通人群的在線行為模式進行多維度分析比較,對艾滋病人群和男同性戀人群的在線活動特點進行了多視角、直觀的呈現(xiàn),同時也為今后其他類型特殊人群的研究提供了新的思路,有著重要的創(chuàng)新意義和現(xiàn)實價值。但是受到數(shù)據的約束,此次研究只探討了在百度貼吧中活躍的群體,對其他在線社區(qū)的相關特殊人群的特點并未做分析,今后的研究會立足在多種社交平臺上的數(shù)據分析,增強研究的完整性和可靠性。
The authors have declared that no competing interests exist.?
作者已聲明無競爭性利益關系。?
作者簡介
劉楚楚(1993-),女,國防科技大學系統(tǒng)工程學院博士生,主要研究方向為大數(shù)據挖掘、復雜網絡分析。
呂欣(1984-),男,國防科技大學系統(tǒng)工程學院副教授,主要研究方向為大數(shù)據挖掘、人類行為動力學分析。
《大數(shù)據》期刊
《大數(shù)據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數(shù)據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的基于公开数据的特殊人群在线活动特征挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:曾琛(1987-),女,就职于中国
- 下一篇: cmake的使用--从零建立一个小cma