【2016年第6期】情境大数据建模及其在用户行为预测中的应用
吳書,劉強,王亮?
中國科學院自動化研究所智能感知與計算研究中心,北京 100190
摘要:隨著大數據時代的到來,信息系統收集了海量情境信息,如輿情信息、環境信息、經濟信息等。這些情景大數據提供豐富的細節信息,更細致地刻畫行為背景以輔助用戶行為建模。闡述了兩種使用表達學習策略建模一般化情境信息的框架,并針對情境大數據中最常見的時序情境建模問題,使用循環神經網絡建模時序情境中的序列依賴關系。
關鍵詞:情境大數據;情境建模;用戶建模;行為預測
中圖分類號:TP391.4??? 文獻標識碼:A
doi: 10.11959/j.issn.2096-0271.2016071
Modeling contextual big data for user behavior prediction
WU Shu, LIU Qiang, WANG Liang
Center for Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Abstract: In the big data era, information system has to handle a mass of data of contextual information, such as public opinion, environment information and economic status. Embedded with abundant details of user behavior, contextual information plays a significant role in effectively shaping user character and elaborately modeling user behavior. Two frameworks to model general context information through representation learning and a recurrent model for sequential context scenarios were involved.
Key words: contextual big data, context modeling, user modeling, behavior prediction
論文引用格式:吳書,劉強,王亮. 情境大數據建模及其在用戶行為預測中的應用[J]. 大數據, 2016, 2(6): 110-117.
WU S, LIU Q, WANG L. Modeling contextual big data for user behavior prediction[J]. Big Data Research,?2016, 2(6): 110-117.
1? 引言
隨著信息技術的快速發展,人類社會進入了全面的信息化時代。伴隨著大量網絡應用的出現,人們的生活方式發生了改變,越來越多的時間被投入在信息平臺上,如個人電腦、智能手機、平板電腦、智能電視等,同時人們的行為方式和習慣也很大程度上被傳感器、智能監控等設備收集。隨著平臺系統收集信息的能力不斷增強,大數據時代正在到來。信息系統中收集了用戶主動或者被動留下的大量行為數據,同時也收集了大量與用戶行為相關的海量情境信息,如社交媒體上的輿情信息、自然環境信息(天氣、空氣、溫度等)、生產經濟信息(GDP、生產價格指數、CPI、證券)等數據。在大數據時代的用戶分析應用中,越來越多的情景信息能夠提供豐富的用戶行為細節,更細致更全面地刻畫行為發生的背景,有效地輔助用戶行為建模。從另一個角度來看,大規模情境建模是一種處理大數據的趨勢,它將關聯的大數據直接轉換為特定目標任務所處環境的復雜情境信息,其作用也越來越重要。
在大數據場景下,當傳統行為數據收集極為充分之后,進一步收集行為數據在當前的模型框架下可能無法帶來預測性能的大幅度提升。因為當前模型建模的假設大多是針對用戶和對象本身,而忽略外在情境因素對用戶和對象的影響,更多的用戶行為數據也不能擬合出更好的模型參數進而得到更好的算法效果。此時,引入豐富的情境大數據,進一步揭示行為發生的機制則更為重要。目前數據分析領域已經開始重視情境建模,越來越廣泛的研究領域在具體任務建模上引入情境大數據,大幅度提升了預測任務的性能。谷歌趨勢(Google Trend)將搜索引擎的檢索數據引入流感傳播的建模過程中[1]。它曾經構建了一套流感預測的系統,通過搜索引擎的檢索數據來預估各個時間點流感的狀況,在存在外部突發事件時,這套系統的預測結果會因為外部某個事件的刺激而遠遠偏離真實。后期回到利用疾控中心數據進行預測上,將外部的用戶檢索數據作為情境信息,獲得了更加準確穩定的結果。金融領域也利用經濟和社會輿論等情境大數據來輔助建模股價、債券走勢的預測,例如美國斯坦福大學和谷歌研究人員訓練了一個長短期記憶網絡(long-short term memory network,LSTM)模型來預測標準普爾500指數的走勢[2]。該模型結合了反映公眾情緒和宏觀經濟的谷歌趨勢情境大數據,包含經濟類關鍵詞檢索結果,獲得了遠超傳統模型的預測效果。
在信息檢索和數據挖掘領域的用戶行為預測場景中,情境大數據也非常豐富,其中用戶行為常常隨著這些情境信息的變化而發生改變。例如,當一個用戶與小孩在一起時,他可能會傾向于看動畫片;當與愛人在一起時,他可能會傾向于看浪漫電影。將情境大數據因素納入模型構建,能夠細致地刻畫出用戶行為的場景,間接反映出產生用戶行為的原因,顯著提升行為預測的效果。目前,研究工作主要針對特定的情景信息進行建模,并應用到特定的任務中。例如分析社交媒體上的用戶行為,參考文獻[3]提出一種結合當前情境下輿情的主題模型,主要運用到與用戶興趣主題相關的領域。
本文主要從兩個角度描述情境大數據的建模及其在用戶行為預測中的應用。首先,闡述了兩種使用表達學習策略建模一般化情境信息的框架,介紹了情境操作張量建模策略[4,5],同時解釋如何將分層表達框架[6]應用在一般化的情境建模場景中。然后,針對情境大數據中最常見、最重要的時序情境建模問題,介紹基于循環神經網絡建模的框架,該框架可用到時序情境建模[7]中,也可用在復雜時序行為建模[8]上。
2? 基于表達學習的情境建模框架
在情境信息下預測用戶行為最常用的是基于矩陣分解的方法,如張量分解(tensor factorization,TF)[9]和因子分解機(factorization machine,FM)[10],它假設把一種特定的情境信息當作用戶對象之外的另一種實體,并將這種情境信息轉化為單獨的一個維度,與傳統方法中用戶對象實體的維度一起進行分解。這類方法僅僅建模了實體和情境信息間的相似度,但這種相似度往往不是很合理。比如,一個用戶與工作日這個情境要比與周末這個情境的距離近,同時這類方法難以把握實體和情境交互后的共同潛在特性。一些基于多領域關系預測的模型[11]也可以被用來進行情境感知,它們使用轉換矩陣將實體潛在向量從一種情境映射至另一種情境環境下。但是這類方法需要為一個特定的情境信息提供一個轉換矩陣,在處理情境大數據時會遇到擴展上的困難。
針對傳統模型假設不合理和擴展不足的缺陷,筆者認為實體和情境之間的關系可以使用向量來描述,而不再使用單一的值來表達。這種建模方式能夠解決傳統框架下的假設局限性,同時利用模型的擴展性可對情境大數據進行建模。本節將介紹兩類最新的基于表達學習的情境建模框架:第一個框架通過建模情境信息對用戶對象實體的操作,得到實體在當前情境下的表達;第二個框架構建實體和情境信息的層次表達,將它們的交互建模到統一模型中。
2.1? 情境信息的表達
傳統神經網絡語言模型將詞表達為連續的語義向量,稱之為詞嵌入。類似地,也將情境信息轉換為向量來表達。同時真實場景中有大量不同類型值的情境信息,如類屬型、類屬集型和數值型,筆者為它們設計了相應的轉換策略。如類屬型的情境信息,為每一個特定的情境值學習一個表達;對于類屬集型的情境信息,計算出所有元素的平均值作為其表達;對于數值型的情境信息,就為這個情境學習一個表達,任意一個對應的情境值都可以通過乘積操作而得到。有了這3種類型情境信息的向量表達,很多其他類型的情境信息都可以轉換為它們的一種,從而得到最終的表達。當用戶項目交互中,不同類型值的情境值都被轉換為連續值的情境向量之后,需要將交互中的一類情境向量使用加權的方式計算為單一向量,這種向量描述的是當前交互環境中某一類情境信息整體的表達。
2.2? 情境操作張量建模框架
受自然語言領域研究的啟發,提出一種情境建模方法,稱之為情境操作張量(contextual operation tensor,COT)[4, 5],情景操作張量建模框架如圖1所示。在自然語言處理的語義分析研究中,名詞語義常常被表達為向量,形容詞被描述為名詞上的操作語義,由操作矩陣來表達這種屬性。比如“優質產品”中的名詞“產品”被表達為潛在向量,形容詞“優質”被表達為矩陣,“優質產品”的聯合表達就是矩陣和向量相乘得到的向量表達。假設在用戶行為預測中的情境信息具有類似形容詞的這種操作屬性,能夠操作實體的潛在屬性,使得情境下的實體新屬性不僅能體現出其原始屬性,也能反映出在特定情境下實體表達上的改變。比如一個用戶因為和小孩在一起,這個陪伴的情境信息就改變了用戶當下的屬性,使其樂意去看動畫片。
圖1 情境操作張量建模框架
不同于傳統模型中用戶和對象都有其固定的不隨著情境信息而改變的潛在向量表達,為了描述這種隨情境變化的用戶和對象的潛在屬性,為用戶和對象提供了特定情境下的潛在表達。同時將情境信息的潛在語義描述為操作矩陣,它說明對應情境信息有著改變用戶對象等實體潛在屬性的能力。
因為不同的情境信息常常具有類似的語義,即在對實體屬性操作上非常類似,比如人們周末或者在家都會想看小說而非專業書籍。因此通過多個基本的操作矩陣生成情境操作矩陣,這些基本的操作矩陣稱為情境操作張量,它們描述的是一些共同的情境語義操作。每個特定情境下的操作矩陣,都可以由它們而產生。因為使用了共有的情境操作張量,這種方式能夠有效地減少模型需要擬合參數的數量。
2.3? 分層表達情境建模框架
在獲取實體和情境表達后,除了將情境信息轉換為情境操作矩陣直接作用在實體表達上,也在探索是否有更具擴展性的方式,建模更廣泛的情境信息。因此,提出了分層交互表達(hierarchical interaction representation, HIR)模型[6],將實體之間或者實體和情境之間的交互建模成一個共同的表達,使用一種分層交互表達來描述這種交互,如圖2所示。
圖2 分層表達情境建模框架
當每種實體和情境信息都使用向量進行表達時,除了待交互的實體和情境表達之外,使用一個三階張量來獲取它們之間的高階交互。HIR構建了交互的向量表達,利用張量乘法生成兩個實體或者實體和情境的共同表達,然后將這個過程迭代進行,以得到所有實體和情境的最終分層交互表達。HIR具有很好的擴展性,在獲得了兩個實體或者實體和情境的聯合表達之后,可以在框架下建模更多實體和情境的交互。這樣的循環操作可以獲取所有實體和情境交互作用下的最終表達,這種層次化構建方式得到的交互表達,稱之為層次化交互表達。
在獲得了最終的層次交互表達之后,可以在其后增加多個隱含層,以挖掘交互的深層隱藏特性,從而進一步增強實體和情境層次交互的表達能力。不同應用中的不同任務都可以基于隱含層的最終表達而構建,根據應用場景運用多種機器學習方法實現預測。在普通推薦、上下文推薦、協同檢索、廣告點擊預測等多個場景進行了實驗,實驗效果均超過了之前相關領域的最好方法。
3? 基于循環神經網絡的時序情境建模
情境大數據中的時序情境信息描述的是事件發生最基本的因素,是實際應用系統中建模用戶行為的基礎,也是最廣泛存在的情境信息。較之特定領域的情境信息,時序情境建模更為根本和重要。這類時序情境建模方法具有一般性,可以被引入其他包含時序情境的特定應用領域,例如預測用戶簽到數據,也可以預測交通堵塞或恐怖組織的攻擊行為等。本節將針對時序情境建模展開介紹。
傳統的時序情境建模問題受到了廣泛的關注,很多研究者開展了一系列研究,相關方法主要包括因子分解方法[9]和基于馬爾科夫鏈[12]的方法。張量因子分解模型將時間當作實體外新的維度,并通過分解得到用戶、對象和時間箱體等潛在向量。這類方法在預測那些從來沒有或很少出現在訓練數據的時間箱體時,會面臨冷啟動問題。另一方面,基于馬爾科夫鏈的方法已成為最受歡迎的時序預測方法,如個性化因子分解馬爾可夫鏈(factorizing personalized markov chain,FPMC)[12]等。該類基于馬爾可夫鏈的方法都基于馬爾可夫假設,只能建模局部序列行為,即相鄰行為之間的關系,但序列行為之間常常有著更復雜的關系,需要獲取序列高層階的交互關系,由行為的全局序列特征來做用戶行為的預測。
最近循環神經網絡(recurrent neural network,RNN)不僅成功應用于自然語言處理領域中的詞嵌入(word embedding)[13], 同時也被應用到信息檢索領域建模順序點擊預測行為[14]。循環神經網絡由輸入層、輸出層和多個隱藏層組成,其中隱藏層的表示能夠動態地隨著行為歷史而變化,適合用來建模序列信息。然而,該模型只能考慮行為之間的順序關系,而忽略行為之間的時間間隔信息,這使其在建模具有連續值的時間信息時常遇到困難,而這些具有連續值的時序情境對用戶行為的建模往往非常重要。
3.1? 時空情境一體化建模
空間和時間描述的是事件的基本因素,即什么時間和什么地點,它們是實際應用中建模用戶行為的基礎。這些具有連續值的空間和時間情境,對于揭示用戶當下的屬性有決定性作用,在行為建模上的作用非常重要。因為空間信息的屬性非常類似時間信息,將在同一個框架下為它們建模。構建基于RNN的方法建模具有連續值的時空序列信息,稱之為時空循環神經網絡(spatial temporal recurrent neural network,ST-RNN)[7]。
時空一體化建模框架如圖3所示。傳統RNN中每層只考慮一個元素作為輸入, ST-RNN將時空序列情境納入考量,將一個固定時間段內的行為作為一層的輸入來建模局部時序信息。同時ST-RNN利用循環結構捕獲時序情境信息的周期屬性。另一方面,很難給所有的具有連續值的時空信息擬合出對應的轉換矩陣,將空間和時間切分為離散的區間。對于某個離散區間中的一個特定時間點,依靠其上界和下界對應的轉換矩陣通過線性插值的方式來計算其所對應的轉換矩陣,這樣ST-RNN就能夠使用轉換矩陣來表征具有連續值的動態時序信息。類似地,對于一個具有連續值的特定空間信息,也可以通過同樣方法生成其轉換矩陣。
圖3 時空一體化建模框架
3.2? 復雜時序情境建模
除了上述的傳統時序情境場景外,在現實世界中時序情境往往更為復雜,例如客戶常常在同一時刻一次性購買一籃子物品。如何對這種復雜時序情境建模以有效預測用戶一籃子購買行為?上述時空情境一體化建模的方法只能實現簡單時序場景下用戶行為的建模,不能很好地把握單次購買行為中多種物品之間復雜的關聯關系。
為了挖掘復雜時序場景中全局序列特征,并揭示用戶興趣的動態變化,依然將循環神經網絡作為建模框架引入這項工作[8]。雖然循環神經網絡的結構可以捕獲所有籃子上用戶的全局時序特征,但為了有效建模每次行為內部的復雜情境,將卷積神經網絡中的池化操作用于建模籃子本身,提出了動態循環神經網絡籃子模型。它的輸入實例是由一個特定用戶的交易行為組成,每次交易行為由多個對象組成。引入的卷積神經網絡中的池化操作能用來獲取這些對象整體的表達,能提取出復雜行為對象包含的關鍵特征信息。筆者使用了最大池化和平均池化兩種操作,分別提取所有對象在對應維度上最大值和平均值作為對象整體表達的維度值,復雜情境建模框架如圖4所示。
在獲得了對象整體表達之后,它將作為輸入被放進循環神經網絡結構中,然后和輸入矩陣進行操作,并與用戶之前的隱含狀態一起得到下一個狀態的用戶表達。每個用戶的動態表示描述用戶屬性隨著時間推移和與不同籃子進行交互之后潛在屬性的變化。池化操作能獲得復雜時序行為上最重要的語義屬性,同時循環神經網絡結構可以從所有用戶整體歷史交易數據上,獲得用戶全局序列行為特征。這個框架能取得比傳統RNN和基于馬爾可夫方法更好的實驗效果。
圖4 復雜情境建模框架
4? 結束語
本文介紹了使用表達學習策略建模一般化的情境信息,情境操作張量模型將情境信息看作操作語義,能改變實體在當下情境下的向量表達。分層表達模型使用層次模型來建模實體和情境的交互,獲得聯合表達。然后,針對最常見的時序情境,介紹如何使用循環神經網絡來建模這類信息,并獲得當前時序情境建模最好的實驗效果。
參考文獻:
[1]LAZER D, KENNEDY R, KING G, et al. The parable of Google flu: traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.
[2]XIONG R, NICHOLAS E P, SHEN Y. Deep learning stock volatilities with google domestic trends[J]. 2015: arXiv: 1512.04916.
[3]YIN H, CUI B, CHEN L, et al. A temporal context-aware model for user behavior modeling in social media systems[C]//The 2014 ACM SIGMOD International Conference on Management of Data, June 22-27, 2014, Utah, USA. New York: ACM Press, 2014: 1543-1554.
[4]LIU Q, WU S, WANG L. COT: contextual?operating tensor for context-aware recommender systems[C]//Twenty-Ninth Conference on Artificial Intelligence, January 25-30, 2015, Austin Texas, USA. [S.l.:s.n.], 2015: 203-209.
[5]WU S, LIU Q, WANG L, et al. Contextual operation for recommender systems[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(8): 2000-2012.
[6]LIU Q, WU S, WANG L. Collaborative prediction for multi-entity interaction with hierarchical representation[C]//The 24th ACM International on Conference on Information and Knowledge Management, October 18-2 3, 2015, Melbourne, Australia. New York: ACM Press, 2015:613- 622.
[7]LIU Q, WU S, WANG L, et al. Predicting the next location: a recurrent model with spatial and temporal contexts[C]//Thirtieth AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, USA. [S.l.:s.n.], 2016.
[8]YU F, LIU Q, WU S, et al. A dynamic recurrent model for next basket recommendation[C]//The 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, July 17-21, Pisa, Italy. New York: ACM Press, 2016: 729-732.
[9]XIONG L, CHEN X, HUANG T K, et al. Temporal collaborative filtering with bayesian probabilistic tensor factorization[C]//The SIAM International Conference on Data Mining, April 29-May 1, Ohio, USA. [S.l.:s.n.], 2010: 211-222.
[10]RENDLE S. Factorization machines with libfm[J]. Acm Transactions on Intelligent Systems and Technology, 2012, 3(3): 57-78.
[11]SINGH A P, GORDON G J. Relational learning via collective matrix factorization[C]//The 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24-27, Las Vegas, USA. New York: ACM Press, 2008: 650-658.
[12]RENDLE S, FREUDENTHALER C, SCHMIDT-THIEME L . Factorizing personalized markov chains for nextbasket recommendation[C]//International Conference on World Wide Web, April 26-30, 2010, Raleigh, USA. New York: ACM Press, 2010: 811-820.
[13]PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation[C]//EMNLP, October 25-29, Doha, Qatar. [S.l.:s.n.], 2014 ( 14): 1532-1543.
[14]ZHANG Y, DAI H, XU C, et al. Sequential click prediction for sponsored search with recurrent neural networks[J]. Computer Science, 2014: 1369-1375.
吳書(1982-),男,中國科學院自動化研究所助理研究員,主要研究方向為數據挖掘和信息檢索。先后主持多項國家科研項目,在重要期刊和頂級會議發表論文40余篇。
劉強(1990-),男,中國科學院自動化研究所博士生,主要研究方向為數據挖掘,在頂級會議發表論文多篇。
王亮(1975-),男,中國科學院自動化研究所研究員,博士生導師,IAPR會士和IEEE高級會員,模式識別國家重點實驗室副主任,主要研究方向為機器學習、模式識別和計算機視覺。先后主持多項國家科研項目。
總結
以上是生活随笔為你收集整理的【2016年第6期】情境大数据建模及其在用户行为预测中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【内网安全】域横向CobalStrike
- 下一篇: 数据自治开放的加密技术挑战