当推荐系统遇上用户画像:你的画像是怎么来的?
在構建推薦系統的過程中,冷啟動是我們要面臨的一個很現實的問題,而除了加特征,加樣本,加圖譜,加規則,還有其他方法嗎?
推薦系統用戶畫像,是解決冷啟動和興趣探索問題一種有效地方法,但item上的標簽要通過一種怎么樣的方式轉移到用戶身上呢?常見的做法是用戶點擊或者購買了某個item,則這個item上標簽則被標記到了user身上。那么,除了這種直接的方式,還是否有其他的更系統的方法呢?
本文和大家分享下關于用戶畫像的一些東西。今天我們先從用戶畫像的標簽權重開始聊起吧。
用戶畫像:即用戶信息標簽化,通過收集用戶社會屬性、消費習慣、偏好特征等各個維度數據,進而對用戶或者產品特征屬性的刻畫,并對這些特征分析統計挖掘潛在價值信息,從而抽象出一個用戶的信息全貌,可看做是企業應用大數據的根基,是定向廣告投放與個性化推薦的前置條件。
(一)不能把典型用戶當作用戶畫像
每年的微信生活白皮書中,微信官方都會公布典型用戶的一天:工作日每天 8 點起床刷朋友圈、8:45 出門路上刷視頻號……很多用戶看了表示這完全就是自己啊!不過也有不少人吐槽:我也是微信重度用戶,但這個典型的一天的跟我怎么完全不符合?
為什么會出現如此截然相反的反饋呢?原來是這些人把「典型用戶」跟「用戶畫像」的概念搞混了。因為以上描述典型用戶這些特點,只是把用戶特征抽象出來,組合在一起,事實上典型用戶是虛構的,并不真實存在。而用戶畫像是把用戶以標簽的形式表現出來,每一個真實存在的用戶都有對應的用戶畫像。
(二)用戶畫像不是用戶標簽的簡單組合
這也是大部分人都可能存在的錯誤認知,即把用戶畫像簡單理解成由用戶標簽構成。用戶標簽是用來概括用戶特征的,比如說姓名、性別、職業、收入、養狗、喜歡吃零食等等。這些標簽表面上看沒有什么問題,但是實際上組成用戶畫像的標簽要跟業務/產品結合。不同業務的畫像標簽體系并不一致,這需要數據和運營目的性的提煉。
舉個夸張的例子,喜茶要做用戶畫像,最后列出來小明是一個大學生、高富帥、獨生子、四川人,愛玩游戲、愛看動漫等用戶標簽。而事實上,對于喜茶而言,用戶帥不帥、是否愛玩游戲真的沒有關系。
(三)用戶畫像的有效性
如果你能夠建立真正有效的用戶畫像標簽,才算正確理解從而提升運營效果。這就涉及到構建用戶畫像最大的難點了。
舉個例子,某知識付費團隊要賣課,那么建立用戶畫像最核心的訴求就是:提高課程購買數量。如果能通過用戶畫像了解用戶購買課程的意愿,然后采取相應的運營策略,效率便會大幅度提高。而這個購買課程意愿度,就是我們最需要放在用戶畫像里的標簽。
又比如,我們建立用戶畫像之后,計算出來甲購買課程的意愿是 40%,乙購買課程的意愿是 90%。為了進一步提高購買量,我們會對購買意愿在 40% 的用戶(甲)發放優惠券。如果沒有建立這樣一個用戶畫像標簽,我們就會對甲和乙發放同樣的優惠券。而乙類用戶原本是不需要用優惠券進行激勵的,這么一發,便會增加很多成本。這就牽扯到了另外一種營銷模型的構建了,在這里就不做展開說明了。
先舉個場景,程序員小Z在某電商平臺上注冊了賬號,經過一段時間在該電商平臺的web端/app端進行瀏覽、所搜、收藏商品、下單購物等系列行為,該電商平臺數據庫已全程記錄該用戶在平臺上的行為,通過系列建模算法,給程序員小Z打上了符合其特征的標簽(如下圖所示)。此后程序員小Z在該電商平臺的相關推薦版塊上總能發現自己想買的商品,總能在下單前猶豫不決時收到優惠券的推送,總是在平臺上越逛越喜歡....
如上圖所示,一個用戶標簽表里面包括常見的字段如:用戶id、用戶姓名、標簽id、標簽名稱、用戶與該標簽發生行為的次數(如搜索了兩次“大數據”這個關鍵詞)、行為類型(不同的行為類型對應用戶對商品不同的意愿強度,如購買某商品>收藏某商品>瀏覽某商品>搜索某商品),行為時間(越久遠的時間對用戶當前的影響越小,如5年前你會搜索一本高考的書,而現在你會搜索一本考研的書)。
最后非常重要的一個字段是標簽權重,該權重影響著對用戶屬性的歸類,屬性歸類不準確,接下來基于畫像對用戶進行推薦、營銷的準確性也就無從談起了。下面我們來講兩種權重的劃分方法。
TF-IDF算法是什么思想,這里不做詳細展開,簡而言之:一個詞語的重要性隨著它在該文章出現的次數成正比,隨它在整個文檔集中出現的次數成反比。
比如說我們這里有3個用戶和4個標簽,標簽和用戶之間的關系將會在一定程度上反應出標簽之間的關系。這里我們用w(P , T)表示一個標簽T被用于標記用戶P的次數。TF(P , T)表示這個標記次數在用戶P所有標簽中所占的比重,公式如下圖:
對上面的圖來說,用戶1身上打了標簽A 5個,標簽B 2個,標簽C 1個,那么用戶1身上的A標簽TF=5/(5+2+1) 。
相應的IDF(P , T)表示標簽T在全部標簽中的稀缺程度,即這個標簽的出現幾率。如果一個標簽T出現幾率很小,并且同時被用于標記某用戶,這就使得該用戶與該標簽T之間的關系更加緊密。
然后我們根據TF * IDF即可得到該用戶該標簽的權重值。到這里還沒結束,此時的權重是不考慮業務場景,僅考慮用戶與標簽之間的關系,顯然是不夠的。還需要考慮到該標簽所處的業務場景、發生的時間距今多久、用戶產生該標簽的行為次數等等因素。我用個圖總結下:
關于時間衰減的函數,根據發生時間的先后為用戶行為數據分配權重。
時間衰減是指用戶的行為會隨著時間的過去,歷史行為和當前的相關性不斷減弱,在建立與時間衰減相關的函數時,我們可套用牛頓冷卻定律數學模型。牛頓冷卻定律描述的場景是:一個較熱的物體在一個溫度比這個物體低的環境下,這個較熱的物體的溫度是要降低的,周圍的物體溫度要上升,最后物體的溫度和周圍的溫度達到平衡,在這個平衡的過程中,較熱物體的溫度F(t)是隨著時間t的增長而呈現指數型衰減,其溫度衰減公式為:
F(t)=初始溫度×exp(-冷卻系數×間隔的時間)
其中α為衰減常數,通過回歸可計算得出。例如:指定45分鐘后物體溫度為初始溫度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。
這個相關系數矩陣聽title挺困難,其實道理十分簡單。舉個例子:用戶1身上打上了5個A標簽、2個B標簽、1個C標簽;用戶2身上打上了4個A標簽,3個B標簽;用戶3身上打上了4個C標簽、1個D標簽。
用個圖形象表示一下:
那么同時打上A、B標簽的用戶有兩個人,這就說明AB之間可能存在某種相關性,當用戶量、標簽量級越多時,標簽兩兩之間的相關性也越明顯。
參考資料
- 1、https://zhuanlan.zhihu.com/p/27828271
- 2、htps://http://www.zhihu.com/question/31429786
- 3、相關內容已獲作者授權
總結
以上是生活随笔為你收集整理的当推荐系统遇上用户画像:你的画像是怎么来的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 负样本修正:CVR预估时间延迟问题
- 下一篇: 当推荐遇到冷启动