用户画像系统
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 用戶畫像系統
1 用戶畫像概述
1.1?什么是用戶畫像
用戶畫像就是對現實世界中用戶的數學建模。現實世界的用戶通過自己各種各樣的行為,瀏覽購買,或者收藏,等等這些行為會把自己的興趣愛好等體現在這些行為中,比如喜歡看書就會有很多購買書的行為,行為就會把興趣愛好暴露出來,我們就是要基于用戶建模,把他興趣的維度給劃分清楚體現出來,才能充分了解用戶。
用戶畫像是描述用戶的數據,是符合特定需求的對用戶形式化的描述,源于現實又高于現實。用戶畫像是通過分析挖掘用戶盡可能得到多的數據信息。
1.2 用戶畫像作用
用戶精細化營銷:廣告推送給誰,優惠券如何發放等
商戶精細化支持:活動精準推送,定價策略
個性化:商品推薦,購物推薦
趨勢預測:銷售預測,票房預測
大數據報告:
?
2 用戶標簽畫像
2.1 什么是標簽
標簽是某一種用戶特征的符號表示,在商家眼里你會被貼上各種各樣的標簽比如男性,高富帥,高學歷等等。一個人有很多標簽,當商家想要了解客戶的時候就要基于這些標簽來生成用戶畫像,所以用戶畫像其實就是一個整體,包含了多個維度(由不同的標簽的集合組成的),所以,用戶畫像可以用標簽的集合來表示。
2.2 用戶標簽的數學描述
用戶標簽的數學表示就是維度和特征空間,標簽是特征空間中的維度,比如說你的基本信息就是你的性別和年齡,通過性別和年齡構成一個二維空間,這個二維空間可以把任何用戶放到這個空間中去,這個二維空間就是非常簡單的特征空間。在實際當中你的標簽可能上百,上千,上萬個。
每個標簽都是特征空間中的基向量(向量:有方向有大小的量),基向量之間有關聯,不一定是正交的
用戶畫像本質就是特征空間中的高維向量
用戶標簽舉例引用下圖
3 用戶畫像系統流程
總體來用,可以分成離線部分和在線部分,用戶畫像所需要的基礎數據需要離線的先存儲下來,再基于里面的數據進行建模,在線部分使得業務更加完善更加充實,所以總體大的部分是在離線這一端去做的。傳統數據倉庫也是一樣的,在數據倉庫中按照主題建模也會包含到用戶畫像這個過程。
流程分為5個步驟:
(1)明確問題:①追求數據的的匹配;②明確需求,是分類問題,還是聚類問題,還是推薦等③數據的規模,重要特征的覆蓋度等
(2)數據預處理:進來的數據是多種多樣的,如日志數據,第三方合作伙伴傳過來接口的數據,這些數據都不是很規范,對同一個維度的表述有各自的標準,比如說男女的描述,有些用M|F,有些用0|1表示。①數據的集成,數據的冗余,數值的沖突,②數據采樣③數據清洗,缺失值處理,噪聲數據
(3)特征工程:①特征提取,業務日志,web抓取的數據,第三方數據②特征處理,特征清洗,特征預處理,如值處理,特征選擇,特征組合,降維③特征監控,指標的實效性,覆蓋率,異常值
(4)模型算法:統計,分類,回歸,聚類,語義,高維偏好等
(5)產生:如個性化推薦,個性化廣告
4 用戶畫像架構
5 性別預測分析步驟
(1)明確問題:①屬于數據挖掘中的哪一類分類,聚類還是推薦等?年齡預測屬于分類問題;②數據集規模,數據集是否夠大?分類需要大數據集;③問題假設,數據是否滿足所有問題的假設?男女的行為是否不同,比如買手機行為不帶有性別特征,買口紅,香煙等就帶有性別特征。
(2)數據預處理:
(3)特征工程:①單個特征分析:1)數值型特征的處理,如使用app時長,可用高,中,低三個檔次,將啟動次數分段成離散值;2)類別型特征的處理,如用戶使用的設備是華為,或者小米,這是類別特征,可用采用0-1編碼來處理;3)數據歸一化。
②多個特征分析:1)設備類型是否決定了類型?做相關性分析,計算相關系數。2)app啟動次數和停留時長完全正相關,結果表明特別相關,去掉停留時長或啟動次數;2)如果特征太多,需要做降維處理
③文本數據處理的典型步驟:網頁-》分詞-》去停用次-》向量化。 分詞可以采用jieba分詞;去停用詞,停用詞表除了加入常規的停用詞外,還可將DF較高的詞加入停用詞表;向量化一般是將文本轉換為TF或TF-IDF向量
④算法和模型:1:)選擇算法需要考慮的因素,如訓練集的大小,特征維度的大小,要解決的問題是否是線性可分的,所有特征是獨立的嗎,需不需要考慮過擬合問題,對性能有哪些要求等。
⑤算法和模型的評價:分類模型采用混淆矩陣,可參見分類模型評估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121
?
總結
- 上一篇: Power BI连接MySQL 提示错误
- 下一篇: Python-jieba分词学习及应用