用户画像:数据指标与表结构设计
本篇博客介紹一下畫像中需要開發的數據指標與開發過程中表結構的設計。
首先介紹畫像開發的數據指標,畫像開發過程中通用類的指標體系包括用戶屬性類、用戶行為標簽類、用戶活躍時間段類、用戶消費能力類、用戶偏好類等
數據指標體系
用戶屬性指標
用戶屬性指標根據業務數據來源,盡可能全面地描述用戶基礎屬性,這些基礎屬性值是短期內不會有改變的。如年齡、性別、手機號歸屬地、身份證歸屬地等
用戶登錄活躍指標
看用戶近期登錄時間段、登錄時長、登錄頻次、常登陸地等指標
用戶消費能力指標
看用戶的消費金額、消費頻次、最近消費時間。進一步結合用戶登錄活躍情況,可以對用戶做RFM分層。
用戶流失層級
根據用戶的活躍度及消費情況,判斷用戶的流失意向??杉皶r對有流失趨向的用戶做營銷召回
用戶年齡段劃分
在做營銷活動或站內推送時,可對不同年齡段做針對性運營
用戶行為標簽
記錄用戶在平臺上每一次操作行為,及該次行為所帶來的標簽。后續可根據用戶的行為標簽計算用戶的偏好標簽,做推薦和營銷等活動
表結構設計
對于畫像數據的存儲,除了用戶屬性這種基本上短期不會有變化的數據,其他相關數據的更新頻率一般都比較高,為周更新或日更新
畫像數據更新較為頻繁,通常使用分區來將數據從物理上轉移到離用戶最近的地方。
一般對日期字段進行分區,當然事實上分區是為了優化查詢性能,否則使用數據的用戶也不需要關注這些字段是否分區。
例如說創建一個用戶行為標簽表:
CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);分區表改變了Hive對數據的存儲方式,如果沒做分區,創建的這個表目錄為:
hdfs://master_server/user/hive/warehouse/userprofile創建日期分區后,Hive可以更好地反映分區結構子目錄:
hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'在userprofile表下面,每個日期分區的數據可以存儲截止到當日的全量歷史數據,方便使用者查找。
總結
以上是生活随笔為你收集整理的用户画像:数据指标与表结构设计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对渠道流量异常情况的分析
- 下一篇: Spark Java API:broad