用户画像标签系统体系解释
文章目錄
- 一 標簽系統體系架構
- 二 標簽模型開發流程
- 三 標簽模型計算邏輯
一 標簽系統體系架構
1)、標簽數據
標簽管理平臺中,每個標簽開發時,首先需要在管理平臺上注冊(新建標簽:4級標簽和5級標簽)
業務標簽和屬性標簽
業務標簽對應標簽模型,每個標簽模型就是Spark Application,運行程序可以給用戶打上標簽:TagName
模型表中存儲數據:spark application運行時參數設置核心數據:
tagName -> tagRule:標簽規則
2)、業務數據
依據每個業務標簽(4級標簽)的標簽規則rule,獲取業務數據
inType 判斷業務數據的數據源,然后解析參數為Meta,加載業務數據(SparkSQL)
此處:整個項目業務數據主要存儲在HBase表中
3)、構建標簽
使用業務數據和標簽數據(屬性標簽對應tagName和rule)計算標簽,得到modelDF,將其保存到HBase表中。
畫像標簽表:tbl_profile
存儲標簽數據時,也將標簽數據存儲同步存儲到Elasticsearch索引中,方便使用標簽進行查詢用戶
基于Elasticsearch為HBase表構建二級索引
二 標簽模型開發流程
展示每個標簽模型在實際開發時主要流程:
1)、標簽管理平臺新建標簽
123級標簽
34級標簽
設置相關屬性,包含標簽的屬性字段的值和對應模型字段的值
標簽模型對應Spark Application名稱,及標簽模型分類,尤其關鍵為標簽規則
rule
5級標簽
2)、開發標簽模型
如何開發標簽模型及測試功能,完成以后需要打成jar包
3)、調度執行
標簽管理平臺中可以直接調用Oozie Java API調度執行每個標簽模型應用程序
三 標簽模型計算邏輯
在每個標簽模型開發時,計算邏輯主要涉及到四個方面:
SparkSession初始化
1)、【MySQL】依據每個標簽tagId獲取標簽數據spark.read.format(“jdbc”)
只獲取與標簽相關的所有數據
2)、【HBase】解析標簽規則rule,加載業務數據
spark.read.format(“hbase”)
自定義外部數據源方式
3)、【DataFrame】業務數據結合屬性標簽數據,計算標簽modelDF
不同類型標簽,計算標簽方式不同,分為三種類型,規則匹配類型標簽、統計類型標簽和挖掘類型標簽
- 規則匹配類型標簽
業務字段的值與屬性標簽規則rule匹配即可 - 統計類型標簽
設計對業務字段的數據進行統計和對屬性標簽規則rule進行轉換,打標簽 - 挖掘類型標簽
使用機器學習算法構建算法模型,使用預測值與屬性標簽規則整合,打標簽,其中涉及相關計算
4)、【HBase】標簽存儲將用戶標簽數據存儲到HBase表中,同步到Elasticsearch索引中 - a)、存儲最新畫像標簽數據
存儲HBase表匯總 - b)、同步標簽數據到Solr索引中
使用HBase協處理器完成,自定同步數據,批量索引插入
SparkSession資源關閉
總結
以上是生活随笔為你收集整理的用户画像标签系统体系解释的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js读取注册表然后打开指定程序
- 下一篇: 兽医提醒:狗狗生病的9个征兆,建议铲屎官