大数据【企业级360°全方位用户画像】标签系统介绍
? ? ? ? 在前面幾篇博客中,博主已經為大家?guī)砹耸裁词怯脩舢嬒?#xff0c;以及項目的一個基礎介紹。用戶畫像的核心就是打標簽,本篇博客,我們來聊聊關于這個項目的標簽系統。
文章目錄
1. 標簽系統
1.1 基礎標簽
1.1.1、概覽:基礎標簽
1.1.2、新建:主分類標簽
1.1.3、新建:業(yè)務標簽
1.1.4、存儲:標簽數據
1.1.5、新建:5級標簽
1.1.6、總述:新建標簽
1.2、組合標簽
1.3、微觀畫像
1.4、標簽查詢
小結
1. 標簽系統
1.1 基礎標簽
1.1.1、概覽:基礎標簽
? ? ? ? 啟動WEB 項目后,瀏覽器登錄,默認賬號與密碼,點擊【登錄】即可,下圖所示:
? ? ? ? 進入系統后,直接顯示【基礎標簽】頁面,重要功能如下所示:
? ? ? ? 上述所表述的5個按鈕,主要構建標簽、查看標簽和編輯標簽,具體說明如下:
? ? 1、基礎標簽 Tag頁
? ??
? ? 2、基礎標簽 分類
? ? ?? ?按照標簽體系劃分標簽為4級、5級標簽
? ? ?? ?- 4級標簽:業(yè)務標簽
? ? ?? ?- 5級標簽:業(yè)務標簽對應的值(屬性標簽)
? ??
? ? 3、新建主分類標簽
? ? ?? ?1級、2級、3級分類標簽
? ? ?? ?
? ? 4、創(chuàng)建業(yè)務標簽
? ? ?? ?具體業(yè)務標簽,其中有很多相關設置,關于標簽如何構建(讀取數據源、運行Spark程序及調度策略)
? ? ?? ?
? ? 5、針對業(yè)務標簽操作
? ? ?? ?- 啟動:業(yè)務標簽運行程序生成標簽
? ? ?? ?- 編輯:修改業(yè)務標簽屬性
? ? ?? ?- 刪除:將業(yè)務標簽刪除
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1.1.2、新建:主分類標簽
? ? ? ? 用戶畫像構建時,標簽按照等級劃分,大致如下所示:
? ? ? ? 在WEB界面上,點擊左下角【新建主分類標簽】按鈕,即可新建1級、2級和3級標簽:
? ? ? ? ?但是如果要刪除1級、2級和3級標簽,必須到后臺數據庫刪除。
1.1.3、新建:業(yè)務標簽
? ? ? ? 新建某個業(yè)務標簽(實際開發(fā)標簽,編寫Spark 應用程序),截圖選項如下:
? ? ? ? 具體參數說明如下(以新建【年齡段】業(yè)務標簽為例):
1、標簽名稱:年齡段
?? ?
2、標簽分類:商城-某商城-人口屬性
?? ?業(yè)務標簽屬于4級標簽,所以分類時指定所屬3級標簽
3、更新周期:每天#2019-08-01 01:00#2029-08-01 01:00
?? ?多久執(zhí)行一次Spark任務
?? ?
4、業(yè)務含義:注冊用戶的生日所屬年齡段
?? ?業(yè)務標簽含義說明
5、標簽規(guī)則:Key=Value形式,按照換行符分割
? ? inType=hbase
? ? zkHosts=192.168.10.20
? ? zkPort=2181
? ? hbaseTable=tbl_users
? ? family=info
? ? selectFieldNames=id,gender
? ??
6、程序入口:cn.itcast.tag.commons.models.pub.business.AgeRangeModel
?? ?Spark Application程序的全名稱
7、算法名稱:Statistics
?? ?業(yè)務標簽計算模型類型:統計-Statistics、規(guī)則匹配-Match、挖掘-具體算法-DecisionTree、KMeans
?? ?
8、算法引擎:/apps/tags/models/tag_9/lib/tags-20190703231621.jar
?? ?Spark應用程序JAR包,通過頁面選擇jar包,上傳到HDFs目錄中
9、模型參數:Spark 應用程序執(zhí)行資源參數設置
?? ?--deploy-mode cluster --driver-memory 2G --executor-memory 4G --num-executors 5 --executor-cores 2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1.1.4、存儲:標簽數據
? ? ? ? 上述新建的標簽數據存儲MySQL數據庫中,對應兩張表存儲數據,分別為標簽表:tbl_basic_tag和模型表:tbl_model,具體說明如下:
標簽表:tbl_basic_tag,存儲標簽的基本信息,屬于基礎標簽
CREATE TABLE `tbl_basic_tag` (
? `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '標簽ID',
? `name` varchar(50) DEFAULT NULL COMMENT '標簽名稱',
? `industry` varchar(30) DEFAULT NULL COMMENT '行業(yè)、子行業(yè)、業(yè)務類型、標簽、屬性',
? `rule` varchar(300) DEFAULT NULL COMMENT '標簽規(guī)則',
? `business` varchar(100) DEFAULT NULL COMMENT '業(yè)務描述',
? `level` int(11) DEFAULT NULL COMMENT '標簽等級',
? `pid` bigint(20) DEFAULT NULL COMMENT '父標簽ID',
? `ctime` datetime DEFAULT NULL COMMENT '創(chuàng)建時間',
? `utime` datetime DEFAULT NULL COMMENT '修改時間',
? `state` int(11) DEFAULT NULL COMMENT '狀態(tài):1申請中、2開發(fā)中、3開發(fā)完成、4已上線、5已下線、6已禁用',
? `remark` varchar(100) DEFAULT NULL COMMENT '備注',
? PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=233 DEFAULT CHARSET=utf8 COMMENT='基礎標簽表';
1
2
3
4
5
6
7
8
9
10
11
12
13
14
模型表:tbl_model,存儲每個4級標簽具體Spark 應用程序相關信息,對應與基礎標簽
CREATE TABLE `tbl_model` (
? `id` bigint(20) DEFAULT NULL,
? `tag_id` bigint(20) DEFAULT NULL COMMENT '標簽ID',
? `type` int(11) DEFAULT NULL COMMENT '算法類型:統計-Statistics、規(guī)則匹配-Match、挖掘-具體算法-DecisionTree',
? `model_name` varchar(200) DEFAULT NULL COMMENT '模型名稱',
? `model_main` varchar(200) DEFAULT NULL COMMENT '模型運行主類名稱',
? `model_path` varchar(200) DEFAULT NULL COMMENT '模型JAR包HDFS路徑',
? `sche_time` varchar(200) DEFAULT NULL COMMENT '模型調度時間',
? `ctime` datetime DEFAULT NULL COMMENT '創(chuàng)建模型時間戳',
? `utime` datetime DEFAULT NULL COMMENT '更新模型時間戳',
? `state` int(11) DEFAULT NULL COMMENT '模型狀態(tài),1:運行;0:停止',
? `remark` varchar(100) DEFAULT NULL,
? `operator` varchar(100) DEFAULT NULL,
? `operation` varchar(100) DEFAULT NULL,
? `args` varchar(100) DEFAULT NULL COMMENT '模型運行應用配置參數,如資源配置參數'
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
? ? ? ? 依據上述兩張表可以通過關聯查詢可以獲取WEB 頁面上表的基本信息,SQL如下(傳遞標簽ID):
USE tags ;
SELECT
? ? tb.id AS tagId, tb.`name` AS tagName, tb.business, tb.industry,
? ? tb.`level`, tb.rule, tb.model_main AS modelMain, tb.model_name AS modelName,
? ? tb.model_path AS modelPath, tb.sche_time AS schetime, tb.args
FROM (
? ? ? ? ?SELECT
? ? ? ? ? ? ?tb1.id, tb1.`name`, tb1.business, tb1.industry,
? ? ? ? ? ? ?tb1.`level`, tb1.pid, tb1.state, tb2.model_main,
? ? ? ? ? ? ?tb2.model_name, tb2.model_path, tb2.sche_time,
? ? ? ? ? ? ?tb3.rule, tb2.args
? ? ? ? ?FROM
? ? ? ? ? ? ?tbl_basic_tag tb1
? ? ? ? ? ? ? ? ?INNER JOIN
? ? ? ? ? ? ?tbl_model tb2
? ? ? ? ? ? ?ON
? ? ? ? ? ? ? ? ? ? ?tb1.id = tb2.tag_id
? ? ? ? ? ? ? ? ?INNER JOIN
? ? ? ? ? ? ?tbl_rule tb3 ON tb1.id = tb3.tag_id
? ? ?) tb
WHERE
? ? ? ? 1 = 1 AND tb.state != -1 AND tb.id = 8 ;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
1.1.5、新建:5級標簽
? ? ? ? 每個業(yè)務標簽(4級標簽)對應值稱之為5級標簽,所以在新建業(yè)務標簽(4級標簽)以后,需要在其下面新建具體的值(5級標簽),如下圖所示:
? ? ? ? 字段具體說明:
1、標簽名稱:50后
?? ?
2、業(yè)務含義:注冊會員出生日期為1950年-1959年區(qū)間的
3、標簽規(guī)則:19500101-19591231
1
2
3
4
5
? ? ? ? 新建【年齡段】業(yè)務標簽:4級標簽后,新建值標簽:5級標簽為例,截圖如下:
1.1.6、總述:新建標簽
? ? ? ? 依據上述分析,如果要開發(fā)一個標簽,業(yè)務需求整理完成以后,需在平臺上新建標簽,統一管理調度執(zhí)行,以新建:【人口屬性】-【性別標簽】為例:
新建業(yè)務標簽(4級標簽)
新建業(yè)務標簽值標簽(5級標簽、屬性標簽):性別標簽有兩個值-男和女
? ? ? ? □ 標簽值:男
? ? ? ? □ 標簽值:女
1.2、組合標簽
? ? ? ? 基于已經存在的【基礎標簽】進行邏輯組合,形成特定業(yè)務標簽,如下列舉4個組合標簽:
? ? ? ? WEB 系統展示如下:
? ? ? ? 新建【組合標簽】,具體操作如下圖步驟:
? ? ? ? 選擇【業(yè)務標簽】,再選取對應的值,點擊【添加】按鈕,所有標簽選擇完成后,單擊【下一步】。
? ? ? ? 組合標簽名稱、含義及用途等信息,最后保存并提交申請。
1.3、微觀畫像
? ? ? ? 依據用戶:身份證號、手機號、QQ及Email,檢索查詢用戶所有標簽信息,構建展示用戶畫像信息。
? ? ? ? 使用官方提供的身份證號【110115199402265244】查詢檢索,展示結果如下:
1.4、標簽查詢
? ? ? ? 依據標簽篩選(各種標簽組合)查詢對應用戶信息,底層使用solr完成。
小結
? ? ? ? 本篇博客主要為大家介紹了【企業(yè)級用戶畫像】項目的標簽系統,包含不同標簽的細致分類以及效果展示。后續(xù)博主會為大家?guī)砣绾吾槍Σ煌臉撕炦M行開發(fā),敬請期待😎
?
總結
以上是生活随笔為你收集整理的大数据【企业级360°全方位用户画像】标签系统介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据中台、标签、数据资产相关的15个名词
- 下一篇: 砸钱抢人抢项目,腾讯字节血拼游戏