数仓用户画像-标签体系详解
2 標(biāo)簽體系概覽
2.1 什么是對(duì)象
2.2 什么是標(biāo)簽
標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場(chǎng)景需求,對(duì)目標(biāo)對(duì)象運(yùn)用一定的算法得到的高度精煉的特征標(biāo)識(shí)。
標(biāo)簽是對(duì)對(duì)象某個(gè)維度特征的描述與刻畫,是某一種用戶特征的符號(hào)表示,每一種標(biāo)簽都規(guī)定了我們觀察認(rèn)識(shí)描述對(duì)象的一個(gè)角度,用于對(duì)象的標(biāo)注、刻畫、分類和特征提取。
現(xiàn)實(shí)世界中標(biāo)簽還有三種表現(xiàn)形態(tài):實(shí)物標(biāo)簽、網(wǎng)絡(luò)標(biāo)簽和電子標(biāo)簽。
- 實(shí)物標(biāo)簽(Label)是用于標(biāo)明物品的品名、重量、體積、用途等信息的簡(jiǎn)要標(biāo)牌,例如:商品標(biāo)簽、價(jià)格標(biāo)簽、車檢標(biāo)簽、服裝吊牌、車票、登機(jī)牌都是實(shí)物標(biāo)簽;
- 網(wǎng)絡(luò)標(biāo)簽(Tag)是一種互聯(lián)網(wǎng)內(nèi)容組織方式,是相關(guān)性很強(qiáng)的關(guān)鍵字,它能幫助人們通過(guò)關(guān)鍵詞快速建立對(duì)內(nèi)容總體印象;
- 電子標(biāo)簽又稱RFID射頻標(biāo)簽(Label),是一種識(shí)別效率和準(zhǔn)確度都比較高的識(shí)別工具,通過(guò)射頻信號(hào)自動(dòng)識(shí)別目標(biāo)對(duì)象并獲取相關(guān)數(shù)據(jù),識(shí)別工作無(wú)須人工干預(yù),可工作于各種惡劣環(huán)境。
用戶畫像里的標(biāo)簽,實(shí)際上屬于網(wǎng)絡(luò)標(biāo)簽(Tag)。
2.3 什么是標(biāo)簽體系
所謂標(biāo)簽體系,就是對(duì)企業(yè)需要的多種標(biāo)簽進(jìn)行歸類、同時(shí)對(duì)標(biāo)簽屬性加以定義,從而更方便的對(duì)標(biāo)簽進(jìn)行管理維護(hù)。標(biāo)簽體系包含兩部分(標(biāo)簽分類體系即標(biāo)簽類目+標(biāo)簽內(nèi)容信息),最好能通過(guò)標(biāo)簽系統(tǒng)來(lái)維護(hù)。也可按描述對(duì)象分類。
2.4 用戶標(biāo)簽體系
標(biāo)簽類目,分類方式很多,建議采用按業(yè)務(wù)場(chǎng)景的分類方式。
以下是電商場(chǎng)景的標(biāo)簽類目(最底層分類我只是象征性寫了幾個(gè)能說(shuō)明問(wèn)題就好)。個(gè)人覺(jué)得阿里達(dá)摩盤的分類更好些,因?yàn)橼w宏田老師的分類違背了不丟不重的基本分類原則:
標(biāo)簽內(nèi)容信息,也叫標(biāo)簽屬性,是從多個(gè)不同角度對(duì)標(biāo)簽進(jìn)行描述。
2.5 商品標(biāo)簽體系
按照應(yīng)用場(chǎng)景區(qū)分,商品標(biāo)簽分為基礎(chǔ)屬性、交互行為、適配場(chǎng)景、供應(yīng)鏈屬性、商品價(jià)值等。
2.6 什么是用戶畫像
用戶畫像,即用戶信息標(biāo)簽化,通過(guò)收集用戶的社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度的數(shù)據(jù),進(jìn)而對(duì)用戶或者產(chǎn)品特征屬性進(jìn)行刻畫,并對(duì)這些特征進(jìn)行分析、統(tǒng)計(jì),挖掘潛在價(jià)值信息,從而抽象出用戶的信息全貌。
用戶畫像可看作企業(yè)應(yīng)用大數(shù)據(jù)的根基,是定向廣告投放與個(gè)性化推薦的前置條件,為數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)奠定了基礎(chǔ)。由此看來(lái),如何從海量數(shù)據(jù)中挖掘出有價(jià)值的信息越發(fā)重要。
上邊這段話是趙宏田老師書里寫的。我覺(jué)得,用戶畫像就是在用戶標(biāo)簽的基礎(chǔ)上進(jìn)行組合提煉,來(lái)刻畫描述用戶群體,以便更清晰的了解用戶,從而投其所好。畢竟用戶才是金主爸爸。
2.7 標(biāo)簽體系的應(yīng)用場(chǎng)景
DMP、CDP
- CRM應(yīng)該聽(tīng)的比較多,就是客戶關(guān)系管理系統(tǒng)(Customer Relationship Management)。
- DMP就比較少的人聽(tīng)說(shuō)了,是數(shù)據(jù)管理系統(tǒng)(Data Management Platform),對(duì)應(yīng)的前臺(tái)應(yīng)用叫DSP,廣告精準(zhǔn)投放平臺(tái)(Demand-Side Platform )。
- CDP最近倒是挺火的,是客戶數(shù)據(jù)平臺(tái)(customer data platform)。
以下是摘要,想看更多的,文末有分享鏈接。
- CRM,它應(yīng)該是企業(yè)的核心客戶的系統(tǒng),是以交易ID或者Leads ID定義數(shù)據(jù)的系統(tǒng),存放的主要是“井水不犯河水”時(shí)代的那些客戶的靜態(tài)數(shù)據(jù)。
- DMP,它應(yīng)該是以廣告投放管理,尤其是程序化廣告投放管理為核心目的的受眾數(shù)據(jù)系統(tǒng)。
- CDP,它應(yīng)該是支持流量運(yùn)營(yíng)、用戶運(yùn)營(yíng)、客戶運(yùn)營(yíng)、潛在客戶運(yùn)營(yíng)的人群細(xì)分的數(shù)據(jù)系統(tǒng)。
DMP的核心思想,是記錄每一個(gè)個(gè)體消費(fèi)者在不同營(yíng)銷觸點(diǎn)上的“交互痕跡”,基于這些痕跡,區(qū)分不同消費(fèi)者的特征,并對(duì)不同特征的消費(fèi)者群體提供針對(duì)性營(yíng)銷策略或是輸出這些人群作為細(xì)分受眾給其他營(yíng)銷執(zhí)行機(jī)構(gòu)。
因此,它具有幾個(gè)核心特征:
1. 它能夠收集不同營(yíng)銷觸點(diǎn)上的數(shù)據(jù),如果有遇到不能收集的營(yíng)銷觸點(diǎn)的情況,也應(yīng)該能夠整合別人收集的數(shù)據(jù);
2. 它能夠通過(guò)這些數(shù)據(jù),建立不同的消費(fèi)者的特征,即建立消費(fèi)者特征屬性的標(biāo)簽;
3. 它能夠依據(jù)不同的消費(fèi)者屬性標(biāo)簽及消費(fèi)者觸點(diǎn)上的數(shù)據(jù),將具有同樣特征或數(shù)據(jù)的消費(fèi)者篩選出來(lái),并組合成特定受眾人群;
4. 它能夠分析特定人群的觸點(diǎn)數(shù)據(jù)和屬性數(shù)據(jù),并進(jìn)而判斷已經(jīng)執(zhí)行的營(yíng)銷決策是否合理,或是為即將執(zhí)行的營(yíng)銷提供策略支持;
5. 它能夠?qū)⑺傻奶囟?xì)分人群及相關(guān)數(shù)據(jù)輸出給營(yíng)銷執(zhí)行機(jī)構(gòu)實(shí)現(xiàn)相關(guān)人群觸達(dá)或投放。
上面的是標(biāo)準(zhǔn)意義上的DMP的意思。圍繞人的數(shù)據(jù),收集數(shù)據(jù) - 整合數(shù)據(jù) - 打標(biāo)簽 - 人群細(xì)分為群主 - 輸出為策略/輸出為人群包 - 投放支持。
DMP的數(shù)據(jù)源可以是第一方自己的數(shù)據(jù)、也可以是合作企業(yè)的數(shù)據(jù)、也可以是購(gòu)買的公開(kāi)數(shù)據(jù)源或者數(shù)據(jù)市場(chǎng)里面的數(shù)據(jù)。
推薦系統(tǒng)
一個(gè)推薦系統(tǒng)效果好與壞最基本的保障、最基礎(chǔ)的是什么?如果讓我來(lái)回答,一定是標(biāo)簽體系。我這里說(shuō)的標(biāo)簽主要是針對(duì)物料的,對(duì)于電商平臺(tái)來(lái)說(shuō)就是商品;對(duì)于音樂(lè)平臺(tái)來(lái)說(shuō)就是每一個(gè)首歌,對(duì)于新聞資訊平臺(tái)來(lái)說(shuō)就是每一條新聞。下一篇要介紹的是用戶畫像,畫像中那些用戶實(shí)時(shí)變化的興趣點(diǎn)大都也是來(lái)自于標(biāo)簽體系,依據(jù)用戶長(zhǎng)期和短期行為中對(duì)于物料搜索、點(diǎn)擊、收藏、評(píng)論、轉(zhuǎn)發(fā)等事件,將物料的標(biāo)簽傳導(dǎo)到用戶畫像上,就構(gòu)成了用戶的實(shí)時(shí)畫像和離線畫像中的各個(gè)動(dòng)態(tài)維度。
用戶畫像系統(tǒng)
所謂的用戶畫像系統(tǒng),顧名思義,就是對(duì)用戶進(jìn)行一些畫像……這句話好像啥信息量也沒(méi)有。但說(shuō)白了,其實(shí)就是對(duì)用戶的特征進(jìn)行提煉、進(jìn)行復(fù)原。
功能上,其實(shí)主要分為兩大系統(tǒng),一部分是標(biāo)簽系統(tǒng),一部分畫像系統(tǒng)。用戶標(biāo)簽是整個(gè)系統(tǒng)的數(shù)據(jù)基礎(chǔ),是鏈接標(biāo)簽系統(tǒng)和畫像系統(tǒng)的橋梁。除此之外,也包括一些人群管理等外圍系統(tǒng)功能。
所謂標(biāo)簽系統(tǒng),就是利用企業(yè)自由數(shù)據(jù)、第三方數(shù)據(jù)、采購(gòu)數(shù)據(jù)等等,對(duì)自有的用戶進(jìn)行打標(biāo)簽的處理。標(biāo)簽系統(tǒng)既可以自主生成標(biāo)簽,也可以對(duì)標(biāo)簽進(jìn)行有序管理維護(hù)。
所謂畫像系統(tǒng),就是利用標(biāo)簽,進(jìn)行的可視化分析及各類應(yīng)用的落地。簡(jiǎn)單的,可以是一些統(tǒng)計(jì)分析;復(fù)雜的,可以是人群的各維度的透視。
數(shù)據(jù)中臺(tái)
在眾多的數(shù)據(jù)中臺(tái)的解決方案中,一個(gè)叫做“標(biāo)簽中心”或“標(biāo)簽體系”的應(yīng)用,幾乎成了數(shù)據(jù)中臺(tái)的“標(biāo)配”。
數(shù)據(jù)中臺(tái)是數(shù)據(jù)+技術(shù)+產(chǎn)品+組織的有機(jī)組合,是快、準(zhǔn)、全、統(tǒng)、通的智能大數(shù)據(jù)體系。與數(shù)據(jù)倉(cāng)庫(kù)等傳統(tǒng)數(shù)據(jù)工具相比,數(shù)據(jù)中臺(tái)是一種新的理念,以“技術(shù)+業(yè)務(wù)”為雙驅(qū)動(dòng),是企業(yè)開(kāi)展新型運(yùn)營(yíng)的一個(gè)中樞系統(tǒng)。
因此,如果你將數(shù)據(jù)中臺(tái)定位成一個(gè)存數(shù)據(jù)、管數(shù)據(jù)的技術(shù)平臺(tái),那或許有“分類體系”就可以了。如果你的數(shù)據(jù)中臺(tái)定位的是企業(yè)數(shù)字化轉(zhuǎn)型的運(yùn)營(yíng)中樞系統(tǒng),要實(shí)現(xiàn)對(duì)前端業(yè)務(wù)的支持和賦能,那“標(biāo)簽體系”就是數(shù)據(jù)中臺(tái)一個(gè)標(biāo)配。原因前邊介紹過(guò),分類是自上而下的規(guī)劃,側(cè)重標(biāo)準(zhǔn)化,標(biāo)簽是自下而上的倒推,注重業(yè)務(wù)場(chǎng)景。
“數(shù)字轉(zhuǎn)型,場(chǎng)景為王”,在“技術(shù)+業(yè)務(wù)”雙驅(qū)模式的數(shù)據(jù)中臺(tái)中,標(biāo)簽體系、數(shù)據(jù)萃取將助力企業(yè)運(yùn)營(yíng)轉(zhuǎn)型升級(jí)。
3 標(biāo)簽體系建設(shè)方法及質(zhì)量評(píng)估標(biāo)準(zhǔn)
3.1 標(biāo)簽體系構(gòu)建流程
標(biāo)簽體系構(gòu)建原則
原則一:
因此最佳的處理方式是,我們應(yīng)該放棄頂層的用戶抽象視角,針對(duì)各業(yè)務(wù)線或部門的訴求和實(shí)際的應(yīng)用場(chǎng)景,分別將標(biāo)簽聚類起來(lái)提供給相應(yīng)部門。
原則二:
標(biāo)簽生成的自助化能夠讓溝通成本降最低
標(biāo)簽生成的自助化,可重復(fù)修改的規(guī)則,降低無(wú)效標(biāo)簽的堆積
釋放數(shù)據(jù)團(tuán)隊(duì)人力,釋放業(yè)務(wù)團(tuán)隊(duì)的想象力
原則三:
規(guī)則及元信息維護(hù)
調(diào)度機(jī)制及信息同步
高效統(tǒng)一的輸出接口
我們回顧標(biāo)簽體系構(gòu)建的三原則,本質(zhì)上是解決了價(jià)值、手段、可持續(xù)性三方面的問(wèn)題:以業(yè)務(wù)場(chǎng)景倒推需求,讓業(yè)務(wù)方用起來(lái)作為最終目標(biāo),讓標(biāo)簽系統(tǒng)價(jià)值得以實(shí)現(xiàn);標(biāo)簽生成的自助化,它解決的是我們用什么樣的手段去實(shí)現(xiàn)價(jià)值;有效的標(biāo)簽管理機(jī)制,意味著一套標(biāo)簽體系能否可持續(xù)性地在一家企業(yè)里面運(yùn)作下去。
總之,對(duì)企業(yè)最重要的是:一套標(biāo)簽系統(tǒng)在業(yè)務(wù)上用起來(lái),能不能覆蓋更廣泛的需求,而不是一個(gè)大而全的框架。
標(biāo)簽體系實(shí)施架構(gòu)
標(biāo)簽體系架構(gòu)可以分為三個(gè)部分:數(shù)據(jù)加工層,數(shù)據(jù)服務(wù)層,數(shù)據(jù)應(yīng)用層。每個(gè)層面面向用戶對(duì)象不一樣,處理事務(wù)有所不同。層級(jí)越往下,與業(yè)務(wù)的耦合度就越小。層級(jí)越往上,業(yè)務(wù)關(guān)聯(lián)性就越強(qiáng)。
標(biāo)簽體系整體設(shè)計(jì)-業(yè)務(wù)梳理
以業(yè)務(wù)需求為導(dǎo)向,可以按下面的思路來(lái)梳理標(biāo)簽體系:
- 有哪些產(chǎn)品線?產(chǎn)品線有哪些來(lái)源渠道?一一列出
- 每個(gè)產(chǎn)品線有哪些業(yè)務(wù)對(duì)象?比如用戶,商品
- 最后再根據(jù)對(duì)象聚合業(yè)務(wù),每個(gè)對(duì)象涉及哪些業(yè)務(wù)?每個(gè)業(yè)務(wù)下哪些業(yè)務(wù)數(shù)據(jù)和用戶行為?
標(biāo)簽體系整體設(shè)計(jì)-標(biāo)簽分類
按業(yè)務(wù)需求梳理了業(yè)務(wù)數(shù)據(jù)后,可以繼續(xù)按照業(yè)務(wù)產(chǎn)出對(duì)象的屬性來(lái)進(jìn)行分類,主要目的:
- 方便管理標(biāo)簽,便于維護(hù)和擴(kuò)展
- 結(jié)構(gòu)清晰,展示標(biāo)簽之間的關(guān)聯(lián)關(guān)系
- 為標(biāo)簽建模提供子集。方便獨(dú)立計(jì)算某個(gè)標(biāo)簽下的屬性偏好或者權(quán)重
梳理標(biāo)簽分類時(shí),盡可能按照MECE原則,相互獨(dú)立,完全窮盡。
標(biāo)簽層級(jí)控制在三到四個(gè)為宜。
一級(jí)標(biāo)簽控制中 10 個(gè)以內(nèi),太多不易于使用。
3.2 標(biāo)簽體系質(zhì)量評(píng)估標(biāo)準(zhǔn)
為什么要進(jìn)行標(biāo)簽質(zhì)量評(píng)估
想象一下,我們開(kāi)發(fā)了一個(gè)“用戶年齡”標(biāo)簽,業(yè)務(wù)想針對(duì)20-30歲的人進(jìn)行精準(zhǔn)投放。但經(jīng)過(guò)篩選,才篩出來(lái)幾千個(gè)人,和公司總體用戶相比僅僅是九牛一毛,那這樣的標(biāo)簽,還有價(jià)值不?
因此,對(duì)標(biāo)簽的質(zhì)量進(jìn)行科學(xué)完整地評(píng)估,有助于指導(dǎo)標(biāo)簽的管理者、開(kāi)發(fā)者不斷地提升標(biāo)簽質(zhì)量。通過(guò)創(chuàng)建一套完整的評(píng)估體系,對(duì)于質(zhì)量過(guò)差的標(biāo)簽,不著急上線,等達(dá)到基本的質(zhì)量要求后再開(kāi)放給業(yè)務(wù)使用。不然,既對(duì)業(yè)務(wù)帶來(lái)不了價(jià)值,也容易讓標(biāo)簽畫像系統(tǒng)失去用戶的信任。
回過(guò)頭來(lái),上面這個(gè)例子反映的問(wèn)題,其實(shí)就是標(biāo)簽的質(zhì)量差。準(zhǔn)確地說(shuō),是標(biāo)簽的覆蓋度太低了。除了覆蓋度,還有很多指標(biāo)可以衡量一個(gè)標(biāo)簽的質(zhì)量,咱們?cè)谙旅嬖敿?xì)展開(kāi),主要通過(guò) 數(shù)據(jù)質(zhì)量、應(yīng)用質(zhì)量、業(yè)務(wù)質(zhì)量 三個(gè)方面來(lái)評(píng)價(jià)標(biāo)簽的質(zhì)量。
數(shù)據(jù)質(zhì)量評(píng)估是標(biāo)簽質(zhì)量最基礎(chǔ)的評(píng)價(jià),主要分為準(zhǔn)確度、覆蓋度、穩(wěn)定性 三部分。
標(biāo)簽覆蓋度的含義,是指在一個(gè)標(biāo)簽中,有業(yè)務(wù)含義的人群數(shù)量與總?cè)巳簲?shù)量的比例。
標(biāo)簽的穩(wěn)定性也是影響標(biāo)簽質(zhì)量的重要因素。
什么是穩(wěn)定性呢?舉個(gè)用戶年齡標(biāo)簽的例子。昨天30歲以下的用戶有200萬(wàn),占比10%,今天就成了1000萬(wàn),占比50%。這種標(biāo)簽數(shù)據(jù),你敢用么?是數(shù)據(jù)的計(jì)算邏輯出現(xiàn)問(wèn)題,還是其他原因?qū)е?#xff1f;
因此在標(biāo)簽的質(zhì)量評(píng)估中,標(biāo)簽值的相對(duì)穩(wěn)定性,是重要的評(píng)估標(biāo)準(zhǔn)之一。
應(yīng)用質(zhì)量評(píng)估是從產(chǎn)品角度出發(fā),評(píng)估標(biāo)簽對(duì)于產(chǎn)品應(yīng)用的價(jià)值。
若一個(gè)標(biāo)簽的數(shù)據(jù)質(zhì)量高,但是用戶都用不起來(lái),不好用,那么也是難以發(fā)揮出標(biāo)簽內(nèi)在的價(jià)值。
關(guān)于應(yīng)用價(jià)值的衡量,往往會(huì)用一些滯后性的指標(biāo)衡量。基礎(chǔ)假設(shè)是,業(yè)務(wù)人員用的多的標(biāo)簽,一定是應(yīng)用質(zhì)量好的;業(yè)務(wù)人員用得少的標(biāo)簽,一定是應(yīng)用質(zhì)量弱的。
具體衡量應(yīng)用多少的指標(biāo),可以用【使用次數(shù)】、【使用熱度】、【調(diào)用次數(shù)】等來(lái)綜合衡量。
對(duì)于應(yīng)用價(jià)值低的標(biāo)簽,可以針對(duì)性地進(jìn)行分析,不斷提升每個(gè)標(biāo)簽的應(yīng)用價(jià)值。
業(yè)務(wù)質(zhì)量評(píng)估是最不好衡量的,但又是最最重要的。因?yàn)橄啾扔跀?shù)據(jù)質(zhì)量是從數(shù)據(jù)層出發(fā)、應(yīng)用質(zhì)量是從產(chǎn)品層出發(fā),業(yè)務(wù)質(zhì)量是從業(yè)務(wù)層出發(fā),是離業(yè)務(wù)價(jià)值最近的。
想象一下,業(yè)務(wù)如果用了一個(gè)標(biāo)簽,對(duì)一群人進(jìn)行了投放,ROI是日常投放的好幾倍,那這個(gè)標(biāo)簽的價(jià)值可以說(shuō)是毋庸置疑了。這時(shí),我們可以說(shuō)這個(gè)標(biāo)簽的業(yè)務(wù)質(zhì)量很高。
什么樣的標(biāo)簽的業(yè)務(wù)質(zhì)量會(huì)比較高呢?比如:【用戶購(gòu)買偏好】、【用戶的營(yíng)銷敏感度】等等。這類的標(biāo)簽往往都是一些復(fù)雜邏輯的算法標(biāo)簽,常常有比較強(qiáng)的業(yè)務(wù)質(zhì)量。
但這里存在的一個(gè)悖論,就是業(yè)務(wù)質(zhì)量是后驗(yàn)的。即想知道一個(gè)標(biāo)簽的業(yè)務(wù)質(zhì)量,就一定要進(jìn)行投放測(cè)試才行。而且往往不同場(chǎng)景的一些投放帶來(lái)的結(jié)果也不太一樣,就導(dǎo)致業(yè)務(wù)質(zhì)量的評(píng)估往往很難落地。
這確實(shí)是個(gè)難點(diǎn)。作者的經(jīng)驗(yàn)是,在評(píng)估標(biāo)簽質(zhì)量時(shí),先重點(diǎn)考慮數(shù)據(jù)質(zhì)量和應(yīng)用質(zhì)量,這兩者都沒(méi)問(wèn)題的時(shí)候,就可以上線開(kāi)放給業(yè)務(wù)使用。但對(duì)于業(yè)務(wù)使用標(biāo)簽后的數(shù)據(jù)進(jìn)行回流,監(jiān)控標(biāo)簽應(yīng)用在業(yè)務(wù)場(chǎng)景的價(jià)值情況。最終可以有個(gè)比較公允的衡量。而這個(gè)衡量,將對(duì)后面標(biāo)簽的優(yōu)化方向,帶來(lái)很強(qiáng)的指導(dǎo)性意義。
總結(jié)
以上是生活随笔為你收集整理的数仓用户画像-标签体系详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 位宽512bit显卡_显卡位宽是什么?详
- 下一篇: 【JSON快速入门】使得XML被人们淘汰