用户画像-标签体系
1 前言
最近在學習用戶畫像,翻看了“彭友會”的七十多份資料,簡單過了一遍趙宏田老師的書,最近又看了許多微信公眾號里的文章。
整體感受就是,資料太雜、內容太亂、重復的太多、相互間也會有些沖突。但大致可以歸為兩類:趙宏田老師的一套,另外其它的一套。
有那么七八張圖在各種文檔、公眾號文章里反復出現,我也搞不清楚哪個是原創了。用戶畫像的描述至少在六個地方看到連文字都是一樣的。
本來想著直接抄一下權威老師的作業就好了,但發現了一些問題,比如標簽分類違背了分類的基本原則、混淆了標簽與標簽取值的區別。可能是我較真了但還是希望能按照我認為的更好的方式去實現。
最后,由于以下內容大多源于最近看過的資料,原創聲明肯定是不能寫的,有參考到的比較好的文章我會在文末一一列出來。
2 標簽體系概覽
2.1 什么是對象
2.2 什么是標簽
標簽是人為設定的、根據業務場景需求,對目標對象運用一定的算法得到的高度精煉的特征標識。
標簽是對對象某個維度特征的描述與刻畫,是某一種用戶特征的符號表示,每一種標簽都規定了我們觀察認識描述對象的一個角度,用于對象的標注、刻畫、分類和特征提取。
現實世界中標簽還有三種表現形態:實物標簽、網絡標簽和電子標簽。
實物標簽(Label)是用于標明物品的品名、重量、體積、用途等信息的簡要標牌,例如:商品標簽、價格標簽、車檢標簽、服裝吊牌、車票、登機牌都是實物標簽;
網絡標簽(Tag)是一種互聯網內容組織方式,是相關性很強的關鍵字,它能幫助人們通過關鍵詞快速建立對內容總體印象;
電子標簽又稱RFID射頻標簽(Label),是一種識別效率和準確度都比較高的識別工具,通過射頻信號自動識別目標對象并獲取相關數據,識別工作無須人工干預,可工作于各種惡劣環境。
用戶畫像里的標簽,實際上屬于網絡標簽(Tag)。
2.3 什么是標簽體系
所謂標簽體系,就是對企業需要的多種標簽進行歸類、同時對標簽屬性加以定義,從而更方便的對標簽進行管理維護。標簽體系包含兩部分(標簽分類體系即標簽類目+標簽內容信息),最好能通過標簽系統來維護。也可按描述對象分類。
2.4 用戶標簽體系
標簽類目,分類方式很多,建議采用按業務場景的分類方式。
以下是電商場景的標簽類目(最底層分類我只是象征性寫了幾個能說明問題就好)。個人覺得阿里達摩盤的分類更好些,因為趙宏田老師的分類違背了不丟不重的基本分類原則:
標簽內容信息,也叫標簽屬性,是從多個不同角度對標簽進行描述。
2.5 商品標簽體系
按照應用場景區分,商品標簽分為基礎屬性、交互行為、適配場景、供應鏈屬性、商品價值等。
2.6 什么是用戶畫像
用戶畫像,即用戶信息標簽化,通過收集用戶的社會屬性、消費習慣、偏好特征等各個維度的數據,進而對用戶或者產品特征屬性進行刻畫,并對這些特征進行分析、統計,挖掘潛在價值信息,從而抽象出用戶的信息全貌。
用戶畫像可看作企業應用大數據的根基,是定向廣告投放與個性化推薦的前置條件,為數據驅動運營奠定了基礎。由此看來,如何從海量數據中挖掘出有價值的信息越發重要。
上邊這段話是趙宏田老師書里寫的。我覺得,用戶畫像就是在用戶標簽的基礎上進行組合提煉,來刻畫描述用戶群體,以便更清晰的了解用戶,從而投其所好。畢竟用戶才是金主爸爸。
2.7 標簽體系的應用場景
DMP、CDP
CRM應該聽的比較多,就是客戶關系管理系統(Customer Relationship Management)。
DMP就比較少的人聽說了,是數據管理系統(Data Management Platform),對應的前臺應用叫DSP,廣告精準投放平臺(Demand-Side Platform )。
CDP最近倒是挺火的,是客戶數據平臺(customer data platform)。
以下是摘要,想看更多的,文末有分享鏈接。
CRM,它應該是企業的核心客戶的系統,是以交易ID或者Leads ID定義數據的系統,存放的主要是“井水不犯河水”時代的那些客戶的靜態數據。
DMP,它應該是以廣告投放管理,尤其是程序化廣告投放管理為核心目的的受眾數據系統。
CDP,它應該是支持流量運營、用戶運營、客戶運營、潛在客戶運營的人群細分的數據系統。
DMP的核心思想,是記錄每一個個體消費者在不同營銷觸點上的“交互痕跡”,基于這些痕跡,區分不同消費者的特征,并對不同特征的消費者群體提供針對性營銷策略或是輸出這些人群作為細分受眾給其他營銷執行機構。
因此,它具有幾個核心特征:
1. 它能夠收集不同營銷觸點上的數據,如果有遇到不能收集的營銷觸點的情況,也應該能夠整合別人收集的數據;
2. 它能夠通過這些數據,建立不同的消費者的特征,即建立消費者特征屬性的標簽;
3. 它能夠依據不同的消費者屬性標簽及消費者觸點上的數據,將具有同樣特征或數據的消費者篩選出來,并組合成特定受眾人群;
4. 它能夠分析特定人群的觸點數據和屬性數據,并進而判斷已經執行的營銷決策是否合理,或是為即將執行的營銷提供策略支持;
5. 它能夠將它生成的特定細分人群及相關數據輸出給營銷執行機構實現相關人群觸達或投放。
上面的是標準意義上的DMP的意思。圍繞人的數據,收集數據 - 整合數據 - 打標簽 - 人群細分為群主 - 輸出為策略/輸出為人群包 - 投放支持。
DMP的數據源可以是第一方自己的數據、也可以是合作企業的數據、也可以是購買的公開數據源或者數據市場里面的數據。
推薦系統
一個推薦系統效果好與壞最基本的保障、最基礎的是什么?如果讓我來回答,一定是標簽體系。我這里說的標簽主要是針對物料的,對于電商平臺來說就是商品;對于音樂平臺來說就是每一個首歌,對于新聞資訊平臺來說就是每一條新聞。下一篇要介紹的是用戶畫像,畫像中那些用戶實時變化的興趣點大都也是來自于標簽體系,依據用戶長期和短期行為中對于物料搜索、點擊、收藏、評論、轉發等事件,將物料的標簽傳導到用戶畫像上,就構成了用戶的實時畫像和離線畫像中的各個動態維度。
用戶畫像系統
所謂的用戶畫像系統,顧名思義,就是對用戶進行一些畫像……這句話好像啥信息量也沒有。但說白了,其實就是對用戶的特征進行提煉、進行復原。
功能上,其實主要分為兩大系統,一部分是標簽系統,一部分畫像系統。用戶標簽是整個系統的數據基礎,是鏈接標簽系統和畫像系統的橋梁。除此之外,也包括一些人群管理等外圍系統功能。
所謂標簽系統,就是利用企業自由數據、第三方數據、采購數據等等,對自有的用戶進行打標簽的處理。標簽系統既可以自主生成標簽,也可以對標簽進行有序管理維護。
所謂畫像系統,就是利用標簽,進行的可視化分析及各類應用的落地。簡單的,可以是一些統計分析;復雜的,可以是人群的各維度的透視。
數據中臺
在眾多的數據中臺的解決方案中,一個叫做“標簽中心”或“標簽體系”的應用,幾乎成了數據中臺的“標配”。
數據中臺是數據+技術+產品+組織的有機組合,是快、準、全、統、通的智能大數據體系。與數據倉庫等傳統數據工具相比,數據中臺是一種新的理念,以“技術+業務”為雙驅動,是企業開展新型運營的一個中樞系統。
因此,如果你將數據中臺定位成一個存數據、管數據的技術平臺,那或許有“分類體系”就可以了。如果你的數據中臺定位的是企業數字化轉型的運營中樞系統,要實現對前端業務的支持和賦能,那“標簽體系”就是數據中臺一個標配。原因前邊介紹過,分類是自上而下的規劃,側重標準化,標簽是自下而上的倒推,注重業務場景。
“數字轉型,場景為王”,在“技術+業務”雙驅模式的數據中臺中,標簽體系、數據萃取將助力企業運營轉型升級。
3 標簽體系建設方法及質量評估標準
3.1 標簽體系構建流程
標簽體系構建原則
原則一:
因此最佳的處理方式是,我們應該放棄頂層的用戶抽象視角,針對各業務線或部門的訴求和實際的應用場景,分別將標簽聚類起來提供給相應部門。
原則二:
標簽生成的自助化能夠讓溝通成本降最低
標簽生成的自助化,可重復修改的規則,降低無效標簽的堆積
釋放數據團隊人力,釋放業務團隊的想象力
原則三:
規則及元信息維護
調度機制及信息同步
高效統一的輸出接口
我們回顧標簽體系構建的三原則,本質上是解決了價值、手段、可持續性三方面的問題:以業務場景倒推需求,讓業務方用起來作為最終目標,讓標簽系統價值得以實現;標簽生成的自助化,它解決的是我們用什么樣的手段去實現價值;有效的標簽管理機制,意味著一套標簽體系能否可持續性地在一家企業里面運作下去。
總之,對企業最重要的是:一套標簽系統在業務上用起來,能不能覆蓋更廣泛的需求,而不是一個大而全的框架。
標簽體系實施架構
標簽體系架構可以分為三個部分:數據加工層,數據服務層,數據應用層。每個層面面向用戶對象不一樣,處理事務有所不同。層級越往下,與業務的耦合度就越小。層級越往上,業務關聯性就越強。
標簽體系整體設計-業務梳理
以業務需求為導向,可以按下面的思路來梳理標簽體系:
有哪些產品線?產品線有哪些來源渠道?一一列出
每個產品線有哪些業務對象?比如用戶,商品
最后再根據對象聚合業務,每個對象涉及哪些業務?每個業務下哪些業務數據和用戶行為?
標簽體系整體設計-標簽分類
按業務需求梳理了業務數據后,可以繼續按照業務產出對象的屬性來進行分類,主要目的:
方便管理標簽,便于維護和擴展
結構清晰,展示標簽之間的關聯關系
為標簽建模提供子集。方便獨立計算某個標簽下的屬性偏好或者權重
梳理標簽分類時,盡可能按照MECE原則,相互獨立,完全窮盡。
標簽層級控制在三到四個為宜。
一級標簽控制中 10 個以內,太多不易于使用。
3.2 標簽體系質量評估標準
為什么要進行標簽質量評估
想象一下,我們開發了一個“用戶年齡”標簽,業務想針對20-30歲的人進行精準投放。但經過篩選,才篩出來幾千個人,和公司總體用戶相比僅僅是九牛一毛,那這樣的標簽,還有價值不?
因此,對標簽的質量進行科學完整地評估,有助于指導標簽的管理者、開發者不斷地提升標簽質量。通過創建一套完整的評估體系,對于質量過差的標簽,不著急上線,等達到基本的質量要求后再開放給業務使用。不然,既對業務帶來不了價值,也容易讓標簽畫像系統失去用戶的信任。
回過頭來,上面這個例子反映的問題,其實就是標簽的質量差。準確地說,是標簽的覆蓋度太低了。除了覆蓋度,還有很多指標可以衡量一個標簽的質量,咱們在下面詳細展開,主要通過 數據質量、應用質量、業務質量 三個方面來評價標簽的質量。
數據質量評估是標簽質量最基礎的評價,主要分為準確度、覆蓋度、穩定性 三部分。
標簽覆蓋度的含義,是指在一個標簽中,有業務含義的人群數量與總人群數量的比例。
標簽的穩定性也是影響標簽質量的重要因素。
什么是穩定性呢?舉個用戶年齡標簽的例子。昨天30歲以下的用戶有200萬,占比10%,今天就成了1000萬,占比50%。這種標簽數據,你敢用么?是數據的計算邏輯出現問題,還是其他原因導致?
因此在標簽的質量評估中,標簽值的相對穩定性,是重要的評估標準之一。
應用質量評估是從產品角度出發,評估標簽對于產品應用的價值。
若一個標簽的數據質量高,但是用戶都用不起來,不好用,那么也是難以發揮出標簽內在的價值。
關于應用價值的衡量,往往會用一些滯后性的指標衡量。基礎假設是,業務人員用的多的標簽,一定是應用質量好的;業務人員用得少的標簽,一定是應用質量弱的。
具體衡量應用多少的指標,可以用【使用次數】、【使用熱度】、【調用次數】等來綜合衡量。
對于應用價值低的標簽,可以針對性地進行分析,不斷提升每個標簽的應用價值。
業務質量評估是最不好衡量的,但又是最最重要的。因為相比于數據質量是從數據層出發、應用質量是從產品層出發,業務質量是從業務層出發,是離業務價值最近的。
想象一下,業務如果用了一個標簽,對一群人進行了投放,ROI是日常投放的好幾倍,那這個標簽的價值可以說是毋庸置疑了。這時,我們可以說這個標簽的業務質量很高。
什么樣的標簽的業務質量會比較高呢?比如:【用戶購買偏好】、【用戶的營銷敏感度】等等。這類的標簽往往都是一些復雜邏輯的算法標簽,常常有比較強的業務質量。
但這里存在的一個悖論,就是業務質量是后驗的。即想知道一個標簽的業務質量,就一定要進行投放測試才行。而且往往不同場景的一些投放帶來的結果也不太一樣,就導致業務質量的評估往往很難落地。
這確實是個難點。作者的經驗是,在評估標簽質量時,先重點考慮數據質量和應用質量,這兩者都沒問題的時候,就可以上線開放給業務使用。但對于業務使用標簽后的數據進行回流,監控標簽應用在業務場景的價值情況。最終可以有個比較公允的衡量。而這個衡量,將對后面標簽的優化方向,帶來很強的指導性意義。
總結
- 上一篇: 快手广告投放方式有哪些?快手广告怎么计费
- 下一篇: 百度云服务器无法访问项目接口,互联网要点