想知道你在网上的发言,被怎么分析么?
對數據應用感興趣的朋友們好~ 這次跟大家分享一下,我們日常在網上的留言評論,都會被怎么分析利用,能產生哪些價值。這也正好對應了數據產品的一個子類——輿情數據產品。
首先統一下定義,我們在網上的各種留言評論包括彈幕,統統都可以歸為輿情數據的范疇,只不過在不同人眼中,有不同的應用價值。
輿情數據的應用可以粗略分為面子和里子:
面子,主要是政府和企業,想及時知道大家的看法,尤其是有沒有罵的;以及如果有突發性事件,需要盡快的知道,最好能在初始階段就控制好源頭,不要讓事情鬧大了。
里子,主要是企業,想知道消費者對他的品牌或者產品有什么看法,好的壞的都可以,而且越具體越好。比如一款新車上市了,車企自我感覺良好,但消費者到底買不買帳?如果不買帳的話,到底是覺得哪兒有問題,告訴我們,我們好去改。
這種事情在前互聯網時代是怎么搞定的呢?主要靠調研咨詢公司了。他們會擬定科學詳盡的問卷調研方案,然后通過電話或者直接出街拉人頭問問題,了解廣大用戶的心聲。
這種做法,肉眼可見的問題就是人工成本高,需要鋪不少人力去打電話或者訪談;同時,周期也比較長,一般都是以月為單位計數;再有,就是操作空間比較大,畢竟中間隔著好幾個人工環節,你懂的......
來到互聯網時代,我們有專門針對輿情的數據產品來解決。一共5步,就可以產品化自動化的給出答案。
這其中政府的事兒不好說,所以就只重點介紹下企業是怎么利用輿情數據,了解消費者對自家品牌or產品的看法。
第一步就是構建一個圖譜,叫行業知識庫也行。這個圖譜其實并沒有很高級,一個初級的行業圖譜,一個Excel文檔可以搞定了。它的作用很簡單,就是把那些非結構化的輿情數據,通過關鍵詞映射到標簽,轉化為結構化的、可以被統計分析的數據。
一般一個行業圖譜,都會有品牌、產品、細分市場和關注點這4類。
品牌顧名思義,就是一個行業里大部分品牌的叫法,這些關鍵詞同時還能幫你框定一個行業的基本數據范圍。
細分市場你可以理解為是跟品牌進行交叉組合的一個維度or標簽。比如汽車行業里,車型、產地、能源類型等都可以作為細分市場,它往往是每個行業獨有的一種劃分方式。比如寶馬跟車型進行交叉組合,就可以有寶馬的suv、寶馬的轎車等不同的細分領域了。
產品是比品牌更小的一個粒度,比如寶馬x5、奧迪a6,它的粒度已經細化到沒法再跟細分市場進行交叉組合了。
最后是關注點,就是一般消費者會從哪些角度來評價一個品牌or產品。它可以有層級關系,比如汽車的外觀,可以進一步下鉆到具體的顏色啊、大燈啊、前臉啊什么的。
具象一些,就是上面這個Excel截圖示例了。最關鍵的就是第一列的關鍵詞,品牌、產品、細分市場和關注點這4大類標簽都是通過這些關鍵詞進行匹配的。
比如一句話是“奧迪a1在國內價格進一步走低”,那么它就會被打上品牌=奧迪、產品=奧迪a1、關注點=價格、車型=小型車、能源類型=傳統能源、廠商屬性=進口等一系列標簽。
可以發現,這里面有些標簽映射關系是顯性的,比如產品和關注點,字面上提到了哪些詞,就會被打上對應的標簽。
而另外一些標簽是隱性的,依靠的就是行業圖譜,而這個行業圖譜的結構基本都是依賴業務專家人工搭建,但關鍵詞那列會需要很多技術支持。比如同樣一個商品,官方有一種叫法,但消費者往往會賦予不同的昵稱,如果漏掉后者,就會遺漏很多輿情數據。
有了一個框架,我們就可以滿世界的去爬數據了。正如上文演示,我們通過關鍵詞去匹配數據,但也需要先把控一下數據的來源。
一般情況,企業都會比較重視兩微一抖,也就是微信、微博和抖音。微信指的是公眾號,這是一個很大的輿情數據來源;微博雖然大家日常很少發言了,但對于品牌宣傳來講,仍然是一個兵家必爭之地;抖音是新晉的廣告品宣投放重地,自然也不能放過。除此之外,一些行業垂直性的論壇貼吧,也經常有高質量、大密度的討論,自然也要搜羅進來。
這些數據怎么來?對一些小廠商來說,只能靠爬蟲了,而且還經常會被數據的擁有方通過各種反爬蟲手段屏蔽。所以這是個體力活,而且爬下來的數據量級很大,比如微博、公眾號、貼吧,很難做到全量的爬取,這就又要考驗存儲實力。所以你看,自己擁有這些數據,是多么省時省力。
而且爬的時候也要挑,也有一定策略。比如微信公眾號吧,這里面有大量的自媒體,文章的標題正文本身,就代表著作者的觀點,能量不小。比如前兩年的《騰訊沒有夢想》,著實讓騰訊的公關在夢里都得好好想想。
同時,公眾號下面的精選評論,也都是網民的態度。那么問題就來了,有些文章,人家標題就不會有汽車啊、奧迪啊這些詞,但正文里滿滿的都是對品牌的品頭論足,這種文章你爬不爬?
還有些文章,標題黨,蹭熱門,但正文滿不是那么回事兒,這種文章你爬不爬?還有些文章,本來是說奔馳的,結果評論翻車跑偏了,大家都聊奧迪去了,作為奧迪的廠商爸爸,這些評論你要不要?
誒......想想就頭大是不是?
然而更頭大的還在后面,數據清洗。
行業圖譜階段,我們通過關鍵詞,盡量多的囊括一個行業的輿情數據,但里面有很多噪音雜質,比如上面提到的標題黨啊、還有各種廣告水軍,不把它們給清理干凈,你就很難聽到消費者真正的聲音。
像標題黨,我們可以通過正文去輔助判斷。交給機器學習就好了,只要文章字數夠多,判斷它是否這個行業的準確性就能足夠高;但一些評論數據就會犯難了,因為它字數少,信息量小,這就需要用到上下文關系去判斷了。
一提到上下文語義識別,就很難了,機器目前真心沒法像人一樣讀懂很多句子的潛臺詞以及上下的關聯。這種例子不僅標題黨,一詞多義也是。
比如紅牛,它既是飲料、又是個F1車隊、還是個球隊的名稱,這個詞要是出現在一大段文字中還好辦,也是就來一句“紅牛不錯”,你說你咋整?
好在,技術在不斷的進步,而且大數據時代嘛,大家都追求用足夠多的“好數據”淹沒稀釋那些“臟數據”,不影響大面兒上的結論就還好......
進一步,非常需要用情感模型來識別消費者的評價是好是壞。而且我們的目標更高階一些,不僅僅要識別出消費者對品牌or產品的看法,還要具體到對品牌or產品的某個關注點的看法,這對情感模型也是一件頗有難度的事兒。
比如“奔馳的外觀比較大氣穩重,要是價格也能像外觀一樣就好了”,這句話里既有品牌詞(奔馳)、也有關注點詞(外觀、價格)、還有表達情感正負向的詞(大氣穩重)。我們人類是比較好識別出來,這句話是夸奔馳的外觀,但對它的定價略有微詞。
可對機器就比較犯難了,首先機器需要能識別出,“大氣穩重”這個褒義詞跟“外觀”是一對兒,而不是修飾“價格”的;其次,機器還需要能理解“要是xxx也能像xxx一樣就好了”這種句式,稍有不慎就會把“價格”跟“好”湊成一對,那不就擰了么?
最后我們來到了數據呈現階段,很多數據產品往往就砸在這兒。一開始就說了,廠商需要的就是清晰地告訴他們,消費者對品牌or產品的具體評價,那我們就按照品牌or產品來組織數據,并且將情感正負向與關注點交叉,讓評價能夠更具體。
進一步,當點擊上圖中的任何一個色塊時,都可以彈出對應這個關注點的情感傾向的具體言論,讓廠商爸爸們不僅知其然、還能知其所以然。
除了條形占比圖的呈現以外,廠商爸爸們還很喜歡上面這種散點圖,它是由對應分析方法畫出來的。這個圖其實就是把二維列聯表格式的數據進行可視化處理,原始數據其實就是這么一個Excel表格。
表格中的數字,表示同時提到某個品牌和某個關注點的數據量。
比如大家在討論寶馬的時候,經常會提及操控性和動力;在提及奔馳的時候常常把舒適性和外觀掛在嘴邊。反應在圖形上,就是寶馬距離操控性和動力兩個點會更近一些,奔馳距離舒適性和外觀兩個點會更近一些。
但這種圖也有它的問題,就是直觀有余但量化不足。不過客戶往往就喜歡這種直觀可解釋性強的東西,你要是真給他整一個深度神經網絡,還真不見得他會買單。
當然,上述的5個步驟都還有較大的提升空間,比如會在網上發表評論的用戶,是不是本身就比較有偏?他們的聲音能否真正的代表廣大消費者的看法?以及,目前的機器學習對評論數據理解的準確性能否更進一步,像個人一樣去理解句子?
最后再叨叨一句輿情數據產品這個行業:其實上面的分析講解已經可以看到,這是一個相對重資產、體力活、且游走在灰色邊緣的事兒,很大互聯網大廠看不上這塊小肉,這反倒給了很多第三方小公司一些生存空間。
不過他們有沒有不同的行業專家幫忙搭建各個行業的圖譜?能不能順利爬到足夠覆蓋率的輿情數據?爬回來之后調用那些開源的NLP能力接口能否分析的精準?最后的產品化打磨能否到位?這些點,都會影響最終的商業售賣。
↘好文推薦:
產品問答 | 3-5年的PM,如何提升競爭力?
少有人走過的路:分析->策略->產品
數據產品經理:埋點的設計、管理與應用
點個“在看”吧
總結
以上是生活随笔為你收集整理的想知道你在网上的发言,被怎么分析么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 产品问答 | 3-5年的PM,如何提升竞
- 下一篇: 线上分享 | 产品架构搭建:从业务到体系