标签类目 知识图谱_短视频标签体系
個人工作的一些短視頻標簽體系建立。
1.標簽體系建立
可以參考谷歌的標簽體系,或者根據知識圖譜建立。
參考之后需要結合自己實際的業務進行粗化和細化,因為谷歌這個是針對一般的建立的,需要根據平臺內容的分布和調性進行適當調整。
至于標簽定義可以參考wiki的相關詞匯的定義。
https://cloud.google.com/natural-language/docs/categories?cloud.google.com谷歌的部分標簽體系2.樣本標注
需要將語料從無監督轉為有監督,小平臺哪有那么多人力蠻力標注,所以只能先做無監督咯。目前主要做了無監督的工作,也就是用詞袋做召回。主要將標簽分為2級,直接對第2級分類,分不了的才分到1級。
首先對視頻文本,用每個標簽下的字典召回,這樣就可以得到這個視頻所有可能的標簽,然后用就是merge策略了。
前面過程是召回所有可能標簽,接下來是對標簽進行排序,接下來就構造一個合理的評分體系,選出合理的標簽。
1.計算每個label的得分
對不同位置提取的關鍵詞賦予不同權重,例如標題是*1.2,description是1,author name 1.6,總體原則是文本越長,權重越低。最后得到每個label的分數。
還有對不同的label乘以不同分數,這個主要根據人工標注的結果反饋的,例如某個label總是標錯,要么字典比較差,要么比較難分,所以就降權處理,優先標到其他類。
2.排序
有了每個label的分數,也即是第二層標簽,這樣就知道第一層的分數。
有2策略
a、選出第一層得分最高的,然后再選擇相應第二層的得分最高的標簽,這樣做的意義在于如果整個視頻出現大量了tv movie 等詞匯,那么基本屬于娛樂類,不會垮一級大類犯錯,就可以避免第2層的movie得分不如mobile phone(在目前進行項目中屬于另一個大類),但是整體語義上娛樂,因此最后只會在movie 和tv中做選擇,不會出現mobile的結果
a的做法在于如果想做多分類就沒法玩了,以及沒法直接比較confidence,例如某個視頻只有一個關鍵詞召回,這個敢信么,或者根據關鍵詞講了好多主題,最后選了一個標簽,這種敢信么。
關于confidence主要考慮
b.帶權重的softmax的具體做法:
- 接著a的邏輯,首先對第一層大分類的分數,做softmax分類,也就得到屬于第一層的不同標簽的概率P(FIRST_LEVEL);
- 然后在用乘以第二層的分數,再經過一層softmax,也即是P(SECOND|FIRST)的條件概率,這樣就得到在某一個視頻內容各個第二層標簽的概率;
- 接著在乘以關鍵詞的權重,就得到最后某個標簽的概率。
總之希望最后二級標簽是大類分數越高越好,二級標簽分數越高越好,關鍵詞絕對數越多越好,這樣視頻意味整體語義就是比較清晰,單一,而且涉及到文字都被事先涉及的字典囊括,且數量非常多,這種是最靠譜的。比較頭疼遇到講的主題特別多,這種錯誤率也比較大。或者是僅憑1-2個關鍵詞就斷定是某個分類的(也就是字典不完善)。
目前根據這種做法準確率可以達到70%左右,召回率80%左右。
3.最近又在做第二版的標簽:
第一版的標簽定義太著急,導致很多東西沒法考慮,有些資料是在項目快完結時候才到的, 所以重新做了一版標簽體系。
現在有了一些新的總結:1.標簽定義可以參考YouTube的 topic, 2.做標簽前面已經總結了用字典的方式可以去搞定一些,但是標簽體系一旦到了一定規模 上百 估計就很難 用字典能分個七七八八了,這時候一定要想到怎么去找出自動化找出一批樣本,不管是競爭廠商還是哪里,一定是自動化找出。如果用人力標,成本非常貴,導致后期機器學習的樣本成本非常高。所以如果設計一個自動收集的機制就顯得挺考驗產品的能力。
現在有些初步的思路,1.通過用label的關鍵詞去大廠如果YouTube 去爬去相關的視頻,作為訓練的語料,2.通過用戶的行為數據,如標記專家用戶、或者圖之類的算法去挖掘。3.從產品層有沒有辦法做一個隱式的機制去搞定呢?
總結
以上是生活随笔為你收集整理的标签类目 知识图谱_短视频标签体系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信公众号代运营机构靠谱吗?
- 下一篇: Java如何计算年龄