抖音推荐机制与算法探讨
通過數據的分析,我們發現在傳播效果方面,抖音>小紅書>微信朋友圈>新浪微博。究其原因是內容分發的邏輯存在非常大的差異。
-
微信朋友圈、新浪微博:訂閱模式,用戶僅能看到好友或關注者的信息
-
抖音、小紅書:非訂閱模式,用戶可以看到個除關注用戶以外的其他內容
微信雖然可以通過轉發傳播,但是在轉發意愿度層面會消弱傳播效果。朋友圈轉發困難度較大,很難進行二次傳播。而非訂閱模式的抖音模式通過算法機制,可以將內容一次次的推送給潛在感興趣用戶,致使內容可以大面積的廣泛傳播。
-
從創作者角度:只需內容足夠“優秀”,就能獲得很好的分發機會
-
從普通用戶角度:無需尋找信息源也能獲取“優質”的內容
關于抖音的分發推薦機制參考字節跳動旗下的“中視頻平臺”西瓜視頻的推薦機制介紹。
西瓜視頻的推薦機制
要了解推薦機制,首先我們要了解觀眾。每個觀眾的觀看興趣都是大不相同的,個性化推薦機制要做的事情就是讓每位用戶看到可能感興趣的內容。這種精準推薦,是建立在機器對每位用戶都有充分認知的前提下的。在機器中,每位用戶實際是由大量數據構成的,用戶的觀看興趣就藏在這些數據中。不同數據對用戶興趣計算所占權重不同,數據包括:
-
性別、年齡、所處城市;
-
關注的帳號、常瀏覽的頻道、關注的話題;
-
觀看過的視頻分類和關鍵詞;
-
相似類型的其他用戶還喜歡觀看的其他視頻類型;
-
….
推薦系統的本質,就是從一個海量的內容池里,為觀眾匹配出少量感興趣內容。為了給用戶提供他們喜歡的內容,或者理解用戶的需求,平臺有很多角度可以去刻畫一個用戶的畫像,比如,年齡、性別、歷史瀏覽的文章、環境特征等;同時,利用先進的AI技術對內容進行分門別類。緊接著,推薦機制就像一座“橋梁”,連接觀眾和內容,將內容源源不斷地推送到感興趣的用戶面前。這座“橋梁”有兩個特點:
-
興趣匹配:觀眾的觀看類型與內容分類重合度最高,被系統認定最可能對該內容感興趣。
-
分批次推薦:首先會被推薦給一批對其最可能感興趣的觀眾,這批觀眾產生的數據,將對內容下一次的推薦起到重要作用。
視頻的首次推薦,如果點擊率低,轉評贊不高,系統認為視頻不適合推薦給更多的用戶,會減少二次推薦的推薦量;如果點擊率等數據高,系統則認為視頻受用戶喜歡,將進一步增加推薦量。以此類推,視頻新一次的推薦量都以上一次推薦的點擊率等數據為依據。例如,一個視頻首次推薦給了1000個用戶,如果這批用戶的點擊率、完播率等較高,系統判定用戶非常喜歡這篇視頻,將其擴大推薦給10000個用戶,如果這輪推薦用戶的點擊率、完播率等仍然維持在較高水平,那么系統會將視頻再次擴大推薦給30000個用戶、50000個用戶、100000個用戶……推薦量和播放量便如滾雪球一般節節攀升。因為這種擴大推薦的機制,創作人想獲得更多的播放量,就必須努力把各維度閱讀數據(點擊率、用戶播放時長、收藏數、評論數、轉發數等)維持在高位水平。這就要求視頻:
-
標題和封面圖具有足夠的吸引力、表意清晰,提高點擊率;
-
視頻內容優質,剪輯解說俱佳,提高用戶播放時長和播放完成度;
-
內容詳實,給觀眾干貨般的充實感,提高收藏數和用戶播放時長;
-
觀點鮮明,引發觀眾討論,增加評論數和轉發數。
其中,至關重要的當然是點擊率,完播率,轉評贊等,也因此,標題和封面圖的重要性便不言而喻。這也是今天注意力稀缺時代,播放獲得好的傳播的關鍵要素。有吸引力的標題能帶來更多點擊,但這不意味創作人要成為慣用夸張標題的標題黨。恰恰相反,標題黨反而會被平臺通過技術手段識別和打壓,限制推薦量。除了標題夸張,用戶舉報密集、負面評論過多都是限制播放推薦量的因素。歸根結底,一個作品能否獲得更多推薦最終取決于內容質量,好的內容才能帶來流量的長效增長。
從西瓜視頻到抖音短視頻
關于抖音的分發機制完善流傳著這樣一份的流程圖,整體流程和上面的西瓜視頻的介紹的推薦邏輯類似。后續我們就根據下面的流程進行深入的研究與分析。
檢測機制
在抖音,每天有數量龐大的新作品上傳,需要對一些內容進行過濾,從目前公布的內容看,檢測主要集中在:
-
去重檢測:抽幀檢查視頻是否存在搬運、抄襲問題
-
違禁檢測:字幕、標題中是否涵蓋違禁詞匯,有無裸露
-
版權檢測:音樂版權是否侵權,大陸有無版權問題
如果純靠機器可能存在一些誤判,人工一一確認又不太現實。所以采用機器檢測和人工檢測的結合。
機器審核:一般是通過提前設置好的人工智能模型來識別你的視頻畫面和關鍵詞,它主要有兩個關鍵作用:
-
審核作品、文案中是否存在違規行為,如果疑似存在,就會被機器攔截,通過飄黃、標紅等提示人工注意;
-
通過抽取視頻中的畫面、關鍵幀,與抖音大數據庫中已存在的海量作品進行匹配消重,內容重復的作品進行低流量推薦,或者降權推薦(僅粉絲可見、僅自己可見)。
-
有沒有出現廣告、有沒有帶水印或者LOGO、內容是否裸露、不雅、血腥等
人工審核:主要集中在3塊:視頻標題、封面截圖和視頻關鍵幀。
-
針對機器審核篩選出疑似違規作品,以及容易出現違規領域的作品,抖音審核人員進行逐個審核。
-
如果確定違規,將根據違規賬號進行刪除視頻、降權通告、封禁賬號等處罰。
通過檢測是邁向內容分發的第一步,如果第一步沒通過則相當于被關進了小黑屋。違規檢測相對來說比較容易規避。版權檢測,特別是音樂版權有時不清楚自己使用的音樂是否合規,保守方案是使用抖音上目前熱門視頻所使用的音樂。去重檢測其實是一個很容易誤觸的機制,特別是一些模仿性質的內容,可采取的方案是更換不同的背景、角度、服裝等。錄屏性質的視頻非常的特別特別容易觸發去重檢測,取而代之的是攝屏的方式,攝屏是可以采取不同的背景和角度,但需要注意的是保證攝屏時的清晰度。
賽馬機制
抖音的算法其實是一個賽馬機制。簡單的說就是先將視頻推薦給小部分人群,收集這部分數據的表現情況,再將表現好的視頻分發到更大的范圍。
所以抖音流量的增長方式并不是線性的,增長曲線更多類似:
從目前了解的資料看,抖音的賽馬機制總共有三種方式:
-
初級分發:通過機制確認無違規后由附近的人/關注/好友/標簽組成的初級分發流量池
-
通訊錄好友:提取你的手機電話通信錄中的手機號碼,將電話號碼上傳到抖音服務器,匹配好友。
-
共同聯系人:類似QQ共同聯系人推薦,抖音也會使用共同聯系人進行關系綁定
-
以前還有通過抓取微信好友關系鏈的,后來好像被騰訊告了
-
-
多級推薦:根據初級流量回饋評分達到算法設定的分值進入下一級流量池推送
-
熱門推薦:根據熱門推薦算法結合先前流量回饋評分選取優秀視頻進行人工審核,做精熱門推薦,審核的范圍可能包括
-
搬運、非原創視頻:含有其他平臺水印、視頻ID與上傳ID不符、明顯盜錄內容
-
低質量視頻:內容物故事性、完整度差、視線模糊
-
廣告營銷:明顯的廣告營銷類型信息
-
隱性風險:出現標題黨、危險動作、令人不適元素等高危內容
-
未授權明星/影視賽事類視頻:視頻內容侵權
-
以下是網友通過數據的整理的大致抖音流量池分級情況:
-
首次曝光,300左右播放量
-
二次曝光,3000左右播放量
-
三次曝光,2~1.5W左右播放量
-
四次曝光,10~12W左右播放量
-
五次曝光,40~60W左右播放量
-
六次曝光,200~300W左右播放量
-
七次曝光,700~1100W左右播放量
-
八次曝光,3000W+播放量
流量觸頂
抖音作品經過雙重審核、初始推薦、疊加推薦層層引爆之后,通常會給賬號帶來大量的曝光、互動和粉絲。而這種高推薦曝光的時間,一般不會超過一周。之后,爆款視頻乃至整個賬號會迅速冷卻下來,甚至后續之后發布的一些作品也很難有較高的推薦量。主要原因:
-
抖音每天的日活是有限的,也就是說總的推薦量是基本固定的,需要把機會盡可能的給到更的創作者
-
與你內容相關標簽的人群基本完成推薦,其他非精準標簽人群反饋效果差,所以停止推薦
-
抖音也不希望某個賬號僅通過一個視頻就大火,而是期望你能持續不斷的輸出優質內容
推薦機制
單有賽馬機制對于抖音來說還不夠,抖音想要的提升的用戶的觀看體驗,最重要的是將合適的內容推薦給合適的用戶。想了解抖音的個性化推薦算法先從數據角度進行分析,以下是抖音前端返回的數據:
視頻信息:
-
aweme_id:視頻ID
-
desc:視頻描述
-
create_time:創建時間
-
height:視頻高度
-
width:視頻寬度
-
dynamic_cover:動態封面
-
ratio:清晰度
-
has_watermark:是否有水印
-
bit_rate_gear_name:碼率清晰度(視頻清晰度可能影響視頻評分?)
-
quality_type:質量類型
-
bit_rate:視頻比率
-
is_h265:是否為H265視頻
-
duration:時長
-
user_digged:作者自己點贊
-
allow_share:是否允許分享
-
allow_comment:是否允許評論
-
with_goods:包含商品
-
is_top:是否置頂
-
is_vr:是否VR視頻
-
is_ads:是否廣告視頻
-
risk_infos:風險信息
-
position:位置
-
is_pgcshow:是否PGC內容
-
interaction_stickers:互動貼紙
音樂信息:
-
id:音樂id
-
title:音樂標題
-
author:音樂作者
-
album:音樂專輯
-
cover:音樂封面
-
duration:音樂時長
-
has_edited:音樂是否被編輯過
-
user_count:使用人數
-
collect_stat:收藏人數
-
owner_id:作者id
-
owner_nickname:作者昵稱
-
is_original:是否原創
-
binded_challenge_id:綁定挑戰賽
-
strong_beat:節拍數據(可繪制波形圖)
-
is_commerce_music:是否商業音樂
-
is_original_sound:是否原聲
-
shoot_duration:視頻使用時長
用戶信息:
-
nickname:創作者昵稱
-
avatar:頭像
-
signature:簽名
-
total_favorited:總獲贊
-
fans_count:粉絲數
-
following_count:關注數
-
dongtai_count:動態數
除了這些基礎的信息外,針對推薦系統,通常最需要獲取的是用戶的行為數據:
-
who,唯一的用戶標識
-
when,具體時間
-
where,地理位置
-
what,交互的內容(包括上面的使用、音樂和創作人)
-
which ,用戶的行為(上滑、下滑,左滑、右滑、點贊,關注,點評……)
-
environment,網絡環境、運營商畫像、設備品牌型號…
推薦系統一般有以下四個部分組成:
-
用戶畫像,系統根據用戶基本屬性(比如:性別、年齡、學歷等)、興趣愛好(比如:科技、娛樂、體育、金融等)等數據集,然后給用戶定義相關的標簽。
-
內容畫像,系統根據內容的層級分類、關鍵詞、實體詞等分析出特點,給各類內容打上相關的標簽。
-
用戶與內容匹配,有了用戶標簽和內容標簽之后,系統根據用戶畫像、內容畫像,在內容池里面匹配出用戶喜歡的內容然后展示出來。
-
推薦排序,系統要面對數億級的用戶和內容,同時還要考慮用戶的喜歡會不斷的發生改變,為了讓挑選的內容更加的貼近用戶想要的、更加符合用戶喜歡,系統需要對內容進行排序。
做常見的推薦算法為協同過濾,協同過濾算法通常會被分為兩大類:
-
基于物品的協同過濾:分析用戶喜歡過的內容;找到與該內容相似的內容,推薦給用戶。
-
基于用戶的協同過濾:找到這個用戶相似的目標群體;把該群體用戶喜歡過的內容推薦給這個用戶。
對于抖音來說,每天產生的視頻非常的多,如果抖音使用基于物品的協同過濾算法做推薦,則需要對平臺的每條內容做相似度計算,除了需要識別視頻畫面中出現的物品以及他們之間的關系外,還要識別視頻的背景音樂、臺詞。顯然,對于以視頻為主要內容的抖音來說,選擇這種推薦算法是極其不明智的。如果使用基于用戶的系統過濾算法取推薦算法就不必知道某條內容是什么,只需要看到某一群人都喜歡這條內容就可以把這群人歸到同一類人里。嚴格意義上說,抖音給用戶的打的并不是具體的屬性標簽,而是類似聚類出來的一個ID。
以上介紹的知識最初級的推薦算法的邏輯。抖音的多級流量池,實際是基于上一級流量池的響應數據利用類似Lookalike 算法去擴大用戶群。
抖音的算法并不會僅僅像上面介紹的一樣,中間還需要考慮非常多的其他場景和因素。比如初級分發,其實就是推薦算法中的冷啟動問題。對于一個全新的視頻無法通過系統過濾的方式給推薦出去。退而求其次的方式是給視頻和用戶打上標簽屬性,再通過標簽的匹配篩選做可能的用戶做打樣。中間又涉及到兩個問題:
-
如何給視頻打標簽
-
如何給用戶打標簽
如何給視頻打標簽?
-
視頻添加的標簽hashtag
-
視頻的標題內容,通過對視頻標簽進行文本分析確定。
-
視頻內容中可能出現的字幕、語言內容轉化成文字后的文本提取?(這個實現起來較難,不確定)
-
視頻發布者歷史發布的內容類別
-
…
基于以上大概能給一個視頻初步的分類。
一般推薦系統的分類都要按照層級進行劃分的,如下圖:
如何給用戶打標簽?
-
通過歷史用戶操作反饋的,基于歷史反饋的視頻的標簽統計匯總用戶信息
-
通過閾值篩選用戶感興趣的標簽
引申話題:如何讓冷啟動更有效?
-
發布賬號盡可能的有明確的定位
-
視頻標題有出現關鍵字,而不僅僅是一些吸引眼球的無關內容或文青式的話術
-
給視頻打上合適的hashtag
-
超過300以上的活躍關注者(粉絲多更容易拉高互動數)
二次引爆
除了以上正常的流量池流程外,抖音還有兩種額外的情況:
-
再發一遍就會火:出現這種情況的可能原因是冷啟動階段,你的視頻內容被推薦給了錯誤的目標用戶,這部分用戶對視頻的反饋比較低,導致沒有進入多級推薦。再次上傳后目標用戶得到修正。
-
老視頻莫名奇妙火:可能你的視頻前期匹配的用戶群不夠精準,導致未達到推薦閾值。但隨著時間推移,視頻點贊率等都突破了一定之觸發了重新推薦機制。
考核機制
短視頻想要進入下級流量必須滿足一定的指標要求,并且由于流量池越開越大,響應的匹配精度越低,平臺想要控制整體內容的滿意度,對于指標的要求也會越來越高。抖音推薦算法中的賽馬機制主要看中的視頻指標由以下部分組成:
-
賬號分值:
-
完成度:頭像、昵稱、簽名、性別、其他資料
-
健康度:內容質量、話題專業度(歷史視頻表現?)
-
認證:是否達人認證
-
-
視頻分值:通過算法加權?
-
完播率
-
點贊率
-
評論率
-
分享率
-
轉粉率
-
如何評級視頻質量的好、中、差?
-
完播率:盡量控制15-40秒,太短抖音嫌棄,太長用戶耐心不夠劃走。選擇優秀的歌曲可能保證完播率(用戶想把歌聽完)
-
0-10%——較低
-
10%-30%—— 一般
-
30%以上——較好
-
-
作品平均播放時長:前3秒是關鍵!抓人眼球,多留懸念、反轉、梗。讓粉絲帶著期待堅持看完。
-
3秒以下——較低
-
3-7秒—— 一般
-
7-15秒——較好
-
15秒以上——很好
-
-
互動率:開頭和結尾的設計很關鍵,打造獨特的”記憶點”,可以引導粉絲點贊留言。
-
點贊率:5%以上
-
評論率:1%以上
-
轉發率:5%以上
-
-
吸粉率:有趣又有用的內容,是吸粉關鍵。
-
1%以上
-
什么樣的視頻有爆款潛質?
通過數據統計得到的結論:
-
完播率:30%以上
-
點贊率:10%以上
-
評論率:5%以上
-
分享率:1%以上
所以,一個作品發出后,基本前面一兩個小時,或者30分鐘左右,就能預測到是否會火了。如果1小時之內,播放量突破5000,而點贊量能大于100,評論數大于10,那么,得到系統推薦的機率就大很多了,基本上離熱門也不遠了。
總結
以上是生活随笔為你收集整理的抖音推荐机制与算法探讨的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MATLAB-M文件
- 下一篇: 一个简单的用Python写抽奖程序