三个人BERT了一下,从腾讯广告拿走50万冠军奖
金磊發自凹非寺
量子位報道公眾號 QbitAI
憑著 BERT,這三個人拿下了 7 萬美元(近 50 萬人民幣)的巨額賽事冠軍獎。
這就是2020 騰訊廣告算法大賽的終極戰果——這支名為DYG的戰隊,從萬名選手中一路披荊斬棘,最終斬獲冠軍。
從左至右:騰訊廣告副總裁蔣杰,「DYG」隊王賀、郭達雅、梁少強
冠軍隊伍 DYG 共由三名成員組成,分別是:
-
武漢大學計算機碩士、算法工程師,王賀。
-
中山大學-微軟亞洲研究院聯合培養博士,郭達雅。
-
NLP 相關從業者,梁少強。
騰訊廣告算法大賽自 2017 年開展首屆以來,每年都會吸引來自世界各地的技術高手參加。
盡管今年遭遇疫情沖擊,但本次騰訊廣告算法大賽依然吸引到了超1,000 所國內外院校、3,000 多家企事業單位的11,000 人報名參與,規模超過同期其他算法大賽 2 倍之多,火熱程度可想而知,目前已經成為了全球最受矚目的頂級算法賽事之一。
而騰訊廣告算法大賽能有如此魅力,靠的不僅僅是獎金,更是源于基于其真實場景的賽題、海量的數據、免費的超強計算資源,還有對人才的極力重視。
稀疏數據下也能精準預測,BERT 效用驚人
由騰訊廣告主辦的騰訊廣告算法大賽,已經邁入第四個年頭,而今年的比賽在多個層面上都得到了進一步升級:
-
獎金方面,今年的獎金池擴大到了百萬級別,冠軍隊伍將斬獲 7 萬美元(近 50 萬元人民幣)的高額獎金,亞軍和季軍隊伍也能分別獲得 1 萬美元和5,000 美元,而其余進入決賽圈的十強隊伍也分別能獲得1,000 美金的獎勵。
-
評委方面,陣容比去年有了更大升級,外部評委包括微眾銀行首席 AI 官楊強、清華大學計算機系教授唐杰、北京大學算計系副主任崔斌、大數據與人工智能專家劉鵬;內部評委包括騰訊廣告副總裁蔣杰、騰訊公司副總裁王巨宏、騰訊廣告副總經理楊毅果、騰訊云副總裁黃世飛等騰訊高管。在決賽現場,騰訊廣告算法大賽組委會還邀請到了騰訊數據平臺部副總經理劉煜宏、英特爾全球大客戶總監米琦、騰訊云產品部 AI 基礎產品中心總經理徐曉敏,以及多位技術高管蒞臨現場指導。
-
資源支持方面,騰訊廣告算法大賽引入了更多的合作伙伴,聯合了騰訊云 AI、騰訊大數據、騰訊招聘、騰訊高校合作以及英特爾舉辦。與此同時,騰訊會議為大賽全程提供遠程協同、線上會議及直播等服務,英特爾和騰訊云智能鈦機器學習平臺 TI-ONE 共同支持 AI 算法平臺,大賽同時推薦使用針對稀疏高維模型優化的 Angel 訓練框架。
除此之外,賽題本身因其挑戰性和趣味性也成為了一道別樣的風景線——首次采用「逆向思考」賽題:「廣告受眾基礎屬性預估」。
根據騰訊廣告真實業務的脫敏數據,利用機器學習的技術,在用戶數據稀疏的情況下,實現精準預測用戶屬性。
可以說,這樣的賽題具有很強的現實意義——既能保證用戶的數據隱私安全,又能解決投放中廣告主自有數據稀疏的實際問題。
也正如騰訊廣告副總裁蔣杰所說:
數據隱私和冷啟動問題,是行業所面臨的共性問題。
那么面對這樣的挑戰,參賽選手又是如何解決的呢?
斬獲第一名的「DYG」戰隊給出了一個清晰的解法——BERT。
BERT 是由谷歌提出,與自然語言處理相關的技術,并且至今還在不斷迭代優化。
「DYG」贏得比賽的關鍵點,就是將 BERT 應用到預訓練模型(基礎屬性預測場景)之中。
此外,「DYG」還提出了「融合概率分布」的方法及模型,利用多層 Transformer 融合概率分布及 BERT 的語義表示,有效地提升了性能。
「DYG」也憑著 BERT 一路披荊斬棘,在A榜、B榜成績中都拿下了第一的名次。
獲得亞軍的「山有木兮」團隊也曾想在預訓練模型階段直接采用 BERT,但是考慮到訓練時長、調試成本等因素,最終換了一種方式——仿 BERT,實現分層次的標簽信息注入,再通過 Target Encoding、多模型融合等操作不斷刷新比賽成績,最終取得了本場比賽的第二名。
而排名第三至十名的隊伍中,雖然也有隊伍表示曾考慮采用 BERT,但面對計算量的問題,最終采用的還是常用的 LSTM 等技術。
對此,蔣杰在量子位的采訪中表示:前兩名隊伍的計算量其實并不大,這是因為他們在做完 embedding 之后,對整個參數進行了一次強壓縮,也就是說,已經做過了一次篩選。
嗯,BERT,真香!
無論是人力、物力,還是財力、精力,騰訊廣告每年在這個大賽的投注不菲,而且今年疫情之下,難度更上一層樓。
那么問題來了。
騰訊廣告為什么每年「重金」舉辦算法大賽?
人才,人才,還是人才。
本屆騰訊廣告算法大賽,除了高達百萬的獎金池之外,還有一個特別亮眼的「福利」:
面試直通車——優秀團隊可以獲得免筆試資格。這樣的案例過往不在少數,而對于今年面臨就業難的應屆生來說,通過技術比賽入職騰訊,是一個極具誘惑力的橄欖枝。
也就是說,每年重金舉辦算法大賽,背后是騰訊廣告對算法人才的「求賢若渴」。
正如蔣杰在采訪中表示:
歡迎這些拿到好名次的選手,明年能夠繼續參加算法大賽。我們也期待有更多的選手能通過算法大賽入職騰訊。
今年騰訊廣告算法大賽報名人數已經高達 11,000 人,這種規模的算法比賽,在全球范圍來看也是頂級的。
然而,蔣杰帶領下的騰訊廣告并不滿足于此:
要吸引更多的人才,就需要更大的吸引力。
明年的賽事依然會持續升級,獎金池只會增加不會減少。
通過算法比賽網羅天下英才,打造一個技術交流和分享的平臺,是騰訊廣告持續四年舉辦騰訊廣告算法大賽不變的初衷。
當然,對人才如此重視的騰訊廣告,對技術的探索并不只局限于騰訊廣告算法大賽這一項年度技術盛事。
在今年的 6 月 2 日,新一年的「騰訊廣告犀牛鳥專項研究計劃」正式啟動。
這是騰訊廣告在產學研合作計劃中的重要項目之一:
該項目面向全球高校全職學者或科研機構的全職研究人員,旨在開放騰訊廣告業務中的技術挑戰,搭建產學研合作平臺,共同探索影響廣告技術長遠發展的前沿問題,并培養優秀人才。
從 2018 年開始,每年一次的騰訊廣告「犀牛鳥專項研究計劃」也得到了海內外學者的廣泛關注和積極參與——已有 20 余所高校通過層層篩選,開啟和騰訊廣告的專項合作,面向廣告真實問題與業務實際需求,與廣告研發團隊開展密切的科研協作。
今年的「犀牛鳥專項研究計劃」,圍繞機器學習、推薦系統、自然語言處理三大技術領域話題設立八大研究命題。某種程度上也映射著騰訊廣告著重發力的技術探索方向。
當然,騰訊廣告在這項計劃中也給出了「福利」:
金額超百萬的研究基金支持。
將向參與專項研究計劃的師生開放實驗環境。
赴騰訊實習的寶貴機會,在研發人員和學校導師的共同指導下開展研究工作。
此外,騰訊廣告聯合騰訊高校合作搭建學界和產業界的直播活動——Wiztalk,也同步以淺顯易懂的口吻,面向營銷人及技術人員分享歷年犀牛鳥專項合作成果。
正如蔣杰所述:
從 2011 年的廣點通團隊一路發展至今,騰訊廣告的技術毫無疑問屬于第一梯隊的行列。但我們肯定不會止步于此,更需要以一種求索的態度去探索最前沿的技術命題。而算法大賽就是一個絕佳的方式。
人才是騰訊最寶貴的財富。只有讓更多的人才加入騰訊,來到騰訊廣告,才能讓騰訊廣告平臺能力和技術能力得到持續的提升。
AI 變革下的騰訊廣告
實際上,如果對「算法」和「鵝廠」有所關注,應該對這場影響力越來越大的比賽以及背后的騰訊廣告,不會太陌生。
在去年騰訊廣告算法大賽落幕現場, 不少人也感嘆:
騰訊廣告,可能是一個被低估的騰訊 AI 業務。
廣告目前是最為成熟的互聯網商業化模式。而騰訊作為一家國內數一數二的互聯網公司,廣告業務在商業化的技術探索上也走在行業前列:
有 AI 亟需的百億維數據,有復雜多元的效果轉化鏈路能夠源源不斷地提出新的挑戰,更有可以不斷產生效果和反饋的行業應用場景。
一言以蔽之,AI 在廣告業務中,能夠找到最合適的用武之地。
而今年,這種特征變得更加顯性。
今年年中的「騰訊廣告 2020 年中秀·營銷大變局」線上峰會上,騰訊廣告提出了它的全新定位——商業服務中臺。
根植于騰訊獨有的 C to B「超級連接」體系,騰訊廣告首次系統化提出了全鏈路數字化營銷四大連接模型,即品牌心智連接、交易轉化連接、私域用戶連接和體驗創新連接。
這個模型定位于騰訊面向企業的商業服務中臺,并聯動全平臺資源和生態合作伙伴共同助力企業實現全鏈路數字化營銷轉型,更好地實現用戶與商業的連接。
在去年年底擔任騰訊廣告副總裁之前,2012 年入職騰訊的蔣杰已經是騰訊數據平臺部總經理及騰訊智慧零售產研副總裁,但他在采訪中一直自謙自己是一個「廣告新人」。
他在加入騰訊廣告之后,大刀闊斧地實現了多項整合工作,將投放端及 API 生態實現多端統一和升級,并以此推動了數據能力、策略能力等多個維度的技術整合。
從「用戶理解」、「用戶觸達與影響」及「用戶轉化與運營」三大環節,蔣杰所負責的騰訊廣告技術業務,也將為企業的全鏈路數字化營銷提供全面支撐。
他總結道:
騰訊廣告的產品和技術愿景旨在連接用戶與商業,驅動交易全鏈路的用戶增長,讓技術為商業創造更大的價值。
但騰訊廣告的中臺,并不是「自上而下」高屋建瓴地進行規劃,也不是先喊出一個「中臺」的口號,再逐步進行建設的。
蔣杰認為:
中臺是在服務業務的過程中一步步沉淀出來的。騰訊廣告把「中臺思想」貫穿到每一次對廣告主的服務當中。
廣告鏈路很長,騰訊廣告需要在全鏈路上的每個環節都要實現技術突破,基于全鏈路的優化,也將是騰訊廣告的技術團隊的一場持久戰。
而在這一點上,騰訊廣告并不會以犧牲用戶隱私為代價,相反,騰訊廣告一直貫徹騰訊「用戶為本,科技向善」的愿景與使命,將用戶隱私的保護放在最重要的位置上。
本次算法大賽的題目也是基于用戶隱私的保護而設立,希望能通過對用戶數據特征的深度理解,在合法合規的基礎上提高廣告業務的投放精準度,在保障用戶隱私的前提下最大化用戶體驗。
這也正是騰訊廣告每年不惜重金舉辦如此大規模的算法大賽,且對算法人才如此渴求的原因所在。
人才渴求、技術重視,也進一步轉換為業績。
在疫情影響下的 2020 年第一季度,騰訊網絡廣告業務的收入同比增長 32%,至人民幣177. 13 億元,社交及其他廣告收入增長 47%至人民幣145. 92 億元。
騰訊廣告業績堪稱逆市上漲。而騰訊市值也隨著創下新高。
「美好連接,智慧增長」, 這是騰訊廣告的品牌主張。
我們也相信,像騰訊廣告算法大賽這樣難得的技術交流平臺,能夠為騰訊廣告以及騰訊輸送更多的人才,讓用戶和廣告在美好的場景下自然相遇,讓互聯網的商業化路徑變得更加智能和智慧。
—完—
總結
以上是生活随笔為你收集整理的三个人BERT了一下,从腾讯广告拿走50万冠军奖的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 抽烟会让男性丢失Y染色体吗?
- 下一篇: 本田、福特等多款轿车在美停产!丰田表态不