林绪虹:看好QoE、音视频内容理解与AV1
還記得你在大學(xué)時(shí)候的夢(mèng)想嗎?職場(chǎng)上打拼多年,你的工作領(lǐng)域與你之前的專業(yè)還有多少相關(guān)?技術(shù)、行業(yè)與時(shí)代的洪流將一些人推上人生巔峰,又把一些人無(wú)情的拍向谷底。LiveVideoStack郵件采訪了YY音視頻算法中心負(fù)責(zé)人林緒虹,從直播領(lǐng)域的起伏聊到時(shí)代,從學(xué)習(xí)方法聊到技術(shù)趨勢(shì)。
策劃 / LiveVideoStack
LiveVideoStack:林緒虹你好,能否簡(jiǎn)要介紹下自己,包括目前的主要工作及關(guān)注領(lǐng)域?
林緒虹:我2004年本科和2007年碩士畢業(yè)于華南理工大學(xué),一直從事圖像處理、圖像搜索、視頻摘要等相關(guān)研發(fā)工作,擅長(zhǎng)圖像、視頻、信號(hào)處理領(lǐng)域的技術(shù)研發(fā)。2012年加入歡聚時(shí)代(YY),現(xiàn)任職于音視頻算法中心,負(fù)責(zé)音視頻直播方案相關(guān)研發(fā)工作,包括重構(gòu)直播體系、直播體驗(yàn)提升、音視頻直播質(zhì)量改進(jìn)等。
我對(duì)音視頻編解碼、視頻內(nèi)容分析與理解、圖像處理等領(lǐng)域有著深厚的興趣,近期目標(biāo)是把YY的音視頻直播質(zhì)量重新打造成世界領(lǐng)先水平,重塑YY直播高品質(zhì)、低延時(shí)的技術(shù)能力,保持YY技術(shù)上的核心競(jìng)爭(zhēng)力。
LiveVideoStack:為什么進(jìn)入“多媒體開(kāi)發(fā)”領(lǐng)域?有哪些偶然和必然?
林緒虹:回頭看自己的發(fā)展歷程,從個(gè)人角度來(lái)看更多的是偶然,但是放在行業(yè)的角度來(lái)看,則是一種產(chǎn)業(yè)升級(jí)后的必然。
從早年一直從事傳統(tǒng)工科的圖像信號(hào)處理,就業(yè)面窄、解決問(wèn)題單一,到后來(lái)陰差陽(yáng)錯(cuò)走入互聯(lián)網(wǎng)做圖像搜索、視頻檢索,隨著直播浪潮的涌起,自然而然就逐步踏入音視頻編解碼崗位。每次面對(duì)這樣的轉(zhuǎn)變,都面臨著大量新的知識(shí)、工具需要學(xué)習(xí),短時(shí)間內(nèi)是非常有壓力的,但是自己一直能從容應(yīng)對(duì)這種壓力。能從容面對(duì)這樣的轉(zhuǎn)變,一方面是自己具備這方面的學(xué)科基礎(chǔ)知識(shí)和濃厚興趣,能夠順利地轉(zhuǎn)型成功,另一方面,也是產(chǎn)業(yè)升級(jí)后,迫使自己往人才缺口更大的崗位轉(zhuǎn)移。
同樣的故事,我看到也發(fā)生在很多自己身邊的朋友里。早年從事傳統(tǒng)圖形學(xué)產(chǎn)品的同學(xué)、朋友,現(xiàn)在也轉(zhuǎn)入互聯(lián)網(wǎng)做一些更貼近用戶的圖形學(xué)產(chǎn)品;早年從事媒體報(bào)道的朋友,也轉(zhuǎn)戰(zhàn)進(jìn)入互聯(lián)網(wǎng)運(yùn)營(yíng)自己的公眾號(hào)、網(wǎng)站等。在這樣的技術(shù)革命浪潮下,擁抱這種變化,將會(huì)迎來(lái)更大的機(jī)遇。所以,這樣的選擇也就成了一種必然。
LiveVideoStack:搞多媒體開(kāi)發(fā)需要學(xué)習(xí)大量的基礎(chǔ)知識(shí),而且需要在實(shí)際工作中摸爬滾打。對(duì)于學(xué)習(xí)多媒體開(kāi)發(fā),您有哪些建議?能否推薦一些多媒體開(kāi)發(fā)相關(guān)的學(xué)習(xí)資料或書(shū)籍。
林緒虹:現(xiàn)在搞多媒體開(kāi)發(fā)的工程師,真正屬于該專業(yè)科班出身、根正苗紅的工程師,比例并不高。我看到周圍,反而大量的是當(dāng)年學(xué)習(xí)機(jī)械、電信、自動(dòng)化專業(yè)的同學(xué),在從事這一行業(yè)。
為什么會(huì)有這一奇怪的現(xiàn)象呢?因?yàn)槎嗝襟w開(kāi)發(fā),尤其是視頻編碼、音頻編碼,其實(shí)需要大量的信號(hào)處理知識(shí)作為理論基礎(chǔ),才能做到知其所以然。補(bǔ)充這一部分的知識(shí),可以看一些非常經(jīng)典的書(shū)籍,尤其是需要對(duì)頻域變換知識(shí)做到深入的理解。
在理解了信號(hào)處理的基礎(chǔ)知識(shí)后,就可以讀一些專門(mén)的編解碼相關(guān)的書(shū)籍,如果是想在視頻這一塊有所深入,可以讀一讀楊付正的《新一代高效視頻編碼H.265/HEVC:原理、標(biāo)準(zhǔn)與實(shí)現(xiàn)》,以及早些年畢厚杰的《新一代視頻壓縮編碼標(biāo)準(zhǔn)—H.264/AVC》。這些都是挺不錯(cuò)的經(jīng)典參考書(shū)籍,我們團(tuán)隊(duì)幾乎人手一本。先把這些書(shū)讀上幾遍,把其中的技術(shù)原理搞懂。
在補(bǔ)充完這些基礎(chǔ)知識(shí)后,就可以開(kāi)始進(jìn)行大量的實(shí)戰(zhàn)練習(xí)。從事這一行業(yè),知識(shí)龐雜、細(xì)節(jié)繁多,一定要努力抓住主干脈絡(luò),在成長(zhǎng)中學(xué)習(xí),重視動(dòng)手能力的鍛煉。有了音視頻的理論基礎(chǔ)知識(shí)還不夠,還需要有編碼的實(shí)戰(zhàn)能力,而鍛煉這個(gè)能力,我覺(jué)得找一些大項(xiàng)目參與開(kāi)發(fā)、動(dòng)手做練習(xí)是最關(guān)鍵的。在做項(xiàng)目的過(guò)程中,把所有奇怪的坑都填一遍,水平自然就上來(lái)了。
接下來(lái)進(jìn)一步的提高,就需要關(guān)注網(wǎng)上相關(guān)專業(yè)廠商的動(dòng)態(tài),多多學(xué)習(xí)他們?cè)趯?shí)際中是如何把音視頻編解碼技術(shù)用到極致的,多觀察他們?cè)趯?shí)際中使用了哪一些有趣的方案或是技術(shù)、解決了哪一些特定的問(wèn)題。
LiveVideoStack:為什么要重構(gòu)YY的直播系統(tǒng)?這里有哪些歷史原因,又遇到了哪些來(lái)自業(yè)務(wù)的挑戰(zhàn)?
林緒虹:重構(gòu)YY直播系統(tǒng)的動(dòng)力,就是來(lái)自于業(yè)務(wù)的壓力。在2016年開(kāi)始,直播全面開(kāi)花,各種競(jìng)爭(zhēng)對(duì)手出現(xiàn)。而競(jìng)爭(zhēng)對(duì)手作為一個(gè)新入場(chǎng)的選手,有一個(gè)很大的優(yōu)勢(shì),它們的直播設(shè)備從一開(kāi)始就性能更好,全新開(kāi)發(fā)的系統(tǒng)及新上線的業(yè)務(wù)簡(jiǎn)單,歷史包袱小,類似斗魚(yú)等競(jìng)爭(zhēng)對(duì)手,一開(kāi)始就以超清直播來(lái)沖擊YY的市場(chǎng)。而YY的整個(gè)直播體系,支撐了數(shù)條業(yè)務(wù)線,牽一發(fā)而動(dòng)全身,升級(jí)困難,業(yè)務(wù)響應(yīng)速度慢。
其中最大的業(yè)務(wù)挑戰(zhàn)來(lái)自于YY娛樂(lè)業(yè)務(wù),這個(gè)業(yè)務(wù)主播數(shù)量多、業(yè)務(wù)種類多,有秀場(chǎng)、有手機(jī)直播、有現(xiàn)場(chǎng)直播等多種形式,在整個(gè)升級(jí)過(guò)程中,我們對(duì)所有的業(yè)務(wù)都不能造成不良的影響。
LiveVideoStack:重構(gòu)進(jìn)行的是否順利?遇到了哪些挑戰(zhàn)?
林緒虹:最大的挑戰(zhàn),來(lái)自于YY直播的技術(shù)和業(yè)務(wù)歷史包袱。
我們需要兼容主播和觀眾大量老舊終端,同時(shí)也需要兼容YY諸多業(yè)務(wù)形態(tài),做到無(wú)縫升級(jí)。為了做到這一點(diǎn),我們重新設(shè)計(jì)了整套主播端和觀眾端邏輯,引入了差異化的能力,同時(shí)引入用多種編碼類型支持的能力。通過(guò)這樣的升級(jí),我們?cè)诙潭痰囊荒陼r(shí)間內(nèi),完成了YY直播從標(biāo)清直播到超清直播、4K直播的升級(jí),同時(shí)也最大限度地把H.265在平臺(tái)中應(yīng)用起來(lái)了。
LiveVideoStack:如何在成本、用戶體驗(yàn)之間做好平衡?Code,CDN等如何選擇?
林緒虹:直播業(yè)務(wù)的競(jìng)爭(zhēng)已經(jīng)進(jìn)入下半場(chǎng),總體增長(zhǎng)放緩,同時(shí)對(duì)運(yùn)營(yíng)成本優(yōu)化的需求越來(lái)越強(qiáng)烈。但是在我看來(lái),成本和用戶體驗(yàn)并不矛盾,甚至有可能恰恰相反,即在積極嘗試新技術(shù)后,有可能用更低的成本帶來(lái)更好的用戶體驗(yàn)。在這里,我舉我們的H.265和主觀視覺(jué)技術(shù)(有的廠商也叫極速高清、感知編碼、窄帶高清等)作為例子。
如果你采用H.265直播,相對(duì)H.264直播來(lái)說(shuō)雖然系統(tǒng)更加復(fù)雜,但是用戶可以用更小的代價(jià)獲取同等清晰度視頻流,在更小的碼率下,觀眾端可能會(huì)有更好的流暢性表現(xiàn),同時(shí)傳輸成本也有可能更小,在支持H.265的終端里,用戶體驗(yàn)會(huì)更好。這種用戶體驗(yàn)的提升,在低碼率低清直播下,感覺(jué)還不強(qiáng)烈,一旦直播上升到高清高碼率(1080p 4M 6M或4K),H.265技術(shù)帶來(lái)的用戶體驗(yàn)提升,將非常的明顯。
我們最近一直在細(xì)化我們的直播策略,充分考慮到用戶在特定場(chǎng)景下觀看特定直播內(nèi)容時(shí),應(yīng)該給予什么樣的碼率、分辨率,從而達(dá)到成本與質(zhì)量的最佳平衡。為了在直播中實(shí)現(xiàn)這一整套完整的技術(shù),我們重新構(gòu)建了一套和人眼主觀更加接近的質(zhì)量測(cè)評(píng)體系,同時(shí)也需要對(duì)開(kāi)播體系、轉(zhuǎn)碼體系再做一次升級(jí)。目前來(lái)看,這也是現(xiàn)在各個(gè)視頻服務(wù)商努力在提升的環(huán)節(jié)。從我們的跟蹤來(lái)看,各大視頻服務(wù)商都引入了大量的AI技術(shù)來(lái)細(xì)化場(chǎng)景識(shí)別,包括優(yōu)酷、騰訊視頻、華為等都應(yīng)用了這一技術(shù),雖然大家取的名字不一樣,但是做事情思路卻是一樣的。根據(jù)各大廠商的測(cè)評(píng)與交流,采用這一技術(shù),在相同視頻質(zhì)量的條件下,普通場(chǎng)景下可以節(jié)省 10%-20%的碼率,甚至有些場(chǎng)景能節(jié)省30%的碼率。使用這一技術(shù),可以在節(jié)約帶寬成本的同時(shí),保證觀眾端主觀畫(huà)質(zhì)的穩(wěn)定,從而帶來(lái)更好的觀看體驗(yàn)。
所以,在我看來(lái),為了在成本、用戶體驗(yàn)之間做好平衡,最好的解決辦法,就是大膽地采用新技術(shù)。
LiveVideoStack:如果讓你來(lái)預(yù)測(cè)2018年多媒體生態(tài)圈的技術(shù)關(guān)鍵詞,你會(huì)選哪些?你看好哪些多媒體相關(guān)的技術(shù)?
林緒虹:我看好QoE、音視頻內(nèi)容理解以及AV1這三個(gè)領(lǐng)域,并且會(huì)持續(xù)關(guān)注。
直播或是小視頻已經(jīng)進(jìn)入了對(duì)技術(shù)需要精耕細(xì)作的階段,不是懂一點(diǎn)音視頻基礎(chǔ)、攢一套代碼就可以走遍天下的時(shí)候了,整個(gè)行業(yè)對(duì)如何更好地提供音視頻服務(wù)、如何科學(xué)地提供音視頻質(zhì)量評(píng)估、如何科學(xué)地提升用戶體驗(yàn),產(chǎn)生了深厚的興趣。回頭看任何技術(shù)領(lǐng)域都是這樣,一旦某項(xiàng)技術(shù)的基礎(chǔ)應(yīng)用迅速擴(kuò)大,或是技術(shù)門(mén)檻簡(jiǎn)單到可以讓人輕松嘗試后,如何在更精細(xì)的層面來(lái)區(qū)分工程師的水平,將是一個(gè)關(guān)鍵。而對(duì)于有追求的工程師,決不單單會(huì)滿足于只會(huì)一種技術(shù),他應(yīng)該還希望從深層次把握技術(shù)、原理、人性的內(nèi)在規(guī)律,從“術(shù)”的境界上升到“道”的境界。
而大家也知道,目前的技術(shù)和載體的發(fā)展,“文字→圖片→視頻”這個(gè)人類獲取信息演進(jìn)方式不僅沒(méi)有改變,還會(huì)繼續(xù)滾滾向前,并且向前的速度會(huì)大大加速。在音視頻這個(gè)載體中,承載了大量人類想表達(dá)的信息,如何讓計(jì)算機(jī)或是工具來(lái)理解其中的信息,并且更好的服務(wù)于人類,這必將是一個(gè)大家都想占領(lǐng)的技術(shù)制高點(diǎn)。一旦能對(duì)音視頻內(nèi)容進(jìn)行準(zhǔn)確的理解,在這個(gè)基礎(chǔ)上,能做的事情將具備無(wú)限的可能。
對(duì)于AV1,應(yīng)該是業(yè)界大家都非常期待的一個(gè)標(biāo)準(zhǔn)。在H.265的應(yīng)用過(guò)程中,我們體會(huì)到了很多的不方便之處,如終端解碼能力、Web端不友好、CDN不友好、專利混亂等問(wèn)題,部分是因?yàn)榧夹g(shù)原因?qū)е碌?#xff0c;但更多是整個(gè)產(chǎn)業(yè)生態(tài)環(huán)境導(dǎo)致的。AV1非常有機(jī)會(huì)把各種問(wèn)題一并解決了,提供給產(chǎn)業(yè)一個(gè)非常好的標(biāo)準(zhǔn)及生態(tài)環(huán)境,可以讓大家專心于解決視頻本質(zhì)的質(zhì)量問(wèn)題。
LiveVideoStack:未來(lái)5G的網(wǎng)絡(luò)條件下,帶來(lái)哪些機(jī)遇和改善?比如,網(wǎng)絡(luò)的穩(wěn)定性會(huì)提升,但隨著帶寬的暴增,會(huì)帶來(lái)帶寬/CDN成本的大幅增長(zhǎng)。
林緒虹:未來(lái)5G的網(wǎng)絡(luò)條件下,可以預(yù)見(jiàn),更高清的視頻和音頻應(yīng)該會(huì)是應(yīng)用的主流,到時(shí)候制約用戶體驗(yàn)可能更多是用戶終端的處理能力。雖然網(wǎng)絡(luò)能力大幅提升,但是一旦遇到網(wǎng)絡(luò)瓶頸問(wèn)題,高清視頻流高流量的特點(diǎn),必然導(dǎo)致更糟糕的用戶體驗(yàn)。因此,如何應(yīng)付網(wǎng)絡(luò)突發(fā)事件,提供更好的觀看體驗(yàn),應(yīng)該是大家要努力的一個(gè)目標(biāo),也是大家會(huì)深耕下去的一個(gè)領(lǐng)域。
總結(jié)
以上是生活随笔為你收集整理的林绪虹:看好QoE、音视频内容理解与AV1的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 傅德良:选择视频编码器的误区
- 下一篇: LiveVideoStackCon讲师热