音视频技术开发周刊 | 231
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
面向在線教育業(yè)務(wù)的流媒體分發(fā)演進(jìn)
幾年前,很多人對(duì)在線網(wǎng)課還非常陌生。隨著移動(dòng)設(shè)備的普及和音視頻技術(shù)的發(fā)展,如今在線教育產(chǎn)品百花齊放。而在線教育產(chǎn)品能服務(wù)千萬學(xué)子離不開流媒體分發(fā)技術(shù)的支撐。本次LiveVideoStackCon 2021 音視頻技術(shù)大會(huì)北京站邀請(qǐng)到了網(wǎng)易有道研發(fā)工程師周曉天,為我們分享網(wǎng)易有道在線教育業(yè)務(wù)的流媒體分發(fā)相關(guān)內(nèi)容。
音視頻中的語音信號(hào)處理技術(shù)
語音信號(hào)處理是以語音語言學(xué)和數(shù)字信號(hào)處理技術(shù)相結(jié)合的交叉學(xué)科,它和認(rèn)知科學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、信號(hào)與信息處理、聲學(xué)、模式識(shí)別和人工智能等學(xué)科聯(lián)系緊密。
RTMP 協(xié)議:為什么直播推流協(xié)議都愛用它?
RTMP 在兩個(gè)對(duì)等的通信端之間通過可靠的傳輸協(xié)議(例如 TCP)提供雙向的消息多路服務(wù),用來傳輸帶有時(shí)間信息的并行的視頻、音頻和數(shù)據(jù)。通常的協(xié)議的實(shí)現(xiàn)會(huì)給不同類型的消息賦予不同的優(yōu)先級(jí),當(dāng)傳輸能力受到限制時(shí)它會(huì)影響消息下層流發(fā)送的隊(duì)列順序。
KCP 協(xié)議:為流速和低延時(shí)設(shè)計(jì)的協(xié)議
KCP 是一個(gè)開源的快速可靠協(xié)議,KCP 能以比 TCP 浪費(fèi) 10%-20% 帶寬的代價(jià),換取平均延遲降低 30%-40%,最大延遲降低 3 倍的傳輸速度。KCP 是一層純算法實(shí)現(xiàn),并不負(fù)責(zé)底層協(xié)議(如 UDP)的收發(fā),需要使用者自己定義下層數(shù)據(jù)包的發(fā)送方式,并以 callback 的方式提供給 KCP。
Dialog+ : 基于深度學(xué)習(xí)的音頻對(duì)話增強(qiáng)技術(shù)
研究者通過調(diào)研發(fā)現(xiàn),現(xiàn)今觀眾經(jīng)常會(huì)受到聽不清音頻中人物對(duì)話的困擾,為給觀眾提供個(gè)性化的聲平衡方案,這篇文章主要提出了一種利用深度學(xué)習(xí)改善音頻中人物對(duì)話和環(huán)境聲相對(duì)水平的聲平衡方案 Dialog+,并通過線上調(diào)研和實(shí)地廣播測(cè)試驗(yàn)證了該方案的有效性。
掌握量化技術(shù)是視頻壓縮的關(guān)鍵
演講首先回顧了關(guān)于標(biāo)量量化和率失真理論的基礎(chǔ)知識(shí),然后討論了如何聯(lián)合優(yōu)化不同級(jí)別的量化以提高編碼效率的方法。介紹了兩個(gè)量化技術(shù):時(shí)空依賴自適應(yīng)量化(STAQ)與局部量化細(xì)化(LQR),這些方法可以在 HM 和 X265 上帶來約 30% 的壓縮性能。
DSCT:一種數(shù)據(jù)驅(qū)動(dòng)的圖像編碼框架
基于塊的 DCT 變換和量化在 JPEG 等眾多圖像編碼標(biāo)準(zhǔn)中起著重要作用。本文提出了一種名為 'DSCT' 的圖像編碼框架,它采用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,基于像素的統(tǒng)計(jì)特性進(jìn)行色彩變換和空間變換。
ffmpeg 源碼分析-命令行1
本文章以 FFMpeg 4.2.5版本的源碼為準(zhǔn),一定要對(duì)著源碼看本文章,很多地方采用 cmdutils.c:778行 之類的寫法。本系列主要分析 ffmpeg_parse_options() 轉(zhuǎn)碼的內(nèi)部邏輯。
https://juejin.cn/post/7052332931062169608
ffmpeg 源碼分析-命令行2
ffmpeg 源碼分析系列以一條簡(jiǎn)單的命令開始,ffmpeg -i a.mp4 b.flv,分析其內(nèi)部邏輯。本文主要分析 parse_optgroup() 的內(nèi)部邏輯,函數(shù)調(diào)用用流程圖如下。
https://juejin.cn/post/7052333158460555301
AR發(fā)展簡(jiǎn)史
隨著技術(shù)的不斷發(fā)展,如今AR已經(jīng)成為人盡皆知的行業(yè)熱點(diǎn),受到國(guó)內(nèi)外巨頭競(jìng)相追捧。那么一路走來,AR都經(jīng)歷了哪些鮮為人知的重要事件呢?下面小編整理了一份AR發(fā)展簡(jiǎn)史,帶大家了解一下AR從無到有的發(fā)展歷程。
虛擬現(xiàn)實(shí)多模態(tài)操作技能研究
隨著人工智能的發(fā)展,對(duì)機(jī)器人復(fù)雜技能的教學(xué)需求增加。如何通過人工演示讓機(jī)器人了解復(fù)雜的操作技能,是人工智能領(lǐng)域的一個(gè)重要課題。現(xiàn)階段多采用編程和動(dòng)覺教學(xué)來獲得演示。這些方法的缺點(diǎn)是需要大量的人工和調(diào)試,并且不能很容易地初始化裝配場(chǎng)景。因此,在 VR(虛擬現(xiàn)實(shí))中進(jìn)行演示可能是解決這些困難的關(guān)鍵。
中國(guó)數(shù)字經(jīng)濟(jì)時(shí)代人工智能生態(tài)白皮書2021,41頁pdf
白皮書圍繞一個(gè)主題“ AI 生態(tài)”,三個(gè)關(guān)鍵詞“技術(shù)、產(chǎn)業(yè)、開放平臺(tái)”,統(tǒng)觀 AI 技術(shù)在多行業(yè)落地情況,剖析開放平臺(tái)對(duì)于 AI 產(chǎn)業(yè)生態(tài)繁榮的效能與價(jià)值,解析典型公司在 AI 產(chǎn)業(yè)生態(tài)建設(shè)方面的創(chuàng)新實(shí)踐,并結(jié)合技術(shù)、產(chǎn)業(yè)和平臺(tái)發(fā)展現(xiàn)狀,研判 AI 生態(tài)發(fā)展趨勢(shì)。
2022年人工智能全球最具影響力學(xué)者榜單出爐
人工智能全球最具影響力學(xué)者榜單(簡(jiǎn)稱“AI 2000”),由清華大學(xué)計(jì)算機(jī)系A(chǔ)Miner團(tuán)隊(duì)聯(lián)合智譜AI、清華-中國(guó)工程科技知識(shí)中心知識(shí)智能聯(lián)合研究中心共同發(fā)布,旨在通過AMiner學(xué)術(shù)數(shù)據(jù),在全球范圍內(nèi)遴選過去十年人工智能(AI)學(xué)科最有影響力、最具活力的頂級(jí)學(xué)者。
利用AI技術(shù)釋放網(wǎng)絡(luò)應(yīng)用創(chuàng)新
英特爾在AI領(lǐng)域推動(dòng)芯片和軟件技術(shù)的進(jìn)步,降低了網(wǎng)絡(luò)應(yīng)用開發(fā)者進(jìn)入AI新領(lǐng)域的技術(shù)門檻,從而釋放了開發(fā)者在商業(yè)化產(chǎn)品中部署AI高級(jí)技術(shù)的創(chuàng)新力,充分實(shí)現(xiàn)網(wǎng)絡(luò)應(yīng)用創(chuàng)新。
B站開源自研動(dòng)漫超分辨率模型,助力動(dòng)漫UGC視頻高清化
人類對(duì)于視頻畫質(zhì)的升級(jí)是一個(gè)永無止盡的過程。從馬賽克到高清畫質(zhì),從720P到4K,視頻平臺(tái)正在不斷提升畫質(zhì),但目前各大視頻平臺(tái)的超高清內(nèi)容還并不是很多,其關(guān)鍵在于超高清視頻的制作難度遠(yuǎn)超普通視頻制作,對(duì)設(shè)備以及后期技術(shù)的要求,為視頻內(nèi)容貢獻(xiàn)者帶來了很大的阻礙。
OpenCV的實(shí)用圖像處理操作案例分享
圖像處理適用于圖像和視頻。良好的圖像處理結(jié)果會(huì)為后續(xù)的進(jìn)一步處理帶來很大的幫助,例如提取到圖像中的直線有助于對(duì)圖像中物體的結(jié)構(gòu)進(jìn)行分析,良好的特征提取會(huì)優(yōu)化深度學(xué)習(xí)的結(jié)果等。今天我們來回顧一下圖像處理中的最基礎(chǔ)的,但是卻非常實(shí)用的一些操作。
綜述:當(dāng)醫(yī)學(xué)影像遇上深度學(xué)習(xí)
近年來,隨著深度學(xué)習(xí)的發(fā)展,醫(yī)學(xué)影像逐漸成為人工智能最有潛力的落地領(lǐng)域之一。在這里我們將對(duì)醫(yī)學(xué)影像遇上深度學(xué)習(xí)后的當(dāng)前行業(yè)應(yīng)用進(jìn)行介紹和分析,希望能夠幫助對(duì)人工智能在醫(yī)學(xué)影像上的研究和應(yīng)用感興趣的同學(xué)們更好地了解行業(yè)的現(xiàn)狀和發(fā)展方向。
GAN--提升GAN訓(xùn)練的技巧匯總
GAN模型相比較于其他網(wǎng)絡(luò)一直受困于三個(gè)問題的掣肘:1.不收斂;模型訓(xùn)練不穩(wěn)定,收斂的慢,甚至不收斂;2. mode collapse; 生成器產(chǎn)生的結(jié)果模式較為單一;3. 訓(xùn)練緩慢;出現(xiàn)這個(gè)原因大多是發(fā)生了梯度消失的問題。本文主要以下幾個(gè)方面入手,聚焦于解決以上三個(gè)問題的一些技巧。
自動(dòng)駕駛仿真測(cè)試工具鏈?zhǔn)纠?br />
沒有一種仿真工具可以用于測(cè)試ADS自動(dòng)駕駛系統(tǒng)軟件的所有方面,這就是為什么制造商將利用各種仿真工具的屬性來建立對(duì)整個(gè)系統(tǒng)安全性的信心。
自動(dòng)駕駛中的毫米波雷達(dá)——何去何從?
在激光雷達(dá)的量產(chǎn)元年,各大造車新勢(shì)力公司逐步上線自研視覺感知算法,特斯拉宣布徹底拋棄毫米波雷達(dá)之際,毫米波雷達(dá)在自動(dòng)駕駛中應(yīng)何去何從,是最近一直在思考的一個(gè)問題,利用這篇文章記錄下一些觀點(diǎn)與相關(guān)從業(yè)者分享,也希望更多的人投身到自動(dòng)駕駛毫米波雷達(dá)相關(guān)技術(shù)的研發(fā)中。
2022年智能駕駛行業(yè)研究報(bào)告(附下載)
電動(dòng)化開啟汽車革命上半場(chǎng),而智能化將引領(lǐng)下半場(chǎng),在此交替過程中:核心競(jìng)爭(zhēng)力轉(zhuǎn)移:性能指標(biāo)轉(zhuǎn)變:燃油車以內(nèi)燃機(jī)馬力為指標(biāo);電動(dòng)車以動(dòng)力電池續(xù)航為目標(biāo);智能汽車時(shí)代,算力成為影響汽車性能的核心要素。
閱讀推薦
對(duì)話王晶:音頻人才亟待培養(yǎng),高水平研究人員尤其欠缺
在此次與LiveVideoStack的對(duì)話中,王教授分享了過去幾年音頻領(lǐng)域的重要發(fā)展和創(chuàng)新、音頻編解碼器的獨(dú)特之處、AI與音頻編碼技術(shù)結(jié)合的突破以及目前音頻領(lǐng)域人才培養(yǎng)和輸出所面臨的困境等。
活動(dòng)推薦
LiveVideoStackCon 專題評(píng)審團(tuán)活動(dòng)報(bào)名
為了更加完善LiveVideoStackCon 音視頻技術(shù)大會(huì)的演講內(nèi)容,如:準(zhǔn)確性、邏輯性、可閱讀性、內(nèi)容的干貨程度、以及對(duì)參會(huì)者的受益情況等,保證內(nèi)容對(duì)外輸出的準(zhǔn)確&嚴(yán)謹(jǐn);其次,對(duì)演講者的自我提升(輸出內(nèi)容更加專業(yè)、降低錯(cuò)誤、增加演講自信、多方溝通促進(jìn)交流);而對(duì)參與審校人員來說,在評(píng)審內(nèi)容時(shí)可以了解到業(yè)內(nèi)的最新動(dòng)態(tài),與評(píng)審團(tuán)成員相互交流,分享心得。
因此我們特別成立LiveVideoStackCon 評(píng)審團(tuán)機(jī)制,點(diǎn)擊閱讀原文了解更多詳情,報(bào)名參與:
http://livevideostack.mikecrm.com/mVxofCi
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 231的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: B站开源自研动漫超分辨率模型,助力动漫U
- 下一篇: LiveVideoStack年终技术盘点