當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

内容 AI：建立统一的跨媒体多模态内容理解内核

發布時間：2024/2/28 ChatGpt 32 豆豆

生活随笔收集整理的這篇文章主要介紹了内容 AI：建立统一的跨媒体多模态内容理解内核小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者：zixunsun@tencent.com

Jeff Dean 談 2020 年機器學習趨勢：多任務和多模式學習將成為突破口

2019 年下半年，CDG 廣告、 CSIG 音視頻，IEG 內容推薦、PCG 信息流、TEG 數平廣告推薦和 AI 平臺部團隊、WXG 看一看團隊內容技術專家溝通，大家在處理內容理解任務時候，都有融合多模態特征進行內容理解需求，同時大家具有很好的技術能力和研發經驗。

我們希望能建立統一的跨媒體多模態內容理解內核，對新增內容理解任務，快速完成 0-1 步積累，提升模型實踐加速度、降低試錯成本，通過 Oteam 運行機制，擴大知識圈，共享公司內容算法團隊之間的經驗。（如果大家有興趣可以加入一起交流討論）。

技術背景

我們身處的環境本身多模態環境，人工智能要更好的理解環境，則需要具備解析多模態信息的能力。通過模態學習可以搭建能處理和連接多模態信息的模型。在內容理解領域，需要分析的模態有文本，圖片，視頻，語音對應的不同級別特征；其他輔助描述特征等。

當前多模態的技術落地和具體任務是強相關的。隨著深度學習技術的發展，不同的研究人員在進行內容理解任務的時候，會加上更多模態的特征，并且嘗試通過網絡結構的改進獲得更好的數據表現。然而針對最近幾年不同任務上多模態學習的論文研究發現，學者們更多關注多模態的網絡結構設計，而較少關注不同動作下的模型學習能力與任務、數據集之間的關聯性研究（如游戲視頻和體育視頻的動作序列識別任務上，語音特征與光流特征融合方式如何選擇）。

多模態學習研究的各個方向都可能對最終的任務表現產生作用，這些方向之間的影響和聯系需要進一步分析。當前各個方向之間沒有在一個統一模型下進行實驗挖掘或者自動分析，難以充分復用其他任務上的研究成果進行改進。

技術方向

內容團隊內容理解算法應不斷提升，多模態學習技術也需要不斷升級，通用框架技術具備必要的研究性和很好的落地價值，可以做到提升模型技術和業務指標表現，同時提升基于內容理解能力構建效率。模型層面可以在如下幾個方向深入：1.表征：多個模態同時存在的情況下，針對具體任務動態進行模態內不同級別特征信息使用（如文本中句義、句法、字詞特征；視覺中語義、邊緣、色彩特征），利用注意力機制選擇特征；利用生成對抗網絡對形式和內容進行表征解耦的能力。2.融合：支持不同融合策略的對比，融合動作本身可以支持動態適配；研究時序特征和非時序特征的映射對齊策略。3.協同：通過協同學習，做到多模態之間的有效信息傳遞；結合多任務學習，增強原模型的表征能力，降低過擬合風險，適應隨機噪聲。

多模態研究方向分析

多模態學習目前主要有以下五個研究方向：?表征(Representation), 轉化(Translation),對齊(Alignment),融合(Fusion),協同學習(Co-learning)

表征(Representation)

單模態的表征負責將信息表示為計算機可以處理的數值向量或者進一步抽象為更高層的特征向量，而多模態表征是指通過利用多模態之間的互補性，剔除模態間的冗余性，從而學習到更好的特征表示。

研究方向：

聯合表征(Joint Representation)，將多個模態的信息一起映射到一個統一的多模態向量空間；

協同表征(Coordinated Representation)，將多模態中的每個模態分別映射到各自的表示空間，但映射后的向量之間滿足一定的相關性約束（例如線性相關）

（聯合表征）Multimodal learning with deep boltzmann machines (NIPS 2012) 提出將 deep boltzmann machines（DBM）結構擴充到多模態領域，通過 Multimodal DBM，可以學習到多模態的聯合概率分布。

在獲得圖像與文本間的聯合概率分布后，我們在應用階段，輸入圖片，利用條件概率 P(文本|圖片)，生成文本特征，可以得到圖片相應的文本描述；而輸入文本，利用條件概率 P(圖片|文本)，可以生成圖片特征，通過檢索出最靠近該特征向量的兩個圖片實例，可以得到符合文本描述的圖片。

（協同表征）Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

利用協同學習到的特征向量之間滿足加減算數運算這一特性，可以搜索出與給定圖片滿足“指定的轉換語義”的圖片。

300 維的文字與圖像特征 PCA 投影

難點：

如何結合異質性的來源的數據，比如文字是符號性的，圖片是一個 RGB 矩陣，視頻是時序的 RGB 矩陣，聲音需要采樣成一個一位數組；如何處理不同級別的噪音，原因是不同模態產生的噪聲是不同的；如何處理數據缺失的問題。

技術方案：

轉化(Translation)

多模態轉化也可稱為映射(Mapping)，主要是將一個模態的信息轉化或映射為另一個模態的信息。

難點：

1.未知結束位(Open-ended)，例如實時翻譯中，在還未得到句尾的情況下，必須實時對句子進行翻譯；

2.主觀評判性(Subjective)，很多模態轉換問題的效果沒有一個比較客觀的評判標準，目標函數的確定非常主觀。

技術方案：

對齊(Alignment)：

從來自同一個實例的兩個甚至多個模態中尋找子成份之間的關系和聯系。

方向：

對齊分為兩類：顯式對齊和隱式對齊。顯式對齊即應用的主要任務就是對齊，而隱式對齊是指應用在完成主要任務時需要用到對齊的技術。

顯式對齊的技術方法主要分為：無監督方法 Unsupervised，(弱)監督方法 (Weakly)Supervised。

隱式對齊的技術方法主要分為：圖模型 Graphical models，神經網絡 Neural networks。

難點：

很少有顯式對齊標注的數據集；2. 很難建模不同模態之間相似度計算；3.存在多個可能的對齊方案并且不是一個模態的所有元素在另一個模態中都存在對應。

融合(Fusion)：

多模態融合指從多個模態信息中整合信息來完成分類或回歸任務，不過在深度神經網絡方法下，融合和表征這兩個方向是很難區分的。多模態融合是目前應用最廣的方向，存在其他常見的別名，例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)等。

按照融合的層次，可以將多模態融合分為 pixel level，feature level (early)和 decision level (late)
三類，分別對應對原始數據進行融合、對抽象的特征進行融合和對決策結果進行融合。

按照融合的類型又可分為：

(a)數據級別融合；（b）判定級別融合；(c)組合融合

常見的機器學習方法都可以應用于多模態融合

難點：

信號可能并不是時序對齊的（temporally aligned）。很可能是密集的連續信號和稀疏的事件（比如一大段視頻只對應一個詞，然后整個視頻只對應稀少的幾個詞）；

每一個模態在不同的時間點可能表現出不同的形式和不同等級的噪聲。

技術方案：

協同學習(Co-learning):

協同學習是指通過利用資源豐富（比如數據量大）的模態的知識來輔助資源稀缺（比如較小數據）的模態建立模型。根據訓練資源（數據）形式可以將協同學習進行如下劃分：

parallel：Co-training, Transfer learning

non-parallel：Transfer learning, Concept grounding, Zero-shot learning

hybrid：Bridging

其中，常用的遷移學習(Transfer Learning)也屬于協同學習的范疇，例如將 ImageNet 數據集上學習到的權重，在自己的目標數據集上進行微調。

協同訓練(Co-training)

則負責研究如何在多模態數據中將少量的標注進行擴充，得到更多的標注信息。

多模態在內容理解的應用

描述類任務（表示，轉換，對齊，融合）

視頻描述

Predicting Visual Features from Text for Image and Video Caption Retrieval：輸入原始圖像，圖像標題和眾多描述圖像的句子，將它們映射到隱空間并合成視頻描述。

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning：輸入原始視頻和視頻的文字索引來進行視頻描述工作。

Multimodal Dual Attention Memory for Video Story Question Answering：這是一個 VQA 任務，把原始視頻，視頻的描述和問題輸入最終得到答案。

Dual-Stream Recurrent Neural Network for Video Captioning:

將原始的視頻和靜態的圖像（用來描述視頻）一起輸入，得到對視頻的描述。

醫療問答

Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:簡單把圖像和問題輸入得到答案。

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence：把 VQA 框架用于關于健康問題的問答。

分析類任務（表征，融合）

視頻分類

分類框架：

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:

這是一個較為通用的多模態視頻分類任務網絡，將特征組合成矩陣，采用 outer-product 計算任意組合的乘積，為避免外積太長，用滑動窗對自向量求外積。

視頻分類：

Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 將視頻和代表性的音頻文件一起輸入進行視頻分類。

圖1:工作1框架圖

Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition：將視頻，代表性圖片，farneback 流和音頻信息一起輸入，對視頻進行分類。

圖2:工作2框架圖

Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 將空間視頻、運動視頻、音頻和原視頻一起輸入，得到結果。

圖3:工作3框架圖

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同樣還是將圖像、視頻和音頻異構信息一起輸入，得到視頻分類的結果。

圖4:工作4框架圖

文本分類：

下面幾篇雖然用于的文本理解任務不同，但是其實網絡結構都可以用于文本分類

諷刺檢測：

Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model：對在融合是考慮每個模塊的 low-level
feature，而不是直接采用全局特征。模態間的 local feature 用 concat 連接，同一模態的 local feature 采用加權和，最終融合時各模態特征同樣采用加權和。

情感分類：

Contextual Inter-modal Attention for Multi-modal Sentiment Analysis：將文字，視頻和聲音輸入來對人的情感進行分類。

圖1:工作1框架圖

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling：將圖像、標題和文字放入模型進行情感分類。

圖2:工作2框架圖

假新聞識別

Exploiting Multi-domain Visual Information for Fake News Detection：將圖像和對圖像詞頻的統計輸入來進行假新聞分類。

圖1:工作1框架圖

EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:將圖像和文字輸入來對假新聞進行檢測。

圖2:工作2框架圖

A Deep Learning Approach for Multimodal Deception Detection：將視頻、音頻、文字和高頻詞放入模型進行假新聞識別。

圖3:工作3框架圖

圖像/視頻質量評價

A deep learning framework for quality assessment and restoration in video endoscopy:將視頻和視頻檢測結果輸入來進行質量評價。

圖1:工作1框架圖

片段重要性評分

Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos:將視頻和提出的問題輸入而后定位和問題相關的片段。

圖1:工作1框架圖

Give ear to my face: modelling multimodal attention to social interactions:將視頻和音頻信息一起輸入來定位視頻相關的位置。

圖2:工作2框架圖

Overview of ImageCLEFlifelog 2019: Solve My Life Puzzle and Lifelog Moment Retrieval:根據文字信息來定位視頻中相關片段的比賽。

圖3:工作3框架圖

標題黨檢測

SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection:將文章標題和內容片段輸入來分類是否是標題黨。

圖1:工作1框架圖

Characterizing Clickbaits on Instagram:將圖像、標題和文字描述輸入模型來分類是否是標題黨。

圖2:工作2框架圖

社交網絡的實體匹配

Multimodal Learning of Social Image Representation by Exploiting Social Relations:運用圖像和相關文字注釋對個體進行分類分組。

圖1:工作1框架圖

From content to links: Social image embedding with deep multimodal model：跟上一篇文章類似，也是利用相關圖像和文字進行社交群體分類。

圖2:工作2框架圖

檢索類任務（表示，轉換，對齊，融合）

1 .Deep Multimodal Learning for Affective Analysis and Retrieval: 作者采用深度波爾茨曼機來做多模態的聯合表征。

事實上該框架得到的多模態表征后續可用于視頻排重等任務。

2.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks ：
作者提出了修改的 Bert 框架，聯合了文本和圖片特征 co-attention 來獲得多模態描述特征，進行下一步的 VQA 等任務。

//合成類任務（表示，轉換，對齊，融合）內容生成類任務暫不涉及

開源協同

內容理解能力成熟度

(1)初始級(initial):
針對具體的業務問題，具體開發人員，選擇合理成熟模型進行開發。效果依賴訓練樣本的質量。

(2)可重復級(Repeatable):
有約定的流程制度。初步實現標準化，新業務場景的開發可以使用過去的團隊實的踐經驗，具有重復以前特征算法的環境和條件。任務中開始嘗試引入更多的內容特征，進行不同模型直接實驗對比工作。對模型的工作特性，badcase 的邊界有不斷的掌握。

(3)已定義級(Defined):
開發過程實現標準化、文檔化，有沉淀。有完善的經驗制度和評審制度，模型和工程開發遵循團隊流程。針對任務有大家統一具有共識的原型模型處理方式，并且在不同內容領域進行問題的針對性建模，獲得可復用的經驗。數據集有良好規范的沉淀。

(4)已管理級(Managed):
業務任務可以充分的進行特征和模型實驗，綜合得到多個技術評價指標，業務評價指標。構建團隊統一的內容理解模型框架。建立了完善的算法工程體系（樣本標注管理，內容實驗，模型自動化訓練升級）。

(5)優化級(Optimizing):
已可集中精力改進模型，針對業務場景優化。引入新算法、新工程架構。可取得過程有效性的統計數據，并可據進行分析挖掘，從而得出最佳 state-of-the-art 方法。

內容理解場景的問題，伴隨業務自身需求特點。具有特征多源，多目標且目標之間有邏輯關聯，定義邊界主觀等特點。早期的解決方式是針對業務問題收集樣本測試單一模型，中期開始測試更多特征模型組合(2),后期開始完善算法工程 workflow 積累沉淀(4)，每個業務任務都經歷這個流程，能否快速降低問題解決成本。當前存在任務之間技術較少聯動復用與任務之前特征模型客觀算法上高度關聯的矛盾。因此進行新任務，新問題研究時需要重復整個流程，效率低；還不能充分受益于公司兄弟團隊已有的經驗資源。新的內容業務團隊沒有足夠的算法人員想要解決實際業務場景想要從初始級開始。

方案簡述

通過對上訴論文的多模態網絡結構分析，我們希望設計具有領域通用性、可擴展、可編程結構的多模態內容理解框架。該框架能統一把當前各類多模態內容理解模型放在一個可編程的架構下進行構建分析。框架包括以下必備的組件：

（1）數據和特征表征模塊：多源圖像、文本、視頻，語音的特征表示模塊。支持通用的特征提取算法；特定 CV、NLP、Audio 任務提取模型；圖表示學習方法等算法模型對各個模態單獨和聯合特征表示。支持可編程接口進行選擇。

（2）特征融合對齊模塊：針對各模態數據特征，支持適用于內容理解的融合算法，如特定模態算法提取的向量特征；顯式屬性值特征；外部編碼特征之間的融合對齊。支持多種編碼表示。特征之間可選擇不同的方式進行融合，或選擇不同階段進行融合。

（3）任務決策模塊：通過分析論文中多模態學習的目標優化方案，對目標決策方法進行抽象。做到可編程的支持多類損失函數；各類梯度下降算法；多種集成學習技術；支持轉化和對齊的多模態學習任務（如通過對抗性損失函數解耦表征，反向優化特征，分離出內容結構特征和內容語義特征）。

（4）功能性模塊：采用自動機器學習：神經網絡架構搜索，參數量化壓縮等技術對框架學習能力進行優化。使其更好的面向內容理解任務，提高訓練運行效率，支持（1）（2）（3）層之間的各種自動化組合方式實驗。

通過一個框架體系和編程接口構建多模態學習模型。對多模態學習的各個研究方向進行抽象，支持不同方向獨立和聯合的進行優化，支持多任務聯合學習。通過集成神經網絡架構搜索，模型壓縮，實驗框架等功能將其做成一個完整的開源產品來打磨，把模塊結構優化和算法模型改進緊密結合，方案具有較強的技術先進性。

圖 1:可擴展通用多模態內容理解框架圖
圖 2:框架在視頻分類任務中嘗試不同特征融合實驗

意義價值：

通過合理的多模態內容理解框架設計，抽象多模態學習各個研究任務成為獨立的系統模塊，模塊之間的交互符合軟件工程模塊化設計的思想。框架本身支持常見的文本、圖片、語音、視頻等特征描述，支持多種表征、對齊、融合方式的選擇，支持針對目標任務的各個層次實驗，支持自定義接口形式擴展。

將參與團隊&個人積累的內容模型經驗進行沉淀，通過開源項目創造可伸縮可擴展可實驗的內容理解內核，不斷嘗試新特征，新模型框架如何在業務場景有效。對于新業務，新內容理解的場景，可以通過該微內核快速完成過去重復積累建設工作，更快進入業務實際挑戰的攻堅。

參考文獻：

[1] Baltrusaitis T , Ahuja C , Morency L P . Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018:1-1.

[2] Wu M， Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.

[3] Krishnamurthy G， Majumder N， Poria S， et al. A deep learning approach for multimodal deception detection[J]. arXiv preprint arXiv:1803.00344， 2018.

[4] Song G， Wang S， Huang Q， et al. Harmonized Multimodal Learning with Gaussian Process Latent Variable Models[J]. IEEE transactions on pattern analysis and machine intelligence， 2019.

[5] Huang P Y， Chang X， Hauptmann A. Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations[J]. arXiv preprint arXiv:1910.00058， 2019.

[6] Wu M， Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.

[7] HUK PARK D， ANNE HENDRICKS L， AKATA Z， et al. Multimodal explanations: Justifying decisions and pointing to the evidence; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，
F， 2018 [C].

[8] Wang X， Wang Y F， Wang W Y. Watch， listen， and describe: Globally and locally aligned cross-modal attentions for video captioning[J]. arXiv preprint arXiv:1804.05448， 2018.

[9] Kim K M， Choi S H， Kim J H， et al. Multimodal dual attention memory for video story question answering[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 673-688.

[10] Xu N， Liu A A， Wong Y， et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2018.

[11] Dong J， Li X， Snoek C G M. Predicting visual features from text for image and video caption retrieval[J]. IEEE Transactions on Multimedia， 2018， 20(12):3377-3388.

[12] WANG X， WANG Y-F， WANG W Y. Watch， listen， and describe: Globally and locally aligned cross-modal attentions for video captioning [J]. arXiv preprint arXiv:180405448， 2018.

[13] KIM K-M， CHOI S-H， KIM J-H， et al. Multimodal dual attention memory for video story question answering; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].

[14] XU N， LIU A-A， WONG Y， et al. Dual-stream recurrent neural network for video captioning [J]. IEEE Transactions on Circuits and Systems for Video Technology， 2018.

[15] LIU J， YUAN Z， WANG C. Towards good practices for multi-modal fusion in large-scale video classification; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].

[16] HE D， LI F， ZHAO Q， et al. Exploiting spatial-temporal modelling and multi-modal fusion for human action recognition [J]. arXiv preprint arXiv:180610319， 2018.

[17] JIANG Y-G， WU Z， TANG J， et al. Modeling multimodal clues in a hybrid deep learning framework for video classification [J]. IEEE Transactions on Multimedia， 2018， 20(11): 3137-47.

[18] LONG X， GAN C， DE MELO G， et al. Attention clusters: Purely attention based local feature integration for video classification; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，F， 2018 [C].

[19] GHOSAL D， AKHTAR M S， CHAUHAN D， et al. Contextual inter-modal attention for multi-modal sentiment analysis; proceedings of the Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing， F， 2018 [C].

[20] MAJUMDER N， HAZARIKA D， GELBUKH A， et al. Multimodal sentiment analysis using hierarchical fusion with context modeling [J]. Knowledge-Based Systems，2018， 161(124-33.

[21] QI P， CAO J， YANG T， et al. Exploiting Multi-domain Visual Information for Fake News Detection [J]. arXiv preprint arXiv:190804472， 2019.

[22] WANG Y， MA F， JIN Z， et al. Eann: Event adversarial neural networks for multi-modal fake news detection; proceedings of the Proceedings of the 24th acm sigkdd international conference on knowledge discovery & data mining， F， 2018 [C]. ACM.

[23] KRISHNAMURTHY G， MAJUMDER N， PORIA S， et al. A deep learning approach for multimodal deception detection [J]. arXiv preprint arXiv:180300344， 2018.

[24] ALI S， ZHOU F， BAILEY A， et al. A deep learning framework for quality assessment and restoration in video endoscopy [J]. arXiv preprint arXiv:190407073， 2019.

[25] ZHANG Z， LIN Z， ZHAO Z， et al. Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos [J]. arXiv preprint arXiv:190602497，2019.

[26] BOCCIGNONE G， CUCULO V， D'AMELIO A， et al. Give ear to my face: modelling multimodal attention to social interactions; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].

[27] DANG-NGUYEN D-T， PIRAS L， RIEGLER M， et al. Overview of ImageCLEFlifelog 2019: solve my life puzzle and lifelog moment retrieval; proceedings of the CLEF2019 Working Notes CEUR Workshop Proceedings， F， 2019 [C].

[28] KUMAR V， DHAR M， KHATTAR D， et al. SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection [J]. arXiv preprint arXiv:180800957， 2018.

[29] HA Y， KIM J， WON D， et al. Characterizing clickbaits on instagram; proceedings of the Twelfth International AAAI Conference on Web and Social Media， F， 2018 [C].

[30] HUANG F， ZHANG X， XU J， et al. Multimodal Learning of Social Image Representation by Exploiting Social Relations [J]. IEEE transactions on cybernetics， 2019.

[31] HUANG F， ZHANG X， LI Z， et al. From content to links: Social image embedding with deep multimodal model [J]. Knowledge-Based Systems， 2018，160(251-64.

[32] VU M， SZNITMAN R， NYHOLM T， et al. Ensemble of streamlined bilinear visual question answering models for the imageclef 2019 challenge in the medical domain [J]. Working Notes of CLEF， 2019.

總結

以上是生活随笔為你收集整理的内容 AI：建立统一的跨媒体多模态内容理解内核的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：写 Python 到底用什么编辑器好？鹅
下一篇：一种全新的点击率建模方案

ChatGpt

内容 AI：建立统一的跨媒体多模态内容理解内核

技術背景

技術方向

相關任務

多模態研究方向分析

表征(Representation)

研究方向：

難點：

技術方案：

轉化(Translation)

相關任務：

難點：

技術方案：

對齊(Alignment)：

相關任務：

方向：

難點：

相關方案：

融合(Fusion)：

相關任務：

難點：

技術方案：

協同學習(Co-learning):

協同訓練(Co-training)

相關方案：

多模態在內容理解的應用

描述類任務（表示，轉換，對齊，融合）

視頻描述

醫療問答

分析類任務（表征，融合）

視頻分類

文本分類：

情感分類：

假新聞識別

圖像/視頻質量評價

片段重要性評分

標題黨檢測

社交網絡的實體匹配

檢索類任務 （表示，轉換，對齊，融合）

開源協同

內容理解能力成熟度

方案簡述

意義價值：

參考文獻：

總結

檢索類任務（表示，轉換，對齊，融合）