大数据聚类分析用于预测_多模态数据中的非负矩阵分解用于分割和标签预测
引用
Akata Z, Thurau C, Bauckhage C. Non-negative matrix factorization in multimodality data for segmentation and label prediction[C]. 2011.
摘要
隨著 Internet 上帶注釋的多媒體數據的可用性不斷提高,要求有一種技術可以實現不同類型數據的原則性聯合處理。多視圖學習和多視圖聚類試圖以同時的方式識別不同特征空間中的潛在成分。所得的基向量或質心忠實地代表數據上的不同視圖,但是隱式耦合,并且它們是聯合估計的。這為諸如標簽預測,圖像檢索或語義分組之類的問題開辟了新途徑。本文提出了一種用于多視圖聚類的新模型,該模型將傳統的非負矩陣分解擴展到不同數據矩陣的聯合分解。因此,該技術為圖像部分和屬性的聯合處理提供了一種新方法。圖像分割和圖像特征與圖像標簽的多視圖聚類的首次實驗顯示出令人鼓舞的結果,并表明該方法為不同抽象級別的圖像分析提供了一個通用框架。
1 動機和背景
社交網絡的興起和用戶生成的內容運動已將 Internet 變成了一個幾乎無限的,帶有注釋和評級的多媒體數據的存儲庫。例如,截至撰寫本文時,flickr 上提供了超過 45 億張圖像,其中大多數由社區進行了標記,評級,分類和評估。這種發展為圖像理解的研究提供了巨大的可能性,但同時也要求允許對不同類型的數據進行綜合處理的方法。
我們的目標是對圖像特征和圖像標簽進行原則上的聯合處理。我們提出了一種用于多視圖聚類的新技術,該技術可以同時確定不同特征空間中的潛在維數或質心向量。與諸如將不同類型的特征串聯到單個描述符中的臨時方法相反,多視圖聚類忠實于不同描述符的不同特征。由于潛在分量或質心是聯合估計的,因此多視圖技術可進行高級推理。由于對于一個特征空間中的每個質心,在另一個空間中都有一個對應的質心,因此不同視圖之間的轉換非常簡單。這為分割、自動圖像標記或基于標簽的圖像檢索提供了新的方法。
盡管它們具有悠久而古老的傳統,但人們對多視圖學習和多視圖群集有了新的興趣。可以同時發現不同空間中潛在成分的方法的典型示例是 Hotelling 的典型相關分析(CCA),該方法最近已經提出了核化和概率擴展。其他最近的發展考慮了將頻譜聚類擴展到編碼不同類型相似性的多個圖。
我們的多視圖聚類新方法將非負矩陣分解(NMF)擴展到幾個數據矩陣的聯合分解。它是出于以下注意事項:
1)與主成分分析(PCA)或奇異值分解(SVD)相似,CCA 不一定對諸如顏色直方圖或項頻率向量之類的純非負數據具有合理性。但是,非負矩陣分解通常會產生可被視為基于零件的表示并適應人類感知的結果。
2)基于相似度矩陣的光譜聚類的方法隨數據數量呈二次方縮放,因此在現代的大規模數據和圖像分析問題中是禁止的。
3)另一方面,對于 NMF,存在有效的算法,該算法可將數十億個條目的矩陣分解,這可能適用于多視圖設置。
在下一部分中,我們闡明矩陣分解和聚類之間的關系。然后,在第 3 節中,我們根據研究現狀簡要回顧了 NMF,并將這種方法擴展到不同數據矩陣的聯合分解。在第 4 節中,我們介紹了在圖像分割,標簽預測和圖像檢索中使用多視圖 NMF 的實驗。
2 矩陣降階和聚類
在本節中,我們簡要回顧一下矩陣秩降低如何應用于聚類或矢量量化問題。
3 用于多視圖聚類的 NMF
在本節中,我們首先總結非負矩陣分解(NMF),然后介紹我們對多視圖聚類的 NMF 推廣。
3.1 通過 NMF 分解數據
正交基向量(例如由 PCA 或 SVD 確定)并非始終是降維或聚類的最佳選擇。特別是,僅由非負測量組成的數據在投影到由其主要特征向量跨越的低維子空間后,不能保證保持非負。作為對某些數據的非負性質正確的替代方案,Lee 和 Seung 推廣了非負矩陣分解的概念。在計算機視覺中,圖像數據通常由非負值組成,觀察到 NMF 在分割,特征提取,運動或姿勢估計方面可產生優異的結果。
NMF 被視為約束最小二乘優化問題,足以解決
盡管(8)在 W 或 H 中都是凸的,但(8)中的基矢量和系數的同時估計不允許采用封閉形式的解,并且已知存在許多局部最小值。可證明存在一個唯一的最優值,但是迄今為止尚無法確定能找到它的算法。
3.2 通過 NMF 同時分解多視圖數據
本文提出的工作背后的主要動機是對可提供不同類型數據的實體進行聚類。例如,可以通過不同的抽象圖像特征來表征從 flickr 檢索到的圖像,但同時存在用戶生成的描述其內容或形式的標記或標簽。我們假設同時對數據的這些不同視圖進行聚類將產生更有意義的聚類,并可能提供一種工具來填充丟失的信息。特別地,圖像特征和圖像標簽的多視圖聚類可以提供一種方法,該方法在給定圖像的情況下預測一組標簽或在給定一組查詢標簽的情況下從數據庫檢索相關圖像。
假設有一組 n 個不同的圖像,它的特征可以是 m _ n 個圖像特征矩陣 X 以及 l _ n 個逐個圖像矩陣 Y。我們的基本思想是為圖像和文本特征分別找到合適的基數 W 和 V,它們通過一個公共系數矩陣 H 隱式耦合。換句話說,我們的目標是找到兩個低秩近似。
我們的解決方案是將此思想形式化為兩個受約束的最小二乘問題的凸組合。
其中 是用戶指定的常數,它允許表達兩種要素類型中任一種的偏好。就像(8)中的原始 NMF 問題一樣,(11)中的擴展問題也不允許采用封閉形式的解決方案。因此,我們使 Lee 和 Seung 型不動點迭代適合于我們的情況。對于基向量 W 和 V 的矩陣,更新規則立即執行并讀取:
由于系數矩陣 H 現在耦合兩個基數,因此其更新要稍微多一些。系數的定點迭代的簡化版本為:
3.3 討論
我們在(11)中選擇單個優化問題的凸組合并不是一個任意決定。非負矩陣分解與概率潛在語義分析之間存在著密切的聯系。假設適當的歸一化,NMF 可以理解為學習聯合概率分布的參數,該參數表示為邊際分布的乘積。通過選擇兩個 NMF 問題的凸組合,可以將此類推到學習分布分布的水平。這類似于潛在的 Dirichlet 分配,但我們將對未來的工作留下可能的影響。
我們注意到,通過設置,我們的模型及其更新會減少為 NMF 的原始形式。此外,該模型不限于兩種不同類型的視圖。它對 p 個不同視圖的凸組合的擴展很簡單:
最后,與所有交替最小二乘方案一樣,可以保證多視圖 NMF 的擴展更新算法的收斂性。我們省略了形式證明,但略述了論點:給定 H,(12)中的任何更新都不會增加(11)中的任何一項;給定 W 和 V,(13)中的更新不能增加(11)中的表達式。
4 實驗
在以下小節中,我們介紹了通過使用多視圖 NMF 進行圖像分割,標簽預測和圖像檢索獲得的第一個實驗結果。請注意,到目前為止,這些都是旨在驗證該方法的初步實驗。我們目前正在進行擴展的實驗評估,以將所提出的方法與文獻中的其他方法進行比較。
4.1 通過聯合非負矩陣分解進行圖像分割
在第一個系列實驗中,我們將同時 NMF 應用于圖像分割問題。我們考慮從 flickr 下載的自然場景的彩色圖像。由于其所謂的感知均勻性,我們將 RGB 像素值轉換為 LUV 色彩空間,這確保了色彩空間中等距的顏色在感知上也將等距。
為了將圖像分割成均勻區域,我們從每個圖像中采樣了 1000 個像素,并建立了兩個特征矩陣,一個包含 1000 個顏色信息的三維列向量,另一個包含 1000 個包含像素坐標的二維列向量。這樣,我們將顏色與位置分開,并同時運行 NMF,以獲得通過公共系數 H 耦合的各個空間中的質心向量 W 和 V。
我們進行了幾個實驗,其中我們改變了質心的數量 k = {4,10,20},加權參數= {0.1,0.5,0.9}。當較大時,對像素的顏色描述符給予更大的權重,而當較小時,對像素的位置給予更大的權重。在隨機初始化為從高斯分布采樣的正值之后,我們對矩陣 W,V 和 H 運行更新規則,直到收斂,但最多進行 100 次。
給定訓練階段的結果,這些實驗中的測試階段包括將圖像的每個像素 x 分配給 k 個生成的聚類質心之一。給定 W 和 V,我們求解的系數 h,且聚類索引 c 根據
圖 1
4.2 通過圖像和文本特征的聯合分解來進行標簽預測和圖像檢索
該系列實驗旨在探索多視圖 NMF 是否能夠填充丟失的信息。我們考慮了從 flickr 的“最有趣”類別中檢索到的一組自然圖像訓練。這組訓練圖像包含 10 個不同類別的動機(云,月光,海灘,輪船,橋梁,山脈,森林,城市,教堂,城堡),我們考慮每個類別 300 張圖像。
在這些實驗中,使用局部自相似(SSIM)特征提取方案計算特征向量。然后將特征向量聚類為 k = 750 個視覺單詞的視覺詞匯。對于數據集中的每個圖像,將創建此詞匯表的直方圖。接下來,將數據集中所有圖像的各個直方圖收集在圖像特征矩陣中。
4.2.1 標簽預測
圖 2
4.2.2 圖像檢索
給定 x,我們搜索最小的訓練數據矩陣 X 的列向量 xi。表 2 中顯示了與以下單詞相對應的四個最相似的圖像。
表 1
5 結論與未來工作
本文介紹的工作旨在對圖像進行分析,并為其提供更多信息。我們引入了一種用于多視圖聚類的新模型,該模型將非負矩陣分解(NMF)的思想擴展到對不同類型特征的聯合分析中。我們將多視圖 NMF 轉換為單個優化問題的凸組合,并在這種情況下對 NMF 采用眾所周知的乘法定點算法。該方法避免了不同類型特征的臨時組合,因此忠實于不同描述符的性質。我們的多視圖 NMF 公式中的各個優化問題是通過一個公共系數矩陣耦合的。由于這種耦合,所得的基矢量或聚類質心允許從另一類型的描述符(例如圖像特征)推斷出一種類型的描述符(例如圖像標簽)。
在初步實驗中,我們驗證了該方法在圖像分割,標簽預測和基于標簽的圖像檢索中的適用性。我們的第一個結果表明,多視圖聚類可以提供適用于不同抽象級別的圖像分析框架,可以通過以多視圖方法提供的主要方式組合像素顏色和位置信息來識別圖像部分。使用我們的框架可以將顏色直方圖和按圖像的文本向量等各種信息耦合在一起,我們發現它能夠根據可用數據預測丟失的信息。
目前,我們正在進行更廣泛的實驗,以提供更定量的分析,并將擬議的方法與其他多視圖方法(如(內核化)規范成分分析)進行比較。與現有的相關方法相比,我們期望多視圖 NMF 的高效實現是可能的。為此,我們目前在模型中采用了凸包 NMF 等技術。我們還將進一步探討多視圖 NMF 與 LDA 的關系,以及它是否為層次化潛在主題模型提供替代方法。最后,我們設想了該方法的進一步應用,例如在高光譜成像領域。
致謝
本文由南京大學軟件學院 2020 級碩士生劉子夕翻譯轉述
總結
以上是生活随笔為你收集整理的大数据聚类分析用于预测_多模态数据中的非负矩阵分解用于分割和标签预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为畅玩5刷机不用电脑连接(华为畅玩5怎
- 下一篇: 刻章需要公安局备案吗(刻章需要公安局备案