无监督学习概论
文章目錄
- 1. 無監督學習基本原理
- 2. 基本問題
- 2.1 聚類 Clustering
- 2.2 降維 Dimensionality Reduction
- 2.3 概率模型估計
- 3. 機器學習三要素
- 4. 無監督學習方法
- 4.1 聚類
- 4.2 降維
- 4.3 話題分析
- 4.4 圖分析
1. 無監督學習基本原理
機器學習或統計學習一般包括監督學習、無監督學習、強化學習
無監督學習:從無標注數據中學習模型的機器學習問題
- 無標注數據是自然得到的數據
- 模型表示數據的類別、轉換或概率
- 本質:學習數據中的統計規律或潛在結構,主要包括 聚類、降維、概率估計
- 基本想法:對給定數據(矩陣數據)進行某種“壓縮”,找到數據的潛在結構,假定損失最小的壓縮得到的結果就是最本質的結構
- 考慮發掘數據的縱向結構,對應聚類
- 考慮發掘數據的橫向結構,對應降維
- 考慮發掘數據的縱向與橫向結構,對應概率模型估計
2. 基本問題
2.1 聚類 Clustering
聚類 是將樣本集合中相似的樣本(實例)分配到相同的類,不相似的樣本分配到不同的類。
- 聚類分 硬聚類(一個樣本只屬于一個類)和 軟聚類(一個樣本可屬于多個類)
- 聚類方法有 層次聚類 和 kkk均值聚類
2.2 降維 Dimensionality Reduction
降維 是將樣本集合中的樣本(實例)從高維空間轉換到低維空間。降維可以幫助發現數據中隱藏的橫向結構
假設樣本 原本存在于低維空間,或近似地存在于低維空間,通過降維可以更好地表示樣本數據的結構,更好地表示樣本之間的關系
- 降維有線性降維和非線性降維,降維方法有主成分分析
2.3 概率模型估計
假設訓練數據由一個概率模型生成,同時利用訓練數據學習概率模型的結構和參數
- 概率模型包括混合模型、概率圖模型等
- 概率圖模型又包括有向圖模型和無向圖模型
- 概率模型估計可以幫助發現數據中隱藏的橫向縱向結構
3. 機器學習三要素
同監督學習一樣,無監督學習也有三要素:模型、策略、算法
模型 就是函數 z=gθ(x)z=g_\theta(x)z=gθ?(x),條件概率分布 Pθ(z∣x)P_\theta(z |x)Pθ?(z∣x),或 Pθ(x∣z)P_\theta(x|z)Pθ?(x∣z),在聚類、降維、概率模型估計中擁有不同的形式
- 聚類 中模型的輸出是 類別
- 降維 中模型的輸出是 低維向量
- 概率模型估計 中的模型可以是混合概率模型,也可以是有向概率圖模型和無向概率圖模型
策略 在不同的問題中有不同的形式,但都可以表示為目標函數的優化
- 聚類 中樣本與所屬類別中心距離的最小化
- 降維 中樣本從高維空間轉換到低維空間過程中信息損失的最小化
- 概率模型估計 中模型生成數據概率的最大化
算法 通常是迭代算法,通過迭代達到目標函數的最優化,比如,梯度下降法。
- 層次聚類法、k均值聚類 是硬聚類方法
- 高斯混合模型 EM算法是軟聚類方法
- 主成分分析、潛在語義分析 是降維方法
- 概率潛在語義分析、潛在狄利克雷分配 是概率模型估計方法
4. 無監督學習方法
4.1 聚類
聚類主要用于數據分析,也可以用于監督學習的前處理
- 可以幫助發現數據中的統計規律
- 數據通常是連續變量表示的,也可以是離散變量表示的
4.2 降維
降維主要用于數據分析,也可以用于監督學習的前處理
- 可以幫助發現高維數據中的統計規律
- 數據是連續變量表示的
4.3 話題分析
話題分析是文本分析的一種技術
- 給定一個文本集合,話題分析旨在發現文本集合中每個文本的話題,而話題由單詞的集合表示。
- 話題分析方法有 潛在語義分析、概率潛在語義分析、潛在狄利克雷分配
4.4 圖分析
圖分析 的目的是 發掘隱藏在圖中的統計規律或潛在結構
- 鏈接分析 是圖分析的一種,主要是發現 有向圖中的重要結點,包括 PageRank 算法
- PageRank 算法最初是為互聯網搜索而提出。將互聯網看作是一個巨大的有向圖,網頁是結點,網頁的超鏈接是有向邊。PageRank 算法可以算出網頁的 PageRank 值,表示其重要度,在搜索引擎的排序中網頁的重要度起著重要作用
總結
- 上一篇: LeetCode 147. 对链表进行插
- 下一篇: LeetCode 第 19 场双周赛(2