李宏毅机器学习hw1~4作业 强化点
李宏毅機器學習hw1~4作業 強化點總結
- 李宏毅機器學習hw1
- 1. 特征選擇
- 2. 激活函數
- 3. 學習率
- 李宏毅機器學習hw2
- HMM
- 李宏毅機器學習hw3
- 1. dropout
- 2. 目標檢測Loss設置
- 3. 模型融合
- 李宏毅機器學習hw4
- 1. Conformer
- 2. Self-attention pooling
李宏毅機器學習hw1
1. 特征選擇
利用sklearn中的特征選擇方法,選擇了少量最有影響的特征。對特征進行歸一化處理,將其轉換到[0, 1]區間內。
參考:基于sklearn的特征選擇方法
2. 激活函數
LeakyReLU
優點:
1、針對Relu函數中存在的Dead Relu Problem,Leaky Relu函數在輸入為負值時,給予輸入值一個很小的斜率,在解決了負輸入情況下的0梯度問題的基礎上,也很好的緩解了Dead Relu問題;
2、該函數的輸出為負無窮到正無窮,即leaky擴大了Relu函數的范圍,其中α的值一般設置為一個較小值,如0.01;
缺點:
1、理論上來說,該函數具有比Relu函數更好的效果,但是大量的實踐證明,其效果不穩定,故實際中該函數的應用并不多。
2、由于在不同區間應用的不同的函數所帶來的不一致結果,將導致無法為正負輸入值提供一致的關系預測。
ELU
優點:
1、ELU具有Relu的大多數優點,不存在Dead Relu問題,輸出的均值也接近為0值;
2、該函數通過減少偏置偏移的影響,使正常梯度更接近于單位自然梯度,從而使均值向0加速學習;
3、該函數在負數域存在飽和區域,從而對噪聲具有一定的魯棒性;
缺點:
1、計算強度較高,含有冪運算;
2、在實踐中同樣沒有較Relu更突出的效果,故應用不多;
3. 學習率
余弦退火算法
余弦退火通過周期性的改變學習率大小,在可能陷入局部最小值時,有可能跳出“局部最小值”。
李宏毅機器學習hw2
HMM
利用HMM與分詞、詞性標注、命名實體識別
下面引用 HMM隱馬爾可夫模型詳解
使用HMM模型時我們的問題一般有這兩個特征:
1)我們的問題是基于序列的,比如時間序列,或者狀態序列。
2)我們的問題中有兩類數據,一類序列數據是可以觀測到的,即觀測序列;而另一類數據是不能觀察到的,即隱藏狀態序列,簡稱狀態序列。
有了這兩個特征,那么這個問題一般可以用HMM模型來嘗試解決。這樣的問題在實際生活中是很多的。比如:我現在在打字寫博客,我在鍵盤上敲出來的一系列字符就是觀測序列,而我實際想寫的一段話就是隱藏序列,輸入法的任務就是從敲入的一系列字符盡可能的猜測我要寫的一段話,并把最可能的詞語放在最前面讓我選擇,這就可以看做一個HMM模型了。再舉一個,我在和你說話,我發出的一串連續的聲音就是觀測序列,而我實際要表達的一段話就是狀態序列,你大腦的任務,就是從這一串連續的聲音中判斷出我最可能要表達的話的內容。
從這些例子中,我們可以發現,HMM模型可以無處不在。但是上面的描述還不精確,下面我們用精確的數學符號來表述我們的HMM模型。
原理可參考:HMM(隱馬爾可夫)簡介
李宏毅機器學習hw3
1. dropout
dropout,一般用來解決過擬合問題
注意:dropout一定放到全連接層,千萬不要放到卷積層
參考:深度學習中Dropout原理解析
2. 目標檢測Loss設置
FocalLoss
FocalLoss相對于CrossEntropy,考慮樣本不均衡的問題并增加了錯誤分類樣本loss的權重,可以通過減少易分類樣本的權重,使得模型在訓練時更專注于難分類的樣本。
Equalized Focal Loss
通過將一個類別相關的調制因子引入Focal Loss。具有兩個解耦的動態因子(即聚焦因子和加權因子)的調制因子獨立處理不同類別的正負不平衡。focusing factor根據硬正樣本對應類別的不平衡程度,決定了對硬正樣本的學習集中度。加權因子增加了稀有類別的影響,確保了稀有樣本的損失貢獻不會被頻繁的樣本所淹沒。這兩個因素的協同作用使EFL在長尾場景中應用一階段檢測器時,能夠均勻地克服前景-背景不平衡和前景類別不平衡。
————————————————
版權聲明:本文為CSDN博主「中科哥哥」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_38353277/article/details/123369497
3. 模型融合
感覺與作業的初衷不符,這里只簡單的做個介紹
【機器學習】kaggle比賽大殺器——模型融合
kaggle比賽集成指南
李宏毅機器學習hw4
1. Conformer
論文地址: Conformer
conformer的思路很簡單,就是將Transformer和CNN進行結合。原因:
1.Transformer中由于attention機制,擁有很好的全局性。
2.CNN擁有較好的局部性,可以對細粒度的信息進行提取。
兩者結合在語音上有較好的效果。論文中闡述了具體的model架構。
————————————————
版權聲明:本文為CSDN博主「loco_monkey」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/loco_monkey/article/details/125635953
參考:深度學習中Dropout原理解析
2. Self-attention pooling
self attention pooling論文
主要看論文中的self-attention pooling架構,和mean pooling相比之下,self-attention
pooling是通過可學習參數來進行pooling,相比mean pooling可以提取到一些信息。 參考大佬視頻講解
————————————————
版權聲明:本文為CSDN博主「loco_monkey」的原創文章,遵循CC 4.0
BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/loco_monkey/article/details/125635953
總結
以上是生活随笔為你收集整理的李宏毅机器学习hw1~4作业 强化点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 项目流程(从立项到结项)
- 下一篇: 解决谷歌浏览器书签同步问题