當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

pytorch 动态调整学习率重点

發(fā)布時間：2023/11/28 生活经验 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 pytorch 动态调整学习率重点小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

深度煉丹如同燉排骨一般，需要先大火全局加熱，緊接著中火燉出營養(yǎng)，最后轉(zhuǎn)小火收汁。
本文給出煉丹中的 “火候控制器”-- 學(xué)習(xí)率的幾種調(diào)節(jié)方法，框架基于?pytorch

1. 自定義根據(jù) epoch 改變學(xué)習(xí)率。

這種方法在開源代碼中常見，此處引用 pytorch 官方實例中的代碼?adjust_lr

def adjust_learning_rate(optimizer, epoch):"""Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""lr = args.lr * (0.1 ** (epoch // 30))for param_group in optimizer.param_groups:param_group['lr'] = lr

注釋：在調(diào)用此函數(shù)時需要輸入所用的 optimizer 以及對應(yīng)的 epoch ，并且 args.lr 作為初始化的學(xué)習(xí)率也需要給出。

使用代碼示例:

optimizer = torch.optim.SGD(model.parameters(),lr = args.lr,momentum = 0.9)
for epoch in range(10):adjust_learning_rate(optimizer,epoch)train(...)validate(...)

2. 針對模型的不同層設(shè)置不同的學(xué)習(xí)率

當(dāng)我們在使用預(yù)訓(xùn)練的模型時，需要對分類層進(jìn)行單獨修改并進(jìn)行初始化，其他層的參數(shù)采用預(yù)訓(xùn)練的模型參數(shù)進(jìn)行初始化，這個時候我們希望在進(jìn)行訓(xùn)練過程中，除分類層以外的層只進(jìn)行微調(diào)，不需要過多改變參數(shù)，因此需要設(shè)置較小的學(xué)習(xí)率。而改正后的分類層則需要以較大的步子去收斂，學(xué)習(xí)率往往要設(shè)置大一點以 resnet101 為例，分層設(shè)置學(xué)習(xí)率。

model = torchvision.models.resnet101(pretrained=True)
large_lr_layers = list(map(id,model.fc.parameters()))
small_lr_layers = filter(lambda p:id(p) not in large_lr_layers,model.parameters())
optimizer = torch.optim.SGD([{"params":large_lr_layers},{"params":small_lr_layers,"lr":1e-4}],lr = 1e-2,momenum=0.9)

注：large_lr_layers 學(xué)習(xí)率為 1e-2，small_lr_layers 學(xué)習(xí)率為 1e-4，兩部分參數(shù)共用一個 momenum

3. 根據(jù)具體需要改變 lr

以前使用 keras 的時候比較喜歡 ReduceLROnPlateau 可以根據(jù) 損失或者準(zhǔn)確度的變化來改變 lr。最近發(fā)現(xiàn) pytorch 也實現(xiàn)了這一個功能。

class torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

以 acc 為例，當(dāng) mode 設(shè)置為 “max” 時，如果 acc 在給定 patience 內(nèi)沒有提升，則以 factor 的倍率降低 lr。

使用方法示例：

optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
scheduler = ReduceLROnPlateau(optimizer, 'max',verbose=1,patience=3)
for epoch in range(10):train(...)val_acc = validate(...)# 降低學(xué)習(xí)率需要在給出 val_acc 之后scheduler.step(val_acc)

4. 手動設(shè)置 lr 衰減區(qū)間

使用方法示例

def adjust_learning_rate(optimizer, lr):for param_group in optimizer.param_groups:param_group['lr'] = lrfor epoch in range(60):        lr = 30e-5if epoch > 25:lr = 15e-5if epoch > 30:lr = 7.5e-5if epoch > 35:lr = 3e-5if epoch > 40:lr = 1e-5adjust_learning_rate(optimizer, lr)

5. 余弦退火

論文:?SGDR: Stochastic Gradient Descent with Warm Restarts

使用方法示例

epochs = 60
optimizer = optim.SGD(model.parameters(),lr = config.lr,momentum=0.9,weight_decay=1e-4) 
scheduler = lr_scheduler.CosineAnnealingLR(optimizer,T_max = (epochs // 9) + 1)
for epoch in range(epochs):scheduler.step(epoch)

目前最常用的也就這么多了，當(dāng)然也有很多其他類別，詳情見?how-to-adjust-learning-rate

參考文獻(xiàn)

how-to-adjust-learning-rate
adjust_lr

標(biāo)簽:?pytorch

總結(jié)

以上是生活随笔為你收集整理的pytorch 动态调整学习率重点的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一文告诉你Adam、AdamW、Amsg
下一篇：梯度优化算法Adam