當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

手撕 CNN 之 AlexNet（PyTorch 实战篇）

發布時間：2025/3/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了手撕 CNN 之 AlexNet（PyTorch 实战篇）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家好，我是紅色石頭！

在上一篇文章：

手撕 CNN 經典網絡之 AlexNet（理論篇）

詳細介紹了 AlexNet 的網絡結構，今天我們將使用?PyTorch?來復現AlexNet網絡，并用AlexNet模型來解決一個經典的Kaggle圖像識別比賽問題。

正文開始！

1.?數據集制作

在論文中AlexNet作者使用的是ILSVRC 2012比賽數據集，該數據集非常大（有138G），下載、訓練都很消耗時間，我們在復現的時候就不用這個數據集了。由于MNIST、CIFAR10、CIFAR100這些數據集圖片尺寸都較小，不符合AlexNet網絡輸入尺寸227x227的要求，因此我們改用kaggle比賽經典的“貓狗大戰”數據集了。?

該數據集包含的訓練集總共25000張圖片，貓狗各12500張，帶標簽；測試集總共12500張，不帶標簽。我們僅使用帶標簽的25000張圖片，分別拿出2500張貓和狗的圖片作為模型的驗證集。我們按照以下目錄層級結構，將數據集圖片放好。

為了方便大家訓練，我們將該數據集放在百度云盤，下載鏈接：

鏈接：https://pan.baidu.com/s/1UEOzxWWMLCUoLTxdWUkB4A?

提取碼：cdue

1.1 制作圖片數據的索引

準備好數據集之后，我們需要用PyTorch來讀取并制作可以用來訓練和測試的數據集。對于訓練集和測試集，首先要分別制作對應的圖片數據索引，即train.txt和test.txt兩個文件，每個txt中包含每個圖片的目錄和對應類別class（cat對應的label=0，dog對應的label=1）。示意圖如下：

制作圖片數據索引train.txt和test.txt兩個文件的python腳本程序如下：

import?ostrain_txt_path?=?os.path.join("data",?"catVSdog",?"train.txt") train_dir?=?os.path.join("data",?"catVSdog",?"train_data") valid_txt_path?=?os.path.join("data",?"catVSdog",?"test.txt") valid_dir?=?os.path.join("data",?"catVSdog",?"test_data")def?gen_txt(txt_path,?img_dir):f?=?open(txt_path,?'w')for?root,?s_dirs,?_?in?os.walk(img_dir,?topdown=True):??#?獲取?train文件下各文件夾名稱for?sub_dir?in?s_dirs:i_dir?=?os.path.join(root,?sub_dir)?????????????#?獲取各類的文件夾?絕對路徑img_list?=?os.listdir(i_dir)????????????????????#?獲取類別文件夾下所有png圖片的路徑for?i?in?range(len(img_list)):if?not?img_list[i].endswith('jpg'):?????????#?若不是png文件，跳過continue#label?=?(img_list[i].split('.')[0]?==?'cat')??0?:?1?label?=?img_list[i].split('.')[0]#?將字符類別轉為整型類型表示if?label?==?'cat':label?=?'0'else:label?=?'1'img_path?=?os.path.join(i_dir,?img_list[i])line?=?img_path?+?'?'?+?label?+?'\n'f.write(line)f.close()if?__name__?==?'__main__':gen_txt(train_txt_path,?train_dir)gen_txt(valid_txt_path,?valid_dir)

運行腳本之后就在./data/catVSdog/目錄下生成train.txt和test.txt兩個索引文件。

1.2 構建Dataset子類

PyTorch 加載自己的數據集，需要寫一個繼承自torch.utils.data中Dataset類，并修改其中的__init__方法、__getitem__方法、__len__方法。默認加載的都是圖片，__init__的目的是得到一個包含數據和標簽的list，每個元素能找到圖片位置和其對應標簽。然后用__getitem__方法得到每個元素的圖像像素矩陣和標簽，返回img和label。

from?PIL?import?Image from?torch.utils.data?import?Datasetclass?MyDataset(Dataset):def?__init__(self,?txt_path,?transform?=?None,?target_transform?=?None):fh?=?open(txt_path,?'r')imgs?=?[]for?line?in?fh:line?=?line.rstrip()words?=?line.split()imgs.append((words[0],?int(words[1])))?#?類別轉為整型intself.imgs?=?imgs?self.transform?=?transformself.target_transform?=?target_transformdef?__getitem__(self,?index):fn,?label?=?self.imgs[index]img?=?Image.open(fn).convert('RGB')?#img?=?Image.open(fn)if?self.transform?is?not?None:img?=?self.transform(img)?return?img,?labeldef?__len__(self):return?len(self.imgs)

getitem是核心函數。self.imgs是一個list，self.imgs[index]是一個str，包含圖片路徑，圖片標簽，這些信息是從上面生成的txt文件中讀取；利用Image.open對圖片進行讀取，注意這里的img是單通道還是三通道的；self.transform(img)對圖片進行處理，這個transform里邊可以實現減均值、除標準差、隨機裁剪、旋轉、翻轉、放射變換等操作。?

1.3 加載數據集和數據預處理?

當Mydataset構建好，剩下的操作就交給DataLoder來加載數據集。在DataLoder中，會觸發Mydataset中的getiterm函數讀取一張圖片的數據和標簽，并拼接成一個batch返回，作為模型真正的輸入。

pipline_train?=?transforms.Compose([#隨機旋轉圖片transforms.RandomHorizontalFlip(),#將圖片尺寸resize到227x227transforms.Resize((227,227)),#將圖片轉化為Tensor格式transforms.ToTensor(),#正則化(當模型出現過擬合的情況時，用來降低模型的復雜度)transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))#transforms.Normalize(mean?=?[0.485,?0.456,?0.406],std?=?[0.229,?0.224,?0.225]) ]) pipline_test?=?transforms.Compose([#將圖片尺寸resize到227x227transforms.Resize((227,227)),transforms.ToTensor(),transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))#transforms.Normalize(mean?=?[0.485,?0.456,?0.406],std?=?[0.229,?0.224,?0.225]) ]) train_data?=?MyDataset('./data/catVSdog/train.txt',?transform=pipline_train) test_data?=?MyDataset('./data/catVSdog/test.txt',?transform=pipline_test)#train_data?和test_data包含多有的訓練與測試數據，調用DataLoader批量加載 trainloader?=?torch.utils.data.DataLoader(dataset=train_data,?batch_size=64,?shuffle=True) testloader?=?torch.utils.data.DataLoader(dataset=test_data,?batch_size=32,?shuffle=False) #?類別信息也是需要我們給定的 classes?=?('cat',?'dog')?#?對應label=0，label=1

在數據預處理中，我們將圖片尺寸調整到227x227，符合AlexNet網絡的輸入要求。均值mean = [0.5, 0.5, 0.5]，方差std = [0.5, 0.5, 0.5]，然后使用transforms.Normalize進行歸一化操作。?

我們來看一下最終制作的數據集圖片和它們對應的標簽：

examples?=?enumerate(trainloader) batch_idx,?(example_data,?example_label)?=?next(examples) #?批量展示圖片 for?i?in?range(4):plt.subplot(1,?4,?i?+?1)plt.tight_layout()??#自動調整子圖參數，使之填充整個圖像區域img?=?example_data[i]img?=?img.numpy()?#?FloatTensor轉為ndarrayimg?=?np.transpose(img,?(1,2,0))?#?把channel那一維放到最后img?=?img?*?[0.5,?0.5,?0.5]?+?[0.5,?0.5,?0.5]plt.imshow(img)plt.title("label:{}".format(example_label[i]))plt.xticks([])plt.yticks([]) plt.show()

2. 搭建AlexNet神經網絡結構，并定義前向傳播的過程

class?AlexNet(nn.Module):"""Neural?network?model?consisting?of?layers?propsed?by?AlexNet?paper."""def?__init__(self,?num_classes=2):"""Define?and?allocate?layers?for?this?neural?net.Args:num_classes?(int):?number?of?classes?to?predict?with?this?model"""super().__init__()#?input?size?should?be?:?(b?x?3?x?227?x?227)#?The?image?in?the?original?paper?states?that?width?and?height?are?224?pixels,?but#?the?dimensions?after?first?convolution?layer?do?not?lead?to?55?x?55.self.net?=?nn.Sequential(nn.Conv2d(in_channels=3,?out_channels=96,?kernel_size=11,?stride=4),??#?(b?x?96?x?55?x?55)nn.ReLU(),nn.LocalResponseNorm(size=5,?alpha=0.0001,?beta=0.75,?k=2),??#?section?3.3nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?96?x?27?x?27)nn.Conv2d(96,?256,?5,?padding=2),??#?(b?x?256?x?27?x?27)nn.ReLU(),nn.LocalResponseNorm(size=5,?alpha=0.0001,?beta=0.75,?k=2),nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?256?x?13?x?13)nn.Conv2d(256,?384,?3,?padding=1),??#?(b?x?384?x?13?x?13)nn.ReLU(),nn.Conv2d(384,?384,?3,?padding=1),??#?(b?x?384?x?13?x?13)nn.ReLU(),nn.Conv2d(384,?256,?3,?padding=1),??#?(b?x?256?x?13?x?13)nn.ReLU(),nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?256?x?6?x?6))#?classifier?is?just?a?name?for?linear?layersself.classifier?=?nn.Sequential(nn.Dropout(p=0.5,?inplace=True),nn.Linear(in_features=(256?*?6?*?6),?out_features=500),nn.ReLU(),nn.Dropout(p=0.5,?inplace=True),nn.Linear(in_features=500,?out_features=20),nn.ReLU(),nn.Linear(in_features=20,?out_features=num_classes),)def?forward(self,?x):"""Pass?the?input?through?the?net.Args:x?(Tensor):?input?tensorReturns:output?(Tensor):?output?tensor"""x?=?self.net(x)x?=?x.view(-1,?256?*?6?*?6)??#?reduce?the?dimensions?for?linear?layer?inputreturn?self.classifier(x)

在構建AlexNet網絡里，參數num_classes指的是類別的數量，由于論文中AlexNet的輸出是1000個類別，我們這里的數據集只有貓和狗兩個類別，因此這里的全連接層的神經元個數做了微調。num_classes=2，輸出層也是兩個神經元，不是原來的1000個神經元。FC6由原來的4096個神經元改為500個神經元，FC7由原來的4096個神經元改為20個神經元。

這里的改動大家注意一下，根據實際數據集的類別數量進行調整。整個網絡的其它結構跟論文中的完全一樣。

3. 將定義好的網絡結構搭載到GPU/CPU，并定義優化器

#創建模型，部署gpu device?=?torch.device("cuda"?if?torch.cuda.is_available()?else?"cpu") model?=?AlexNet().to(device) #定義優化器 optimizer?=?optim.Adam(model.parameters(),?lr=0.001)

4. 定義訓練過程

def?train_runner(model,?device,?trainloader,?optimizer,?epoch):#訓練模型,?啟用?BatchNormalization?和?Dropout,?將BatchNormalization和Dropout置為Truemodel.train()total?=?0correct?=0.0#enumerate迭代已加載的數據集,同時獲取數據和數據下標for?i,?data?in?enumerate(trainloader,?0):inputs,?labels?=?data#把模型部署到device上inputs,?labels?=?inputs.to(device),?labels.to(device)#初始化梯度optimizer.zero_grad()#保存訓練結果outputs?=?model(inputs)#計算損失和#多分類情況通常使用cross_entropy(交叉熵損失函數),?而對于二分類問題,?通常使用sigmodloss?=?F.cross_entropy(outputs,?labels)#獲取最大概率的預測結果#dim=1表示返回每一行的最大值對應的列下標predict?=?outputs.argmax(dim=1)total?+=?labels.size(0)correct?+=?(predict?==?labels).sum().item()#反向傳播loss.backward()#更新參數optimizer.step()if?i?%?100?==?0:#loss.item()表示當前loss的數值print("Train?Epoch{}?\t?Loss:?{:.6f},?accuracy:?{:.6f}%".format(epoch,?loss.item(),?100*(correct/total)))Loss.append(loss.item())Accuracy.append(correct/total)return?loss.item(),?correct/total

5. 定義測試過程

def?test_runner(model,?device,?testloader):#模型驗證,?必須要寫,?否則只要有輸入數據,?即使不訓練,?它也會改變權值#因為調用eval()將不啟用?BatchNormalization?和?Dropout,?BatchNormalization和Dropout置為Falsemodel.eval()#統計模型正確率,?設置初始值correct?=?0.0test_loss?=?0.0total?=?0#torch.no_grad將不會計算梯度,?也不會進行反向傳播with?torch.no_grad():for?data,?label?in?testloader:data,?label?=?data.to(device),?label.to(device)output?=?model(data)test_loss?+=?F.cross_entropy(output,?label).item()predict?=?output.argmax(dim=1)#計算正確數量total?+=?label.size(0)correct?+=?(predict?==?label).sum().item()#計算損失值print("test_avarage_loss:?{:.6f},?accuracy:?{:.6f}%".format(test_loss/total,?100*(correct/total)))

6. 運行

#調用 epoch?=?20 Loss?=?[] Accuracy?=?[] for?epoch?in?range(1,?epoch+1):print("start_time",time.strftime('%Y-%m-%d?%H:%M:%S',time.localtime(time.time())))loss,?acc?=?train_runner(model,?device,?trainloader,?optimizer,?epoch)Loss.append(loss)Accuracy.append(acc)test_runner(model,?device,?testloader)print("end_time:?",time.strftime('%Y-%m-%d?%H:%M:%S',time.localtime(time.time())),'\n')print('Finished?Training') plt.subplot(2,1,1) plt.plot(Loss) plt.title('Loss') plt.show() plt.subplot(2,1,2) plt.plot(Accuracy) plt.title('Accuracy') plt.show()

經歷 20 次 epoch 的 loss 和 accuracy 曲線如下：

經過20個epoch的訓練之后，accuracy達到了87.94%。

7. 保存模型

print(model) torch.save(model,?'./models/alexnet-catvsdog.pth')?#保存模型

AlexNet 的模型會打印出來，并將模型模型命令為 alexnet-catvsdog.pth 保存在固定目錄下。

8.?模型測試

下面使用一張貓狗大戰測試集的圖片進行模型的測試。

from?PIL?import?Image import?numpy?as?npif?__name__?==?'__main__':device?=?torch.device('cuda'?if?torch.cuda.is_available()?else?'cpu')model?=?torch.load('./models/alexnet-catvsdog.pth')?#加載模型model?=?model.to(device)model.eval()????#把模型轉為test模式#讀取要預測的圖片#?讀取要預測的圖片img?=?Image.open("./images/test_cat.jpg")?#?讀取圖像#img.show()plt.imshow(img)?#?顯示圖片plt.axis('off')?#?不顯示坐標軸plt.show()#?導入圖片，圖片擴展后為[1，1，32，32]trans?=?transforms.Compose([transforms.Resize((227,227)),transforms.ToTensor(),transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))])img?=?trans(img)img?=?img.to(device)img?=?img.unsqueeze(0)??#圖片擴展多一維,因為輸入到保存的模型中是4維的[batch_size,通道,長，寬]，而普通圖片只有三維，[通道,長，寬]#?預測?#?預測?classes?=?('cat',?'dog')output?=?model(img)prob?=?F.softmax(output,dim=1)?#prob是2個分類的概率print("概率：",prob)value,?predicted?=?torch.max(output.data,?1)predict?=?output.argmax(dim=1)pred_class?=?classes[predicted.item()]print("預測類別：",pred_class)

輸出：

概率： tensor([[1.0000e+00, 5.8714e-13]], grad_fn=<SoftmaxBackward>)
預測類別： cat

模型預測結果正確！

好了，以上就是使用 PyTorch?復現 AlexNet 網絡的核心代碼。建議大家根據文章內容完整碼一下代碼，可以根據實際情況使用自己的數據集，并調整FC6、FC7、Output?Layer的神經元個數。

完整代碼我已經放在了?GitHub 上，地址：

https://github.com/RedstoneWill/CNN_PyTorch_Beginner/tree/main/AlexNet

手撕 CNN 系列：

手撕 CNN 經典網絡之 LeNet-5（理論篇）

手撕 CNN 經典網絡之 LeNet-5（MNIST 實戰篇）

手撕 CNN 經典網絡之 LeNet-5（CIFAR10 實戰篇）

手撕 CNN 經典網絡之 LeNet-5（自定義實戰篇）

手撕 CNN 經典網絡之 AlexNet（理論篇）

如果覺得這篇文章有用的話，麻煩點個在看或轉發朋友圈！

推薦閱讀

（點擊標題可跳轉閱讀）

干貨 | 公眾號歷史文章精選

我的深度學習入門路線

我的機器學習入門路線圖

重磅！

AI有道年度技術文章電子版PDF來啦！

掃描下方二維碼，添加?AI有道小助手微信，可申請入群，并獲得2020完整技術文章合集PDF（一定要備注：入群?+ 地點 + 學校/公司。例如：入群+上海+復旦。?

長按掃碼，申請入群

（添加人數較多，請耐心等待）

感謝你的分享，點贊，在看三連??

總結

以上是生活随笔為你收集整理的手撕 CNN 之 AlexNet（PyTorch 实战篇）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何移动当前正在使用的文件
下一篇：如何零基础开始自学Python编程，值得