手撕 CNN 之 AlexNet(PyTorch 实战篇)
大家好,我是紅色石頭!
在上一篇文章:
手撕 CNN 經典網絡之 AlexNet(理論篇)
詳細介紹了 AlexNet 的網絡結構,今天我們將使用?PyTorch?來復現AlexNet網絡,并用AlexNet模型來解決一個經典的Kaggle圖像識別比賽問題。
正文開始!
1.?數據集制作
在論文中AlexNet作者使用的是ILSVRC 2012比賽數據集,該數據集非常大(有138G),下載、訓練都很消耗時間,我們在復現的時候就不用這個數據集了。由于MNIST、CIFAR10、CIFAR100這些數據集圖片尺寸都較小,不符合AlexNet網絡輸入尺寸227x227的要求,因此我們改用kaggle比賽經典的“貓狗大戰”數據集了。?
該數據集包含的訓練集總共25000張圖片,貓狗各12500張,帶標簽;測試集總共12500張,不帶標簽。我們僅使用帶標簽的25000張圖片,分別拿出2500張貓和狗的圖片作為模型的驗證集。我們按照以下目錄層級結構,將數據集圖片放好。
為了方便大家訓練,我們將該數據集放在百度云盤,下載鏈接:
鏈接:https://pan.baidu.com/s/1UEOzxWWMLCUoLTxdWUkB4A?
提取碼:cdue
1.1 制作圖片數據的索引
準備好數據集之后,我們需要用PyTorch來讀取并制作可以用來訓練和測試的數據集。對于訓練集和測試集,首先要分別制作對應的圖片數據索引,即train.txt和test.txt兩個文件,每個txt中包含每個圖片的目錄和對應類別class(cat對應的label=0,dog對應的label=1)。示意圖如下:
制作圖片數據索引train.txt和test.txt兩個文件的python腳本程序如下:
import?ostrain_txt_path?=?os.path.join("data",?"catVSdog",?"train.txt") train_dir?=?os.path.join("data",?"catVSdog",?"train_data") valid_txt_path?=?os.path.join("data",?"catVSdog",?"test.txt") valid_dir?=?os.path.join("data",?"catVSdog",?"test_data")def?gen_txt(txt_path,?img_dir):f?=?open(txt_path,?'w')for?root,?s_dirs,?_?in?os.walk(img_dir,?topdown=True):??#?獲取?train文件下各文件夾名稱for?sub_dir?in?s_dirs:i_dir?=?os.path.join(root,?sub_dir)?????????????#?獲取各類的文件夾?絕對路徑img_list?=?os.listdir(i_dir)????????????????????#?獲取類別文件夾下所有png圖片的路徑for?i?in?range(len(img_list)):if?not?img_list[i].endswith('jpg'):?????????#?若不是png文件,跳過continue#label?=?(img_list[i].split('.')[0]?==?'cat')??0?:?1?label?=?img_list[i].split('.')[0]#?將字符類別轉為整型類型表示if?label?==?'cat':label?=?'0'else:label?=?'1'img_path?=?os.path.join(i_dir,?img_list[i])line?=?img_path?+?'?'?+?label?+?'\n'f.write(line)f.close()if?__name__?==?'__main__':gen_txt(train_txt_path,?train_dir)gen_txt(valid_txt_path,?valid_dir)運行腳本之后就在./data/catVSdog/目錄下生成train.txt和test.txt兩個索引文件。
1.2 構建Dataset子類
PyTorch 加載自己的數據集,需要寫一個繼承自torch.utils.data中Dataset類,并修改其中的__init__方法、__getitem__方法、__len__方法。默認加載的都是圖片,__init__的目的是得到一個包含數據和標簽的list,每個元素能找到圖片位置和其對應標簽。然后用__getitem__方法得到每個元素的圖像像素矩陣和標簽,返回img和label。
from?PIL?import?Image from?torch.utils.data?import?Datasetclass?MyDataset(Dataset):def?__init__(self,?txt_path,?transform?=?None,?target_transform?=?None):fh?=?open(txt_path,?'r')imgs?=?[]for?line?in?fh:line?=?line.rstrip()words?=?line.split()imgs.append((words[0],?int(words[1])))?#?類別轉為整型intself.imgs?=?imgs?self.transform?=?transformself.target_transform?=?target_transformdef?__getitem__(self,?index):fn,?label?=?self.imgs[index]img?=?Image.open(fn).convert('RGB')?#img?=?Image.open(fn)if?self.transform?is?not?None:img?=?self.transform(img)?return?img,?labeldef?__len__(self):return?len(self.imgs)getitem是核心函數。self.imgs是一個list,self.imgs[index]是一個str,包含圖片路徑,圖片標簽,這些信息是從上面生成的txt文件中讀取;利用Image.open對圖片進行讀取,注意這里的img是單通道還是三通道的;self.transform(img)對圖片進行處理,這個transform里邊可以實現減均值、除標準差、隨機裁剪、旋轉、翻轉、放射變換等操作。?
1.3 加載數據集和數據預處理?
當Mydataset構建好,剩下的操作就交給DataLoder來加載數據集。在DataLoder中,會觸發Mydataset中的getiterm函數讀取一張圖片的數據和標簽,并拼接成一個batch返回,作為模型真正的輸入。
pipline_train?=?transforms.Compose([#隨機旋轉圖片transforms.RandomHorizontalFlip(),#將圖片尺寸resize到227x227transforms.Resize((227,227)),#將圖片轉化為Tensor格式transforms.ToTensor(),#正則化(當模型出現過擬合的情況時,用來降低模型的復雜度)transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))#transforms.Normalize(mean?=?[0.485,?0.456,?0.406],std?=?[0.229,?0.224,?0.225]) ]) pipline_test?=?transforms.Compose([#將圖片尺寸resize到227x227transforms.Resize((227,227)),transforms.ToTensor(),transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))#transforms.Normalize(mean?=?[0.485,?0.456,?0.406],std?=?[0.229,?0.224,?0.225]) ]) train_data?=?MyDataset('./data/catVSdog/train.txt',?transform=pipline_train) test_data?=?MyDataset('./data/catVSdog/test.txt',?transform=pipline_test)#train_data?和test_data包含多有的訓練與測試數據,調用DataLoader批量加載 trainloader?=?torch.utils.data.DataLoader(dataset=train_data,?batch_size=64,?shuffle=True) testloader?=?torch.utils.data.DataLoader(dataset=test_data,?batch_size=32,?shuffle=False) #?類別信息也是需要我們給定的 classes?=?('cat',?'dog')?#?對應label=0,label=1在數據預處理中,我們將圖片尺寸調整到227x227,符合AlexNet網絡的輸入要求。均值mean = [0.5, 0.5, 0.5],方差std = [0.5, 0.5, 0.5],然后使用transforms.Normalize進行歸一化操作。?
我們來看一下最終制作的數據集圖片和它們對應的標簽:
examples?=?enumerate(trainloader) batch_idx,?(example_data,?example_label)?=?next(examples) #?批量展示圖片 for?i?in?range(4):plt.subplot(1,?4,?i?+?1)plt.tight_layout()??#自動調整子圖參數,使之填充整個圖像區域img?=?example_data[i]img?=?img.numpy()?#?FloatTensor轉為ndarrayimg?=?np.transpose(img,?(1,2,0))?#?把channel那一維放到最后img?=?img?*?[0.5,?0.5,?0.5]?+?[0.5,?0.5,?0.5]plt.imshow(img)plt.title("label:{}".format(example_label[i]))plt.xticks([])plt.yticks([]) plt.show()2. 搭建AlexNet神經網絡結構,并定義前向傳播的過程
class?AlexNet(nn.Module):"""Neural?network?model?consisting?of?layers?propsed?by?AlexNet?paper."""def?__init__(self,?num_classes=2):"""Define?and?allocate?layers?for?this?neural?net.Args:num_classes?(int):?number?of?classes?to?predict?with?this?model"""super().__init__()#?input?size?should?be?:?(b?x?3?x?227?x?227)#?The?image?in?the?original?paper?states?that?width?and?height?are?224?pixels,?but#?the?dimensions?after?first?convolution?layer?do?not?lead?to?55?x?55.self.net?=?nn.Sequential(nn.Conv2d(in_channels=3,?out_channels=96,?kernel_size=11,?stride=4),??#?(b?x?96?x?55?x?55)nn.ReLU(),nn.LocalResponseNorm(size=5,?alpha=0.0001,?beta=0.75,?k=2),??#?section?3.3nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?96?x?27?x?27)nn.Conv2d(96,?256,?5,?padding=2),??#?(b?x?256?x?27?x?27)nn.ReLU(),nn.LocalResponseNorm(size=5,?alpha=0.0001,?beta=0.75,?k=2),nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?256?x?13?x?13)nn.Conv2d(256,?384,?3,?padding=1),??#?(b?x?384?x?13?x?13)nn.ReLU(),nn.Conv2d(384,?384,?3,?padding=1),??#?(b?x?384?x?13?x?13)nn.ReLU(),nn.Conv2d(384,?256,?3,?padding=1),??#?(b?x?256?x?13?x?13)nn.ReLU(),nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?256?x?6?x?6))#?classifier?is?just?a?name?for?linear?layersself.classifier?=?nn.Sequential(nn.Dropout(p=0.5,?inplace=True),nn.Linear(in_features=(256?*?6?*?6),?out_features=500),nn.ReLU(),nn.Dropout(p=0.5,?inplace=True),nn.Linear(in_features=500,?out_features=20),nn.ReLU(),nn.Linear(in_features=20,?out_features=num_classes),)def?forward(self,?x):"""Pass?the?input?through?the?net.Args:x?(Tensor):?input?tensorReturns:output?(Tensor):?output?tensor"""x?=?self.net(x)x?=?x.view(-1,?256?*?6?*?6)??#?reduce?the?dimensions?for?linear?layer?inputreturn?self.classifier(x)在構建AlexNet網絡里,參數num_classes指的是類別的數量,由于論文中AlexNet的輸出是1000個類別,我們這里的數據集只有貓和狗兩個類別,因此這里的全連接層的神經元個數做了微調。num_classes=2,輸出層也是兩個神經元,不是原來的1000個神經元。FC6由原來的4096個神經元改為500個神經元,FC7由原來的4096個神經元改為20個神經元。
這里的改動大家注意一下,根據實際數據集的類別數量進行調整。整個網絡的其它結構跟論文中的完全一樣。
3. 將定義好的網絡結構搭載到GPU/CPU,并定義優化器
#創建模型,部署gpu device?=?torch.device("cuda"?if?torch.cuda.is_available()?else?"cpu") model?=?AlexNet().to(device) #定義優化器 optimizer?=?optim.Adam(model.parameters(),?lr=0.001)4. 定義訓練過程
def?train_runner(model,?device,?trainloader,?optimizer,?epoch):#訓練模型,?啟用?BatchNormalization?和?Dropout,?將BatchNormalization和Dropout置為Truemodel.train()total?=?0correct?=0.0#enumerate迭代已加載的數據集,同時獲取數據和數據下標for?i,?data?in?enumerate(trainloader,?0):inputs,?labels?=?data#把模型部署到device上inputs,?labels?=?inputs.to(device),?labels.to(device)#初始化梯度optimizer.zero_grad()#保存訓練結果outputs?=?model(inputs)#計算損失和#多分類情況通常使用cross_entropy(交叉熵損失函數),?而對于二分類問題,?通常使用sigmodloss?=?F.cross_entropy(outputs,?labels)#獲取最大概率的預測結果#dim=1表示返回每一行的最大值對應的列下標predict?=?outputs.argmax(dim=1)total?+=?labels.size(0)correct?+=?(predict?==?labels).sum().item()#反向傳播loss.backward()#更新參數optimizer.step()if?i?%?100?==?0:#loss.item()表示當前loss的數值print("Train?Epoch{}?\t?Loss:?{:.6f},?accuracy:?{:.6f}%".format(epoch,?loss.item(),?100*(correct/total)))Loss.append(loss.item())Accuracy.append(correct/total)return?loss.item(),?correct/total5. 定義測試過程
def?test_runner(model,?device,?testloader):#模型驗證,?必須要寫,?否則只要有輸入數據,?即使不訓練,?它也會改變權值#因為調用eval()將不啟用?BatchNormalization?和?Dropout,?BatchNormalization和Dropout置為Falsemodel.eval()#統計模型正確率,?設置初始值correct?=?0.0test_loss?=?0.0total?=?0#torch.no_grad將不會計算梯度,?也不會進行反向傳播with?torch.no_grad():for?data,?label?in?testloader:data,?label?=?data.to(device),?label.to(device)output?=?model(data)test_loss?+=?F.cross_entropy(output,?label).item()predict?=?output.argmax(dim=1)#計算正確數量total?+=?label.size(0)correct?+=?(predict?==?label).sum().item()#計算損失值print("test_avarage_loss:?{:.6f},?accuracy:?{:.6f}%".format(test_loss/total,?100*(correct/total)))6. 運行
#調用 epoch?=?20 Loss?=?[] Accuracy?=?[] for?epoch?in?range(1,?epoch+1):print("start_time",time.strftime('%Y-%m-%d?%H:%M:%S',time.localtime(time.time())))loss,?acc?=?train_runner(model,?device,?trainloader,?optimizer,?epoch)Loss.append(loss)Accuracy.append(acc)test_runner(model,?device,?testloader)print("end_time:?",time.strftime('%Y-%m-%d?%H:%M:%S',time.localtime(time.time())),'\n')print('Finished?Training') plt.subplot(2,1,1) plt.plot(Loss) plt.title('Loss') plt.show() plt.subplot(2,1,2) plt.plot(Accuracy) plt.title('Accuracy') plt.show()經歷 20 次 epoch 的 loss 和 accuracy 曲線如下:
經過20個epoch的訓練之后,accuracy達到了87.94%。
7. 保存模型
print(model) torch.save(model,?'./models/alexnet-catvsdog.pth')?#保存模型AlexNet 的模型會打印出來,并將模型模型命令為 alexnet-catvsdog.pth 保存在固定目錄下。
8.?模型測試
下面使用一張貓狗大戰測試集的圖片進行模型的測試。
from?PIL?import?Image import?numpy?as?npif?__name__?==?'__main__':device?=?torch.device('cuda'?if?torch.cuda.is_available()?else?'cpu')model?=?torch.load('./models/alexnet-catvsdog.pth')?#加載模型model?=?model.to(device)model.eval()????#把模型轉為test模式#讀取要預測的圖片#?讀取要預測的圖片img?=?Image.open("./images/test_cat.jpg")?#?讀取圖像#img.show()plt.imshow(img)?#?顯示圖片plt.axis('off')?#?不顯示坐標軸plt.show()#?導入圖片,圖片擴展后為[1,1,32,32]trans?=?transforms.Compose([transforms.Resize((227,227)),transforms.ToTensor(),transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))])img?=?trans(img)img?=?img.to(device)img?=?img.unsqueeze(0)??#圖片擴展多一維,因為輸入到保存的模型中是4維的[batch_size,通道,長,寬],而普通圖片只有三維,[通道,長,寬]#?預測?#?預測?classes?=?('cat',?'dog')output?=?model(img)prob?=?F.softmax(output,dim=1)?#prob是2個分類的概率print("概率:",prob)value,?predicted?=?torch.max(output.data,?1)predict?=?output.argmax(dim=1)pred_class?=?classes[predicted.item()]print("預測類別:",pred_class)輸出:
概率: tensor([[1.0000e+00, 5.8714e-13]], grad_fn=<SoftmaxBackward>)
預測類別: cat
模型預測結果正確!
好了,以上就是使用 PyTorch?復現 AlexNet 網絡的核心代碼。建議大家根據文章內容完整碼一下代碼,可以根據實際情況使用自己的數據集,并調整FC6、FC7、Output?Layer的神經元個數。
完整代碼我已經放在了?GitHub 上,地址:
https://github.com/RedstoneWill/CNN_PyTorch_Beginner/tree/main/AlexNet
手撕 CNN 系列:
手撕 CNN 經典網絡之 LeNet-5(理論篇)
手撕 CNN 經典網絡之 LeNet-5(MNIST 實戰篇)
手撕 CNN 經典網絡之 LeNet-5(CIFAR10 實戰篇)
手撕 CNN 經典網絡之 LeNet-5(自定義實戰篇)
手撕 CNN 經典網絡之 AlexNet(理論篇)
如果覺得這篇文章有用的話,麻煩點個在看或轉發朋友圈!
推薦閱讀
(點擊標題可跳轉閱讀)
干貨 | 公眾號歷史文章精選
我的深度學習入門路線
我的機器學習入門路線圖
重磅!
AI有道年度技術文章電子版PDF來啦!
掃描下方二維碼,添加?AI有道小助手微信,可申請入群,并獲得2020完整技術文章合集PDF(一定要備注:入群?+ 地點 + 學校/公司。例如:入群+上海+復旦。?
長按掃碼,申請入群
(添加人數較多,請耐心等待)
感謝你的分享,點贊,在看三連??
總結
以上是生活随笔為你收集整理的手撕 CNN 之 AlexNet(PyTorch 实战篇)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何移动当前正在使用的文件
- 下一篇: 如何零基础开始自学Python编程,值得