【Kaggle-MNIST之路】两层的神经网络Pytorch(四行代码的模型)
生活随笔
收集整理的這篇文章主要介紹了
【Kaggle-MNIST之路】两层的神经网络Pytorch(四行代码的模型)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡述
第一次學習Kaggle。按照之前的要求,先搞個簡單的版本來慢慢完善。
所以,第一次的版本特別爛(hhhh)。
任務描述
對mnist數據集進行貼標簽。(給圖片數據(向量),輸出對應的標簽。)
- 得分:0.58
- 排名:2600+(hhh這時候總共才2700個人)
可以說這個算法基本上等于沒搞。但是這個算法框架其實非常簡單,所以很適合給大家做以下簡單的學習。
閑聊:
因為最近是一直在研究pytorch,所以,這里就嘗試著直接搞搞這個。
只考慮神經網絡的模型,只用了4行代碼(是個非常簡單的例子)
文章目錄
- 簡述
- 任務描述
- 代碼分解
- 導入的包
- 導入數據
- 訓練集實例化
- 搭建神經網絡
- 損失函數
- 訓練模型
- 完整代碼
- 后記
- 將訓練與測試分開的原因
代碼分解
因為這一篇用簡單的篇幅介紹了整個框架之后,之后大家學習就只用在這個上面改善就好了。
導入的包
import pandas as pd import torch.utils.data as data import torch import torch.nn as nnfile = './all/train.csv' LR = 0.01導入數據
先自己寫了個類,用這個類的話,就是每次需要數據的時候,再分步的拿,而且基于原來的類。就可以直接套用以前學習的框架了。
class MNISTCSVDataset(data.Dataset):def __init__(self, csv_file, Train=True):self.dataframe = pd.read_csv(csv_file, iterator=True)self.Train = Traindef __len__(self):if self.Train:return 42000else:return 28000def __getitem__(self, idx):data = self.dataframe.get_chunk(100)ylabel = data['label'].as_matrix().astype('float')xdata = data.ix[:, 1:].as_matrix().astype('float')return ylabel, xdata訓練集實例化
mydataset = MNISTCSVDataset(file) train_loader = torch.utils.data.DataLoader(mydataset, batch_size=1, shuffle=True)導入到DataLoader中。
搭建神經網絡
沒錯神經網絡就已經搭建完了。(是不是覺得pytorch比tf方便多了。。)
net = nn.Sequential(nn.Linear(28 * 28, 100),nn.ReLU(),nn.Linear(100, 10) )損失函數
其實這也是非常關鍵的。
loss_function = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(net.parameters(), lr=LR)訓練模型
最后一句,其實是為了保存訓練好的模型。
for step, (yl, xd) in enumerate(train_loader):output = net(xd.squeeze().float())yl = yl.long()loss = loss_function(output, yl.squeeze())optimizer.zero_grad()loss.backward()optimizer.step()if step % 20 == 0:print('step %d' % step, loss)torch.save(net, 'divided-net.pkl')完整代碼
import pandas as pd import torch.utils.data as data import torch import torch.nn as nnfile = './all/train.csv' LR = 0.01class MNISTCSVDataset(data.Dataset):def __init__(self, csv_file, Train=True):self.dataframe = pd.read_csv(csv_file, iterator=True)self.Train = Traindef __len__(self):if self.Train:return 42000else:return 28000def __getitem__(self, idx):data = self.dataframe.get_chunk(100)ylabel = data['label'].as_matrix().astype('float')xdata = data.ix[:, 1:].as_matrix().astype('float')return ylabel, xdatamydataset = MNISTCSVDataset(file)train_loader = torch.utils.data.DataLoader(mydataset, batch_size=1, shuffle=True)net = nn.Sequential(nn.Linear(28 * 28, 100),nn.ReLU(),nn.Linear(100, 10) )loss_function = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(net.parameters(), lr=LR) for step, (yl, xd) in enumerate(train_loader):output = net(xd.squeeze().float())yl = yl.long()loss = loss_function(output, yl.squeeze())optimizer.zero_grad()loss.backward()optimizer.step()if step % 20 == 0:print('step %d' % step, loss)torch.save(net, 'divided-net.pkl')后記
到這里,一個模型就已經訓練好了。至于如何調用這個模型,我自己單獨寫了一個函數。
將訓練與測試分開的原因
主要是避免沖突。因為訓練的話,有時候擔心出bug什么的。就直接調用這個的話,會方便太多了。(易于保存和使用。)
測試的話,其實沒什么難度的。。大家隨便看看就好了。
import torch import torch.utils.data as data import pandas as pd import csv file = './all/test.csv'class MNISTCSVDataset(data.Dataset):def __init__(self, csv_file, Train=False):self.dataframe = pd.read_csv(csv_file, iterator=True)self.Train = Traindef __len__(self):if self.Train:return 42000else:return 28000def __getitem__(self, idx):data = self.dataframe.get_chunk(100)xdata = data.as_matrix().astype('float')return xdatanet = torch.load('divided-net.pkl')myMnist = MNISTCSVDataset(file) test_loader = torch.utils.data.DataLoader(myMnist, batch_size=1, shuffle=False)values = [] for _, xd in enumerate(test_loader):output = net(xd.squeeze().float())values = values + output.argmax(dim=1).numpy().tolist()with open('./all/sample_submission.csv', 'r') as fp_in, open('newfile.csv', 'w', newline='') as fp_out:reader = csv.reader(fp_in)writer = csv.writer(fp_out)header = 0for i, row in enumerate(reader):if i == 0:writer.writerow(row)else:row[-1] = str(values[i-1])writer.writerow(row)總結
以上是生活随笔為你收集整理的【Kaggle-MNIST之路】两层的神经网络Pytorch(四行代码的模型)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【解决方案】Expected objec
- 下一篇: 【Kaggle-MNIST之路】两层的神