當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从numpy里加载_PyTorch强化：01.PyTorch 数据加载和处理

發布時間：2025/3/12 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了从numpy里加载_PyTorch强化：01.PyTorch 数据加载和处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PyTorch提供了許多工具來簡化和希望數據加載，使代碼更具可讀性。

1.下載安裝包

scikit-image：用于圖像的IO和變換
pandas：用于更容易地進行csv解析

from __future__ import print_function, divisionimport osimport torchimport pandas as pd #用于更容易地進行csv解析from skimage import io, transform #用于圖像的IO和變換import numpy as npimport matplotlib.pyplot as pltfrom torch.utils.data import Dataset, DataLoaderfrom torchvision import transforms, utils# 忽略警告import warningswarnings.filterwarnings("ignore")plt.ion() # interactive mode

2.下載數據集

從此處下載數據集，數據存于“data / faces /”的目錄中。這個數據集實際上是imagenet數據集標注為face的圖片當中在 dlib 面部檢測 (dlib’s pose estimation) 表現良好的圖片。我們要處理的是一個面部姿態的數據集。也就是按如下方式標注的人臉:

2.1 數據集注釋

數據集是按如下規則打包成的csv文件:

image_name,part_0_x,part_0_y,part_1_x,part_1_y,part_2_x, ... ,part_67_x,part_67_y0805personali01.jpg,27,83,27,98, ... 84,1341084239450_e76e00b7e7.jpg,70,236,71,257, ... ,128,312

3.讀取數據集

將csv中的標注點數據讀入(N，2)數組中，其中N是特征點的數量。讀取數據代碼如下：

landmarks_frame = pd.read_csv('data/faces/face_landmarks.csv')n = 65img_name = landmarks_frame.iloc[n, 0]landmarks = landmarks_frame.iloc[n, 1:].as_matrix()landmarks = landmarks.astype('float').reshape(-1, 2)print('Image name: {}'.format(img_name))print('Landmarks shape: {}'.format(landmarks.shape))print('First 4 Landmarks: {}'.format(landmarks[:4]))

3.1 數據結果

輸出：

Image name: person-7.jpgLandmarks shape: (68, 2)First 4 Landmarks: [[32. 65.][33. 76.][34. 86.][34. 97.]]

4 編寫函數

寫一個簡單的函數來展示一張圖片和它對應的標注點作為例子。

def show_landmarks(image, landmarks):"""顯示帶有地標的圖片""" plt.imshow(image) plt.scatter(landmarks[:, 0], landmarks[:, 1], s=10, marker='.', c='r') plt.pause(0.001) # pause a bit so that plots are updatedplt.figure()show_landmarks(io.imread(os.path.join('data/faces/', img_name)), landmarks)plt.show()

函數展示結果如下圖所示:

5.數據集類

torch.utils.data.Dataset是表示數據集的抽象類，因此自定義數據集應繼承Dataset并覆蓋以下方法

__len__ 實現 len(dataset) 返還數據集的尺寸。
__getitem__用來獲取一些索引數據，例如 dataset[i] 中的(i)。

5.1 建立數據集類

為面部數據集創建一個數據集類。我們將在 __init__ 中讀取csv的文件內容，在 __getitem__中讀取圖片。這么做是為了節省內存空間。只有在需要用到圖片的時候才讀取它而不是一開始就把圖片全部存進內存里。

我們的數據樣本將按這樣一個字典{'image': image, 'landmarks': landmarks}組織。我們的數據集類將添加一個可選參數transform 以方便對樣本進行預處理。下一節我們會看到什么時候需要用到transform參數。 __init__方法如下圖所示：

class FaceLandmarksDataset(Dataset):"""面部標記數據集."""def __init__(self, csv_file, root_dir, transform=None):""" csv_file(string)：帶注釋的csv文件的路徑。 root_dir(string)：包含所有圖像的目錄。 transform(callable， optional)：一個樣本上的可用的可選變換 """ self.landmarks_frame = pd.read_csv(csv_file) self.root_dir = root_dir self.transform = transformdef __len__(self):return len(self.landmarks_frame)def __getitem__(self, idx): img_name = os.path.join(self.root_dir, self.landmarks_frame.iloc[idx, 0]) image = io.imread(img_name) landmarks = self.landmarks_frame.iloc[idx, 1:] landmarks = np.array([landmarks]) landmarks = landmarks.astype('float').reshape(-1, 2) sample = {'image': image, 'landmarks': landmarks}if self.transform: sample = self.transform(sample)return sample

6.數據可視化

實例化這個類并遍歷數據樣本。我們將會打印出前四個例子的尺寸并展示標注的特征點。代碼如下圖所示：

face_dataset = FaceLandmarksDataset(csv_file='data/faces/face_landmarks.csv', root_dir='data/faces/')fig = plt.figure()for i in range(len(face_dataset)): sample = face_dataset[i]print(i, sample['image'].shape, sample['landmarks'].shape) ax = plt.subplot(1, 4, i + 1) plt.tight_layout() ax.set_title('Sample #{}'.format(i)) ax.axis('off')show_landmarks(**sample)if i == 3: plt.show() break

數據結果：

6.1 圖形展示結果

6.2 控制臺輸出結果:

0 (324, 215, 3) (68, 2)1 (500, 333, 3) (68, 2)2 (250, 258, 3) (68, 2)3 (434, 290, 3) (68, 2)

7.數據變換

通過上面的例子我們會發現圖片并不是同樣的尺寸。絕大多數神經網絡都假定圖片的尺寸相同。因此我們需要做一些預處理。讓我們創建三個轉換:

Rescale：縮放圖片
RandomCrop：對圖片進行隨機裁剪。這是一種數據增強操作
ToTensor：把numpy格式圖片轉為torch格式圖片 (我們需要交換坐標軸).

我們會把它們寫成可調用的類的形式而不是簡單的函數，這樣就不需要每次調用時傳遞一遍參數。我們只需要實現__call__方法，必要的時候實現 __init__ 方法。我們可以這樣調用這些轉換:

tsfm = Transform(params)transformed_sample = tsfm(sample)

觀察下面這些轉換是如何應用在圖像和標簽上的。

class Rescale(object):"""將樣本中的圖像重新縮放到給定大小。. Args: output_size(tuple或int)：所需的輸出大小。如果是元組，則輸出為與output_size匹配。如果是int，則匹配較小的圖像邊緣到output_size保持縱橫比相同。 """def __init__(self, output_size): assert isinstance(output_size, (int, tuple)) self.output_size = output_sizedef __call__(self, sample): image, landmarks = sample['image'], sample['landmarks'] h, w = image.shape[:2]if isinstance(self.output_size, int):if h > w: new_h, new_w = self.output_size * h / w, self.output_sizeelse: new_h, new_w = self.output_size, self.output_size * w / helse: new_h, new_w = self.output_size new_h, new_w = int(new_h), int(new_w) img = transform.resize(image, (new_h, new_w)) # h and w are swapped for landmarks because for images, # x and y axes are axis 1 and 0 respectively landmarks = landmarks * [new_w / w, new_h / h]return {'image': img, 'landmarks': landmarks}class RandomCrop(object):"""隨機裁剪樣本中的圖像. Args: output_size(tuple或int)：所需的輸出大小。如果是int，方形裁剪是。 """def __init__(self, output_size): assert isinstance(output_size, (int, tuple))if isinstance(output_size, int): self.output_size = (output_size, output_size)else: assert len(output_size) == 2 self.output_size = output_sizedef __call__(self, sample): image, landmarks = sample['image'], sample['landmarks'] h, w = image.shape[:2] new_h, new_w = self.output_size top = np.random.randint(0, h - new_h) left = np.random.randint(0, w - new_w) image = image[top: top + new_h, left: left + new_w] landmarks = landmarks - [left, top]return {'image': image, 'landmarks': landmarks}class ToTensor(object):"""將樣本中的ndarrays轉換為Tensors."""def __call__(self, sample): image, landmarks = sample['image'], sample['landmarks'] # 交換顏色軸因為 # numpy包的圖片是: H * W * C # torch包的圖片是: C * H * W image = image.transpose((2, 0, 1))return {'image': torch.from_numpy(image),'landmarks': torch.from_numpy(landmarks)}

8.組合轉換

接下來我們把這些轉換應用到一個例子上。

我們想要把圖像的短邊調整為256，然后隨機裁剪(randomcrop)為224大小的正方形。也就是說，我們打算組合一個Rescale和 RandomCrop的變換。我們可以調用一個簡單的類 torchvision.transforms.Compose來實現這一操作。具體實現如下圖：

scale = Rescale(256)crop = RandomCrop(128)composed = transforms.Compose([Rescale(256),RandomCrop(224)])# 在樣本上應用上述的每個變換。fig = plt.figure()sample = face_dataset[65]for i, tsfrm in enumerate([scale, crop, composed]): transformed_sample = tsfrm(sample) ax = plt.subplot(1, 3, i + 1) plt.tight_layout() ax.set_title(type(tsfrm).__name__)show_landmarks(**transformed_sample)plt.show()

輸出效果：

9.迭代數據集

讓我們把這些整合起來以創建一個帶組合轉換的數據集?？偨Y一下，每次這個數據集被采樣時:

及時地從文件中讀取圖片
對讀取的圖片應用轉換
由于其中一步操作是隨機的 (randomcrop) , 數據被增強了

我們可以像之前那樣使用for i in range循環來對所有創建的數據集執行同樣的操作。

transformed_dataset = FaceLandmarksDataset(csv_file='data/faces/face_landmarks.csv', root_dir='data/faces/', transform=transforms.Compose([Rescale(256),RandomCrop(224),ToTensor()]))for i in range(len(transformed_dataset)): sample = transformed_dataset[i]print(i, sample['image'].size(), sample['landmarks'].size())if i == 3: break

輸出結果：

0 torch.Size([3, 224, 224]) torch.Size([68, 2])1 torch.Size([3, 224, 224]) torch.Size([68, 2])2 torch.Size([3, 224, 224]) torch.Size([68, 2])3 torch.Size([3, 224, 224]) torch.Size([68, 2])

但是，對所有數據集簡單的使用for循環犧牲了許多功能，尤其是:

批量處理數據
打亂數據
使用多線程multiprocessingworker 并行加載數據。

torch.utils.data.DataLoader是一個提供上述所有這些功能的迭代器。下面使用的參數必須是清楚的。一個值得關注的參數是collate_fn, 可以通過它來決定如何對數據進行批處理。但是絕大多數情況下默認值就能運行良好。

dataloader = DataLoader(transformed_dataset, batch_size=4, shuffle=True, num_workers=4)# 輔助功能：顯示批次def show_landmarks_batch(sample_batched):"""Show image with landmarks for a batch of samples.""" images_batch, landmarks_batch = sample_batched['image'], sample_batched['landmarks'] batch_size = len(images_batch) im_size = images_batch.size(2) grid_border_size = 2 grid = utils.make_grid(images_batch) plt.imshow(grid.numpy().transpose((1, 2, 0)))for i in range(batch_size): plt.scatter(landmarks_batch[i, :, 0].numpy() + i * im_size + (i + 1) * grid_border_size, landmarks_batch[i, :, 1].numpy() + grid_border_size, s=10, marker='.', c='r') plt.title('Batch from dataloader')for i_batch, sample_batched in enumerate(dataloader):print(i_batch, sample_batched['image'].size(), sample_batched['landmarks'].size()) # 觀察第4批次并停止。if i_batch == 3: plt.figure()show_landmarks_batch(sample_batched) plt.axis('off') plt.ioff() plt.show() break

輸出

0 torch.Size([4, 3, 224, 224]) torch.Size([4, 68, 2])1 torch.Size([4, 3, 224, 224]) torch.Size([4, 68, 2])2 torch.Size([4, 3, 224, 224]) torch.Size([4, 68, 2])3 torch.Size([4, 3, 224, 224]) torch.Size([4, 68, 2])

10.后記：torchvision

在這篇教程中我們學習了如何構造和使用數據集類(datasets),轉換(transforms)和數據加載器(dataloader)。torchvision包提供了常用的數據集類(datasets)和轉換(transforms)。你可能不需要自己構造這些類。torchvision中還有一個更常用的數據集類ImageFolder。它假定了數據集是以如下方式構造的:

root/ants/xxx.pngroot/ants/xxy.jpegroot/ants/xxz.png...root/bees/123.jpgroot/bees/nsdf3.pngroot/bees/asd932_.png

其中’ants’,bees’等是分類標簽。在PIL.Image中你也可以使用類似的轉換(transforms)例如RandomHorizontalFlip,Scale。利用這些你可以按如下的方式創建一個數據加載器(dataloader) :

import torchfrom torchvision import transforms, datasetsdata_transform = transforms.Compose([ transforms.RandomSizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])])hymenoptera_dataset = datasets.ImageFolder(root='hymenoptera_data/train', transform=data_transform)dataset_loader = torch.utils.data.DataLoader(hymenoptera_dataset, batch_size=4, shuffle=True, num_workers=4

2020未來杯AI挑戰賽-圖像賽道-語音賽道同時開啟，30萬大獎等你來挑戰！

https://ai.futurelab.tv/tournament/6

總結

以上是生活随笔為你收集整理的从numpy里加载_PyTorch强化：01.PyTorch 数据加载和处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GDI编程注意点-1
下一篇：一些常规形几何形状的绘制和效果填充(一）