當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

tensorflow教程开始——数据集：快速了解 tf.data

發布時間：2025/3/20 编程问答 12 豆豆

生活随笔收集整理的這篇文章主要介紹了 tensorflow教程开始——数据集：快速了解 tf.data 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參考文章：數據集：快速了解

數據集：快速了解

tf.data

從 numpy 數組讀取內存數據。
逐行讀取 csv 文件。

基本輸入

學習如何獲取數組的片段，是開始學習 tf.data 最簡單的方式。

Premade Estimators

def train_input_fn(features, labels, batch_size):"""一個用來訓練的輸入函數"""# 將輸入值轉化為數據集。dataset = tf.data.Dataset.from_tensor_slices((dict(features), labels))# 混排、重復、批處理樣本。dataset = dataset.shuffle(1000).repeat().batch(batch_size)# 返回數據集return dataset

下面我們來對這個函數做更仔細的分析。

參數

這個函數一共需要三個參數。如果一個參數的期望類型是 “array” （數組），那么它將可以接受幾乎所有可以用 numpy.array 來轉化為數組的值。我們可以看到只有一個例外：tuple，它對 Datasets 有特殊的含義。

features：一個形如 {‘feature_name’:array} 的數據字典（或者是 DataFrame），它包含了原始的輸入特征。
labels：一個包含每個樣本的 label 的數組。
batch_size：一個指示所需批量大小的整數。

在 premade_estimator.py 中，我們使用 iris_data.load_data() 函數來檢索虹膜數據。
你可以運行該函數，并按如下方式解壓結果：

import iris_data# 獲取數據 train, test = iris_data.load_data() features, labels = train

然后用像下面這樣的一行代碼，將數據傳遞給 input 函數：

batch_size=100 iris_data.train_input_fn(features, labels, batch_size)

讓我們來具體看看 train_input_fn() 函數。

（數組）片段

TF Layers 教程：構建卷積神經網絡

返回這個 Dataset 的代碼如下所示：

train, test = tf.keras.datasets.mnist.load_data() mnist_x, mnist_y = trainmnist_ds = tf.data.Dataset.from_tensor_slices(mnist_x) print(mnist_ds)

張量

上述的 Dataset 表示數組的簡單集合，但數據集比這更復雜。Dataset 可以透明地處理任何嵌套的字典或元組組合（或者 namedtuple）。

例如，將 irls 的 features 轉換為標準 python 字典之后，你可以將數組字典轉換為字典的 Dataset，如下所示：

dataset = tf.data.Dataset.from_tensor_slices(dict(features)) print(dataset) <TensorSliceDatasetshapes: {SepalLength: (), PetalWidth: (),PetalLength: (), SepalWidth: ()},types: {SepalLength: tf.float64, PetalWidth: tf.float64,PetalLength: tf.float64, SepalWidth: tf.float64} >

張量

iris 的第一行 train_input_fn 使用相同的功能，但是增加了一層結構。它創建了一個包含 (features_dict, label) 數據對的數據集。

以下代碼表明，標簽是類型為 int64 的標量：

# 將輸入轉化為數據集。 dataset = tf.data.Dataset.from_tensor_slices((dict(features), labels)) print(dataset) <TensorSliceDatasetshapes: ({SepalLength: (), PetalWidth: (),PetalLength: (), SepalWidth: ()},()),types: ({SepalLength: tf.float64, PetalWidth: tf.float64,PetalLength: tf.float64, SepalWidth: tf.float64},tf.int64)>

操作

目前，Dataset 會按照固定順序遍歷數據一次，且一次只能生成一個元素。在可以用于訓練之前，它需要進一步的處理。幸運的是，tf.data.Dataset 類提供了方法來讓數據為訓練作出更好的準備。train_input_fn 的下一行代碼就利用了幾個這樣的方法：

# 樣本的混排、重復、批處理。 dataset = dataset.shuffle(1000).repeat().batch(batch_size)

tf.data.Dataset.shuffle

tf.data.Dataset.repeat

tf.data.Dataset.batch

print(mnist_ds.batch(100)) <BatchDatasetshapes: (?, 28, 28),types: tf.uint8>

注意，因為最后一個批次將會有比較少的元素，因此數據集的批量大小是不確定的。

在 train_input_fn 中，批處理之后，數據集包含元素們的一維向量，這些一維向量的前面部分是：

print(dataset) <TensorSliceDatasetshapes: ({SepalLength: (?,), PetalWidth: (?,),PetalLength: (?,), SepalWidth: (?,)},(?,)),types: ({SepalLength: tf.float64, PetalWidth: tf.float64,PetalLength: tf.float64, SepalWidth: tf.float64},tf.int64)>

此時，Dataset 包含 (features_dict, labels) 對。這是 train 和 evaluate 方法所期望的格式，因此 input_fn 將返回數據集。

在使用 predict 方法時，可以/應該省略 labels。

讀取 CSV 文件

tf.data

如下對 iris_data.maybe_download 函數的調用，將會在必要的時候下載數據，并返回結果文件的路徑：

import iris_data train_path, test_path = iris_data.maybe_download()

iris_data.csv_input_fn 函數包括了一個用 Dataset 解析 csv 文件的替代方案。

讓我們來看看如何構建一個兼容 Estimator 的、可以讀取本地文件的輸入函數。

建立 Dataset

tf.data.Dataset.skip

ds = tf.data.TextLineDataset(train_path).skip(1)

建立一個 csv 行解析器

我們從建立一個可以解析一行的函數開始。

tf.decode_csv

# 描述文本列的元數據 COLUMNS = ['SepalLength', 'SepalWidth','PetalLength', 'PetalWidth','label'] FIELD_DEFAULTS = [[0.0], [0.0], [0.0], [0.0], [0]] def _parse_line(line):# 將行解碼到 fields 中fields = tf.decode_csv(line, FIELD_DEFAULTS)# 將結果打包成字典features = dict(zip(COLUMNS,fields))# 將標簽從特征中分離label = features.pop('label')return features, label

解析多行

tf.data.Dataset.map

這個 map 方法接受一個 map_func 參數，這個參數描述了 Dataset 中的每一個元素應該如何被轉化。

tf.data.Dataset.map

因此，為了在多行數據被從 csv 文件中讀取出來的時候解析它們，我們為 map 方法提供 _parse_line 函數：

ds = ds.map(_parse_line) print(ds) <MapDataset shapes: ({SepalLength: (), PetalWidth: (), ...},()), types: ({SepalLength: tf.float32, PetalWidth: tf.float32, ...},tf.int32)>

現在，數據集中包含的是 (features, label) 數據對，而不是簡單的字符串標量了。

iris_data.csv_input_fn 函數的余下部分和 Basic input 中介紹的 iris_data.train_input_fn 函數相同。

實踐

這個函數可以作為 iris_data.train_input_fn 的替代。它可以像如下這樣，來給 estimator 提供數據：

train_path, test_path = iris_data.maybe_download()# 所有的輸入都是數字 feature_columns = [tf.feature_column.numeric_column(name)for name in iris_data.CSV_COLUMN_NAMES[:-1]]# 構建 estimator est = tf.estimator.LinearClassifier(feature_columns,n_classes=3) # 訓練 estimator batch_size = 100 est.train(steps=1000,input_fn=lambda : iris_data.csv_input_fn(train_path, batch_size))

Estimator 期望 input_fn 沒有任何參數。要解除這個限制，我們使用 lambda 來捕獲參數并提供預期的接口。

總結

為了從不同的數據源中便捷的讀取數據，tf.data 模塊提供了類和函數的集合。除此之外，tf.data 有簡單并且強大的方法，來應用各種標準和自定義轉換。

現在你已經基本了解了如何為 Estimator 高效的獲取數據。（作為擴展）接下來可以思考如下的文檔：

創建定制化 Estimator
底層 API 編程介紹
數據導入

總結

以上是生活随笔為你收集整理的tensorflow教程开始——数据集：快速了解 tf.data的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：图卷积网络是什么？（行为识别）
下一篇： pycharm导入（import）报红（