【TensorFlow】TFRecord数据集的制作:读取、显示及代码详解
在跑通了官網的mnist和cifar10數據之后,筆者嘗試著制作自己的數據集,并保存,讀入,顯示。 TensorFlow可以支持cifar10的數據格式, 也提供了標準的TFRecord 格式。
?tensorflow 讀取數據, 官網提供了以下三種方法:
1 Feeding: 在tensorflow程序運行的每一步, 用python代碼在線提供數據;
2 Reader : 在一個計算圖(tf.graph)的開始前,將文件讀入到流(queue)中;
3 在聲明tf.variable變量或numpy數組時保存數據。受限于內存大小,適用于數據較小的情況;
在本文,主要介紹第二種方法,利用tf.record標準接口來讀入文件
準備圖片數據
筆者找了2類狗的圖片, 哈士奇和吉娃娃, 全部 resize成128 * 128大小
如下圖, 保存地址為D:\Python\data\dog
每類中有10張圖片
現在利用這2 類 20張圖片制作TFRecord文件
制作TFRECORD文件
1 先聊一下tfrecord, 這是一種將圖像數據和標簽放在一起的二進制文件,能更好的利用內存,在tensorflow中快速的復制,移動,讀取,存儲 等等..
這里注意,tfrecord會根據你選擇輸入文件的類,自動給每一類打上同樣的標簽
如在本例中,只有0,1 兩類
2 先上“制作TFRecord文件”的代碼,注釋附詳解
import osimport tensorflow as tffrom PIL import Image? #注意Image,后面會用到import matplotlib.pyplot as pltimport numpy as npcwd='D:\Python\data\dog\\'classes={'husky','chihuahua'} #人為 設定 2 類writer= tf.python_io.TFRecordWriter("dog_train.tfrecords") #要生成的文件for index,name in enumerate(classes):class_path=cwd+name+'\\'for img_name in os.listdir(class_path):img_path=class_path+img_name #每一個圖片的地址img=Image.open(img_path)img= img.resize((128,128))img_raw=img.tobytes()#將圖片轉化為二進制格式example = tf.train.Example(features=tf.train.Features(feature={"label": tf.train.Feature(int64_list=tf.train.Int64List(value=[index])),'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))})) #example對象對label和image數據進行封裝writer.write(example.SerializeToString())? #序列化為字符串writer.close()
tf.train.Example 協議內存塊包含了Features字段,通過feature將圖片的二進制數據和label進行統一封裝, 然后將example協議內存塊轉化為字符串, tf.python_io.TFRecordWriter 寫入到TFRecords文件中。運行完這段代碼后,會生成dog_train.tfrecords 文件,如下圖
讀取TFRECORD文件
在制作完tfrecord文件后, 將該文件讀入到數據流中。
代碼如下
注意,feature的屬性“label”和“img_raw”名稱要和制作時統一 ,返回的img數據和label數據一一對應。返回的img和label是2個 tf 張量,print出來 如下圖
顯示tfrecord格式的圖片
有些時候我們希望檢查分類是否有誤,或者在之后的網絡訓練過程中可以監視,輸出圖片,來觀察分類等操作的結果,那么我們就可以session回話中,將tfrecord的圖片從流中讀取出來,再保存。 緊跟著一開始的代碼寫:
filename_queue = tf.train.string_input_producer(["dog_train.tfrecords"]) #讀入流中reader = tf.TFRecordReader()_, serialized_example = reader.read(filename_queue)?? #返回文件名和文件features = tf.parse_single_example(serialized_example,features={'label': tf.FixedLenFeature([], tf.int64),'img_raw' : tf.FixedLenFeature([], tf.string),})? #取出包含image和label的feature對象image = tf.decode_raw(features['img_raw'], tf.uint8)image = tf.reshape(image, [128, 128, 3])label = tf.cast(features['label'], tf.int32)with tf.Session() as sess: #開始一個會話init_op = tf.initialize_all_variables()sess.run(init_op)coord=tf.train.Coordinator()threads= tf.train.start_queue_runners(coord=coord)for i in range(20):example, l = sess.run([image,label])#在會話中取出image和labelimg=Image.fromarray(example, 'RGB')#這里Image是之前提到的img.save(cwd+str(i)+'_''Label_'+str(l)+'.jpg')#存下圖片print(example, l)coord.request_stop()coord.join(threads)代碼運行完后, 從tfrecord中取出的文件被保存了。如下圖:
在這里我們可以看到,圖片文件名的第一個數字表示在流中的順序(這里沒有用shuffle), 第二個數字則是 每個圖片的label,吉娃娃都為0,哈士奇都為1。 由此可見,我們一開始制作tfrecord文件時,圖片分類正確。
轉自:https://www.2cto.com/kf/201702/604326.html
總結
以上是生活随笔為你收集整理的【TensorFlow】TFRecord数据集的制作:读取、显示及代码详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【C/C++】将二个有序数组合并
- 下一篇: 【TensorFlow】PyCharm中