當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

h5py快速入门指南

發(fā)布時間：2025/6/15 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 h5py快速入门指南小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

h5py是Python語言用來操作HDF5的模塊。下面的文章主要介紹h5py的快速入門指南，翻譯自h5py的官方文檔：http://docs.h5py.org/en/lates... 。該翻譯僅為個人學(xué)習(xí)h5py為目的，如有翻譯不當(dāng)之處，請速聯(lián)系筆者或提供正確的翻譯，非常感謝！

安裝

使用Anaconda或者M(jìn)iniconda:

conda install h5py

用Enthought Canopy，可以使用GUI安裝包安裝或用

enpkg h5py

安裝。用pip或setup.py安裝，請參考安裝方式。

核心概念

一個HDF5文件就是一個容器，用于儲存兩類對象：datasets，類似于數(shù)組的數(shù)據(jù)集合；groups，類似于文件夾的容器，可以儲存datasets和其它groups。當(dāng)使用h5py時，最基本的準(zhǔn)則為：

groups類似于字典（dictionaries），dataset類似于Numpy中的數(shù)組（arrays）。

假設(shè)有人給你發(fā)送了一個HDF5文件， mytestfile.hdf5（如何創(chuàng)建這個文件，請參考：附錄：創(chuàng)建一個文件）.首先你需要做的就是打開這個文件用于讀取數(shù)據(jù)：

>>> import h5py >>> f = h5py.File('mytestfile.hdf5', 'r')

這個File對象是你的起點。那么這個文件中儲存了什么呢？記住，h5py.File就像一個Python字典，因此我們可以查看這些鍵值，

>>> list(f.keys()) ['mydataset']

根據(jù)我們的觀察，這個文件中有一個dataset，即mydataset. 讓我們把這個dataset作為Dataset對象來檢驗

>>> dset = f['mydataset']

我們得到的這個對象不是一個數(shù)組，而是一個HDF5 dataset. 就像Numpy中的數(shù)據(jù)那樣，datasets有形狀（shape）和數(shù)據(jù)類型（data type）

>>> dset.shape (100,) >>> dset.dtype dtype('int32')

同時它們也支持?jǐn)?shù)組風(fēng)格的切片操作。下面是你如何完成這個文件中的一個dataset的讀寫的方法

>>> dset[...] = np.arange(100) >>> dset[0] 0 >>> dset[10] 10 >>> dset[0:100:10] array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

想要更多參考，請前往File Objects和Datasets.

附錄：創(chuàng)建一個文件

此時此刻，你也許會好奇mytestdata.hdf5是如何創(chuàng)建的。當(dāng)File對象初始化后，我們通過將模式（mode）設(shè)置為w來創(chuàng)建一個文件。其它模式（mode）為a（用于讀、寫、新建）和r+（用于讀、寫）。一個完整的File模式以及它們的含義的列表可參考File對象。

>>> import h5py >>> import numpy as np >>> f = h5py.File("mytestfile.hdf5", "w")

File對象有幾個看上去挺有趣的方法。其一為create_dataset，顧名思義，就是通過給定形狀和數(shù)據(jù)類型來創(chuàng)建一個dataset

>>> dset = f.create_dataset("mydataset", (100,), dtype='i')

File對象是上下文管理器，因此，下面的代碼也可運(yùn)行

>>> import h5py >>> import numpy as np >>> with h5py.File("mytestfile.hdf5", "w") as f: >>> dset = f.create_dataset("mydataset", (100,), dtype='i')

Groups和分層結(jié)構(gòu)

“HDF”是“Hierarchical Data Format”的縮寫。每個HDF5文件中的對象都有一個名字（name），它們以類似于POSIX風(fēng)格的分層結(jié)構(gòu)存放，用/分隔符分隔

>>> dset.name u'/mydataset'

在這個系統(tǒng)中“文件夾”（folders）被命名為groups. 我們創(chuàng)建的File對象本身也是一個group, 在這種情形下是根group（root group），名字為/:

>>> f.name u'/'

創(chuàng)建一個子group（subgroup）可以通過一個巧妙的命令create_group來完成。但是，我們首先需要以讀/寫模式來打開文件

>>> f = h5py.File('mydataset.hdf5', 'r+') >>> grp = f.create_group("subgroup")

所有Group對象，如同F(xiàn)ile對象一樣，也有create_*方法：

>>> dset2 = grp.create_dataset("another_dataset", (50,), dtype='f') >>> dset2.name u'/subgroup/another_dataset'

順便說一句，你不需要手動地創(chuàng)建所有的中間groups. 指定一個完整的路徑同樣可行

>>> dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i') >>> dset3.name u'/subgroup2/dataset_three'

Groups支持大部分的Python字典風(fēng)格的接口。你可以使用條目獲取（item-retrieval）的語法來獲取這個文件中的對象：

>>> dataset_three = f['subgroup2/dataset_three']

迭代一個group，就會產(chǎn)生它的成員的名字：

>>> for name in f: ... print name mydataset subgroup subgroup2

成員關(guān)系檢測也可以通過使用名字來實現(xiàn)：

>>> "mydataset" in f True >>> "somethingelse" in f False

你甚至可以使用完整的路徑的名字：

>>> "subgroup/another_dataset" in f True

它也有你熟悉的keys(), values(), items() 和iter() 的方法，以及get()方法。

因為迭代一個group只會產(chǎn)生它的直屬成員，所以想要迭代一個完整的文件，可以使用Group的方法visit()和visititems(), 它們通過一個調(diào)用（callable）來實現(xiàn):

>>> def printname(name): ... print name >>> f.visit(printname) mydataset subgroup subgroup/another_dataset subgroup2 subgroup2/dataset_three

想要更多參考，請前往Groups.

屬性

HDF5的最好特征之一就是你可以在描述的數(shù)據(jù)后儲存元數(shù)據(jù)（metadata）。所有的groups和datasets都支持幾個數(shù)據(jù)位的附屬命名，稱為屬性。（All groups and datasets support attached named bits of data called attributes.）

屬性可以通過attrs這個代理對象來獲取，這會再一次執(zhí)行字典接口：

>>> dset.attrs['temperature'] = 99.5 >>> dset.attrs['temperature'] 99.5 >>> 'temperature' in dset.attrs True

想要更多參考，請前往Attributes.

總結(jié)

以上是生活随笔為你收集整理的h5py快速入门指南的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： IOS-input元素光标偏移乱跑，是什
下一篇： diff 命令，防止遗忘