批量下载CMIP6数据
本文介紹了如何批量下載 CMIP6 數(shù)據(jù)。
1. 注冊(cè)并登錄
- 打開(kāi)CMIP6官網(wǎng):https://esgf-node.llnl.gov/search/cmip6/;
- 點(diǎn)擊網(wǎng)頁(yè)右上角的 Create Account 注冊(cè)賬戶;
- 進(jìn)入注冊(cè)界面,填寫相關(guān)資料(只用填寫加粗的必填部分),完成注冊(cè);
- 注冊(cè)成功后登錄帳號(hào),會(huì)在右上角顯示用戶信息,并且可以使用 Data Chart 。
2. 選擇數(shù)據(jù)
- 第一步,在左側(cè)設(shè)置相應(yīng)的條件選擇自己需要的數(shù)據(jù);
- 第二步,在 “Total Number of Result” 處可以看到搜索結(jié)果數(shù);
- 第三步,設(shè)置頁(yè)面顯示結(jié)果數(shù)大于搜索結(jié)果數(shù)(這樣能一次性將結(jié)果添加進(jìn) Data Cart 中);
- 第四步,點(diǎn)擊 Add all displayed results to Data Cart ,將搜索結(jié)果添加進(jìn) Data Cart 中;
- 第五步,My Data Cart 后面的括號(hào)中顯示搜索到的結(jié)果數(shù),說(shuō)明添加成功。
3. 獲取下載鏈接
- 點(diǎn)擊 My Data Cart ,進(jìn)入數(shù)據(jù)車;
- 勾選 Select All Datasets ,并點(diǎn)擊 WGET Script 打開(kāi)腳本下載界面,下載所有 WGET 腳本;
為了獲得更好的性能,ESGF 分別為每個(gè)數(shù)據(jù)中心生成 WGET 腳本,不同數(shù)據(jù)中心的數(shù)據(jù)下載速度不同,數(shù)據(jù)中心的數(shù)據(jù)節(jié)點(diǎn)狀態(tài)可查看網(wǎng)址:https://esgf-node.llnl.gov/status/(或者點(diǎn)擊右上角的 Data Nodes Status 查看)。
- 下載腳本時(shí)會(huì)出現(xiàn)如下?tīng)顟B(tài),點(diǎn)擊仍然發(fā)送即可下載;
實(shí)際上可以用WGET根據(jù)腳本直接批量下載,但是還沒(méi)成功實(shí)現(xiàn),因此采用了一個(gè)略麻煩的方法。
- 用 VS Code 或者記事本打開(kāi)腳本,可以看到腳本中各文件的下載鏈接信息;
- 將腳本中所有鏈接復(fù)制出來(lái)保存到一個(gè)文本文件中(例如:從數(shù)據(jù)源 esgf-node.llnl.gov 中獲取的鏈接保存為 gov.txt );
- 建議每個(gè)腳本中的鏈接單獨(dú)復(fù)制保存,不要放在一起,這樣有利于提高下載效率。
4. 清洗鏈接數(shù)據(jù)
- 從腳本中復(fù)制出的鏈接信息中(例如 gov.txt ),第一列為文件名,第二列為下載鏈接,之后的幾列為驗(yàn)證信息(詳見(jiàn)上圖);
- 為了方便下載,需要清洗復(fù)制出來(lái)的信息(例如 gov.txt ),只提取下載鏈接并保存(例如 gov-url.txt )。
5. 批量下載
通過(guò)Internet Download Manager(IDM)軟件和迅雷批量下載數(shù)據(jù)。
(1)IDM 批量下載
- IDM 的安裝和配置詳見(jiàn)博客批量下載ERA5數(shù)據(jù)(Python+IDM);
- 復(fù)制清洗后的下載鏈接(例如 gov-url.txt );
- 打開(kāi) IDM 軟件,點(diǎn)擊左上角 任務(wù) ,點(diǎn)擊 從剪貼板中添加批量下載 ;
- 在批量下載界面中會(huì)顯示每個(gè)待下載文件信息;
- 選擇 所有文件保存至同一目錄(即文件下載目錄);
- 點(diǎn)擊 全部選擇 ,勾選所有文件;
- 點(diǎn)擊 確定 ,在彈出的新窗口中點(diǎn)擊 確定 即可將所有文件添加進(jìn)隊(duì)列中開(kāi)始下載。
- 修改同時(shí)下載文件個(gè)數(shù):在主界面點(diǎn)擊 隊(duì)列 - 主要下載隊(duì)列 ,選擇 隊(duì)列中的文件 ,修改同時(shí)下載文件個(gè)數(shù)后,點(diǎn)擊 應(yīng)用 完成修改。
可能出現(xiàn)的特殊情況:
點(diǎn)擊 從剪貼板中添加批量下載 后,文件類型和文件大小可能會(huì)出現(xiàn)“Error”或者為空的情況(如下圖),首先檢查一下數(shù)據(jù)中心的數(shù)據(jù)節(jié)點(diǎn)狀態(tài)( https://esgf-node.llnl.gov/status/ ),如果沒(méi)問(wèn)題,嘗試將下載鏈接的 http 修改為 https ,若問(wèn)題沒(méi)解決,則放到迅雷中下載。
(2)迅雷批量下載
不直接用迅雷的原因:(1)下載速度不如 IDM 快;(2)氪金才能變強(qiáng)(建議充值一個(gè)會(huì)員)
- 復(fù)制清洗后的下載鏈接(例如 gov-url.txt );
- 打開(kāi)迅雷,點(diǎn)擊左上角 新建 ,迅雷會(huì)自動(dòng)從剪貼板中讀取下載鏈接,點(diǎn)擊 確定 ;
- 設(shè)置文件保存路徑,點(diǎn)擊 確定 ,開(kāi)始下載。
6. 查漏與分組
下載過(guò)程中還需檢查所有數(shù)據(jù)是否都完整下載,另外,下載完后還需對(duì)數(shù)據(jù)進(jìn)行分組。下面提供兩段代碼分別用于查漏和數(shù)據(jù)分組。
(1)查漏
- 基于從WGET腳本中復(fù)制出來(lái)的鏈接信息進(jìn)行檢查(例如 gov.txt ),依次遍歷每個(gè)文件名,判斷是否在已下載文件中出現(xiàn),如果沒(méi)出現(xiàn)則為遺漏的文件,將其下載鏈接統(tǒng)一保存在一個(gè)文本文件中。
(2)分組
- 基于文件名中的信息對(duì)數(shù)據(jù)進(jìn)行分組,選擇分組依據(jù),判斷文件是否是這一類型,若是則移動(dòng)到對(duì)應(yīng)的文件夾內(nèi)。
7. 最后
- 內(nèi)容僅供大家學(xué)習(xí)參考,若有不足之處,敬請(qǐng)大家批評(píng)指正!
總結(jié)
以上是生活随笔為你收集整理的批量下载CMIP6数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 货币的本质
- 下一篇: 深度学习笔记(15) 人的表现