在集群服务器进行自定义数据集训练记录过程 TensorBoard logging requires TensorBoard with Python summary writer installed.
先記錄解決辦法:
TensorBoard logging requires TensorBoard with Python summary writer installed. This should be available in 1.14 or above.
辦法:
pip install tensorflow-tensorboard1.5.1
pip install tensorboard1.14
pip install imgaug
升級:
python3 -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
python3 train.py --model_def config/yolov3-custom.cfg --data_config config/custom.dat
解壓:
unzip dd2.zip
強制刪除文件
rm txt -rf
運行中:
因為在自己的ubuntu上面跑實在慢炸天,一百張圖片超過兩個小時?老師給了一個集群服務器的賬號,大概還是自己太笨,弄了三天才能把之前跑成功的代碼在服務器上跑成功。
用的是:浪潮AiStation智能計算平臺
http://svrproject.tpddns.net/aistation/howto.html
一開始一直在折騰shell無法登錄,后來仔細看平臺文檔才知道自己寫錯了主機名,而且使用開發環境根本不需要用到xshell…
過程:
1.登錄web平臺可視化的網站
2.新建開發環境,選擇鏡像(自己選的是pytorch,但不清楚不同版本的區別)
3.文件管理中上傳自己本地的壓縮文件,用命令進行壓縮(不用命令的話無法壓縮成功)
4.在開發環境詳情里進入shell終端
jupyter里面可以自由地編輯文件,記得點擊保存
shell終端里面安裝好需要的庫(自己先升級了pip然后安裝了一個img之類的包) 很多其他的包環境里面都配置好了,很方便。
訓練了一百個epoch:
python3 detect.py --image_folder data/custom/dd --model_def config/yolov3-custom.cfg --class_path data/custom/classes.names --checkpoint_model checkpoints/yolov3_ckpt_99.pth --weights_path checkpoints/yolov3_ckpt_99.pth
另外checkpoint的pth文件無法在服務器里打開,大概要下載到自己電腦上才行。
下一步打算更新數據集了。
文件夾只能在終端強制刪除:
# cd /hexinyi # cd PyTorch-YOLOv3/data # ls coco coco.names custom get_coco_dataset.sh samples # cd custom # rm images rm: cannot remove 'images': Is a directory # rm images -r總結
以上是生活随笔為你收集整理的在集群服务器进行自定义数据集训练记录过程 TensorBoard logging requires TensorBoard with Python summary writer installed.的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【yolo】yolov3的pytorch
- 下一篇: 【问题记录】raise IndexErr