SOLO模型环境搭建训练流程及问题
生活随笔
收集整理的這篇文章主要介紹了
SOLO模型环境搭建训练流程及问题
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
一、背景
SOLO是一種圖像實例分割模型,我們主要下載的是github這個網(wǎng)站SOLO
因為該模型是基于mmdetection跟mmcv來的,所以要多注意學習掌握這兩個東東
二、流程
1.根據(jù)install.md安裝環(huán)境
Requirements
此次安裝版本
Python 3.8 pytorch 1.10.2 py3.8_cuda11.3_cudnn8.2.0_0 pytorch先找到Installation部分,打開INSTALL.md開始安裝。首先一定要注意Requirements中的各種版本問題,這里面處處是坑。此次SOLO的訓練環(huán)境是在從NGC下載的pytorch21.07鏡像所起的容器中建立的。
a.創(chuàng)建conda虛擬環(huán)境并激活
conda create -n solo python=3.8 -y #不是3.7,是3.8,當然以后訓練的時候不知道是幾了 conda activate solo這里注意,python版本得是3.8了,要求中的3.7跟其他庫的對應版本起沖突
b.按照官方說明安裝 PyTorch和torchvision
如果直接按照它給的來,應該是直接裝上了最新版本,也是可以的
可以根據(jù)official instructions挑選所需要的命令
c.克隆SOLO的repository
git clone https://github.com/WXinlong/SOLO.git #如果上面這行不管用的話,(一般不管用,要翻墻)就先把它搞到gitee上,再從gitee clone也行 cd SOLOd.安裝構(gòu)建要求,然后安裝 SOLO。(我們通過 github repo 安裝 pycocotools 而不是 pypi,因為 pypi 版本太舊并且與最新的 numpy 不兼容。)
pip install -r requirements/build.txt pip install " git+https://github.com/cocodataset/cocoapi.git#subdirectory=PythonAPI " #上面這行我也沒成功,從網(wǎng)上找到下面這行替代 or pip install "git+https://gitee.com/wsyin/cocoapi.git#subdirectory=PythonAPI" pip install -v -e 。 #或“python setup.py develop” #這個一般選后面這句其實還有docker鏡像選擇,但是我沒有操作成功
2.開始訓練train
訓練數(shù)據(jù)在data/coco里面,根據(jù)coco的格式來
python tools/train.py ${CONFIG_FILE}Example: python tools/train.py configs/solo/solo_r50_fpn_8gpu_1x.py3.推理模型結(jié)果inference
python demo/ inference_demo.py #這里注意要根據(jù)自己的config跟checkpoint以及demo.jpg改一下文件三、問題
遇到這個問題
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation:........原因是torch版本高了,對應不起來了,因為INSTALL.md也說
PyTorch 1.1 或更高版本(>=1.5 未測試)所以嘗試了降低版本,降到1.4,但是遇到了新問題:
ImportError: libtorch_cpu.so: cannot open shared object file: No such file or directory這又卡住了,搜索無果后,所以重新回到SOLO模型的原網(wǎng)址找issues,最終找到這個文件的修改
fix auto grad bug #204
這個修改應該是torch升級后做出的,所以torch1.10就沒問題了
總結(jié)
以上是生活随笔為你收集整理的SOLO模型环境搭建训练流程及问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP ABAP TOOLS 在生产系统
- 下一篇: tp5.0 微信jsapi支付