RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8
生活随笔
收集整理的這篇文章主要介紹了
RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
項目場景:
?分布式訓練中遇到這個問題,
?
問題描述
大概是沒有啟動并行運算???(
解決方案:
(1)首先看一下服務器GPU相關信息 進入pytorch終端(Terminal) 輸入代碼查看
python torch.cuda.is_available()#查看cuda是否可用; torch.cuda.device_count()#查看gpu數量; torch.cuda.get_device_name(0)#查看gpu名字,設備索引默認從0開始; torch.cuda.current_device()#返回當前設備索引;Ctrl+Z退出
(2)cd進入要運行文件的上層文件夾
加上要運行的文件以及相關配置
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128問題解決
總結
以上是生活随笔為你收集整理的RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL数据库安全配置规范操作
- 下一篇: 虚假共识—阿比勒尼悖论:“枪打出头鸟”与