DockerでPyTorchを動かした際に表題のエラー。
ベースイメージはこれ。
FROM nvcr.io/nvidia/pytorch:20.12-py3
エラーログを見てみると
ncclSystemError: System call (socket, malloc, munmap, etc) failed.
mallocが失敗してるので必要なメモリを確保出来ていないのかと思ったが、free -h で確認すると物理メモリには十分な空きがあった。
TensorflowをDockerで実行した際も同じような経験をした覚えがあり、その時はDockerのshared memoryを増やすことで対処出来た。
–shm-sizeを増やして再度実行してみた所、無事にPyTorchを動かすことが出来るようになった。
docker run -it --gpus all --shm-size=1g my_docker_image /bin/bash
参考
RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:839, unhandled system error, NCCL version 2.8.3 · Issue #71 · NVIDIA/Megatron-LM
I am trying to pretrained gpt on two gpus, but I got the following error. ***************************************** Sett...
コメント