DockerでPyTorchを実行するとRuntimeError: NCCL error unhandled system error, NCCL version 2.8.3

DockerでPyTorchを動かした際に表題のエラー。

ベースイメージはこれ。

FROM nvcr.io/nvidia/pytorch:20.12-py3

エラーログを見てみると

ncclSystemError: System call (socket, malloc, munmap, etc) failed.

mallocが失敗してるので必要なメモリを確保出来ていないのかと思ったが、free -h で確認すると物理メモリには十分な空きがあった。

TensorflowをDockerで実行した際も同じような経験をした覚えがあり、その時はDockerのshared memoryを増やすことで対処出来た。

–shm-sizeを増やして再度実行してみた所、無事にPyTorchを動かすことが出来るようになった。

docker run -it --gpus all --shm-size=1g my_docker_image /bin/bash

参考

RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:839, unhandled system error, NCCL version 2.8.3 · Issue #71 · NVIDIA/Megatron-LM
I am trying to pretrained gpt on two gpus, but I got the following error. ***************************************** Sett...

コメント

タイトルとURLをコピーしました