
DockerでPyTorchを動かした際に表題のエラー。
ベースイメージはこれ。
FROM nvcr.io/nvidia/pytorch:20.12-py3エラーログを見てみると
ncclSystemError: System call (socket, malloc, munmap, etc) failed.mallocが失敗してるので必要なメモリを確保出来ていないのかと思ったが、free -h で確認すると物理メモリには十分な空きがあった。
TensorflowをDockerで実行した際も同じような経験をした覚えがあり、その時はDockerのshared memoryを増やすことで対処出来た。
–shm-sizeを増やして再度実行してみた所、無事にPyTorchを動かすことが出来るようになった。
docker run -it --gpus all --shm-size=1g my_docker_image /bin/bash参考

コメント