环境:单机(一个 Node ),4 块 GPU 卡
PyTorch 在训练的时候有两种可选模式,第一种是 DataParallel ( DP )模式,第二种是 DistributeDataParallel ( DDP ),我在实测中发现:
我看了官方的文档:https://pytorch.org/tutorials/intermediate/ddp_tutorial.html
https://pytorch.org/tutorials/intermediate/ddp_tutorial.html
我有几个问题: