Linux常用的命令
查看显卡占用
watch -n 1 -d nvidia-smi
每1秒刷新一次。
查看对应任务名的pid
ps -aux|grep [task_name]
PyTorch分布式训练
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 --nnode=1 --master_port=23456 main_dino.py --out_dim=1024 --epochs=300 [--other_args=other_values]
那么可以结合nohup
命令,使得ssh断开后服务器也能继续运行任务
CUDA_VISIBLE_DEVICES=0,1 nohup torchrun --nproc_per_node=2 --nnode=1 --master_port=23456 main_dino.py --out_dim=1024 --epochs=300 &