曹子晗

个人博客

欢迎来到我的个人博客


Linux常用的命令

目录

Linux常用的命令

查看显卡占用

watch -n 1 -d nvidia-smi

每1秒刷新一次。

查看对应任务名的pid

ps -aux|grep [task_name]

PyTorch分布式训练

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 --nnode=1 --master_port=23456 main_dino.py --out_dim=1024 --epochs=300 [--other_args=other_values]

那么可以结合nohup命令,使得ssh断开后服务器也能继续运行任务

CUDA_VISIBLE_DEVICES=0,1 nohup torchrun --nproc_per_node=2 --nnode=1 --master_port=23456 main_dino.py --out_dim=1024 --epochs=300 &