Slurm command 정리
GPU 스케쥴링을 위한 GPU 스케쥴러 Slurm 명령어 정리
# smap -> 작업 상태 및 노드 상태 확인
# sinfo [option] -N -I -> 노드 or 파티션 정보 확인
# squeue -> 작업 상태 확인
- R : RUNNING
- PD : PENDING
- S : SUSPENDED
- ST : STOP
- CD : COMPLETED
- CA : CANCELLED
- F : FAILED
- NF : NODE_FAIL
# sbatch [option] scriptfile -> 작업 제출
-n 필요 프로세스 수
-N 필요 컴퓨트 노드 수
-o stdout filename
-e stderr filename
-t 최대 작업 시간 지정 format> 02:00:00
--gres=gpu gpu 사용 옵션
-p 파티션 이름 지정
-J 작업 이름 지정
# srun [option] 실행파일 -> interactive 작업 제출
# slurm -J name -> 작업 이름 지정
# scontrol show job id -> 작업 상세 보기
# scancel jobid -> 작업 삭제
# sacct -j jobid --format format-> 작업 정보 조회
# sstat -j jobid --format format -> 진행중인 작업 정보 조회
# strigger -> 이벤트 트리거를 설정, 가져 오기 또는 검사하는 데 사용됩(노드가 다운되거나 작업과 관련된 제한된 이벤트가 포함)
# sview -> slurm이 관리하는 작업, 파티션 및 노드의 상태 정보를 얻고 업데이트하는 데 사용되는 그래픽 사용자 인터페이스
# salloc -> 자원을 작업 태스크에 실시간으로 할당하는 데 사용됩니다. 종종 이것은 자원을 할당하고 쉘을 생성하는 데 사용(srun병렬작업을 실행)
기타 참고 :
TF GPU 병렬처리 코드 : https://tensorflow.blog/6-%EB%B3%91%EB%A0%AC%EC%B2%98%EB%A6%AC-first-contact-with-tensorflow/