관리 메뉴

Sysops Notepad

Slurm command 정리 본문

업무/sys

Slurm command 정리

sysops 2018. 11. 20. 16:31

GPU 스케쥴링을 위한 GPU 스케쥴러 Slurm 명령어 정리


# smap -> 작업 상태 및 노드 상태 확인


# sinfo [option] -N -I -> 노드 or 파티션 정보 확인


# squeue -> 작업 상태 확인 

- R : RUNNING 

- PD : PENDING 

- S : SUSPENDED 

- ST : STOP 

- CD : COMPLETED 

- CA : CANCELLED 

- F : FAILED 

- NF : NODE_FAIL 


# sbatch [option] scriptfile -> 작업 제출 

-n 필요 프로세스 수

-N 필요 컴퓨트 노드 수

-o stdout filename

-e stderr filename

-t 최대 작업 시간 지정 format> 02:00:00

--gres=gpu gpu 사용 옵션

-p 파티션 이름 지정

-J  작업 이름 지정


# srun [option] 실행파일 -> interactive  작업 제출 


# slurm -J name -> 작업 이름 지정


# scontrol show job id -> 작업 상세 보기


# scancel jobid -> 작업 삭제


# sacct -j jobid --format format-> 작업 정보 조회


# sstat  -j jobid --format format -> 진행중인 작업 정보 조회


# strigger    -> 이벤트 트리거를 설정, 가져 오기 또는 검사하는 데 사용됩(노드가 다운되거나 작업과 관련된 제한된 이벤트가 포함)


# sview  -> slurm이 관리하는 작업, 파티션 및 노드의 상태 정보를 얻고 업데이트하는 데 사용되는 그래픽 사용자 인터페이스


# salloc  -> 자원을 작업 태스크에 실시간으로 할당하는 데 사용됩니다. 종종 이것은 자원을 할당하고 쉘을 생성하는 데 사용(srun병렬작업을 실행)


기타 참고 :

TF GPU 병렬처리 코드 : https://tensorflow.blog/6-%EB%B3%91%EB%A0%AC%EC%B2%98%EB%A6%AC-first-contact-with-tensorflow/


Comments