일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Linux
- yum
- 크롬
- GNOME
- RHEL
- Elk
- CentOS
- Audit Log
- JSON
- 파이썬
- docker
- Elasticsearch
- Chrome
- Python
- 빅데이터
- 서울시민카드
- Shell
- 디렉토리
- syslog
- rsyslog
- C
- centos 7.5
- Kubernetes
- PostgreSQL
- log
- bash
- GPU
- audit
- zabbix
- K8S
- Today
- Total
Sysops Notepad
Slurm command 정리 본문
GPU 스케쥴링을 위한 GPU 스케쥴러 Slurm 명령어 정리
# smap -> 작업 상태 및 노드 상태 확인
# sinfo [option] -N -I -> 노드 or 파티션 정보 확인
# squeue -> 작업 상태 확인
- R : RUNNING
- PD : PENDING
- S : SUSPENDED
- ST : STOP
- CD : COMPLETED
- CA : CANCELLED
- F : FAILED
- NF : NODE_FAIL
# sbatch [option] scriptfile -> 작업 제출
-n 필요 프로세스 수
-N 필요 컴퓨트 노드 수
-o stdout filename
-e stderr filename
-t 최대 작업 시간 지정 format> 02:00:00
--gres=gpu gpu 사용 옵션
-p 파티션 이름 지정
-J 작업 이름 지정
# srun [option] 실행파일 -> interactive 작업 제출
# slurm -J name -> 작업 이름 지정
# scontrol show job id -> 작업 상세 보기
# scancel jobid -> 작업 삭제
# sacct -j jobid --format format-> 작업 정보 조회
# sstat -j jobid --format format -> 진행중인 작업 정보 조회
# strigger -> 이벤트 트리거를 설정, 가져 오기 또는 검사하는 데 사용됩(노드가 다운되거나 작업과 관련된 제한된 이벤트가 포함)
# sview -> slurm이 관리하는 작업, 파티션 및 노드의 상태 정보를 얻고 업데이트하는 데 사용되는 그래픽 사용자 인터페이스
# salloc -> 자원을 작업 태스크에 실시간으로 할당하는 데 사용됩니다. 종종 이것은 자원을 할당하고 쉘을 생성하는 데 사용(srun병렬작업을 실행)
기타 참고 :
TF GPU 병렬처리 코드 : https://tensorflow.blog/6-%EB%B3%91%EB%A0%AC%EC%B2%98%EB%A6%AC-first-contact-with-tensorflow/
'업무 > sys' 카테고리의 다른 글
[Linux] 에서 출력되는 systemd 로그 제거하는 방법 (0) | 2018.11.26 |
---|---|
리눅스 파일시스템 감시 알림 inotify 사용법 (0) | 2018.11.26 |
Zabbix Hostname to Visible name auto registration (0) | 2018.11.05 |
dd명령어를 이용한 디스크 복제 및 초기화 방법 (0) | 2018.11.05 |
ceph osd pool 생성하기 (0) | 2018.11.02 |