Slurm - Veredas
O Slurm Workload Manager (anteriormente conhecido como Simple Linux Utility for Resource Management ou SLURM), ou Slurm, é num escalonador de tarefas gratuito e de código aberto para Linux e kernels similares ao Unix, usado por muitos dos supercomputadores e clusters de computadores do mundo. O Slurm Workload Manager possui três funções principais:
- alocar nós computacionais para acesso exclusivo e/ou não-exclusivo (compartilhado) aos usuários por um determinado período de tempo necessário para executar as tarefas computacionais submetidas (jobs).
- oferece um ambiente integrado que permite executar e monitorar em tempo real as tarefas lançadas nos nós computacionais alocados.
- gerencia a fila de submissão, arbitrando conflitos entre os pedidos de recursos computacionais.
Índice
Comandos do Slurm
Segue abaixo, uma lista de comandos úteis disponíveis para o Slurm que permite a interação dos usuários.
Comando | Função do comando |
---|---|
SRUN | submete na linha de comando um job para execução. |
SBATCH | submete scripts shell (eg. bash) para a fila de espera do SLURM. |
SALLOC | reserva recursos do cluster (tempo de cpu, memória, quantidade de nós, etc) para a execução de uma tarefa computacional. |
SBCAST | para transmissão de um arquivo para todos os nós que foram alocados para um determinado job. |
SCANCEL | para cancelar um job que esteja sendo executado ou que ainda esteja na fila de espera. |
SQUEUE | para monitorar o estado dos jobs nas diversas filas de espera do SLURM. |
SINFO | para monitorar o estado global das partições configuradas (filas). |
SVIEW | providencia a integração de toda a informação e disponibiliza-a através de uma interface gráfica. |
SRUN - submete na linha de comando um job para execução.
SBATCH - submete scripts shell (eg. bash) para a fila de espera do SLURM.
SALLOC - reserva recursos do cluster (tempo de cpu, memória, quantidade de nós, etc) para a execução de uma tarefa computacional.
SBCAST - para transmissão de um arquivo para todos os nós que foram alocados para um determinado job.
SCANCEL - para cancelar um job que esteja sendo executado ou que ainda esteja na fila de espera.
SQUEUE - para monitorar o estado dos jobs nas diversas filas de espera do SLURM.
SINFO - para monitorar o estado global das partições configuradas (filas).
SVIEW - providencia a integração de toda a informação e disponibiliza-a através de uma interface gráfica.
Variáveis de ambiente do Slurm
Submissão de jobs
Verificar Status
Jobs Paralelos (MPI)
Jobs Paralelos (MPI-multithreded)
Jobs Paralelos (threads/OpenMP)
Múltiplas tarefas simultâneas em um único job
Jobs Interativos