Mudanças entre as edições de "Slurm - Veredas"

De Wiki LCC
Ir para navegação Ir para pesquisar
(Criou página com '== Variáveis de ambiente do Slurm == == Submissão de jobs == == Verificar Status == === Jobs Paralelos (MPI) === <br/> === Jobs Paralelos (MPI-multithreded) === <br/> =...')
 
Linha 1: Linha 1:
 +
O [https://slurm.schedmd.com/ '''''Slurm Workload Manager'''''] (anteriormente conhecido como ''Simple Linux Utility for Resource Management'' ou SLURM), ou Slurm, é num escalonador de tarefas gratuito e de código aberto para Linux e kernels similares ao Unix, usado por muitos dos supercomputadores e clusters de computadores do mundo. O Slurm Workload Manager possui três funções principais:
 +
* alocar nós computacionais para acesso exclusivo e/ou não-exclusivo (compartilhado) aos usuários por um determinado período de tempo necessário para executar as tarefas computacionais submetidas (jobs).
 +
* oferece um ambiente integrado que permite executar e monitorar em tempo real as tarefas lançadas nos nós computacionais alocados.
 +
* gerencia a fila de submissão, arbitrando conflitos entre os pedidos de recursos computacionais.
 +
 +
== Comandos do Slurm ==
 +
Segue abaixo, uma lista de comandos úteis disponíveis para o Slurm que permite a interação dos usuários.
 +
 +
{|class="wikitable" width=80% border=1 cellpadding=35px 
 +
!|Comando
 +
!|Função do comando
 +
|-
 +
|'''SRUN'''
 +
|submete na linha de comando um job para execução.
 +
|-
 +
|'''SBATCH'''
 +
|submete scripts shell (eg. bash) para a fila de espera do SLURM.
 +
|-
 +
|'''SALLOC'''
 +
|reserva recursos do cluster (tempo de cpu, memória, quantidade de nós, etc) para a execução de uma tarefa computacional.
 +
|-
 +
|'''SBCAST'''
 +
|para transmissão de um arquivo para todos os nós que foram alocados para um determinado job.
 +
|-
 +
|'''SCANCEL'''
 +
|para cancelar um job que esteja sendo executado ou que ainda esteja na fila de espera.
 +
|-
 +
|'''SQUEUE'''
 +
|para monitorar o estado dos jobs nas diversas filas de espera do SLURM.
 +
|-
 +
|'''SINFO'''
 +
|para monitorar o estado global das partições configuradas (filas).
 +
|-
 +
|'''SVIEW'''
 +
|providencia a integração de toda a informação e disponibiliza-a através de uma interface gráfica.
 +
|}
 +
 +
 +
'''SRUN''' - submete na linha de comando um job para execução.
 +
----
 +
'''SBATCH''' - submete scripts shell (eg. bash) para a fila de espera do SLURM.
 +
----
 +
'''SALLOC''' - reserva recursos do cluster (tempo de cpu, memória, quantidade de nós, etc) para a execução de uma tarefa computacional.
 +
----
 +
'''SBCAST''' - para transmissão de um arquivo para todos os nós que foram alocados para um determinado job.
 +
----
 +
'''SCANCEL''' - para cancelar um job que esteja sendo executado ou que ainda esteja na fila de espera.
 +
----
 +
'''SQUEUE''' - para monitorar o estado dos jobs nas diversas filas de espera do SLURM.
 +
----
 +
'''SINFO''' - para monitorar o estado global das partições configuradas (filas).
 +
----
 +
'''SVIEW''' - providencia a integração de toda a informação e disponibiliza-a através de uma interface gráfica.
 +
----
 +
 
== Variáveis de ambiente do Slurm ==
 
== Variáveis de ambiente do Slurm ==
  

Edição das 16h40min de 7 de junho de 2019

O Slurm Workload Manager (anteriormente conhecido como Simple Linux Utility for Resource Management ou SLURM), ou Slurm, é num escalonador de tarefas gratuito e de código aberto para Linux e kernels similares ao Unix, usado por muitos dos supercomputadores e clusters de computadores do mundo. O Slurm Workload Manager possui três funções principais:

  • alocar nós computacionais para acesso exclusivo e/ou não-exclusivo (compartilhado) aos usuários por um determinado período de tempo necessário para executar as tarefas computacionais submetidas (jobs).
  • oferece um ambiente integrado que permite executar e monitorar em tempo real as tarefas lançadas nos nós computacionais alocados.
  • gerencia a fila de submissão, arbitrando conflitos entre os pedidos de recursos computacionais.

Comandos do Slurm

Segue abaixo, uma lista de comandos úteis disponíveis para o Slurm que permite a interação dos usuários.

Comando Função do comando
SRUN submete na linha de comando um job para execução.
SBATCH submete scripts shell (eg. bash) para a fila de espera do SLURM.
SALLOC reserva recursos do cluster (tempo de cpu, memória, quantidade de nós, etc) para a execução de uma tarefa computacional.
SBCAST para transmissão de um arquivo para todos os nós que foram alocados para um determinado job.
SCANCEL para cancelar um job que esteja sendo executado ou que ainda esteja na fila de espera.
SQUEUE para monitorar o estado dos jobs nas diversas filas de espera do SLURM.
SINFO para monitorar o estado global das partições configuradas (filas).
SVIEW providencia a integração de toda a informação e disponibiliza-a através de uma interface gráfica.


SRUN - submete na linha de comando um job para execução.


SBATCH - submete scripts shell (eg. bash) para a fila de espera do SLURM.


SALLOC - reserva recursos do cluster (tempo de cpu, memória, quantidade de nós, etc) para a execução de uma tarefa computacional.


SBCAST - para transmissão de um arquivo para todos os nós que foram alocados para um determinado job.


SCANCEL - para cancelar um job que esteja sendo executado ou que ainda esteja na fila de espera.


SQUEUE - para monitorar o estado dos jobs nas diversas filas de espera do SLURM.


SINFO - para monitorar o estado global das partições configuradas (filas).


SVIEW - providencia a integração de toda a informação e disponibiliza-a através de uma interface gráfica.


Variáveis de ambiente do Slurm

Submissão de jobs

Verificar Status

Jobs Paralelos (MPI)


Jobs Paralelos (MPI-multithreded)


Jobs Paralelos (threads/OpenMP)


Múltiplas tarefas simultâneas em um único job


Jobs Interativos



Remover jobs da fila ou em execução