stat meanings de nós de computação

3

Enviei um trabalho para um cluster do Linux que usa o agendador de tarefas SGE. O stat do job é qw por um longo tempo, então eu inspecionei as estatísticas dos nós de computação usando "qstat -f".

Descobri que muitos nós foram rotulados com as estatísticas "d", "adu" e "E". Eu me pergunto o que essas estatísticas significam. As páginas Grid Engine Man listaram essas estatísticas para filtrar as instâncias da fila ( -qs {a|c|d|o|s|u|A|C|D|E|S} ), mas nenhuma explicação adicional sobre a significado dessas estatísticas.

O que significam os estados?

    
por Dejian 16.05.2014 / 15:53

1 resposta

2

Eu sei por experiência que:

  • qw - espera na fila
  • E - erro
  • a - denota um estado de alarme
  • du - excluído pelo usuário

Há uma tabela aqui:

Você também pode usar a opção -explain para qstat para saber mais informações:

 -explain a|A|c|E
      'c' displays the reason for the c(onfiguration  ambigu-
      ous)  state  of  a queue instance. 'a' shows the reason
      for the alarm state. Suspend alarm state  reasons  will
      be  displayed  by  'A'.  'E'  displays the reason for a
      queue instance error state.

      The output format for the alarm reasons is one line per
      reason containing the resource value and threshold. For
      details about the resource value please  refer  to  the
      description  of  the  Full  Format  in  section  OUTPUT
      FORMATS below.

Referências

por 16.05.2014 / 16:04