Como configurar corretamente o Debian watchdog daemon para o BIOS Watch Dog?

5

As principais placas do Supermicro contêm um recurso da BIOS chamado "Watch Dog Function". Tendo Debian 6.0.6 com kernel "Linux debian 2.6.32-5-amd64 # 1 SMP" nós fizemos:

  1. Mude a função "Watch Dog" do BIOS de Disabled para Enabled.
  2. Instale o watchdog do pacote ( # apt-get install watchdog )

Esperado: isso seria tudo para que a função watchdog fosse instalada corretamente.

Resultado: o sistema é reinicializado a cada (aproximadamente) 5 minutos.

Alterar BIOS " Função Watch Dog " de Enabled to Disabled corrige as reinicializações indesejadas.

O processo de inicialização parece habilitar corretamente o daemon de watchdog. Pelo menos, o console exibe (quando o BIOS Watch Dog está desativado):

Starting watchdog keepalive daemon: wd_keepalive.
Stopping watchdog keepalive daemon....
Starting watchdog daemon....

E na reinicialização, essa saída é gerada:

INIT: SUsing makefile-style concurrent boot in runlevel 6.
Stopping watchdog daemon....
Starting watchdog keepalive daemon....

O que mais precisa ser feito para configurar a função watchdog do BIOS e o daemon de watchdog do Linux OS para trabalharem juntos corretamente?

    
por Pro Backup 07.02.2013 / 12:30

1 resposta

6

1. Carregar módulo de hardware

Primeiramente, para realmente "alimentar" o watchdog, você precisa ter o módulo de hardware watchdog carregado. Isso pode não acontecer automaticamente, já que a maioria dos drivers do watchdog está na lista negra, caso não haja nenhum watchdog daemon (por exemplo, em /etc/modprobe.d/blacklist-watchdog.conf em um sistema Ubuntu / Debian). Verifique se /dev/watchdog (ou similar) apareceu, pois isso implicaria que o módulo foi carregado.

Eu não sei o que a placa Supermicro usa, mas pode ser o driver Intel TCO ( iTCO_wdt ). Tente usar modprobe para carregar esse módulo e ver se ele é aceito (verifique também o syslog). Caso contrário, verifique as ferramentas do IPMI, pois elas incluem um driver de watchdog.

2. Use /etc/watchdog.conf

Em segundo lugar, você precisa editar o arquivo /etc/watchdog.conf para desfazer comentários e, assim, usar o acesso% device /dev/watchdog ao módulo. Caso contrário, o watchdog não utilizará o hardware e contará apenas com seu código interno para reinicializar suavemente uma máquina quebrada (o que não é tão útil).

Novamente, ao iniciar o watchdog, procure por mensagens no syslog sobre o início e qual módulo de hardware ele encontrou.

    
por 04.09.2013 / 18:53