Nagios “CRITICAL - Tempo limite do soquete após 10 segundos” problemas com o serviço e o host Verificações

6

tivemos um pequeno problema com um sistema Nagios que estamos usando em nosso escritório, que só recentemente começou a aparecer.

O que eu gostaria de saber realmente é a melhor solução para resolver este problema, já que eu li um pouco sobre ele e parece haver muitas maneiras diferentes de resolvê-lo.

basicamente em pontos aleatórios ao longo do dia e em hosts / serviços aleatórios, receberemos uma advertência crítica sinalizada de que algo não está se comportando como deveria, quando investigamos 9 vezes em 10, terminamos com isso como uma mensagem de erro .

"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds"

indicando que o serviço ou o host expirou, onde devo definir os tempos limite para que isso pare? Eu li que alguns dos tempos limite do plugin são tão baixos quanto 10 segundos ...

obrigado Kris

    
por Kristiaan 05.05.2010 / 11:42

2 respostas

6

Geralmente, com qualquer serviço, você obterá isso algumas vezes, se o servidor estiver muito ocupado para responder, fazer um hickup na rede, etc. Você pode tentar ver se o servidor está sob carga quando recebe esses alertas.

Acho que a principal coisa que você quer ver é a diretiva max_check_attempts associada ao serviço ou ao modelo do serviço, para que você não receba um alerta até que a verificação entre em estado crítico / com falha algumas vezes em uma sequência. Você também pode ajustar o valor de tempo limite do plug-in check_nt com a opção -t :

-t, --timeout=INTEGER
   Seconds before connection attempt times out (default: 10)
    
por 05.05.2010 / 13:29
1

Eu também recomendaria verificar o NSClient no host monitorado.

    
por 24.06.2010 / 09:54