erros de tempo limite de nagios / SNMP

2

Estou monitorando ~ 100 hosts remotos através de uma VPN usando check_snmp_process.pl . Por muitos meses isso funcionou muito bem. Durante o fim de semana, comecei a ver os erros ERROR: Alarm signal (Nagios time-out) de praticamente todos os hosts / processos. Eu posso usar o comando na linha de comando e obter uma resposta bem-sucedida, então não estou claro por que o tempo limite seria esgotado em uso normal.

Esta manhã eu tentei aumentar o parâmetro 'timeout' no plugin para 20 segundos. Por cerca de uma hora isso pareceu funcionar, em questão de minutos a taxa de falha retornou ao seu nível anterior.

O servidor VPN não parece estar sob qualquer carga anormal. Nem a máquina nagios.

Sugestões sobre onde mais procurar a fonte disso?

Máquina Nagios: CentOS 6.5
Nagios versão: 3.5.1
Versão do plugin: 1.10

EDIT: Quando o 'timeout em massa' acontece, tudo fica dentro de alguns segundos. Cada host mostra o mesmo tempo (+ - 5 segundos) no relatório. Isso pode ser devido a nagios forçando novas verificações em 'processos órfãos' de uma reinicialização do serviço. Ainda não tenho certeza. Apenas parece sinistro quando 40-50 timeouts atingem o log de uma só vez.

    
por ethrbunny 17.02.2015 / 14:24

1 resposta

0

Eu tive o mesmo problema, mas depois de editar o script check_snmp_process.p l tempo de 15 a 40 funcionou. my $ TIMEOUT = 40;

    
por 25.08.2016 / 12:40

Tags