nagios informa erroneamente a perda de pacotes

2

Ultimamente, na minha instalação do nagios 3.2.3 (CentOS5, monitorando ~ 300 hosts, 1150 serviços) foi programado para ocasionalmente reportar alta perda de pacotes em 50-60 hosts por vez. O problema é que é falso. Execuções manuais de ping (ou seu próprio binário check_ping) não encontram falha em nenhum dos hosts afetados. As únicas curas possíveis que encontrei até agora são:

  1. executa todas as verificações manualmente (elas serão bem-sucedidas, mas podem voltar a funcionar na próxima verificação)
  2. reconhecer e esperar que o problema desapareça (pode levar vários deles)

Eu suspeito (mas não tenho nenhum outro motivo além dos cheques pré-agendados) que o problema pode estar com todos os cheques sendo agendados juntos - nesse caso, introduzir algum jitter no agendamento (como?) pode ajudar. Ou pode ser algo completamente diferente.

Idéias, alguém?

Editar:

Para pessoas interessadas em debates construtivos (em vez de pontos de pontuação). Eu não estou tentando medir a perda de pacotes. O desempenho da rede não é minha preocupação neste caso e, se fosse, seria investigado com as ferramentas adequadas para o trabalho. O NAGIOS (para os desavisados) é usado principalmente para verificar a upness nos serviços do host e para gerar alertas. Quando ele começa a gerar grandes quantidades de alertas de peixe é, portanto, altamente irritante. Eu sou 99,9% positivo que o problema seja devido a:

  1. algum problema do Nagios / Nagios-Plugin
  2. algum problema no sistema (memory-cpu / i - pilha de rede)

possivelmente causado pela explosão de pedidos enviados pelo agendador nagios. As perdas de pacotes estão acima de 50% - se fossem reais, nossos telefones estariam derretendo. Até agora não tenho nenhuma evidência para (2), então estou procurando por "prior art" em (1). Eu posso estar enganado em minha crença, mas, se eu tiver que procurar por wireshark ou similar, uma sugestão sobre o que procurar seria muito apreciada.

    
por Alien Life Form 02.11.2012 / 10:11

3 respostas

1

Depois de ter verificado a perda de pacotes por diferentes ferramentas, Primeiro de tudo você precisa descobrir qual plugin está realmente verificando a perda de pacotes. Localize esse plugin e execute-o manualmente após o intervalo definido nos nagios, e verifique sua saída se isso puder lhe dar uma pista. O problema não parece ser que a perda de pacotes está lá, mas é o plugin de falha. depois de verificar a saída do plug-in, compare essa saída com a saída de outras ferramentas (para ver se mostra alguma perda de pacote e se outras não). Normalmente, o plugin é check_ping.

    
por 02.11.2012 / 10:44
0

Eu tive um problema semelhante em minha primeira tentativa com o Nagios. Ao tentar resolver o problema, encontrei o post do blog, que informa que o problema pode ocorrer se você estiver tentando fazer ping em um servidor IPV6 sem um endereço IPV6 em seu servidor.

Portanto, a solução é reescrever o comando "check_ping" nos arquivos do objeto de configuração do Nagios. Em um dos nossos arquivos .cfg, adicionei o seguinte:

define command {
    command_name    check_ping_ipv4
    command_line    $USER1$/check_ping -4 -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 5
}

Por favor, observe o parâmetro "-4" após o comando check_ping . Isso forçará o ping a usar somente o IPV4. Depois de definir o comando acima, eu poderia usá-lo em uma definição de serviço. Por exemplo:

define service {
    service_description     PING
    host_name               MYHOST
    check_command           check_ping_ipv4!100.0,20%!500.0,60%
    use                     generic-service
}
    
por 17.06.2014 / 15:43
-1

Manual runs of ping (or its own check_ping binary) finds no fault with any of the affected hosts

Essa é uma maneira muito idiota de verificar a perda de pacotes. Você deve comparar as retransmissões registradas para a NIC em intervalos (netstat -r) ou capturar o tráfego usando uma ferramenta como pastmon ou wireshark. Desde:

1) você já disse que a perda de pacotes ocorre em rajadas - como você sabe que estava executando um ping em um caminho durante o tempo em que a perda de pacotes estava ocorrendo?

2) pequenas quantidades de perda de pacotes podem ter um grande impacto na taxa de transferência - é por isso que as monitoramos - se você quiser confirmar a perda de pacotes de 1%, será necessário enviar pelo menos 200 pacotes pelo caminho - quantos você enviou?

3) No entanto, a substituição do WTF aqui é que o TCP, e em menor medida o UDP, se comporta de maneira muito diferente do ICMP - este último é muito menos afetado por problemas de congestionamento (mesmo assumindo uma consistência de 1500 MTU)

i.e. você não forneceu nenhuma evidência válida de que a perda de pacotes é falsa. No entanto, você forneceu evidências de que não entende realmente o que estava tentando medir.

yet other hosts on the same networks do not have the same loss

Você acha que a perda de pacotes ocorre apenas entre hosts? Isso está errado.

    
por 02.11.2012 / 12:05