Geralmente, isso está relacionado à resposta SNMP não recebida em tempo hábil.
Como o SNMP usa o UDP, isso poderia significar que o congestionamento da rede ou o congestionamento do host causou a perda do pedido / resposta, mas mais comumente uma das duas máquinas envolvidas simplesmente não conseguia lidar com a solicitação em tempo hábil e a outra doente de esperar.
A chance de uma ou outra máquina ficar para trás aumenta com a carga de trabalho - Se você tiver muitos agentes SNMP consultando um determinado host, ela pode não atender as respostas da maneira mais esperada que alguns dos agentes esperam (e esses agentes mostrará pontos em branco nos gráficos ou reportará outros erros).
Por outro lado, se você tiver um agente consultando um monte de hosts - mais do que ele pode manipular em seu intervalo de pesquisa - as máquinas que não forem consultadas durante o intervalo de pesquisa terão uma lacuna em seus gráficos. (Esse problema foi particularmente comum com o PHP do Cacti, e levou ao desenvolvimento de cactid
(agora spine
), que eu recomendo strongmente que você use se você ainda não estiver usando).
Meus conselhos gerais sobre como corrigir isso:
-
Pesquise a cada 5 minutos, se possível.
A maioria dos ambientes não precisa de 1/5/15/30/60/90/120 segundos intervalos de pesquisa. Se a granularidade de cinco minutos for boa o suficiente para você, continue com ela. É menos trabalho para seus servidores, menos trabalho para seus agentes de monitoramento SNMP e menos dados para armazenar (ou um período maior de tempo em "granularidade total") -
Aumenta o tempo limite do SNMP em seus agentes.
Dê ao servidor mais tempo para responder ao seu pedido. Os daemons SNMP são o adolescente preguiçoso dos processos - você pede que eles limpem seu quarto (ou dêem a você uma árvore de dados) na segunda-feira, e na quarta ou quinta-feira eles podem ter pegado algumas meias. -
Limite quanto você está exigindo do servidor com cada pesquisa.
Se você só precisa de um contador, não peça as interfaces inteiras MIB - ele (geralmente) demora mais tempo para percorrer a árvore e gerar uma saída completa do que para dar apenas um OID. -
Limite quantos agentes estão solicitando dados.
Se você puder consolidar seu monitoramento em uma caixa (Zabbix ou Cacti), estará colocando menos demandas em seu servidor, e é menos provável que ele não responda em tempo hábil.
Se você ainda estiver tendo problemas depois de tentar o acima, haverá a etapa final de depuração: Percorrer seus registros e Farejar o tráfego SNMP . Certifique-se de que as solicitações e as respostas estão indo e voltando em tempo hábil e não sendo perdidas / rejeitadas como malformadas por algum motivo. Muitas vezes, olhando para os dados no fio vai lhe dar uma boa indicação do que está errado e como corrigi-lo.