collectd: o plugin ping falha aleatoriamente no número médio / alto de hosts

1

Estou tentando usar collectd para monitorar o tempo de ping e o tráfego de interface de mais de 150 hosts, usando os plug-ins snmp e ping (os nós são principalmente roteadores). Os servidores lêem estatísticas (ping / snmp) e os gravam no disco através do plugin rrdtool. Tudo está bem com alguns hosts - no entanto, quando eu coloquei uma centena deles, muitos dos gráficos - especialmente os de ping - se fragmentaram mostrando apenas uma fração dos valores esperados ou nada. Os logs (no nível de depuração) mostram uma grande quantidade de erros, como:

rrdtool plugin: rrd_update_r (...) failed: ...  illegal attempt to update using time 1393957157 when last update time is 1393957286 (minimum one second step)

Os mesmos sites fazem ping a partir do CLI. e relatar alguns dados snmp (embora não todos, e não de forma confiável).

As FAQs no site da collectd mencionam as diferenças de tempo do cliente / servidor ou o plug-in múltiplo sendo carregado - ambos descartados neste caso. Executando collectd 5.4.1 no CentOS6. Eu tentei escrever linhas vermelhas / escrever sem alegria.

EDIT : Desde então, tentei ativar o plugin write-graphite, e tenho exatamente os mesmos gráficos defeituosos tanto em rrd quanto em grafite. Portanto, o problema parece estar especificamente no plug-in ping (e não, digamos, com E / S de disco ou back-end de gravação).

EDIT2 : Os hosts com falha têm (na maior parte) NaNs adicionados aos arquivos rrd / grafite / cvs.

EDIT3 : Depois de muita tentativa e erro, descobri que falhas começam ao tentar fazer ping de 59 hosts, quando o processo collectd tem cerca de 63 soquetes abertos. Então, parece que alguém poderia ter um problema com mais do que essa quantidade de soquetes. Não parece ser um limite rígido, no entanto, porque, configurando 116 hosts no plugin, eu posso ver o collectd abrindo 118 sockets. Então pode ser uma coisa por thread ou algo dentro da libopção (1.5.1)

    
por Alien Life Form 04.03.2014 / 19:26

0 respostas