Outro responsável mencionou gargalo de i / o no disco. Eu vou falar sobre afunilamento de rede como outra causa disso.
No meu ambiente, executamos um cluster de servidores de interface de usuário front-end (httpd, memcached); outro cluster de relés de camada intermediária (relé de carbono-c realizando encaminhamento e agregação); e uma camada de back-end (httpd, memcached, carbon-c-relay e cache de carbono.) Cada um desses clusters consiste em várias instâncias no EC2 e no processo total 15 milhões de métricas por minuto.
Tivemos um problema em que estávamos vendo falhas para as métricas geradas pela função agregada "sum" e também os valores agregados estavam incorretos (muito baixos). O problema seria aliviado reiniciando o relé carbono-c na camada intermediária, mas as falhas começariam a aparecer novamente após várias horas.
A agregação ocorreu na camada intermediária e na camada de back-end (a camada de back-end agregou as métricas agregadas transmitidas para ela a partir da camada intermediária).
Os anfitriões da camada do meio não estavam ligados à cpu, não estavam ligados ao disco e não apresentavam restrições na memória. Isso combinado com o fato de que o problema só apareceria algumas horas depois de reiniciar os processos de relés, significava que havia um gargalo na rede. Nossa solução foi simplesmente adicionar mais hosts à camada intermediária. Ao fazer isso instantaneamente, as métricas agregadas foram realizadas corretamente e não apresentaram lacunas.
O lugar exato na pilha de rede onde estava o gargalo? Eu não poderia te dizer. Poderia ter sido nos hosts linux; poderia ter sido no lado da Amazônia.