Como depurar problemas de latência de linux sob carga de rede

2

Eu tenho 12 nodos Cassandra de banco de dados Ubuntu 12/14 mistos. Todos os nós são nós baremetais com SSDs, placas de rede de 1 Gb e todos são colocados no mesmo DC (colo gerenciado).

Sob operação leve, a latência entre todos os nós e nossos nós da nuvem (no mesmo DC também) está abaixo de 1ms.

Quando começo a incrementar as gravações nos nós do banco de dados, as latências de e para esses nós de banco de dados sobem pesadamente para cerca de 300 ms. A carga da CPU também é em torno de 1 (4 núcleos físicos), a utilização do disco está abaixo de 3% e, por meio do dstat, a carga da rede é de aproximadamente 18 MiB.

Leituras locais & As gravações no Cassandra são relativamente rápidas, então descartei a sobrecarga da camada do aplicativo.

Quais ferramentas e configurações eu devo procurar no ajuste para entender por que minha latência é tão ruim? Tenho ferramentas de monitoramento para ver esses problemas, não sei ao certo por onde começar a diagnosticar essas ferramentas.

    
por killachaos 17.03.2016 / 21:37

1 resposta

0

Meu ponto de partida para problemas como esse geralmente é perf top . Isso rapidamente lhe dará uma ideia de onde a maior quantidade de tempo é gasta. Veja o link para alguns bons exemplos de como usá-lo.

    
por 18.03.2016 / 00:17