Por que os números / proc / diskstats estão subitamente incrivelmente baixos?

1

Eu tenho um servidor jessie do Debian com dois SSDs Intel DC S3610, em RAID-10. Está razoavelmente ocupado com IO e nas últimas semanas estive representando graficamente a IOPS:

Comovocêpodever,amaiorpartedotempofoifelizcomcercade1kdeoperaçõesdeleituramédiachegandoacercade5,5k,atéameia-noiteUTCnasexta-feiraqueparecepararelerasoperaçõescairparaquasenada.

Naverdade,eusónoteiissoretroativamente,porqueoproblemaéqueoservidoraindaestáfuncionandocomodeveria.Ouseja,euacreditoqueéomonitoramentoqueestáquebrado,nãoaquantidadedeIOPSqueaconfiguraçãopodefazer.SeaIOPSrealtivessecaídoparaonívelexibido,eusaberiaporquetudoomaisquebrariamuitovisivelmente.

Eminvestigaçõesposteriores,osgráficosdeleitura/gravaçãodekilobytestambémsãoquebradosnomesmoponto.Osgráficosdelatênciadesolicitaçãoestãobem.

Emumatentativadedescartarasoluçãográficaemusoaqui(cactoseSNMP),eudeiumaolhadanoiostat.Suasaídacorrespondeaoqueestásendoexibidonosgráficos.

Tantoquantosei,oiostatobtémsuasinformaçõesde/proc/diskstats.Deacordocomo link , haverá o nome do dispositivo principal, menor e, em seguida, um conjunto de campos, dos quais o primeiro é o número de leituras concluídas. Então:

$ for i in {1..10}; do awk '/sda / { print $4 }' /proc/diskstats; sleep 1; done
3752035479
3752035484
3752035484
3752035486
3752035486
3752035519
3752035594
3752035631
3752036016
3752036374

Só não é credível que um número tão baixo de leituras tenha sido concluído nesse período de 10 segundos.

Mas se / proc / diskstats está mentindo para mim, então qual poderia ser o problema e como posso esperar corrigi-lo?

Também é interessante o fato de que o que quer que tenha mudado, mudou exatamente à meia-noite, o que é uma coincidência.

O servidor tem muitos dispositivos de bloco. 187 deles são LVM LVMs, e outros 18 são as partições usuais e dispositivos md.

Eu tenho adicionado regularmente mais LVs, então é possível que na quinta-feira eu tenha alcançado algum limite, embora eu não tenha adicionado nenhum lugar perto da meia-noite, então ainda é estranho que o que deu errado tenha acontecido à meia-noite.

Eu sei que o / proc / diskstats pode estourar, mas quando isso acontece, os números são normalmente erroneamente grandes.

Olhando para o gráfico um pouco mais difícil, podemos ver que parece mais espetacular na quinta-feira do que anteriormente na semana (e semanas) antes dele. Ampliando os resultados apenas para esse período, vemos:

Essas lacunas de zero ou quase zero são anormais e não acredito que elas reflitam a realidade. Talvez o número de solicitações tenha excedido algum limite, já que adicionei mais carga de tal forma que ela começou a se manifestar na quinta-feira e, até sexta-feira, a maioria das leituras agora é zero?

Alguém tem alguma idéia do que está acontecendo aqui?

Versão do kernel 3.16.7-ckt11-1 + deb8u3.

    
por grifferz 11.10.2015 / 10:50

0 respostas

Tags