Eu tenho um servidor jessie do Debian com dois SSDs Intel DC S3610, em RAID-10. Está razoavelmente ocupado com IO e nas últimas semanas estive representando graficamente a IOPS:
Comovocêpodever,amaiorpartedotempofoifelizcomcercade1kdeoperaçõesdeleituramédiachegandoacercade5,5k,atéameia-noiteUTCnasexta-feiraqueparecepararelerasoperaçõescairparaquasenada.
Naverdade,eusónoteiissoretroativamente,porqueoproblemaéqueoservidoraindaestáfuncionandocomodeveria.Ouseja,euacreditoqueéomonitoramentoqueestáquebrado,nãoaquantidadedeIOPSqueaconfiguraçãopodefazer.SeaIOPSrealtivessecaídoparaonívelexibido,eusaberiaporquetudoomaisquebrariamuitovisivelmente.
Eminvestigaçõesposteriores,osgráficosdeleitura/gravaçãodekilobytestambémsãoquebradosnomesmoponto.Osgráficosdelatênciadesolicitaçãoestãobem.
Emumatentativadedescartarasoluçãográficaemusoaqui(cactoseSNMP),eudeiumaolhadanoiostat.Suasaídacorrespondeaoqueestásendoexibidonosgráficos.
Tantoquantosei,oiostatobtémsuasinformaçõesde/proc/diskstats.Deacordocomo
$ for i in {1..10}; do awk '/sda / { print $4 }' /proc/diskstats; sleep 1; done
3752035479
3752035484
3752035484
3752035486
3752035486
3752035519
3752035594
3752035631
3752036016
3752036374
Só não é credível que um número tão baixo de leituras tenha sido concluído nesse período de 10 segundos.
Mas se / proc / diskstats está mentindo para mim, então qual poderia ser o problema e como posso esperar corrigi-lo?
Também é interessante o fato de que o que quer que tenha mudado, mudou exatamente à meia-noite, o que é uma coincidência.
O servidor tem muitos dispositivos de bloco. 187 deles são LVM LVMs, e outros 18 são as partições usuais e dispositivos md.
Eu tenho adicionado regularmente mais LVs, então é possível que na quinta-feira eu tenha alcançado algum limite, embora eu não tenha adicionado nenhum lugar perto da meia-noite, então ainda é estranho que o que deu errado tenha acontecido à meia-noite.
Eu sei que o / proc / diskstats pode estourar, mas quando isso acontece, os números são normalmente erroneamente grandes.
Olhando para o gráfico um pouco mais difícil, podemos ver que parece mais espetacular na quinta-feira do que anteriormente na semana (e semanas) antes dele. Ampliando os resultados apenas para esse período, vemos:
Essas lacunas de zero ou quase zero são anormais e não acredito que elas reflitam a realidade. Talvez o número de solicitações tenha excedido algum limite, já que adicionei mais carga de tal forma que ela começou a se manifestar na quinta-feira e, até sexta-feira, a maioria das leituras agora é zero?
Alguém tem alguma idéia do que está acontecendo aqui?
Versão do kernel 3.16.7-ckt11-1 + deb8u3.