Tempos de espera de IO muito longos

2

O seguinte cenário aconteceu duas vezes com diferentes controladores RAID. Um era o LSI MegaRAID rodando o RAID5, o segundo era o HP Smart Array E200i rodando o RAID1. No primeiro servidor funciona sem problemas por alguns anos. Então as pessoas começam a reclamar sobre o desempenho. Então acontece que não é apenas "problema de aplicação", porque operações simples de disco (como ls em um diretório com 20-30 arquivos) podem levar até 5 segundos. Aqui está o que o vmstat reporta durante uma carga de trabalho pesada:

procs -----------memory------------ ---swap-- -----io---- -system-- ----cpu-----
 r  b   swpd   free   buff   cache   si   so    bi    bo   in   cs   us sy id wa
 1  8   8944 126004     20 1597500    0    0  1666  5935  282  833   10  3  0 86
 1 16   8944 122276     20 1599636    0    0   612  6300  314  615   10  3  0 87
 1 12   8944 123740     20 1599332    0    0   811  5103  188  794    2  2  0 96
 0 19   8944 121916     20 1600808    0    0   150  7299  163  858    1  1  0 97
 0 16   8944 239244     20 1612256    0    0   647  2522  156  798    0  1  0 99
 0  6   8944 215308     20 1643712    0    0  3030  3060  201  956   33  5  0 62
 1 13   8944 186352     20 1672540    0    0   143  6173  166  931   14  8  0 78
 8  2   8944 137368     20 1710432    0    0   111  6425  171  833   48  4  0 48
 1 11   8944 122500     20 1725892    0    0   306  5222  153  746   69  4  0 27
24 13   8944 128444     20 1729680    0    0   380  5210  170 4484   16  6  8 70
 0  4   8944 124956     20 1731228    0    0   389  4933  272  761    4  2  0 93
 0  6   8944 123004     20 1735780    0    0    15  7856  209  682    1  2  7 90

Assim, o servidor é retirado do uso de produção e testado com o bonnie ++ e monitorado com o vmstat, o que dá praticamente os mesmos resultados. Então, parece que os discos estão com defeito. No entanto, ao consultar o controlador RAID, parece que a unidade lógica e os discos físicos estão ok. Também os logs do kernel não contêm nenhuma mensagem que possa sugerir um problema com as operações do disco.

Então, minha pergunta é: como depurar ainda mais esse problema? Tenho que substituir o controlador / discos e ver depois qual situação de substituição melhorou? Ou talvez algum comando possa ser executado e seus resultados estudados para identificar a localização exata do problema?

    
por Jacek Prucia 25.02.2011 / 13:50

1 resposta

3

pode ser que o cache de gravação foi desativado? talvez a bateria tenha morrido e tenha mudado de write-back para write-through?

alguns ataques baratos de hardware sem bateria e com cache por padrão ativam o cache apenas para leituras - pode ser que você o configure para usar também o cache de gravação e o controlador "perdeu" as configurações?

além disso - talvez uma das unidades esteja com defeito? tente procurar em logs de raids [a ferramenta de linha de comando MegaCli deve ajudar].

    
por 25.02.2011 / 14:06