Eu estou em um ambiente que contém muitos servidores Supermicro equipados com Adaptec e Controladores RAID de hardware do LSI MegaRAID . Esses controladores contêm módulos de cache apoiados por bateria para ajudar a aumentar o desempenho de gravação e proteger os dados em trânsito.
Um problema freqüente de suporte é a falha da bateria do controlador RAID. Isso muda a matriz de write-back para o modo write-through . Há claramente um impacto negativo no desempenho, pois o sistema é executado com velocidade de gravação reduzida. Isso persiste até que uma janela de tempo de inatividade possa ser estabelecida para desligar o sistema e substituir a bateria.
Esta é uma operação muito rotineira para nós; quase semanalmente em vários milhares de servidores físicos ... Até temos estações de carregamento para preparar baterias de substituição para que possam ser trocadas sem um ciclo de carga.
Talvez eu esteja estragado por um longo histórico com servidores HP ProLiant e Smart Array RAID Controladores , mas os sistemas HP normalmente tinham vida útil da bateria de 4 a 6 anos. Eles acabaram por eliminar o uso de baterias RAID por volta de 2009. Elas foram substituídas por módulos de memória com suporte a supercapacitores (cache de gravação com backup em flash ou FBWC) e não exigem substituição, descarte ou um ciclo de carga inicial demorado.
Como vejo falhas de bateria do controlador Adaptec e LSI às vezes ocorrendo em sistemas que estão em serviço há menos de 12 meses, gostaria de saber se isso é comum em outros ambientes.
Se isso é comum, como outros ambientes de grandes servidores lidam com isso?
- Alguma dica ou truque para lidar com substituições de bateria RAID?
- Existe algum parâmetro de configuração que possa ajudar?
- Quão perturbador é isso para operações no seu ambiente?
- O resfriamento do gabinete e a temperatura ruins podem ser um fator importante?
- Estamos fazendo algo errado?
- Os controladores Dell PERC são fabricados pela LSI. Os ambientes Dell têm a mesma duração de bateria curta?
literatura de produtos LSI delineando uma bateria de nova geração que pode durar mais tempo em serviço do que 1 ano.
servidor HP ProLiant DL585 G2 com mais de 1000 dias de atividade e uma bateria RAID feliz ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK