Freqüência / vida útil da falha da bateria do cache do controlador RAID de hardware?

14

Eu estou em um ambiente que contém muitos servidores Supermicro equipados com Adaptec e Controladores RAID de hardware do LSI MegaRAID . Esses controladores contêm módulos de cache apoiados por bateria para ajudar a aumentar o desempenho de gravação e proteger os dados em trânsito.

Um problema freqüente de suporte é a falha da bateria do controlador RAID. Isso muda a matriz de write-back para o modo write-through . Há claramente um impacto negativo no desempenho, pois o sistema é executado com velocidade de gravação reduzida. Isso persiste até que uma janela de tempo de inatividade possa ser estabelecida para desligar o sistema e substituir a bateria.

Esta é uma operação muito rotineira para nós; quase semanalmente em vários milhares de servidores físicos ... Até temos estações de carregamento para preparar baterias de substituição para que possam ser trocadas sem um ciclo de carga.

Talvez eu esteja estragado por um longo histórico com servidores HP ProLiant e Smart Array RAID Controladores , mas os sistemas HP normalmente tinham vida útil da bateria de 4 a 6 anos. Eles acabaram por eliminar o uso de baterias RAID por volta de 2009. Elas foram substituídas por módulos de memória com suporte a supercapacitores (cache de gravação com backup em flash ou FBWC) e não exigem substituição, descarte ou um ciclo de carga inicial demorado.

Como vejo falhas de bateria do controlador Adaptec e LSI às vezes ocorrendo em sistemas que estão em serviço há menos de 12 meses, gostaria de saber se isso é comum em outros ambientes.

Se isso é comum, como outros ambientes de grandes servidores lidam com isso?

  • Alguma dica ou truque para lidar com substituições de bateria RAID?
  • Existe algum parâmetro de configuração que possa ajudar?
  • Quão perturbador é isso para operações no seu ambiente?
  • O resfriamento do gabinete e a temperatura ruins podem ser um fator importante?
  • Estamos fazendo algo errado?
  • Os controladores Dell PERC são fabricados pela LSI. Os ambientes Dell têm a mesma duração de bateria curta?

literatura de produtos LSI delineando uma bateria de nova geração que pode durar mais tempo em serviço do que 1 ano.

servidor HP ProLiant DL585 G2 com mais de 1000 dias de atividade e uma bateria RAID feliz ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
    
por ewwhite 28.05.2013 / 14:15

3 respostas

9

Eu suspeito que seus Supermicros estão quebrados de uma forma ou de outra - possivelmente as baterias estão superaquecidas. Os LSIs mais recentes informariam a temperatura através da MegaCLI - talvez você queira monitorar esse valor em servidores que precisem de substituição.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Eu vi alguns sistemas da Dell e da Fujitsu com controladores LSI BBU, nenhum deles tinha substituição anual de bateria (exceto que você estragou a embalagem com descarga profunda). O tempo de vida típico tem sido de 3 a 5 anos.

    
por 28.05.2013 / 17:27
1

A duração média da bateria deve ser de 3 a 5 anos. E não esqueça que o FBWC baseado em flash também falha. Eu não sei porque / como, mas nós estávamos substituindo-os regularmente em nossos servidores HP. Eu deveria durar mais do que a bateria, mas não tenho estatísticas de nossos servidores individuais.

A maneira padrão de evitar efeitos de falha no aprendizado de bateria e bateria é ter várias baterias. É assim que o armazenamento HP (como o HP EVA) o possui. Você tem duas baterias hot-plug e, enquanto uma está com pouca carga ou sendo substituída, a controladora trabalha com a outra. Não tenho certeza se é possível ter várias baterias conectadas ao SmartArray, mas hpacucli diag output sugere que ele deve ser suportado:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
    
por 13.10.2016 / 11:11
1

Minha experiência com as versões IBM das plataformas LSI em algumas centenas de instalações é que a bateria média mal faz 2 anos, e a supercap não é melhor, algumas das quais podem ser corrigidas com uma atualização de firmware, mas a LSI t acertou. Eu tive cerca de 75% de falhas supercap nos primeiros 2 anos.

    
por 29.06.2017 / 01:49