Controladores RAID de cache não-volátil: que tipo de proteção existe contra a falha do NVCACHE?

6

O modelo de back-up de bateria (BBU):

  • o administrador ativa o cache de writeback com BBU
  • as gravações são armazenadas em cache na RAM do controlador RAID (maior benefício de desempenho)
  • a bateria salva dados não comprometidos e armazenados em cache no caso de perda de energia (confiabilidade)

Se eu perder o poder e voltar dentro de um dia, meus dados devem ser completos e não corrompidos.

A desvantagem disso é que, se a bateria estiver com pouca carga, OU MESMO QUE ESTEJA DENTRO DE UM CICLO RELEAR (ciclos de drenagem / carga para garantir a saúde da bateria), o controlador reverte para o modo write-through e o desempenho Sofra. Além do mais, os ciclos de reaprendizagem são geralmente automatizados em uma programação que pode ou não acontecer no meio do grande tráfego. Então, isso tem que ser desativado manualmente e agendado manualmente para horas de folga, se for uma preocupação. Irritante de qualquer maneira.

Os caches NV possuem capacitores com carga suficiente para enviar quaisquer dados não confirmados para o disco para flash. Isso não só é mais permissível em situações de perda mais longa, mas você não precisa se preocupar com a morte da bateria, desgaste ou reaprendizado.

Tudo isso parece ótimo para mim. O que não parece ótimo para mim é a possibilidade de que o módulo flash tenha um problema. E se for completamente lavado? E se for apenas parcialmente lavado? Um pouco corrompido nas bordas? Reaprender ciclos pode dizer quando algo como uma bateria simples está falhando, mas existe um processo semelhante para verificar se o flash está funcionando? Estou muito mais confiante em uma bateria, verrugas e tudo mais.

Eu sei que a memória RAM da placa pode falhar, o cartão em si pode falhar - isso é território comum, no entanto.

No caso de você não adivinhar, sim, eu experimentei uma quantidade chocante de flash / SSD / etc. falha:)

    
por astrostl 22.06.2012 / 22:57

2 respostas

11

Você está pensando demais nisso.

Claro, isso depende um pouco da implementação específica do fabricante, mas, com a implantação de milhares de servidores HP ProLiant em 10 anos, eu experimentei centenas de falhas de bateria do controlador RAID. Eu substituí as unidades ruins, sabendo que a perda repentina de energia ou um travamento do sistema resultaria em algum nível de corrupção de dados se eu não tivesse uma bateria saudável no lugar.

Fiquei feliz em ver a mudança para caches de gravação em flash nos últimos anos. As unidades de flash nos sistemas HP ProLiant são um supercondensador separado que se conecta ao módulo RAM do controlador. Eu suponho que eles podem falhar. Eu ainda não experimentei um. Os controladores HP Smart Array RAID podem ser configurados para manter o cache de gravação ativado independentemente da integridade da bateria / supercap. Isso pressupõe a proteção da instalação contra perda súbita de energia. Você ainda precisa se preocupar com a estabilidade do aplicativo e falhas no sistema.

Parece que você está se referindo aos controladores Dell PERC e seus Implementação NVCACHE . É um design similar. A Dell explica no seu guia ...

4.5.1 Non-Volatile Cache
Dell PERC controllers with non-volatile (NV) cache use the standard battery as contained in the Dell 
PERC controllers with a battery back-up unit (BBU). The difference is in battery implementation:

- The battery in the BBU offering retains the data in cache in the event of a power cycle for a 
guaranteed period of 24 hours (typically up to 72 hours).

- The battery in the NV cache offering will transfer the data from cache to flash in the event of 
a power cycle, where the data will be retained for up to ten years.

Pense na sua aplicação e nos seus padrões de acesso ao armazenamento. Você está realmente escrevendo para o array com rapidez suficiente e com uma quantidade de dados que não pode ser descarregada no disco com eficiência? Seu aplicativo não consegue se recuperar de uma falha ou reinicialização súbita?

Se você estiver realmente preocupado com a disponibilidade de aplicativos, concentre-se em proteger a energia das instalações (UPS + gerador saudável) e reforçar seus sistemas com componentes redundantes (fontes de alimentação, ventiladores, etc.)

Editar:

Estou vendo um controlador RAID HP Smart Array P410 com um cache de gravação em flash suportado. Existem LEDs de integridade para o módulo flash e a bateria externa mais antiga (o equipamento HP não faz o ciclo de reaprendizado).

Um microcontrolador de bateria dedicado monitora continuamente a bateria HP Smart Array em busca de sinais de danos, incluindo um terminal de bateria aberta, bateria parcial curta, tempos limite de carga e sobre a descarga condições.

Para o supercapacitor, sua integridade é monitorada, mas o indicador LED está localizado no módulo flash. A RAM é a correção de erros ECC, o que também é outro nível de defesa. Ambos são reportados ao servidor host, através de traps SNMP e podem ser visualizados através de utilitários de diagnóstico.

Do Guia de tecnologia do Smart Array da HP.

O subconjunto Super-cap consiste em dois capacitores de 35V Farad de 2,7V, configurados em série, fornecendo 17 Farads até 5.4V. O carregador mantém o Super-cap em 4,8V, fornecendo a quantidade necessária de poder para concluir as operações de backup enquanto prolonga a vida útil do Supercap. O carregador monitora Super cap de saúde e ativa indicadores LED no módulo FBWC para alertar sobre falhas iminentes. o O módulo Super-Cap usa o mesmo formato e caixa que a bateria HP 650 mAh da Série P usada no HP BBWC.

Meu ponto com tudo isso é que os fabricantes criaram soluções para fazer a solução de cache flash funcionar e se tornar um substituto viável para a tecnologia antiga baseada em bateria. É do seu interesse fornecer instalações de monitoramento adequadas.

Como nota, verifique os indicadores visuais dos módulos flash de última geração da HP. Você pode ter certeza de que todas essas verificações estão integradas no sistema de alerta e diagnóstico do controlador.

    
por 23.06.2012 / 02:47
1

Presumivelmente, o próprio servidor falharia ao inicializar se o BIOS no controlador RAID encontrasse uma falha durante os testes. Verificaria a memória onboard da mesma maneira que o BIOS principal do servidor verifica sua própria memória. Se você quiser detalhes sobre isso, sua melhor opção é ligar para o fabricante do seu cartão RAID.

    
por 22.06.2012 / 23:43