Uma instalação de disco RAID 4 pode falhar se apenas 1 disco rígido falhar? [fechadas]

9

Eu sou um desenvolvedor da web. Eu não tenho muita experiência em hardware. Por esse motivo, eu uso servidores gerenciados.

Esta manhã, uma das unidades em nossa configuração falhou. No entanto, o site completo caiu. Eu perguntei ao meu host o que aconteceu e ele respondeu que o disco rígido falhou de tal forma que o controlador RAID não funcionou corretamente. A matriz foi configurada como RAID 4.

Vocês já viram isso antes? É possível?

Obrigado por qualquer ajuda sobre esse pessoal. Preciso saber se meu host da web é honesto comigo.

    
por Steve Rodrigue 26.11.2012 / 16:49

7 respostas

22

É mais provável que o seu provedor esteja usando Discos Rígidos que não devem ser usados no RAID. As unidades SATA de consumo normal se enquadram nessa categoria.

O problema provável é que a unidade começou a ter erros de leitura incorrigíveis (UREs). Quando isso acontece em uma unidade de consumidor, a unidade fica lá e repete a operação de leitura (geralmente por 30 a 60 segundos) até que desista. O RAID aguardará a unidade informar o erro (30 a 60) segundos. Portanto, uma solicitação simples para alguns setores pode facilmente fazer com que o servidor fique paralisado enquanto a unidade com falha tritura essas operações de repetição de leitura.

As unidades destinadas aos RAID Arrays têm a Recuperação de Erros com Limite de Tempo (para unidades SATA). O TLER relata falhas de volta aos controladores rapidamente, de modo que o controlador possa responder de maneira inteligente a tais falhas (na maior parte de maneira inteligente, esperançosamente). SCSI (SAS também) funciona de forma um pouco diferente. O conjunto de comandos SCSI permite que o controlador especifique vários limites de esforço de recuperação nas unidades (MODE SELECT: RW ERR RECOVERY). Um controlador RAID deve configurar as unidades para falhar rapidamente, o controlador pode então testar se a unidade acha que está funcionando corretamente com o comando TUR, falha a unidade para fora da matriz se houver uma condição de verificação.

    
por 26.11.2012 / 17:05
11

Sim, isso é possível, mesmo em cenários em que você acha que a matriz deveria ter sobrevivido à falha.

Algumas possibilidades de porque um array falha:

  • Mais unidades falharam do que poderiam ser mantidas pelo modo RAID. Por exemplo:
    • O RAID 0 (striping) não pode sobreviver a falhas de unidade.
    • O RAID 1 pode sobreviver a falhas de todos, exceto de 1 unidade.
    • O RAID 4/5 pode sobreviver a uma falha na unidade.
    • O RAID 6 pode sobreviver a falhas de 2 unidades.
    • O RAID 10 pode sobreviver à falha de até 50% das unidades, dependendo de quais unidades falharem.
  • Um erro no software RAID ou no firmware do controlador.
  • Erro do usuário.
    • Alguém puxou muitas unidades.
    • Alguém puxou uma unidade e nunca a substituiu e, posteriormente, outra unidade falhou.
    • A matriz não foi monitorada, permitindo que mais unidades falhassem do que poderiam sobreviver.
  • Controladores baratos com drives de nível de consumidor são comumente conhecidos por falharem mesmo em cenários que possam sobreviver.
    • Uma unidade de nível de consumidor tentará quase indefinidamente ler um setor defeituoso até obter uma boa leitura. Um controlador barato aguardará quase indefinidamente que uma unidade desse tipo retorne um resultado. A espera pode ser tão longa que o sistema operacional desista. Então, na reinicialização, as unidades não respondem com rapidez suficiente ao controlador e presume-se que a matriz falhou.
    • Por outro lado, uma unidade de nível empresarial irá desistir rapidamente, permitindo que o controlador extraia os dados de outra unidade. Além disso, um bom controlador marcará uma unidade que demora muito para responder como falha e seguir em frente.
por 26.11.2012 / 17:07
8

Se foi uma implementação RAID 0, então, certamente, quando uma única unidade falhar, você perderá a matriz e todos os dados com ela.

    
por 26.11.2012 / 16:52
2

Eu vi erros de firmware tirar todo o RAID quando um disco fica ruim ou quando ele começa a relatar uma falha iminente. Desculpe, não tenho nada específico para te apontar, mas sim, isso pode acontecer. Não como parte da especificação RAID, é claro, é definitivamente um bug.

    
por 26.11.2012 / 17:02
1

Sim, é possível. Não é suposto que aconteça, mas certamente pode acontecer. Insira UREs (Unrecoverable Read Error) e falhas do controlador e erros de firmware e afins.

Sem informações adicionais (que seu host provavelmente não lhe dará), não é possível dizer definitivamente de uma forma ou de outra, mas qualquer um que tenha trabalhado com muitos RAID arrays teve experiências em que uma matriz inteira foi perdida ou caiu quando não deveria.

(E, a propósito, RAID4 não é um nível de RAID muito usado, mas deve suportar a perda de qualquer unidade . Não significa que sempre será, no entanto.)

    
por 26.11.2012 / 17:04
1

Eu tive muitas falhas de HDD onde não a mecânica falhou, mas a eletrônica que compõe a interface de comunicação. Devido ao seu pequeno tamanho, muitos componentes eletrônicos são muito sensíveis até mesmo a pequenas irregularidades elétricas (isso pode acontecer quando grandes motores de ar condicionado estão ligados / desligados, etc., e a fonte de alimentação é um pouco barata).

Quando os conversores de energia internos ou os capacitores (buffers de armazenamento de energia) da unidade queimam, os sinais elétricos gerados nos conectores externos da HDD podem se afastar da especificação. Como a unidade está conectada ao controlador por meio de fios de cobre, e muitas vezes em servidores, muitas unidades compartilham uma conexão por cabo para facilitar a instalação e reduzir a desordem, o que pode facilmente atrapalhar ou destruir permanentemente qualquer número de componentes adjacentes.

Isso tem muito pouco a ver com o preço. É verdade que controladores e drives caros podem usar peças que são mais tolerantes a condições anormais ou têm melhor proteção, e que com componentes de orçamento você tem mais chances de obter peças abaixo do padrão. Mas eu encontrei regularmente capacitores idênticos em uma unidade de US $ 50 e uma unidade de US $ 500. E se um disco rígido defeituoso encaminhar diretamente 12 Volts da fonte de alimentação para o conector SATA porque algo está em curto, seu controlador RAID será frito, independentemente de quantas figuras o preço tenha.

Não é o que geralmente acontece, mas definitivamente não é inédito na minha experiência.

    
por 26.11.2012 / 18:03
1

Sim, acho que todo o ataque pode falhar após uma única falha na unidade. A primeira unidade com falha será colocada offline pelo controlador e a raid continuará a funcionar bem. Mas quando a unidade com falha é substituída, o controlador começa a reconstruir a raid. Se houver um problema de leitura não descoberto latente em uma das outras unidades restantes, uma reconstrução da unidade com falha poderá fazer com que mais unidades fiquem off-line (quando os problemas de leitura forem descobertos durante a reconstrução da raid), causando novamente a invasão inteira falhar.

    
por 27.11.2012 / 12:35

Tags