Falhas do controlador RAID espúrias. Meu controlador está ruim ou meus discos estão ruins?

2

Eu tenho um Dell T7500 com um PERC H710P conectado a 4 drives de 3T em um array RAID5. Também conectados ao controlador estão 2 unidades SSD de 256G, não configuradas em uma matriz. Um servidor Linux é instalado em uma das unidades SSD e o RAID5 é onde todos os dados do meu usuário são armazenados.

Outro dia após o boot, o RAID BIOS reportou erros

Drives 01 and 03 missing
Foreign config available

Eu carreguei a configuração estrangeira e as unidades reapareceram. Na próxima inicialização, recebi

Drive 01 offline

Pensando que a unidade estava ruim, eu a substituí por uma nova unidade e recriou a unidade 01. Na próxima inicialização, o sistema ficou bom, mas algumas reinicializações mais tarde consegui

Drive 00 offline
Foreign config available

Então eu li na configuração externa e forço 00 online.

Depois de várias reinicializações, eu peguei

Drive 03 offline
Foreign config available

Leia na configuração estrangeira. Forçar o acionamento 03 online.

Agora o sistema aparece OK. Eu reiniciei muitas vezes.

Devo assumir que o meu controlador é ruim?

Ou dito de outra forma, existe alguma possibilidade de que esse tipo de comportamento possa ser causado por algo diferente do controlador? Por exemplo, o driver do kernel pode estragar a configuração do driver de alguma forma?

    
por jsp 14.11.2013 / 01:17

3 respostas

5

Sim, acredito que o seu controlador ou o backplane do raid estão ruins. Mas acho que o controlador é o culpado. Você pode procurar a versão do firmware do controlador RAID (não confundir com o BIOS do sistema, que você também deve verificar) e comparar com o que está disponível no site da Dell? Você pode achar que a versão é bem antiga e que problemas críticos foram resolvidos em versões mais recentes. Alternativamente, você pode tentar ligar para o suporte da Dell - o que você certamente deve fazer se houver suporte disponível! Você pode verificar facilmente qual contrato de serviço está em vigor consultando a etiqueta de serviço em support.dell.com.

Duas notas de cautela. Você está em território perigoso. A atualização do firmware do controlador RAID pode, às vezes, resultar em perda de dados - certifique-se de que a nova versão tenha sido desativada por algum tempo e leia atentamente as notas de versão. 2) O RAID 5 não oferece muita margem de manobra. De qualquer forma, prepare-se para fazer backup de seus dados críticos antes de deixar o tempo passar neste problema ou tomar ações corretivas substanciais!

    
por 14.11.2013 / 07:32
2

Além das ótimas sugestões dos whitepaws (obter um backup, atualizar o FW, etc.), considere entrar em contato com o suporte da Dell se ainda estiver na garantia. Há uma chance de que o log do controlador tenha mais algumas informações sobre o que está acontecendo e possa lhe dar uma pista sobre uma possível causa de seus problemas.

Em uma resposta mais direta à sua pergunta ... sim, é possível que algo diferente do controlador em si possa causar os problemas (ou seja, um driver ruim, se você tiver idade suficiente). Não é muito provável - problemas com o próprio controlador ou com alguns dos outros equipamentos são mais prováveis. Às vezes, um disco defeituoso pode causar problemas com todos os outros também - isso é algo que verificamos no log do controlador.

    
por 14.11.2013 / 16:24
0

Você tem algumas opções de gerenciamento mais sofisticadas se quiser extrair registros.

Se você tiver um UEFI Bios durante a inicialização, poderá configurar o registro em log lá. Isso está descrito no manual: ftp://ftp.dell.com/ manuais / todos os produtos / esuprt_ser_stor_net / esuprt_dell_adapters / poweredge-rc-h310_User% 27s% 20Guide_en-us.pdf

Você também pode instalar o OpenManage e obter as informações dessa maneira: link

Eu irei a terceira sugestão sobre backups. Backup, backup, backup. Em 2013, devido à alta densidade de área, sistemas de arquivos com bugs e peculiaridades com SSDs, é praticamente impossível recuperar dados de unidades corrompidas. Assuma a perda total de dados durante qualquer falha.

Mesmo o RAID 5 é considerado arriscado hoje em dia. Ou RAID em tudo. Eu tive problemas repetidamente com falhas do controlador corrompendo AMBAS as unidades em um array de espelhos RAID 1 básico e variações (RAID 10). Mesmos problemas com o RAID 5 e o RAID 6.

Agora, considera-se a melhor prática usar o RAID principalmente para distribuição de RAID 0 e usar um sistema completamente independente (unidades / matriz separadas) para backups usando o software de backup.

Em outras palavras, em geral, você considera melhor fazer o backup de um único disco rígido em um disco rígido USB externo do que criar um array de espelhos.

    
por 14.11.2013 / 18:14