Falha na unidade RAID-1 - os dados ausentes serão “reconstruídos”?

4

Somos uma pequena empresa com um antigo Dell PowerEdge 830 com um controlador RAID CERC 6ch. Servidor é o nosso servidor de arquivos, controlador de domínio (Windows Server 2003), servidor MySQL, etc. Temos um administrador de sistemas com o qual trabalhamos há alguns anos que normalmente mantém as coisas funcionando bem para nós, mas ele está fora do país e inacessível agora.

Ontem recebi uma ligação do meu gerente dizendo que o servidor estava com um alarme soando alto, e não parava. Ninguém no escritório reclamou de erros ao salvar arquivos no servidor ou ler arquivos. Eu entrei no escritório e fiz algumas pesquisas e determinei que o alarme estava relacionado ao RAID e que havia uma configuração do BIOS para silenciá-lo (até que possamos substituir o drive defeituoso). Ah sim, eu esqueci de mencionar que eu podia ouvir uma falha mecânica em uma das unidades. Então eu entro na configuração do ataque, encontro o alarme e silencio. Isso, obviamente, exigia uma reinicialização e durante a reinicialização eu podia ouvir o drive pobre e morto e também havia algumas mensagens do BIOS para o efeito de "Raid SATA 0 offline ou reconstrução" - (não exatamente o que foi dito, peço desculpas por não ter feito isso) t anotar)

Para encurtar a história, o servidor inicializou e logo descobrimos que todos os dados que foram gravados em discos entre a hora em que o alarme foi acionado (ou seja, o disco falhou) e a hora da reinicialização desapareceram. Salvei alguns arquivos no POST-reboot e eles persistiram em uma reinicialização adicional. Mas os arquivos que foram salvos no domingo, ontem e hoje até a primeira reinicialização se foram.

Isso me surpreende completamente, o RAID-1 é espelhado, então por que dados faltariam? As pessoas no escritório começaram a resmungar sobre todos os arquivos que precisariam recriar (ah, sim, o backup também estava faltando nos arquivos) e eu os interrompi até que eu pudesse descobrir um pouco mais sobre tudo isso. Minha pergunta para você pros é: Existe algo que pode ser feito para restaurar esses dados? Existe algum utilitário ou processo RAID que deve ser seguido para corrigir o problema? Em outras palavras, o que eu descrevi até aqui parece normal em um evento de falha e há simplesmente algumas etapas adicionais que precisam ser tomadas para dizer ao ataque que o outro disco está morto e confiar nos dados que são espelhados no disco? unidade restante?

Eu me sinto bastante confortável administrando nosso servidor e os vários serviços que está executando, mas quando se trata de RAID e hardware em geral, sou totalmente novo e considerando que temos dados do mundo real em risco, estou relutante para começar a tentativa-n-erro meu caminho através do processo.

    
por Steve K 09.05.2012 / 00:11

1 resposta

5

Parece quase que seu RAID decidiu inicializar ou reconstruir usando a unidade com falha. Como uma unidade falha, o RAID continua gravando na outra unidade, o sistema é reinicializado da falha. Talvez seja apenas um pouco falhou.

Espero que tenha falhado na unidade e não tenha tentado a reconstrução.

De qualquer forma, minha primeira sugestão é essa. Desligue o sistema e desconecte uma das unidades (inicie com aquela que faz ruídos). Em seguida, inicialize e veja se seus dados estão presentes. Caso contrário, tente alternar para a outra unidade de modo que apenas ela seja conectada. Você pode precisar inicializar o sistema usando um livecd ou algum tipo para inspecionar o conteúdo das unidades sem alterar nada.

Se você não visualizar seus dados em nenhuma das unidades, provavelmente está sem sorte.

    
por 09.05.2012 / 01:05