Somos uma pequena empresa com um antigo Dell PowerEdge 830 com um controlador RAID CERC 6ch. Servidor é o nosso servidor de arquivos, controlador de domínio (Windows Server 2003), servidor MySQL, etc. Temos um administrador de sistemas com o qual trabalhamos há alguns anos que normalmente mantém as coisas funcionando bem para nós, mas ele está fora do país e inacessível agora.
Ontem recebi uma ligação do meu gerente dizendo que o servidor estava com um alarme soando alto, e não parava. Ninguém no escritório reclamou de erros ao salvar arquivos no servidor ou ler arquivos. Eu entrei no escritório e fiz algumas pesquisas e determinei que o alarme estava relacionado ao RAID e que havia uma configuração do BIOS para silenciá-lo (até que possamos substituir o drive defeituoso). Ah sim, eu esqueci de mencionar que eu podia ouvir uma falha mecânica em uma das unidades. Então eu entro na configuração do ataque, encontro o alarme e silencio. Isso, obviamente, exigia uma reinicialização e durante a reinicialização eu podia ouvir o drive pobre e morto e também havia algumas mensagens do BIOS para o efeito de "Raid SATA 0 offline ou reconstrução" - (não exatamente o que foi dito, peço desculpas por não ter feito isso) t anotar)
Para encurtar a história, o servidor inicializou e logo descobrimos que todos os dados que foram gravados em discos entre a hora em que o alarme foi acionado (ou seja, o disco falhou) e a hora da reinicialização desapareceram. Salvei alguns arquivos no POST-reboot e eles persistiram em uma reinicialização adicional. Mas os arquivos que foram salvos no domingo, ontem e hoje até a primeira reinicialização se foram.
Isso me surpreende completamente, o RAID-1 é espelhado, então por que dados faltariam? As pessoas no escritório começaram a resmungar sobre todos os arquivos que precisariam recriar (ah, sim, o backup também estava faltando nos arquivos) e eu os interrompi até que eu pudesse descobrir um pouco mais sobre tudo isso. Minha pergunta para você pros é: Existe algo que pode ser feito para restaurar esses dados? Existe algum utilitário ou processo RAID que deve ser seguido para corrigir o problema? Em outras palavras, o que eu descrevi até aqui parece normal em um evento de falha e há simplesmente algumas etapas adicionais que precisam ser tomadas para dizer ao ataque que o outro disco está morto e confiar nos dados que são espelhados no disco? unidade restante?
Eu me sinto bastante confortável administrando nosso servidor e os vários serviços que está executando, mas quando se trata de RAID e hardware em geral, sou totalmente novo e considerando que temos dados do mundo real em risco, estou relutante para começar a tentativa-n-erro meu caminho através do processo.