mdadm raid1, falha na unidade perdida 14 dias de dados?

2

Estou bastante confuso. Uma noite eu tinha um servidor que tinha morrido. Eu fui para reiniciar e notei que estava preso na tela de inicialização do "GRUB". Então notei que um disco rígido falhou. Eu coloquei um novo disco rígido, inicializei no modo de recuperação e reinstalei o grub.

O servidor inicializou, então eu disse ao mdadm para ressincronizar a nova unidade, e tudo ficou bom novamente.

Até que, notei que a unidade por algum motivo, tinha dados que tinha 14 dias, 26 de abril. Então tive que restaurar um backup mais recente para atualizar o servidor. No entanto, isso me preocupa, por que isso aconteceu?

Obrigado

    
por Sc0rian 09.05.2013 / 12:04

3 respostas

3

Meu palpite, poderia acontecer se: você tem 2 discos - / dev / sda e / dev / sdb no raid1. Por exemplo, o registro mbr estava em / dev / sda. Em 26 de abril, o sistema considerou que / dev / sdb está com defeito (por engano ou devido a alguma falha do programa) e foi removido do raid. Em duas semanas, o / dev / sda falhará e você não terá um ataque sincronizado. Como você disse acima, você precisa configurar o mdadm e eu sugiro configurar o smartd (do pacote smartmontools). Smartd "resgatou a minha vida" um par de vezes:)

P.S. raid1 não é backup, tive alguns incidentes quando duas unidades falharam ao mesmo tempo, sem qualquer chance de recuperar quaisquer dados delas.

    
por 06.07.2013 / 00:28
0

Talvez o seu / boot não esteja no raid1? somente / (ou suas outras partições).

Algumas versões antigas do grub (0.9X, eu acho) não puderam inicializar a partir de um dispositivo mdadm.

Se você puder inicializar um liveCD ou similar, talvez você possa montar seu ataque e salvar os dados.

    
por 06.07.2013 / 00:33
0

Você tinha o espelhamento RAID1 no lugar, uma das unidades falhou 14 dias atrás. Falhou o suficiente para que a placa parasse de escrever, mas não tão difícil que não funcionasse quando você tentou ler / escrever. Mas como foi marcado como falho, sua placa RAID não tocaria mais nela. Então, 14 dias depois, talvez em resposta a outro problema, você retirou a unidade outra (mais atual) e a substituiu por uma em branco.

Como sua unidade com falha não foi gravada em duas semanas, os dados tinham duas semanas. Isso é o que você sincronizou com o novo disco, e é por isso que parece que seu servidor não foi usado em duas semanas.

Presumivelmente, sua outra unidade (a que não falhou há duas semanas)

Um : ainda é bom e pode ser usado para recuperar seus dados recentes ou o B : também falhou, embora mais recentemente e talvez com mais gravidade

Uma única falha de disco no RAID-1 não é catastrófica e, portanto, não apresenta sinais inerentes de sofrimento. O seu computador continua a acompanhar a boa movimentação restante. A menos que você esteja monitorando ativamente sua matriz RAID, você não saberá sobre a falha até que a outra unidade também falhe, o que causará a falha do servidor (não há unidades de trabalho restantes).

Algumas placas RAID reinicializam a sinalização de falha / boa em uma unidade após a reinicialização sob determinadas condições. É estúpido, acontece.

Isso parece muito com o que aconteceu com você.

    
por 06.07.2013 / 04:19