Eu tenho um servidor com 6 discos, dos quais 5 estão em um array RAID5. Eu cheguei em casa do trabalho hoje para descobrir que o senhorio tinha passado pela casa com um brilho e a energia tinha sido reinicializada. Agora, meu servidor se recusa a inicializar corretamente.
Durante o processo de inicialização, sou avisado de que o array do RAID foi degradado e perguntado se quero inicializá-lo mesmo assim. Não importa se eu digo sim ou não, eu estou carregado no initramfs. A partir daí, descobri que dois discos na matriz estão sendo sinalizados como removidos, no entanto, eu posso adicioná-los novamente via mdadm e eles relatam que estão bem e toda a matriz está em sincronia ativa, e está ativa, mas não iniciada .
Eu verifiquei e a unidade em que o SO está ligado está bem. Eu posso montá-lo e navegar nele, mas não consigo descobrir como obtê-lo para carregar. Mesmo assim, não consigo entender porque duas das minhas cinco unidades foram removidas da matriz ao mesmo tempo. Parece improvável que eu teria 2 falhas no mesmo dia, e não há mensagens de unidade com falha no dmesg aparecendo.
Alguma sugestão? Eu tenho muitas coisas insubstituíveis lá que eu presumi que eram seguras devido ao arranjo de raid.
ATUALIZAÇÃO: Como mencionado abaixo, eu posso montar o arranjo de raid usando
mdadm --assemble /dev/md0
Eu então adiciono novamente as unidades removidas
mdadm /dev/md0 --re-add /dev/sda1
mdadm /dev/md0 --re-add /dev/sdb1
Eu posso então iniciar o array e montá-lo em uma pasta no initramfs
mdadm -R /dev/md0
mount /mnt/raid
No entanto, assim que eu reinicio a máquina, a matriz RAID aparece degradada e o servidor é inicializado no initramfs. Eu tentei navegar através da matriz de ataque e tudo parece estar lá, e totalmente acessível. Eu verifiquei e o UUID é definitivamente aquele que é mostrado no meu disco do sistema operacional.
UPDATE 2: Ok, não tenho certeza do que aconteceu aqui. Eu tentei inicializar no sistema operacional, digitando 'exit', que me tirou do initramfs. Na primeira vez, o kernel entrou em pânico, dizendo que ele não poderia montar a unidade (possivelmente porque eu montei no initramfs?). Em seguida, reiniciei o servidor, digitei exit assim que o initramfs foi carregado e tudo voltou. Todos os meus arquivos estão intactos. Eu estou correndo um cheque na unidade agora. Alguma sugestão de coisas que eu deveria fazer antes de reiniciar a próxima vez para ter certeza de que isso não aconteça novamente?