Raid 1 recuperação da falha do disco do mdadm (linux): DRDY err (UNC) continua repetindo não pode alcançar o início de uma sessão

2

No fim de semana, recebi vários e-mails do nosso servidor de armazenamento de rede (apenas uma caixa personalizada com o RAID 1 do software de unidades de disco 2 e 2), indicando que a SMART detectou problemas em uma das unidades.

Eu fiz um status e duas das partições invadidas foram marcadas com falha:

    [root@aapsan01 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[1] sda1[0]
      104320 blocks [2/2] [UU]

md0 : active raid1 sdb3[1] sda3[2](F)
      4064320 blocks [2/1] [_U]

md3 : active raid1 sdb5[1] sda5[0]
      1928860160 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[2](F)
      20482752 blocks [2/1] [_U]

Então, eu configurei todas as partições do sda para "failed", removi todos os espelhos sda com sucesso, coloquei uma nova unidade idêntica de 2tb (após o shutdown) e inicializei. Agora, não consigo acessar o login porque as mensagens de erro se repetem depois que o comando md: autodetect raid array é alcançado durante o processo de inicialização. No início, os erros eram algo como:

  DRDY err (UNC) -- exception emask media error

Agora recebo erros de E / S. Eu tentei com o drive corrompido removido e, em seguida, com ele novamente. Mesmo show. As descrições que encontrei mostram que isso é um processo simples de recuperação. O que da? Alguém encontra algo parecido? Parece que o processo de inicialização ainda está em andamento, embora esteja levando uma eternidade para passar por cada etapa. Alguém já teve que esperar tanto tempo para chegar ao prompt? Espero que, se eu não conseguir chegar ao prompt, eu possa chegar a algum lugar com o cd de resgate.

    
por Flotsam N. Jetsam 06.12.2010 / 18:52

3 respostas

1

Olhe para md2 - ele tem duas partições na matriz listada em ordem [sdb2] [sda2] e o status do par é listado como [_U], o que significa que a primeira partição ([sdb2]) foi excluída do emparelhamento. Leia aqui: link . Espero que você consiga resolver isso.

    
por 07.12.2010 / 00:05
0

Eu sou um manequim. Eu tinha identificado erroneamente o disco com falha e estava tentando usar o disco ruim no meu esforço de recuperação. Para qualquer pessoa interessada, você pode usar o lshal para obter o s / n do drive defeituoso. redireciona a saída de lshal para um arquivo de log e, em seguida, pesquisa por sda sdb ou qualquer mdadm ou SMART identificado como sendo ruim.

    
por 06.12.2010 / 23:14
0

Seguindo a resposta do Linker3000, o conteúdo do disco que você removeu primeiro ainda deve estar ok. Remova o disco que você sabe que é realmente o disco quebrado e tente iniciar com o disco bom sozinho. Há uma pequena chance de que o md tenha marcado seu disco saudável como atrasado quando você o adicionou novamente com o disco quebrado presente. Neste caso, você precisa começar de um CD / USB ativo e reativar seu RAID. Depois de ter o seu sistema funcionando bem, você pode começar de novo com os passos normais para adicionar um novo disco ao seu RAID 1s.

    
por 10.05.2017 / 13:08