“Spare” disk em um array RAID1 mdadm de 2 discos?

1

Recentemente, falhei em um volume RAID1. Ele tinha três partições primárias, todas participando de VGs separados, mas configurados de forma semelhante. Essa configuração vem do fato de que a máquina tem facilmente uma década, tendo feito upgrade de vários discos únicos para vários VGs com arrays.

Substitui o disco, criei as partições e as adicionei de volta aos arrays RAID usando o mdadm. Isso funcionou para md0 e md1, mas para md2, falhou duas vezes. Este é o maior volume, falha sem erro e é deixado nesse estado:

# mdadm --examine /dev/sdc3
/dev/sdc3:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : <omitted>
  Creation Time : Wed Nov  3 10:56:13 2010
     Raid Level : raid1
  Used Dev Size : 1914417728 (1825.73 GiB 1960.36 GB)
     Array Size : 1914417728 (1825.73 GiB 1960.36 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2

    Update Time : Tue Oct 21 12:25:59 2014
          State : clean
 Active Devices : 1
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 1
       Checksum : 5d247e27 - correct
         Events : 188268


      Number   Major   Minor   RaidDevice State
this     2       8       35        2      spare   /dev/sdc3

   0     0       8        3        0      active sync   /dev/sda3
   1     1       0        0        1      faulty removed
   2     2       8       35        2      spare   /dev/sdc3

Como posso ter um disco reserva se a matriz RAID 1 tiver apenas um disco de trabalho?

Existem algumas dicas reais sobre isso:

  • O disco antigo tem setores físicos de 512 bytes, o novo 4096 bytes físicos
  • O disco antigo tem uma partição MBR convencional, a nova é uma partição GPT
  • O disco antigo é de 2TB, o novo de 3TB.

O plano para o 3TB é eventualmente substituir o outro disco de 2TB e expandir o array, mas por enquanto, é um espaço não utilizado.

Nota:

Old configuration:  RAID1, 1x2TB disk, 512 byte physical sectors, MBR from 2010
                           1x2TB disk, 512 byte physical sectors, MBR from 2010 (failed)

New configuration:  RAID1, 1x2TB disk, 512 byte physical sectors, MBR from 2010
                           1x3TB disk, 4096 byte physical sectors, GPT brand new

Os discos de 2 TB foram comprados em 2010, eles tiveram um longo prazo. Um deles falhou, então eu o substitui por um disco de 3 TB. O GPT e a coisa da partição física podem ser uma pista falsa. Apenas mencionando isso, caso pareça importante para alguém.

Algumas mensagens estão aparecendo no syslog,

Oct 21 18:02:58 blacktower kernel: [169469.308398] mdadm: sending ioctl 800c0910 to a partition!
Oct 21 18:02:58 blacktower kernel: [169469.308402] mdadm: sending ioctl 800c0910 to a partition!
Oct 21 18:03:54 blacktower kernel: [169525.933975] mdadm: sending ioctl 1261 to a partition!
Oct 21 18:03:54 blacktower kernel: [169525.933978] mdadm: sending ioctl 1261 to a partition!
Oct 21 18:03:54 blacktower kernel: [169525.934250] mdadm: sending ioctl 1261 to a partition!
Oct 21 18:03:54 blacktower kernel: [169525.934253] mdadm: sending ioctl 1261 to a partition!

Este tópico sugere que é inofensivo, link

Pode não estar relacionado, mas é possível que exista um problema na versão do kernel. Estou no Squeeze LTS.

# uname -r
2.6.32-5-686

Hmm ..

    
por mgjk 22.10.2014 / 00:15

1 resposta

1

Você não tem uma sobretaxa extra, o disco com falha foi categorizado como sobressalente "potencial" quando a matriz falhou. A saída é um pouco confusa, mas você tem dois dispositivos na matriz:

   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2

E 1 falhou e 1 ainda está ativo:

 Active Devices : 1
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 1

E o dispositivo com falha está sendo contado duas vezes, basicamente. Quando o disco rígido está nesse estado, eu normalmente o falho e depois o removo.

$ sudo mdadm /dev/md0 -f /dev/sdc3
$ sudo mdadm /dev/md0 -r /dev/sdc3

Normalmente, quando os dispositivos começam a falhar, às vezes você pode fugir e fazer o que foi mencionado acima e depois adicioná-los novamente:

$ sudo mdadm /dev/md0 -a /dev/sdc3

E talvez ganhe um pouco mais de vida com eles, mas normalmente é nessa hora que você não quer arriscar seus dados e deve planejar a remoção do HDD e substituí-lo imediatamente.

Muitas vezes os HDs podem ser removidos e, em seguida, você pode executar uma ferramenta como HDAT2 ou Spinrite para ver se você não pode repará-los, quando você pode usá-los para algo menos crítico ou reciclá-los.

Referências

por 22.10.2014 / 01:15