/ dev / md0 Perdeu um Drive?

1

Eu tenho um sistema com 10 unidades executando RAID de software Linux usando o RAID 6. Hoje o sistema parou de responder e precisou ser ligado por energia elétrica. O sistema de arquivos no RAID (note, não o sistema de arquivos raiz, que está em sua própria unidade) está intacto e os dados ainda estão lá. Mas notei durante a seqüência de boot isso:

raid5: raid level 6 set md0 active with 9 out of 10 devices, algorithm 2
RAID5 conf printout:
 --- rd:10 wd:9
 disk 0, o:1, dev:sdb1
 disk 2, o:1, dev:sdc1
 disk 3, o:1, dev:sdd1
 disk 4, o:1, dev:sde1
 disk 5, o:1, dev:sdj1
 disk 6, o:1, dev:sdi1
 disk 7, o:1, dev:sdh1
 disk 8, o:1, dev:sdg1
 disk 9, o:1, dev:sdf1
md0: detected capacity change from 0 to 16003169779712

A primeira parte não me surpreendeu, apenas pareceu que uma unidade desistiu. Não é grande coisa, o RAID é projetado para lidar com isso. Mas esse último pedaço me preocupou. Não gostei do termo "alteração de capacidade" no meu RAID.

Como eu disse antes, o sistema de arquivos está bem. Nenhuma alteração de antes:

Filesystem    Type    Size  Used Avail Use% Mounted on
/dev/root     ext4     73G  6.8G   63G  10% /
proc          proc       0     0     0   -  /proc
sysfs        sysfs       0     0     0   -  /sys
usbfs        usbfs       0     0     0   -  /proc/bus/usb
tmpfs        tmpfs    1.7G     0  1.7G   0% /dev/shm
/dev/md0       xfs     15T  9.5T  5.2T  65% /mnt/data

Mas /proc/mdstat diz isto:

Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] 
md0 : active raid6 sdk1[10] sdi1[6] sdh1[7] sdg1[8] sdf1[9] sdj1[5] sdd1[3] sde1[4] sdb1[0] sdc1[2]
      15628095488 blocks level 6, 64k chunk, algorithm 2 [10/9] [U_UUUUUUUU]
      [>....................]  recovery =  0.7% (15060864/1953511936) finish=2053.3min speed=15733K/sec

unused devices: <none>

Observe o [10/9] . Eu vi isso dizer [9/10] quando uma unidade erroneamente desistiu antes. E depois de re-sincronizar, ele retornou para [10/10] como esperado. Mas isso significa algo diferente? Há algo mais que precisa ser feito além de deixar isso terminar? O RAID de alguma forma mudou sua forma de alguma forma?

    
por David 22.04.2011 / 02:31

1 resposta

3

Você obtém o [10/9] porque o disco que está no estado de "sincronização" é contado como uma unidade "hot spare". Portanto, há nove unidades "ativas" e uma é uma reserva: dez unidades na matriz. Quando o processo de sincronização terminar, você recebe o [10/10] novamente, pois todos estão "ativos".

    
por 24.04.2011 / 20:59

Tags