Eu tenho um sistema com 10 unidades executando RAID de software Linux usando o RAID 6. Hoje o sistema parou de responder e precisou ser ligado por energia elétrica. O sistema de arquivos no RAID (note, não o sistema de arquivos raiz, que está em sua própria unidade) está intacto e os dados ainda estão lá. Mas notei durante a seqüência de boot isso:
raid5: raid level 6 set md0 active with 9 out of 10 devices, algorithm 2
RAID5 conf printout:
--- rd:10 wd:9
disk 0, o:1, dev:sdb1
disk 2, o:1, dev:sdc1
disk 3, o:1, dev:sdd1
disk 4, o:1, dev:sde1
disk 5, o:1, dev:sdj1
disk 6, o:1, dev:sdi1
disk 7, o:1, dev:sdh1
disk 8, o:1, dev:sdg1
disk 9, o:1, dev:sdf1
md0: detected capacity change from 0 to 16003169779712
A primeira parte não me surpreendeu, apenas pareceu que uma unidade desistiu. Não é grande coisa, o RAID é projetado para lidar com isso. Mas esse último pedaço me preocupou. Não gostei do termo "alteração de capacidade" no meu RAID.
Como eu disse antes, o sistema de arquivos está bem. Nenhuma alteração de antes:
Filesystem Type Size Used Avail Use% Mounted on
/dev/root ext4 73G 6.8G 63G 10% /
proc proc 0 0 0 - /proc
sysfs sysfs 0 0 0 - /sys
usbfs usbfs 0 0 0 - /proc/bus/usb
tmpfs tmpfs 1.7G 0 1.7G 0% /dev/shm
/dev/md0 xfs 15T 9.5T 5.2T 65% /mnt/data
Mas /proc/mdstat
diz isto:
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid6 sdk1[10] sdi1[6] sdh1[7] sdg1[8] sdf1[9] sdj1[5] sdd1[3] sde1[4] sdb1[0] sdc1[2]
15628095488 blocks level 6, 64k chunk, algorithm 2 [10/9] [U_UUUUUUUU]
[>....................] recovery = 0.7% (15060864/1953511936) finish=2053.3min speed=15733K/sec
unused devices: <none>
Observe o [10/9]
. Eu vi isso dizer [9/10]
quando uma unidade erroneamente desistiu antes. E depois de re-sincronizar, ele retornou para [10/10]
como esperado. Mas isso significa algo diferente? Há algo mais que precisa ser feito além de deixar isso terminar? O RAID de alguma forma mudou sua forma de alguma forma?