Eu tenho um par de servidores HP DL320e configurados de forma idêntica com 2 unidades WD Red 6TB em uma matriz de RAID 1 de software.
# cat /proc/mdstat
Personalities : [raid1]
md126 : active raid1 sda3[2] sdb3[1]
5859876672 blocks super 1.2 [2/2] [UU]
bitmap: 0/44 pages [0KB], 65536KB chunk
md127 : active raid1 sda2[3] sdb2[2]
511936 blocks super 1.0 [2/2] [UU]
unused devices: <none>
As máquinas foram instaladas por cerca de 6 semanas e geralmente funcionam bem, no entanto, em várias ocasiões, uma unidade no par desaparece da configuração, o sistema informa que a unidade foi removida:
# mdadm --detail /dev/md126
/dev/md126:
Version : 1.0
Creation Time : Thu Feb 12 12:16:13 2015
Raid Level : raid1
Array Size : 511936 (500.02 MiB 524.22 MB)
Used Dev Size : 511936 (500.02 MiB 524.22 MB)
Raid Devices : 2
Total Devices : 1
Persistence : Superblock is persistent
Update Time : Mon Apr 20 15:39:02 2015
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
Name : localhost:boot
UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea
Events : 139
Number Major Minor RaidDevice State
2 8 2 0 active sync /dev/sda2
2 0 0 2 removed
/ var / log / messages relata que a unidade não pode ser aberta
Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device
Ambas as unidades aparecem fisicamente OK e estão girando. Essas máquinas formam um par de produção, então não fiz muita experimentação. A primeira vez que isso aconteceu eu desligar o servidor e reiniciei, a unidade com falha permaneceu falhou então eu desligá-lo novamente, removido a unidade que parecia normal, reinserido e reiniciado, a unidade parecia normal e depois
mdadm --manage /dev/md126 --add /dev/sda2
... e o comando similar para o outro sistema de arquivos foi re-sincronizado e tudo voltou ao normal.
O mesmo aconteceu com as duas unidades em uma máquina e hoje o outro servidor fez a mesma coisa com uma de suas unidades. Hoje eu desliguei o servidor e removi o cabo de alimentação para forçar uma inicialização a frio completa incluindo iLo, não removi a unidade "com falha" e quando a máquina veio o dispositivo ficou visível e o comando mdadm para adicionar a unidade ausente como antes.
Não consigo ver mais nada no log de mensagens ou em qualquer outro lugar. A falha hoje aconteceu quando o sistema foi reinicializado após eu ter feito manualmente uma atualização e reinicialização do yum, a falha anterior aconteceu após uma reinicialização que aconteceu por motivos que não consigo explicar quando não estava no escritório.
No estado de falha, o array de ataque opera no modo degradado e o sistema opera normalmente, não estou sofrendo interrupções de serviço como resultado, mas obviamente é uma preocupação que isso esteja acontecendo.
Não estou familiarizado com o iLO, mas não vejo nada nos registros do iLO, exceto uma observação de que a energia foi desligada no momento da reinicialização inexplicada.
Estou executando o Centos 7, 4 Gb de ram, o Xenon 4 core 3.1GHz com 2 discos de 6 TB. Todas as atualizações do yum foram aplicadas.
Alguém viu algo assim em um DL320e?
Tags software-raid centos7