Uma unidade no software Centos raid 1 array continua desaparecendo

1

Eu tenho um par de servidores HP DL320e configurados de forma idêntica com 2 unidades WD Red 6TB em uma matriz de RAID 1 de software.

# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sda3[2] sdb3[1]
      5859876672 blocks super 1.2 [2/2] [UU]
      bitmap: 0/44 pages [0KB], 65536KB chunk

md127 : active raid1 sda2[3] sdb2[2]
      511936 blocks super 1.0 [2/2] [UU]

unused devices: <none>

As máquinas foram instaladas por cerca de 6 semanas e geralmente funcionam bem, no entanto, em várias ocasiões, uma unidade no par desaparece da configuração, o sistema informa que a unidade foi removida:

# mdadm --detail /dev/md126
/dev/md126:
        Version : 1.0
  Creation Time : Thu Feb 12 12:16:13 2015
     Raid Level : raid1
     Array Size : 511936 (500.02 MiB 524.22 MB)
  Used Dev Size : 511936 (500.02 MiB 524.22 MB)
   Raid Devices : 2
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Mon Apr 20 15:39:02 2015
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : localhost:boot
           UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea
         Events : 139

    Number   Major   Minor   RaidDevice State
       2       8        2        0      active sync   /dev/sda2
       2       0        0        2      removed

/ var / log / messages relata que a unidade não pode ser aberta

Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device

Ambas as unidades aparecem fisicamente OK e estão girando. Essas máquinas formam um par de produção, então não fiz muita experimentação. A primeira vez que isso aconteceu eu desligar o servidor e reiniciei, a unidade com falha permaneceu falhou então eu desligá-lo novamente, removido a unidade que parecia normal, reinserido e reiniciado, a unidade parecia normal e depois

mdadm --manage /dev/md126 --add /dev/sda2

... e o comando similar para o outro sistema de arquivos foi re-sincronizado e tudo voltou ao normal.

O mesmo aconteceu com as duas unidades em uma máquina e hoje o outro servidor fez a mesma coisa com uma de suas unidades. Hoje eu desliguei o servidor e removi o cabo de alimentação para forçar uma inicialização a frio completa incluindo iLo, não removi a unidade "com falha" e quando a máquina veio o dispositivo ficou visível e o comando mdadm para adicionar a unidade ausente como antes.

Não consigo ver mais nada no log de mensagens ou em qualquer outro lugar. A falha hoje aconteceu quando o sistema foi reinicializado após eu ter feito manualmente uma atualização e reinicialização do yum, a falha anterior aconteceu após uma reinicialização que aconteceu por motivos que não consigo explicar quando não estava no escritório.

No estado de falha, o array de ataque opera no modo degradado e o sistema opera normalmente, não estou sofrendo interrupções de serviço como resultado, mas obviamente é uma preocupação que isso esteja acontecendo.

Não estou familiarizado com o iLO, mas não vejo nada nos registros do iLO, exceto uma observação de que a energia foi desligada no momento da reinicialização inexplicada.

Estou executando o Centos 7, 4 Gb de ram, o Xenon 4 core 3.1GHz com 2 discos de 6 TB. Todas as atualizações do yum foram aplicadas.

Alguém viu algo assim em um DL320e?

    
por Bruce Skingle 20.04.2015 / 17:55

0 respostas