Array Raid 'limpo, degradado'?

2

Hoje eu notei que há muitas mensagens reclamando sobre a matriz RAID (é um software RAID10), então comecei a pesquisar, mas preciso de ajuda, porque não tenho certeza se interpreto a saída de status corretamente (eu meio que esqueci a configuração real do RAID porque a máquina está em um local remoto e a configurei há cerca de um ano ou dois) ... se bem me lembro, o sistema deveria ter 8 discos de 2 TB, mas é tudo o que consigo lembrar .

Correio do sistema:

 N 14 [email protected]  Wed May 25 21:30   32/1059  Fail event on /dev/md/0:EDMedia
 N 15 [email protected]  Thu May 26 06:25   30/1025  DegradedArray event on /dev/md/0:EDMedia
 N 16 [email protected]  Thu May 26 06:25   30/1025  SparesMissing event on /dev/md/0:EDMedia

A parte que está me confundindo, agora que estou vendo as saídas, é esta:

Number   Major   Minor   RaidDevice State
   0       0        0        0      removed

Isso significa que um disco foi removido (ou caiu do array)? Devo tentar adicionar novamente '/ dev / sda1' a ele? E existe alguma maneira que eu possa dizer que '/ dev / sda1' fazia parte de '/ dev / md0' sem adicionar um disco particionado em uso por alguma coisa, apenas para piorar as coisas?

saídas de status:

Saída 'mdadm -D / dev / md0':

/dev/md0:
        Version : 1.2
  Creation Time : Mon Feb  8 23:15:33 2016
     Raid Level : raid10
     Array Size : 2197509120 (2095.71 GiB 2250.25 GB)
  Used Dev Size : 1465006080 (1397.14 GiB 1500.17 GB)
   Raid Devices : 3
  Total Devices : 2
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Thu Sep  1 19:54:05 2016
          State : clean, degraded
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : EDMEDIA:0
           UUID : 6ebf98c8:d52a13f0:7ab1bffb:4dbe22b6
         Events : 4963861

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       17        1      active sync   /dev/sdb1
       2       8       33        2      active sync   /dev/sdc1

saída 'lsblk':

NAME                       MAJ:MIN RM   SIZE RO TYPE   MOUNTPOINT
sda                          8:0    0   1.4T  0 disk
└─sda1                       8:1    0   1.4T  0 part
sdb                          8:16   0   1.4T  0 disk
└─sdb1                       8:17   0   1.4T  0 part
  └─md0                      9:0    0     2T  0 raid10
    ├─md0p1                259:0    0   1.5M  0 md
    ├─md0p2                259:1    0 244.5M  0 md     /boot
    └─md0p3                259:2    0     2T  0 md
      ├─EDMedia--vg-root   253:0    0     2T  0 lvm    /
      └─EDMedia--vg-swap_1 253:1    0    16G  0 lvm    [SWAP]
sdc                          8:32   0   1.4T  0 disk
└─sdc1                       8:33   0   1.4T  0 part
  └─md0                      9:0    0     2T  0 raid10
    ├─md0p1                259:0    0   1.5M  0 md
    ├─md0p2                259:1    0 244.5M  0 md     /boot
    └─md0p3                259:2    0     2T  0 md
      ├─EDMedia--vg-root   253:0    0     2T  0 lvm    /
      └─EDMedia--vg-swap_1 253:1    0    16G  0 lvm    [SWAP]
sdd                          8:48   0   1.4T  0 disk
└─sdd1                       8:49   0   1.4T  0 part
sdj                          8:144  0 298.1G  0 disk
└─sdj1                       8:145  0 298.1G  0 part
sr0                         11:0    1  1024M  0 rom

saída 'df':

Filesystem      1K-blocks       Used Available Use% Mounted on
/dev/dm-0      2146148144 1235118212 801988884  61% /
udev                10240          0     10240   0% /dev
tmpfs             1637644      17124   1620520   2% /run
tmpfs             4094104          0   4094104   0% /dev/shm
tmpfs                5120          0      5120   0% /run/lock
tmpfs             4094104          0   4094104   0% /sys/fs/cgroup
/dev/md0p2         242446      34463    195465  15% /boot

Saída 'watch -n1 cat / proc / mdstat':

Every 1.0s: cat /proc/mdstat                                                                                                                                                           Thu Sep  1 21:26:22 2016

Personalities : [raid10]
md0 : active raid10 sdb1[1] sdc1[2]
      2197509120 blocks super 1.2 512K chunks 2 near-copies [3/2] [_UU]
      bitmap: 16/17 pages [64KB], 65536KB chunk

unused devices: <none>
    
por Kārlis K. 01.09.2016 / 19:38

2 respostas

0

Inspecionou os registros do sistema conforme o rudimeier sugeriu e descobriu que houve um evento de falta de energia em maio, após o qual os erros da matriz RAID começaram a aparecer. Uma vez que este é um software RAID10 (1 + 0), eu sou grato apenas o disco sobressalente voou para fora da matriz em vez de toda a matriz irreversivelmente falhando. Depois de fazer alguns testes de HDD com o velho CD de inicialização do Hiren e apenas por variedade - Partition Wizard inicializável ... todos os discos suspeitos verificados sem erros / problemas.

Eu apaguei (com o Partition Wizard inicializável, para que o disco não estivesse formatado e não fosse particionado) e, em seguida, adicionei novamente o sobressalente usando:

mdadm --add /dev/md0 /dev/sda1
    
por 06.09.2016 / 18:53
0

Parece que seu array raid10 foi configurado para ter 2 drives ativos mais um sobressalente. O sobressalente está faltando.

Isso pode ter vários motivos:

  1. Talvez você tenha removido o disco sobressalente do servidor
  2. Talvez uma unidade tenha morrido e o hot spare existente tenha se tornado ativo depois de uma reconstrução.
  3. Talvez o hot spare tenha morrido antes de poder ser usado.
  4. Talvez uma unidade (ou cabo) "tenha sido" quebrada de uma só vez e tenha sido removida automaticamente da matriz.

Você pode verificar se o seu servidor tem um disco quebrado que você nem vê mais na saída do lsblk. Também pode ser que uma de suas outras unidades (sda1 ou sdd1) fazia parte de sua matriz no passado, mas está quebrada agora. (Não pode ser sdj1 porque é muito pequeno).

Remova todas as unidades quebradas do servidor.

Para evitar que os avisos adicionem novamente uma unidade hot spare (talvez uma das não usadas, não quebradas) ou configure sua matriz para não ter mais uma peça de reposição. Esteja ciente de que, no caso 4, a probabilidade de que a mesma unidade falhe novamente é alta.

BTW para ver exatamente o que aconteceu no passado, você pode usar os arquivos de log antigos para mensagens relevantes.

    
por 01.09.2016 / 20:49

Tags