Saída ímpar do mdadm: --examinam mostra estado da matriz falhou, --detalhes mostra tudo limpo

3

A configuração: 8 discos em uma matriz RAID5 gerenciada por mdadm (/ dev / md0, feita de / dev / sdc até / dev / sdj). Um disco (/ dev / sdh) está apresentando erros SMART (aumentando a contagem do setor pendente), então estou tentando substituí-lo. Além disso, a máquina inicializa a partir de um SSD Revodrive em um slot PCIe configurado com uma faixa RAID0.

A estranheza: mdadm - saída detalhada mostra a matriz como limpa, e tudo parece estar funcionando bem (eu posso montar, ler, escrever a matriz sem problemas). A saída mdadm -examine para cada disco mostra um estado de matriz com falha.

root@saturn:/backup# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sdi1[6] sdj1[8] sdh1[5] sdg1[4] sdf1[3] sde1[2] sdd1[1] sdc1[0]
      20511854272 blocks super 1.0 level 5, 64k chunk, algorithm 2 [8/8] [UUUUUUUU]

unused devices: <none>

A tabela proc mostra apenas o array gerenciado por mdadm de unidades SATA, não o revodrive, que eu esperaria que o RAID revodrive fosse gerenciado por seu próprio controlador de hardware.

root@saturn:/backup# mdadm --detail /dev/md0
mdadm: metadata format 01.00 unknown, ignored.
/dev/md0:
        Version : 01.00
  Creation Time : Wed Apr 20 10:14:05 2011
     Raid Level : raid5
     Array Size : 20511854272 (19561.63 GiB 21004.14 GB)
  Used Dev Size : 5860529792 (5589.04 GiB 6001.18 GB)
   Raid Devices : 8
  Total Devices : 8
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Mon Sep 19 13:42:21 2011
          State : clean
 Active Devices : 8
Working Devices : 8
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : saturn:0  (local to host saturn)
           UUID : e535a44b:b319927e:4a574c20:39fc3f08
         Events : 45

    Number   Major   Minor   RaidDevice State
       0       8       33        0      active sync   /dev/sdc1
       1       8       49        1      active sync   /dev/sdd1
       2       8       65        2      active sync   /dev/sde1
       3       8       81        3      active sync   /dev/sdf1
       4       8       97        4      active sync   /dev/sdg1
       5       8      113        5      active sync   /dev/sdh1
       6       8      129        6      active sync   /dev/sdi1
       8       8      145        7      active sync   /dev/sdj1

Obviamente, há um erro de formato de metadados na primeira linha, a partir de um sinalizador de metadados gerado automaticamente no mdadm.conf, mas este é o mdadm v2.6.7.1 em execução no Ubuntu, e eu o classifiquei como um problema conhecido

root@saturn:/backup# mdadm --examine /dev/sdc1
mdadm: metadata format 01.00 unknown, ignored.
/dev/sdc1:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : e535a44b:b319927e:4a574c20:39fc3f08
           Name : saturn:0  (local to host saturn)
  Creation Time : Wed Apr 20 10:14:05 2011
     Raid Level : raid5
   Raid Devices : 8

 Avail Dev Size : 5860529904 (2794.52 GiB 3000.59 GB)
     Array Size : 41023708544 (19561.63 GiB 21004.14 GB)
  Used Dev Size : 5860529792 (2794.52 GiB 3000.59 GB)
   Super Offset : 5860530160 sectors
          State : clean
    Device UUID : 1b508410:b129e871:d92c7979:30764611

    Update Time : Mon Sep 19 13:52:58 2011
       Checksum : 2e68592 - correct
         Events : 45

         Layout : left-symmetric
     Chunk Size : 64K

    Array Slot : 0 (0, 1, 2, 3, 4, 5, 6, failed, 7)
   Array State : Uuuuuuuu 1 failed

Mas na saída --examine, o estado da Matriz está com falha. Cada disco parece mostrar-se como o membro falhado - / dev / sdd mostra u U uuuuuu, / dev / sde mostra uu U uuuuu, etc - mas todos mostram o mistério 9º slot "falhou" entre os slots 6 e 7 na linha anterior.

Eu estou supondo que as superquadras de disco são malucas, apesar de tudo ser funcional. Eu gostaria de consertar isso antes de prosseguir com a substituição do disco suspeito, já que estou um pouco preocupado sobre como os discos podem se comportar se eu falhar em uma unidade. Qual é a melhor maneira de eu continuar?

    
por Runc 19.09.2011 / 15:08

2 respostas

2

Você precisa atualizar o mdadm para pelo menos a versão v3.1.1. Este bug descreve o problema que você estava tendo e como a atualização do mdadm mostra que o novo formato de superbloco agora é interpretado corretamente.

    
por 16.07.2012 / 17:07
0

Apenas a mesma ideia que você e Andrew já tinham: Parece haver um problema com o md-superblock (s).

Então faça o fail / remove / zero-superblock / add na (s) unidade (s) que contém (m) o (s) superbloco (s).

    
por 13.01.2012 / 22:42