O servidor RAID-1 / LVM não inicializa após a falta de energia

4

Questão estranha. Depois de uma queda de energia prolongada (o transformador explodiu!) Que sobreviveu ao no-break, um servidor rodando o Slackware 13 caiu. Esta máquina vem servindo silenciosamente software de contabilidade e armazenamento de arquivos em um ambiente multiusuário desde dezembro de 2009, SEM QUESTÕES!

Esta máquina possui dois discos SATA de 500 GB configurados usando o LVM no topo do software RAID1 (tudo feito pelo instalador do slackware). Quando a energia é aplicada, o initrd image é carregado corretamente, mas a inicialização falha quando é hora de montar o sistema de arquivos raiz.

"Failed to mount /dev/Volume00/RootVol on /mnt.  No such device or directory." 

RootVol é um volume lógico no grupo de volume Volume00. Existem 3 outros sistemas de arquivos LV mais swap neste grupo de volumes. Eu posso montar qualquer um deles do boot#_ prompt e eles aparecem bem. No entanto, o RootVol, o sistema de arquivos raiz, não aparece de forma alguma ... /dev/mapper/Volume00 lista os outros 4, mas o RootVol está faltando.

Então, eu inicializei um cd de resgate do Linux. O volume% RAID1/dev/md0 aparece e eis que eu posso ver e montar /dev/Volume00/RootVol .

Agora, /proc/mdstat mostra que /dev/md0 está sendo degradado, usando apenas o dispositivo /dev/dm-1 . Não tenho certeza se isso significa que estou em um disco ... Estou acostumado a ver discos rígidos reais em / proc / mdstat ... / dev / sda1, / dev / sda2, etc. em não-LVM matrizes. Como posso determinar qual disco falhou? Como /dev/dm-x de dispositivos se relacionam com /dev/sdx dispositivos? E como posso obter a máquina para inicializar a partir do disco restante, que (parece) ficar bem. Os dois discos rígidos usados na matriz são / dev / sda e / dev / sdb, discos inteiros.

Alguém pode me indicar um tutorial sobre dispositivos / dev / dm-x? Vejo que eles são dispositivos LVM da documentação do dmsetup , mas não quero começar a mexer em nada sem um bom entendimento do que estou fazendo. Eu pensei RAID foi construído em dispositivos físicos, em seguida, grupos de volume construídos em dispositivos RAID ... Eu não consigo entender por que haveria dispositivos LVM mostrando como elementos de uma matriz de disco, mas tenho certeza que há uma razão maldita boa ... ou um mal-entendido fundamental da minha parte.

Veja algumas informações:

A saída do cat / dev / mdstat é:

root@sysresccd /mnt/rootvol/etc % cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4]         [raid10] 
md0 : active raid1 dm-1[0]
488287488 blocks [2/1] [U_]

unused devices: <none>

Não é o que eu esperava. Meus dois discos rígidos são / dev / sda e / dev / sdb, não há erros em / var / log / messages sobre eles, embora eu não tenha capacidade de ajustar os níveis de log na versão do Live CD que estou executando. Por que o / proc / mdstat não mostra dispositivos reais? Quais são os dispositivos / dev / dm- #?

A saída do mdadm --detail / dev / md0 é:

root@sysresccd /mnt/rootvol/etc % dmadm -D /dev/md0
zsh: correct 'dmadm' to 'mdadm' [nyae]? y
/dev/md0:
Version : 0.90
Creation Time : Thu Dec 3 11:53:48 2009
Raid Level : raid1
Array Size : 488287488 (465.67 GiB 500.01 GB)
Used Dev Size : 488287488 (465.67 GiB 500.01 GB)
Raid Devices : 2
Total Devices : 1
Preferred Minor : 0
Persistence : Superblock is persistent

Update Time : Sun Jul 10 12:00:57 2016
State : clean, degraded 
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0

UUID : a89cbdf5:f83cf3f7:dcc86dce:213c81b2
Events : 0.38

Number Major Minor RaidDevice State
0 253 1 0 active sync /dev/dm-1
2 0 0 2 removed

Eu estou supondo que ou a) eu tenho um disco com falha ou b) a matriz / dev / md0 não está sincronizada, talvez acha que um disco falhou?

De qualquer forma, a máquina definitivamente não irá inicializar a partir deste estado, e eu não consigo descobrir qual dos meus discos rígidos, se é que algum, é o problema, nem como consertar essa bagunça. Este é um servidor de produção com backups completos ... Eu poderia reconstruí-lo, mas realmente preferiria não, pois é um processo muito tedioso ... não há nada de errado com os dados nem, eu suponho, nenhum dos discos.

Não há mdadm.conf .

fdisk -l mostra os dois discos como Autodetect do Linux Raid, tudo parece normal.

Saída de dmsetup is (??? é inserido por mim):

root@sysresccd /mnt/rootvol/etc % dmsetup ls 
isw_bfdbfijegh_Volume01 (253:1)
isw_bfdbfijegh_Volume0  (253:0)
Volume00-MediaVol   (253:9)
Volume00-RootSnap-cow   (253:4) <-- ??? --- "cow" --- ???
Volume00-XplrVol    (253:7)
Volume00-RootSnap   (253:5)
Volume00-SwapVol    (253:8)
Volume00-RootVol    (253:3)
Volume00-RootVol-real   (253:2) <--- ??? --- "real" --- ???
Volume00-HomeVol    (253:6)

Postei as informações abaixo como uma resposta, mas foi sugerido que eu editasse essa postagem original e a adicionasse. Então, aqui está:

Aqui está a dmsetup table:

root@sysresccd /mnt/usbhdd1/server_backup/oldroot % dmsetup table
isw_bfdbfijegh_Volume01: 0 976575222 linear 253:0 63
isw_bfdbfijegh_Volume0: 0 976767240 mirror core 2 131072 nosync 2 8:0 0    8:16 0 1 handle_errors
Volume00-MediaVol: 0 209715200 linear 9:127 134218112
Volume00-RootSnap-cow: 0 2097152 linear 9:127 385876352
Volume00-XplrVol: 0 41943040 linear 9:127 83886464
Volume00-RootSnap: 0 20971520 snapshot 253:2 253:4 P 8
Volume00-SwapVol: 0 8388608 linear 9:127 125829504
Volume00-RootVol: 0 20971520 snapshot-origin 253:2
Volume00-RootVol-real: 0 20971520 linear 9:127 384
Volume00-HomeVol: 0 62914560 linear 9:127 20971904
Volume00-HomeVol: 62914560 41943040 linear 9:127 343933312

E aqui está mdadm -E para cada disco rígido.

root@sysresccd /mnt/usbhdd1/server_backup/oldroot % mdadm -E /dev/sda
mdmon: /dev/sda is not attached to Intel(R) RAID controller.
mdmon: /dev/sda is not attached to Intel(R) RAID controller.
/dev/sda:
          Magic : Intel Raid ISM Cfg Sig.
        Version : 1.1.00
    Orig Family : 5b4a335b
         Family : 5b4a335b
     Generation : 0000000a
     Attributes : All supported
           UUID : 15980595:45ac18ac:22467c90:56138fde
       Checksum : c51f833a correct
    MPB Sectors : 1
          Disks : 2
   RAID Devices : 1

  Disk00 Serial : WD-WCASY8349657
          State : active
             Id : 00000000
    Usable Size : 976767240 (465.76 GiB 500.10 GB)

[Volume0]:
           UUID : 4b19b799:c2a34a28:0bcca120:36d318a0
     RAID Level : 1
        Members : 2
          Slots : [UU]
    Failed disk : none
      This Slot : 0
     Array Size : 976766976 (465.76 GiB 500.10 GB)
   Per Dev Size : 976767240 (465.76 GiB 500.10 GB)
  Sector Offset : 0
    Num Stripes : 3815496
     Chunk Size : 64 KiB
       Reserved : 0
  Migrate State : idle
      Map State : uninitialized
    Dirty State : clean

  Disk01 Serial : WD-WCASY8288673
          State : active
             Id : 00010000
    Usable Size : 976767240 (465.76 GiB 500.10 GB)


root@sysresccd /mnt/usbhdd1/server_backup/oldroot % mdadm -E /dev/sdb
mdmon: /dev/sdb is not attached to Intel(R) RAID controller.
mdmon: /dev/sdb is not attached to Intel(R) RAID controller.
/dev/sdb:
          Magic : Intel Raid ISM Cfg Sig.
        Version : 1.1.00
    Orig Family : 5b4a335b
         Family : 5b4a335b
     Generation : 0000000a
     Attributes : All supported
           UUID : 15980595:45ac18ac:22467c90:56138fde
       Checksum : c51f833a correct
    MPB Sectors : 1
          Disks : 2
   RAID Devices : 1

  Disk01 Serial : WD-WCASY8288673
          State : active
             Id : 00010000
    Usable Size : 976767240 (465.76 GiB 500.10 GB)

[Volume0]:
           UUID : 4b19b799:c2a34a28:0bcca120:36d318a0
     RAID Level : 1
        Members : 2
          Slots : [UU]
    Failed disk : none
      This Slot : 1
     Array Size : 976766976 (465.76 GiB 500.10 GB)
   Per Dev Size : 976767240 (465.76 GiB 500.10 GB)
  Sector Offset : 0
    Num Stripes : 3815496
     Chunk Size : 64 KiB
       Reserved : 0
  Migrate State : idle
      Map State : uninitialized
    Dirty State : clean

  Disk00 Serial : WD-WCASY8349657
          State : active
             Id : 00000000
    Usable Size : 976767240 (465.76 GiB 500.10 GB)

O initrd já não teria? A matriz está ativa mesmo quando não consigo montar o volume da raiz ... os outros 3 volumes que POSSO montar e estão no mesmo VG na mesma matriz RAID1 ... por que posso montar /dev/Volume00/RootVol quando inicializado resgatar CD vs. inicializando do disco?

    
por Dave Spear 11.07.2016 / 17:38

0 respostas