Como verificar o Host da VM do CentOS 6 Server após uma falha de energia?

9

Esta tarde, alguém no nosso escritório decidiu tirar a ficha do nosso servidor porque estava a atacar lá fora. Eles não desligaram, apenas desligaram enquanto estava funcionando.

O servidor tem 4 unidades SATA em uma configuração de software RAID 10 e LVM em execução na parte superior do RAID. O servidor está executando o CentOS 6.2 Mínimo e é um host de máquina virtual que usa o KVM. No momento em que foi desligado, havia muitos computadores convidados sendo executados no computador. Cada convidado tem uma ou mais partições LVM que ele usa diretamente como discos rígidos. As partições de convidado são EXT3, EXT4 e NTFS. O sistema operacional host está em uma partição EXT4.

Mais tarde, quando a energia voltou, essa pessoa conectou-a novamente e começou a funcionar. Desde que eles o conectaram sem conectar um monitor primeiro, não há como ver o que apareceu na tela. Eu tentei anexar um monitor agora, mas ele não funcionará a menos que o monitor esteja conectado na inicialização. Eu deixei-o exatamente como está, até que eu possa obter alguns conselhos, já que eu não quero estragar nada (ainda mais).

Eu posso entrar no host via SSH. Eu não o reiniciei ainda, caso haja algo em um log em algum lugar que possa ser útil.

O que eu preciso fazer é verificar todos os discos e partições para integridade de dados, se é que isso é possível. Acho que o RAID 10 usa algum tipo de cache baseado em memória e estou preocupado com o fato de as unidades serem inconsistentes, ou os arquivos serem corrompidos se houvesse coisas na sugestão para gravar na unidade que ainda não havia sido escrita.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Também me incomoda que esteja chamando meus arrays, "quase cópias". Isso é normal?

Que tipo de verificação de disco devo executar para garantir que tudo esteja bem com as unidades e os dados? Há outras coisas que devo verificar?

UPDATE

Saída do mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3
    
por Nick 09.03.2012 / 01:56

2 respostas

3

O RAID é bom, todos os UUUUs significam que todos os discos do array estão ativos. Eu nem me preocuparia com isso por enquanto.

Quanto às VMs, se você quiser executar fscks nelas, pare as VMs e execute

fsck.ext3 (ext4, etc) /path/to/lvm (geralmente como / dev / vg-name / lv-name)

Se você estiver usando o KVM, você poderá usar virsh para fazer qualquer coisa que precisar nas VMs. Aqui está um link para a página do man do virsh link

Se você realmente deseja executar verificações de disco em seus arrays de raid, terá que reinicializar no modo de usuário único ou inicializar a partir de um live cd para que você possa fsck os dispositivos / dev / mdX individuais. Como o sistema de arquivos primário é o EXT4, eu não me incomodaria, é muito melhor do que o EXT3 com falta de energia.

    
por 14.03.2012 / 23:53
1

Experimente o mdadm --detail / dev / md0 (o mesmo para md1 e md2).

Em seguida, tente o conselho dado aqui: link

    
por 10.03.2012 / 19:25