Esta tarde, alguém no nosso escritório decidiu tirar a ficha do nosso servidor porque estava a atacar lá fora. Eles não desligaram, apenas desligaram enquanto estava funcionando.
O servidor tem 4 unidades SATA em uma configuração de software RAID 10 e LVM em execução na parte superior do RAID. O servidor está executando o CentOS 6.2 Mínimo e é um host de máquina virtual que usa o KVM. No momento em que foi desligado, havia muitos computadores convidados sendo executados no computador. Cada convidado tem uma ou mais partições LVM que ele usa diretamente como discos rígidos. As partições de convidado são EXT3, EXT4 e NTFS. O sistema operacional host está em uma partição EXT4.
Mais tarde, quando a energia voltou, essa pessoa conectou-a novamente e começou a funcionar. Desde que eles o conectaram sem conectar um monitor primeiro, não há como ver o que apareceu na tela. Eu tentei anexar um monitor agora, mas ele não funcionará a menos que o monitor esteja conectado na inicialização. Eu deixei-o exatamente como está, até que eu possa obter alguns conselhos, já que eu não quero estragar nada (ainda mais).
Eu posso entrar no host via SSH. Eu não o reiniciei ainda, caso haja algo em um log em algum lugar que possa ser útil.
O que eu preciso fazer é verificar todos os discos e partições para integridade de dados, se é que isso é possível. Acho que o RAID 10 usa algum tipo de cache baseado em memória e estou preocupado com o fato de as unidades serem inconsistentes, ou os arquivos serem corrompidos se houvesse coisas na sugestão para gravar na unidade que ainda não havia sido escrita.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Também me incomoda que esteja chamando meus arrays, "quase cópias". Isso é normal?
Que tipo de verificação de disco devo executar para garantir que tudo esteja bem com as unidades e os dados? Há outras coisas que devo verificar?
UPDATE
Saída do mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3