Eu implantei quatro servidores 10.04 do Ubuntu. Eles são acoplados dois a dois em um cenário de cluster. em ambos os lados temos discos raid1 de software, drbd8 e OCFS2 e, além disso, algumas máquinas kvm são executadas com discos qcow2.
Eu segui isto: Link
corosync é usado apenas para DRBD e OCFS, as máquinas kvm são executadas "manualmente"
Quando funciona, tudo bem: bons desempenhos, boa E / S, mas em um dado momento um dos dois clusters começou a ficar suspenso. Então nós tentamos com apenas um servidor ligado e ele trava o mesmo. Parece acontecer quando ocorre um READ pesado em uma das máquinas virtuais, ou seja, durante o backup rsyn. Quando o fato ocorre, as máquinas virtuais não estão mais acessíveis e o servidor real responde com um bom atraso ao ping, mas nenhuma tela e nenhum ssh estão disponíveis.
Tudo o que podemos fazer é forçar o desligamento (segure o botão) e reiniciar e quando ele liga novamente o ataque no qual o relé drbd está ressincronizando. Todo o tempo que trava, vemos tal fato.
Depois de algumas semanas de dor de um lado esta manhã, o outro cluster também ficou pendurado, mas tem instâncias diferentes de moteherboard, ram, kvm. O que é semelhante é a leitura para o cenário do rsync e discos Western Digital RAID Edistion em ambos os lados.
Alguém pode me dar alguma informação para resolver esse problema?
UPDATE: Eu converti todas as imagens do qcow2 para raw e montei o sistema de arquivos de dentro da máquina virtual com noatime e nodiratime. Eu usei o ionice para o rsync, mas esta manhã ele parou novamente enquanto um usuário lia muitos arquivos de um compartilhamento de samba. Agora estou movendo imagens virtuais de máquinas de ocfs2 para ext3, mas é realmente uma derrota ... qualquer idéia é bem vinda.