Ubuntu mdadm do servidor drbd ocfs2 kvm trava sob leitura pesada de arquivos

2

Eu implantei quatro servidores 10.04 do Ubuntu. Eles são acoplados dois a dois em um cenário de cluster. em ambos os lados temos discos raid1 de software, drbd8 e OCFS2 e, além disso, algumas máquinas kvm são executadas com discos qcow2.

Eu segui isto: Link

corosync é usado apenas para DRBD e OCFS, as máquinas kvm são executadas "manualmente"

Quando funciona, tudo bem: bons desempenhos, boa E / S, mas em um dado momento um dos dois clusters começou a ficar suspenso. Então nós tentamos com apenas um servidor ligado e ele trava o mesmo. Parece acontecer quando ocorre um READ pesado em uma das máquinas virtuais, ou seja, durante o backup rsyn. Quando o fato ocorre, as máquinas virtuais não estão mais acessíveis e o servidor real responde com um bom atraso ao ping, mas nenhuma tela e nenhum ssh estão disponíveis.

Tudo o que podemos fazer é forçar o desligamento (segure o botão) e reiniciar e quando ele liga novamente o ataque no qual o relé drbd está ressincronizando. Todo o tempo que trava, vemos tal fato.

Depois de algumas semanas de dor de um lado esta manhã, o outro cluster também ficou pendurado, mas tem instâncias diferentes de moteherboard, ram, kvm. O que é semelhante é a leitura para o cenário do rsync e discos Western Digital RAID Edistion em ambos os lados.

Alguém pode me dar alguma informação para resolver esse problema?

UPDATE: Eu converti todas as imagens do qcow2 para raw e montei o sistema de arquivos de dentro da máquina virtual com noatime e nodiratime. Eu usei o ionice para o rsync, mas esta manhã ele parou novamente enquanto um usuário lia muitos arquivos de um compartilhamento de samba. Agora estou movendo imagens virtuais de máquinas de ocfs2 para ext3, mas é realmente uma derrota ... qualquer idéia é bem vinda.

    
por Stefano Annese 18.11.2011 / 09:31

1 resposta

0

Parece que você precisa tentar outro esquema de armazenamento para mim (embora se você usar discos pré-distribuídos RAW com as VMs, você evitará algumas das despesas gerais e realmente precisará do qcow2 somente se estiver usando snapshots)

As VMs estão funcionando estáveis sem o clustering, usando apenas os discos locais?

Já tentou usar o ionice para atribuir ao processo de rsync um nível mais alto, para que ele não quebre tudo o resto?

Você testou com GFS em vez de ocfs2? Pode ficar melhor, e você tem um descrption no guia que você postou um link para

    
por 18.11.2011 / 11:41