Proxmox Master Node falha

5

Eu descobri inadvertidamente um bug do Proxmox. Eu corro um cluster pessoal de 4 nós (um laboratório de tecnologia para risos e gags). Cada nó tem um Dell Perc 5i e 4 HDDs em RAID 10. A instalação padrão do Proxmox usa toda a unidade lógica e coloca em funcionamento 2 partições, a unidade do sistema e uma unidade local ( /var/lib/vz ).

Descobri recentemente que executar o QCOW2 permite que eu tire instantâneos, enquanto que executar o VMDK não. Também aprendi que não posso migrar VMs a menos que elas estejam no armazenamento de rede.

Não é problema, primeiro eu instalo o servidor NFS em todos os nós, então criei e exportei uma pasta NFS no sistema de arquivos /var/lib/vz ( /var/lib/vz/nfs ) e adicionei isso como armazenamento de rede.

Em seguida, comecei a migrar minhas unidades para a pasta NFS na máquina local e a converter as imagens para QCOW2 usando o comando de movimentação da unidade de interface da web. Isso funciona, mas aqui está como eu posso travar consistentemente o serviço de cluster Proxmox:

  1. Se eu tentar copiar mais de uma unidade VM por vez no nó mestre.
  2. Se eu tentar copiar uma VM muito grande (250Gb) sozinha no nó mestre.

O nó mestre parece ir para o sul. A interface da web mostra que tudo está inativo. Progresso na cópia apenas pára. Os comandos de sincronização do SO executados no shell nunca retornam, os pedidos de encerramento são interrompidos, os comandos init 0 são interrompidos. Eventualmente, eu tenho que desligar a energia no nó.

Então, algumas perguntas:

  1. É porque estou copiando para o NFS? Estou usando um pnf padrão nfs4 nfs-kernel-server.
  2. É porque estou mantendo a unidade que hospeda o quorum principal muito ocupada? Afinal, a configuração do RAID 10 é ler e gravar esses arquivos grandes de local para um compartilhamento nfs na mesma máquina - estamos mantendo a pilha TCP e a própria unidade muito ocupada.
  3. Há alguma prática recomendada que estou perdendo aqui? - Eu sei que nunca colocaria isso em produção - lembre-se de que este é um cluster caseiro que executa um laboratório de servidores de baixo custo.

Qualquer ajuda seria apreciada.

    
por Ravenor 24.02.2014 / 00:59

1 resposta

1

Parece que você está enfrentando um problema de rede com o Proxmox. Este parece ser um problema bastante comum com o Proxmox e o OpenVZ. Eu uso o OpenVZ e tive problemas semelhantes com o OpenVZ.

A maneira recomendada de contornar esse problema é dividir sua rede de modo que o armazenamento esteja em seu próprio segmento de rede separado da rede que as VMs estão usando. Você muitas vezes verá essas mensagens junto com esse problema, ipcc_send_rec falhou: Recurso temporariamente indisponível .

Em minhas experiências com o OpenVZ (e indiretamente o Proxmox), eu diria que essas tecnologias são boas para o desenvolvimento e para o uso de baixo custo, mas que na verdade não são projetadas para uso pesado. Eu percebo que você não está usando em um aplicativo de utilização pesada, mas sua incapacidade de ser "tolerante a falhas" é uma das principais razões pelas quais eu tenho procurado me afastar delas (OpenVZ) para tecnologias alternativas como LXC e Docker. Apenas meus $ 0,02.

    
por 24.02.2014 / 02:15

Tags