O mistério do modelo ruim do CentOS - todas as VMs do VMware baseadas neste modelo de falha às vezes

2

Eu tenho um modelo do CentOS 7 (1602) que implantei cerca de 200 VMs usando-o até perceber o problema, por isso seria ideal corrigir essas VMs em vez de começar do zero.

A VM 'aleatoriamente' falha, geralmente entre 19:00 e 23:00, às vezes duas noites seguidas, às vezes não por uma semana ou duas. Quando uma VM falha, a maioria também falha. Eles parecem perder o acesso ao disco. A reinicialização da VM resolve imediatamente o problema e não reaparece por pelo menos 24 horas. Mesmo quando não os reiniciamos até o dia seguinte, eles ainda reinicializam durante esse período de tempo.

Algumas das VMs não têm nada instalado e ainda têm esse problema. A partição raiz e a partição de inicialização são pouco usadas. Os registros não mostram problemas.

Nenhuma outra máquina virtual foi afetada, exceto esse modelo específico de centos. Estamos usando o VMWare 4 (eu sei, eu sei), mas nós nunca tivemos nenhum problema além disso e novas imagens não têm nenhum problema. Não vejo picos no uso da CPU ou do disco no VMWare em relação à falha.

Aqui está uma captura de tela, uma vez que ela falha:

AquiestáumacapturadetelaaotentaracessaraVMapósváriosminutos:

Exemplo de script de bootstrap usado nesses servidores: link

    
por AirCombat 25.07.2016 / 12:36

1 resposta

1

Isso provavelmente se deve ao suporte do sistema operacional ou a um problema de recurso. O EL7 não foi planejado para uso com o vSphere 4. A matriz de suporte do VMware reforça isso.

Vejoquevocêestáusandoopen-vm-tools,masparecequevocêpodeterumproblemamaisprofundo.

Veja: link
e: link

On running RHEL as a Virtual Machine under VMWare, the "soft lockup" messages might indicate high levels of overcommitment (especially memory overcommitment) or other virtualization overheads.

200 VMs são um grande número e o vSphere 4 é uma versão antiga. Não consigo imaginar iniciar um novo lançamento em uma versão antiga do vSphere e tenho certeza de que você não está mais em suporte VMware.

  • Como é a infraestrutura e a configuração de cluster?
  • Quantos hosts?
  • Quais são os recursos dos hosts? Quantidade de RAM? Tipo de CPU / contagem?
  • Que tipo de armazenamento?
  • Qual é o perfil de vCPU e RAM dessas VMs?

Você está altamente comprometido até o ponto em que seu sistema está se matando?

    
por 25.07.2016 / 12:52