O problema parecia ser um bug conhecido com VMWare ESXi 6.5.0
em combinação com o driver VMXNET3
.
Seguindo VMWare KB2151480 resolveu o problema.
Eu tenho algumas máquinas virtuais Ubuntu 18.04.1 instaladas no VMWare ESXi 6.5, todas elas com 3 núcleos, ram de 3 GB, conectadas a um storage array SAS.
Os servidores estão executando nginx 1.14.0
como proxy reverso para 3-5 vhosts. ufw
está habilitado para permitir SSH de IPs de LAN e http / https do restante.
Quando desativo ufw
, o servidor tem aleatoriamente um núcleo em 100% e deixa de responder no console, mas também não responde mais às solicitações da web. Isso também acontece algumas vezes quando ufw
está habilitado, mas com menos frequência.
O que poderia acontecer com o servidor? E como evitar que isso aconteça novamente?
Saídadeiptables-save
O problema parecia ser um bug conhecido com VMWare ESXi 6.5.0
em combinação com o driver VMXNET3
.
Seguindo VMWare KB2151480 resolveu o problema.
Quais procs estão usando mais CPUs durante esse período? Você está vendo alguma coisa no syslog ou no dmesg durante esse tempo? Uma coisa que você pode tentar é instalar em cima e, em seguida, andando de volta através dos logs em cima depois que isso acontece para ver quais processos estão comendo até cpu. Como é o tráfego de rede no cliente da web do vsphere para esses vm antes que eles não respondam? Isso poderia ser uma inundação-sin ou algo semelhante, mas ufw também poderia ser um grande obstáculo aqui.
Tags nginx ufw ubuntu-18.04