Estou executando o ESXi 5.5 (Build 2068190) em um servidor Dell PowerEdge R220 com a CPU Intel E3-1220v3. Ele também tem 16 GB de RAM instalada e 2 discos SATA de 1 TB sendo executados como RAID1 usando um controlador Dell PERC H310.
Aqui está o problema. Algumas horas atrás eu notei um dos convidados causando grandes picos de CPU no servidor. Spikes que eram tão intensos que todo o host congelava, o que também afetava todos os outros convidados no host. O convidado em questão tem apenas 1 núcleo atribuído a ele e executando Debian 7 x64.
Veja a imagem anexada abaixo.
Os picos de atraso no lado esquerdo do gráfico ocorreram a cada dois minutos e duraram cerca de um minuto. A parada mais longa entre 22:05 e 22:10 foi quando eu desliguei o convidado para confirmar que ele estava causando os picos de CPU. O que acontece às 22:25 é que limitei o CPU convidado a 2 GHz. Isso impediu que os picos acontecessem, mas agora todo o servidor é executado muito lentamente. Ao clicar em algo no vSphere Client, leva cerca de 5 segundos para abrir uma nova janela.
A única coisa que eu fiz antes disso aconteceu foi mudar o nome de um vSwitch, eu não sei se foi isso que realmente causou isso. Eu também fiz algumas alterações em um convidado diferente, atuando como um gateway para os outros convidados executando vyos, mas não consigo ver como isso pode causar isso.
E não, não tenho acesso ao convidado porque pertence a um cliente. No entanto eu sei que ele só roda apache2, mysql e mailman.
Minhas perguntas são:
a) Alguém sabe o que está causando isso ou o que eu posso fazer para descobrir o que está causando isso?
b) Eu não achei que um convidado seria capaz de afetar todo o host e outros convidados dessa maneira, é assim que deve ser?
Agradecemos antecipadamente, deixe-me saber se você precisa de mais informações.
EDIT: Depois de cavar, descobrimos que o convidado VPS foi comprometido e foi usado como um dump de FTP por hackers, o que explica o tráfego intenso (350 GB em algumas horas). No entanto, isso não explica por que isso afetou o host ou outros convidados. Preciso limitar o desempenho da CPU pelo clockrate em vez de apenas o número de núcleos para evitar que um convidado afete outros? Ou poderia ser algo diferente, como o vSwitches (e por sua vez o ESXi) estavam sobrecarregados com o trabalho?
EDIT 2: Acontece que não era um despejo FTP, em vez disso, eles fizeram o servidor tomar parte em um ataque de ddos de algum tipo. Nosso ISP nos chamou mais tarde dizendo que a quantidade de tráfego havia afetado seus outros serviços / clientes, então eu acho que era um pouco de tráfego.
Tags vmware-esxi