Os dados de utilização de CPU do Cluster vCenter são imprecisos

5

Temos uma propriedade do vSphere com tamanho razoável, com 80% de nossos servidores Windows / Linux virtualizados, sendo executados em seis Datacentres. Um dos meus desafios é o planejamento de capacidade de médio a longo prazo, garantindo que eu receba dinheiro suficiente na previsão anual de Capex para garantir fundos para upgrades de host (normalmente memória), mais hosts (licenças de hardware e ESX) ou expansão de SAN no pior caso. p>

De qualquer forma, até bem recentemente, fiquei bastante confortável em aceitar as estatísticas de desempenho do vCenter como sendo verdadeiramente representativas do que está acontecendo. Eu normalmente trabalho no nível do cluster ao observar estatísticas, pois os hosts em cada cluster são identificados, atualizados, etc.

No entanto, recentemente notei algo que me deixou um pouco mais aborrecido. Um dos meus clusters tem 200GHz de "largura de banda" disponível do CPU, isto é feito da seguinte forma:

5 hosts x 2 sockets-per-host x 6 cores-per-socket x 3.33GHz per-core = 199.8GHz

Isso está bem, e o vCenter reporta esse valor corretamente. No entanto, quando você visualiza a utilização da CPU do Cluster no vCenter ou obtém estatísticas usando o Cmdlet Get-Stat , a utilização da CPU pode exceder 300 GHz às vezes. Isso tem um efeito colateral de atrapalhar meus cálculos, pois o número de utilização chega a 150% (!). Agora, faz muito tempo desde que fiz matemática de nível A, mas não consigo ver como uma CPU pode ser utilizada 150% ...

Então, eu registrei uma chamada com suporte VMware. E, risivelmente, eles disseram que eu preciso comprar o vCenter Operations Manager (vCOPS) para fazer o que estou tentando fazer. Bem, não, obrigado, se eu tiver algumas estatísticas precisas, posso fazer meu próprio apoio à decisão (desculpe, desabafo).

Então, pedi uma explicação, e o responsável pelo suporte disse que os dados no vCenter são baseados em um cálculo "genérico" que usa a soma das médias. Bem, a média de amostras de dados é bastante normal e bastante aceitável, mas ainda não consigo entender como você pode exceder 100%.

Então, eu tenho tentado resolver isso sozinho, e estou me perguntando se o hyper-threading ou o recurso "turbo" do Xeon está afetando os resultados. No entanto, o "turbo" up-lift é apenas de 3,33GHz para 3,6GHz, ou seja, 8%.

Alguma pista?

    
por Simon Catlin 13.10.2013 / 20:24

2 respostas

1

Aqui é onde o Gerenciador de Operações do vCenter pode ser útil. Não diminua a sua utilidade ... pode potencialmente ser uma plataforma DSS melhor do que você :) No entanto, como na maioria dos ambientes VMware, você esgotará seus recursos de RAM por muito tempo porque se depara com limitações da CPU. Nos meus esforços de planejamento com outros clusters grandes, eu dimensionava as necessidades de RAM e armazenamento, já que a CPU nunca era um fator limitante. Quais versões do ESXi, do vSphere e da camada de licença estão em uso aqui?

Para seus hosts, eles soam como sistemas baseados no Westmere X5680 de 3,33 GHz. Você tem a opção de ativar ou desativar o Hyperthreading. Parece que há algo mais em jogo aqui. Como são os outros sinais vitais do servidor nos momentos em que a CPU atinge 150%?

HáumnívelgratuitodeoperaçõesdovCenterdisponível.Hátambémuma avaliação repleta de recursos (60 ou 90 dias) disponível. Isso será incrivelmente útil na identificação de afunilamentos reais em sua infraestrutura ... mesmo se usados para dimensionar VMs corretamente e validar a integridade do cluster.

A exibição que pode fazer a diferença para você é a métrica "Tempo restante", que calcula o tempo restante até que um recurso específico seja esgotado.

    
por 13.10.2013 / 22:03
0

Para usar um termo técnico, eu copiei aqui. Acontece que os números do vCenter de fato incluem Hyper-threading quando se trata de total de MHz. No entanto, minha planilha (criada usando o PowerCLI) não estava pegando o "número de threads de CPU" e, portanto, estava olhando apenas para soquetes ("pacotes" no jargão da VMware) e núcleos. Obrigado pelas contribuições acima.

    
por 14.10.2013 / 19:11