DL580 G7 dando apenas baixo desempenho na CPU (E7 4870)

3

Eu tenho um DL580 G7 com quatro E7 4870 e 128GB de RAM instalados (oito cartuchos com 2x 8GB cada). O sistema operacional é o Ubuntu 18.04. Há um TITAN X no pcie16 e o p410i obrigatório instalado, mas sem outros periféricos. Quando faço benchmark desse sistema, recebo cerca de 50% do desempenho que ele deve dar. Por exemplo, este é um benchmark de referência de um DL580G7 com um CPU um pouco mais fraco (E7 4850) e uma configuração similar .

No entanto, meu sistema só é capaz de produzir metade do desempenho no mesmo benchmark (recebo cerca de 980 para a CPU e 20.000 desempenho multicore). Isso não parece estar certo.

O benchmark está mostrando todos os 80 núcleos e 128gb de RAM, então o hardware é reconhecido corretamente.

Já passei pela lista de verificação de ajuste de baixa latência da HP e alterei o BIOS de acordo. As configurações de energia no ILO3 estão todas no desempenho máximo.

O Ubuntu está configurado para o "desempenho" governador em todos os 80 núcleos.
Notei que, mesmo quando coloco o sistema sob alto estresse (como números esmagados em todos os 80 núcleos com 100% de uso da CPU por horas), o calor da CPU praticamente não muda (eles permanecem a 40 graus) e os ventiladores não aceleram. de todo (ficam em 40%). O consumo total de energia exibido no ILO3 sobe para 650 Watts, mas eu esperaria que fosse mais próximo de 1KW sob condições de estresse. Estou um pouco confuso com isso.

Eu já experimentei diferentes versões do BIOS. O BIOS original foi um 07/01/2013, o que causou problemas de desempenho para outros usuários também (tais relatórios são encontrados na internet). Então rebaixei para 12/03/2012 e o problema continua.

Além disso, quando comparo o desempenho desta máquina com a minha máquina anterior (com um i5 4460) notei uma queda no desempenho de um único núcleo pelo fator de quatro em meus aplicativos (em coisas não intensas de IO como adicionar um grande número de vetores), o que é consistente com os resultados nos benchmarks, mas uma queda no desempenho de um único núcleo do fator dois seria o que eu esperava. Estou preocupado apenas com o desempenho da CPU. Tanto quanto eu posso ver o RAID está indo bem, IO é como esperado (mas também pode sofrer devido ao desempenho diminuído do CPU).

Quando faço um cat /proc/cpuinfo durante os períodos de estresse, vejo que as CPUs estão funcionando a 2,2Ghz.

Até agora, o que eu ainda não fiz é testar um sistema operacional diferente. Eu vou fazer isso assim que eu tiver a oportunidade de reiniciar a máquina.

    
por Sebastian_學生 02.09.2018 / 07:09

4 respostas

0

Uma combinação de coisas deu errado e eu finalmente encontrei a solução na noite passada! A combinação de desclassificação da ROM e ajuste do regulador de potência para o controlado os funcionou. ** Inicialmente este servidor (de segunda mão) tinha os bios defeituosos instalados 07/01/2013 (veja [ link ), que fez qualquer alteração da configuração de regulação de energia na ROM sem efeito. ** apesar do sistema estar apenas dando 50% do desempenho, um 'cat / proc / cpuinfo' retornou uma velocidade de 2,2gz por núcleo (ligeiramente menor que o máximo de 2,4, mas longe de apenas 50% ). Esse resultado foi consistente com o que outras ferramentas, como o turbostato, relataram. Muito estranho de fato e esse fato aumentou minha confusão. * Eu tentei desativar c-states na inicialização do Linux, mas isso não ajudou (não melhor, nem pior). * Finalmente, agora consigo 2100 em single core e 36,000 em geekbench multicore. Isso está certo com o hyperthreading desativado. Eu acho que com alguns ajustes do paciente, deve ser possível passar a marca de 40.000 para o geekbench multicore, mas por enquanto estou satisfeito.

O que realmente me incomodou foi o fato de que todas as ferramentas de CPU relataram uma velocidade de pelo menos 2,2ghz, mas meu sistema estava dolorosamente lento. Eu acho que este deve ser o bug estranho do 07/01/2013-ROM. Eu concordo que atualizar o firmware da ROM / ILO para o mais recente seria o melhor, eu não tive tempo para fazer uma tentativa séria ainda.

    
por 03.09.2018 / 06:52
4

Verifique as configurações de gerenciamento de energia no BIOS. Assegure-se de que eles estejam configurados para o SO controlado. As configurações padrão de gerenciamento de energia do BIOS da HPE resultam em bom uso de energia, mas desempenho ruim.

Normalmente, essa configuração pode ser encontrada em: Gerenciamento de energia > HP Power Regulator > Modo de Controle do SO.

    
por 02.09.2018 / 15:47
4

Sinto falta de ver perguntas como esta na falha do servidor ... mas, ao mesmo tempo, não é um pedido comum.

O servidor é uma arquitetura antiga. Você está fazendo algumas suposições que podem estar levando você para o caminho errado.

Minhas recomendações:

Você não deve confiar somente nos recursos recomendados no guia de ajuste de baixa latência da HP. Isso foi feito para aplicações especializadas, como o comércio algorítmico, onde o determinismo e a utilização de recursos previsíveis é o objetivo. As características de desempenho em tempo real e baixa latência não significam necessariamente mais rápido .

Eu observaria as capacidades da CPU e voltaria de lá ...

Intel Xeon E7-4870
Lançado em 2011, foi finalizado em 2015.

Esta é uma CPU compatível com Turbo Boost. A frequência máxima do turbo é de 2,80 GHz. Quando você usa uma configuração fixa como "HP Static High Performance Mode", ele realmente desativa o Turbo Boost . Nessa situação, seria melhor usar o Modo de Controle do SO sob o seu sabor do Linux. (Eu também recomendo isso para sistemas VMware!)

Dentro do seu sistema operacional, veja se é possível instalar powertop e turbostat .

Monitore um ou ambos durante as execuções computacionais.

Estou surpreso que você esteja vendo as temperaturas da CPU ou o consumo de energia. Eu nunca usei isso como um indicador do que o servidor está fazendo. O que você está faltando usando o Ubuntu (geralmente não suportado no hardware HP ProLiant) é a interação entre o sistema operacional e o processador de gerenciamento da ILO. Este é um dos agregados de valor do equipamento ProLiant. Com sistemas baremetal, tento usar um sistema operacional do tipo RHEL / CentOS por causa do monitoramento de hardware e integração de integridade.

Além disso, volte para a revisão mais atual do BIOS. Raramente há um motivo para rebaixar o firmware do sistema HP. Por favor, assegure-se também de que seu firmware ILO3 está atualizado.

    
por 03.09.2018 / 03:45
1

A CPU XEON E7-4870 contém 10 núcleos físicos. ( link ) Esta configuração de servidor / CPU contém apenas 40 núcleos, não 80 como indicado. É possível que você esteja confundindo núcleos e threads? Além disso, este processador só pode atingir o clock mais alto de 2,8 GHz com 4 núcleos ativos. Portanto, um total de 16 núcleos a 2,8 GHz vs 40 núcleos a 2,4 GHz.

O DL580 G7 tem configurações de memória que precisam ser consideradas também. A maior largura de banda de memória alcançável nesse sistema (o modo hemisfério otimizado link ) requer 64 DIMMs de classificação quádrupla.

Eu sei que minha resposta está atrasada para o jogo, mas pode ajudar futuros pesquisadores; e eu não tenho a reputação de comentários.

    
por 12.10.2018 / 17:51