Dois sistemas idênticos com desempenho muito diferente

1

Eu tenho dois sistemas Dell R730 que possuem uma configuração de hardware idêntica adquirida ao mesmo tempo. Ambos estão executando o RHEL6.9, onde foram criados a partir da mesma imagem. Foi imaginado em janeiro. Eu atualizo os pacotes do repositório uma vez por mês, então, em geral, tudo no sistema deve ser "quase" idêntico. (ou seja, qualquer software ou configuração que eu mude em um sistema é alterado no outro, mas como é um processo manual, pode haver algo errado)

Eu notei que o desempenho em um sistema é 2.5x mais lento que o outro. Os trabalhos que estou testando são intensivos em CPU com thread único. Leitura de alguns arquivos de dados, mas muito baixa utilização de disco io de acordo com iostat. Top mostra que o processo é  constantemente indexado em 100%, mas o sistema tem 88 encadeamentos e a média de carga é de apenas aproximadamente 1. Muito pouca utilização de memória. Nenhuma utilização de rede. (Todos os arquivos que ele usa são locais) Um é um script python complexo, outro é um programa de software proprietário, ambos estão rodando muito mais lentamente em um sistema do que no outro.

/ proc / cpuinfo é idêntico. As configurações do BIOS são idênticas. Apenas um usuário no sistema. O sistema mais rápido está conectado à internet, o mais lento está em uma rede autônoma.

Nas minhas investigações, só encontrei duas diferenças. 1. O sistema mais rápido está executando a versão 2.25 do BIOS. O sistema mais lento está executando a versão 2.43 do BIOS 2. O sistema mais lento foi executado em execução. No entanto, há atividade zero no log de auditoria durante o processo.

Eu percebo que isso é difícil de depurar, mas estou ficando sem ideias sobre o que procurar. Existem algumas ferramentas de software incorporadas que eu possa usar para dar mais informações sobre o que pode estar acontecendo?

    
por eng3 12.10.2017 / 23:36

2 respostas

1

As minhas recomendações hoje com os sistemas EL6 no hardware empresarial são as seguintes:

  • Defina seus servidores Dell para o modo "Controle do sistema operacional" para energia, em comparação com o modo "Alto desempenho" ou "Dinâmico". Isso permitirá que seus processos single-threaded utilizem o Turbo Boost um pouco melhor e forneçam ao controlador da CPU do SO o controle correto.
  • Existe alguma razão pela qual você não pode trazer o firmware para a mesma revisão?
  • Para o EL6, você deve definir o perfil de sintonização-adm como enterprise-storage ou latency-performance .
  • Se o seu sistema mais lento não estiver conectado à Internet, verifique o DNS e seu definição do arquivo / etc / hosts para garantir que você não está sendo reduzido por nenhum problema de resolução.
  • Examine e compare suas configurações do /etc/sysctl.conf nos sistemas.
  • Você pode executar sosreport para tentar obter um resumo das configurações de ambos os sistemas.

Naturalmente, você também pode criar o perfil dos processos ... top , perf top , pidstat , strace .

Ou olhe para os servidores em tempo real com Netdata e correlacione todas as métricas do sistema para ver onde o (s) gargalo (s) existe (em).

Eu também faço o seguinte em /etc/profile.d/tzfix.sh por um bom motivo :

# Set TZ variable to reduce stat("/etc/localtime" activity
# See: https://blog.packagecloud.io/eng/2017/02/21/set-environment-variable-save-thousands-of-system-calls/
#
export TZ=:/etc/localtime

Apenas algumas ideias para começar.

    
por 13.10.2017 / 08:07
0

Isso provavelmente está relacionado ao gerenciamento de energia. Tente colocar os dois servidores no modo de alto desempenho (gerenciamento de energia desativado) e refaça seus testes de desempenho.

    
por 12.10.2017 / 23:47