Outros fatores além da média de carga incluem uso de memória, alternância de contexto e E / S de disco ou rede (ou pressão de porta efêmera, dependendo de quão gratuitos são os serviços em usar portas), especialmente à medida que mais serviços são agrupados em um único host. Além disso, um sistema 100% carregado pode cair em desastre quando os trabalhos cron diários ou semanais ou mensais são acionados (fato interessante: o assassino da OOM costumava matar sshd
, geralmente às 04:00, devido aos diários do cron) então deixar alguma capacidade extra pode ser útil.
Que tipo de monitoramento de serviço você tem? Se você tiver métricas de latência e taxa de transferência para o (s) serviço (s), poderá testar configurações diferentes e comparar esses resultados com o caso de linha de base atual. (Se as coisas piorarem, você pode procurar o gargalo ...)
Além disso, se houver mais problemas em sistemas únicos, qual será a recuperação se essa caixa pegar fogo, em comparação com sua configuração atual?