Não há uma resposta única para isso. Você vai querer carregar testar um único nó e ver em qual uso da CPU o tempo de resposta muda significativamente. Isso pode ser de 90% ou 10%, dependendo do seu aplicativo e como ele lida com a simultaneidade. O JMeter é uma ferramenta útil para esse tipo de teste.
Você então definirá seu nível de alto nível em algum lugar confortavelmente abaixo desse nível. Tenha em mente que os scaleups demoram um certo tempo, então você vai querer deixar uma pista lá.
O downscaling é um pouco mais fácil. Observe o uso de seu nó médio e defina o alvo um pouco abaixo disso, então se você tiver superdimensionado ou o tráfego tiver caído, ele diminuirá. Geralmente, é melhor que o desempenho aumente em incrementos maiores do que reduzir a escala.
Você pode configurar os alarmes do CloudWatch para observar o tamanho do seu cluster para alcançar um determinado valor, sendo o valor 'max' o principal candidato. Isso vai te acordar se tiver escalado até o limite e precisar de alguma intervenção.