Para aplicativos da web, você basicamente tem entrada / saída de dados, memória, CPU, fila de disco e fila HTTP (use o portal de visualização para ver todos eles). Observando apenas como qualquer um desses valores no monitor se comporta enquanto aumenta o número de usuários simultâneos, você deve conseguir criar um limite para trabalhar com escala automática, mesmo que não os compreenda completamente. Aqui está uma breve explicação de cada um:
CPU : utilização média da CPU (todos os VMS)
Memória : utilização média de memória (todos os VMS)
Comprimento da fila de disco : contagem de operações de disco pendentes. Se o seu aplicativo lê / grava muitos dados de / para o disco, essa pode ser sua lacuna. Quanto mais a fila, mais o seu servidor web está aguardando que a E / S do disco continue.
Comprimento da fila HTTP : contagem de operações HTTP pendentes. Se o seu aplicativo estiver recebendo mais solicitações do que o servidor da Web pode manipular, essa pode ser sua lacuna. Geralmente falha da CPU, mas não é uma regra.
Entrada / saída de dados : quantidade de entrada / saída de tráfego (quilobytes). Se o seu aplicativo transfere muitos dados para dentro / fora, a largura de banda da rede pode ser sua lacuna.
Aqui está um tutorial muito bom para você começar a configurar o auto-stale usando o portal de visualização.