O número de usuários / visitas simultâneas não tem nada a ver com a capacidade / desempenho do sistema - é tudo sobre conexões simultâneas e o que essas solicitações estão fazendo.
Adicionar tempos de resposta de solicitação ao log do servidor seria um começo - se isso não refletir o problema, o problema provavelmente estará na rede. Percebo que você não faz referência aos registros do seu servidor na sua pergunta - você os verificou?
Você considera que tem volumes de tráfego altos e sua pergunta indica que você tem apenas um único servidor. Por quê? (vários servidores adicionariam complicações a esse específico, como a distribuição de carga, mas também simplificariam muito dos diagnósticos, no entanto, é um pouco mais difícil para o desempenho e a disponibilidade).
O rastreamento do número de conexões e seu estado também fornece dados essenciais para o diagnóstico do problema.
How can I trace the packets at disaster time?
Com um programa de captura de pacotes - isso pode estar sendo executado em qualquer lugar do cliente para o servidor. Eu uso o wireshark (disponível no Linux, MSWindows e outros)
Seria útil se você tivesse mencionado qual versão / MPM seu servidor está usando e em qual SO está sendo executado.