Conexões remotas Timing out para SSH / HTTP em paralelo de vários locais, mas não do PING, por quê?

1

PERGUNTA: Tempo limite de conexões remotas para SSH / HTTP em paralelo de vários locais, mas NÃO PING, por quê?

PROBLEMA: Tenha um servidor da Web que tenha tempo de conexões remotas em torno de 50% do tempo em paralelo para conexões ssh / http, mas NÃO ping. O tempo de inatividade / uptime é irregular e está em durações de 5 a 20 minutos. Eu executei verificações através de dois serviços de monitoramento distribuídos e os logs validam o que estou vendo localmente. A questão está em curso há 4-5 dias, 24/7.

PERGUNTAS POSSÍVEIS:

    * O que é o teste que devo executar do servidor em recursos?
    * O que devo testar para executar conexões de saída do servidor?
    * Quais são os testes que devo executar remotamente?
    * O que são palavras-chave ou frases que eu devo usar no Google?
    * Quais são as outras perguntas que devo fazer?
    * Que informação adicional devo fornecer?

ACESSO:

    * Eu tenho acesso ADMIN remoto ao servidor, mas não acesso físico.

SYSTEM:

    * Linux-CentOS-5.X, Apache-2.X
    * Unknown Virtual Machine, mas outros sistemas na mesma rede não estão tendo problemas de conexão remota

REDE:

    * Informações de rede desconhecidas, mas outros sistemas na mesma rede não estão tendo problemas de conexão remota

Agradecemos antecipadamente !!!

por blunders 10.10.2010 / 00:11

3 respostas

1

"ping" está testando apenas até a Camada 3/4 da pilha TCP / IP, onde SSH & HTTP são, na verdade, aplicativos sendo executados em todas as 7 camadas. Os aplicativos podem estar com problemas ou sobrecarregados enquanto a pilha TCP / IP continua funcionando. Com isso dito, algumas áreas possíveis para verificar incluem:

  • Criação de log dos aplicativos para conexões (talvez recorrendo a um dos mais remotos)
  • Utilização dos aplicativos e seus aplicativos de suporte / auxiliar
  • Parando e reiniciando os aplicativos (se possível / prático) ao comparar condições de registro / resultados
  • Verificando os registros do firewall
  • Execução do AWSTATS para possivelmente detectar tendências de HTTP que podem coincidir com os eventos de tempo limite ou registro em log

Faça HTTP & Tempos limite SSH acontecem em paralelo? Em caso afirmativo, a correspondência dos logs também pode gerar dicas adicionais sobre possíveis eventos / atividades em comum.

    
por 10.10.2010 / 02:47
0

Userland é frito. O kernel pode responder a pings, mas o userland está bloqueado e, portanto, nenhum aplicativo pode receber dados de sockets.

Você está esperando o tempo de reinicialização (talvez um watchdog esteja ajudando aqui?), portanto há um curto período de falta de inacessibilidade do ping ICMP.

O que os logs do sistema mostram? / var / log / messages e amigos?

    
por 10.10.2010 / 02:37
0

Execute top para verificar a memória, o espaço de troca e as contagens do processo. Você tem alguma troca. Se não, adicione pelo menos swap baseado em arquivo.

Se as contagens do seu processo do apache continuarem a crescer, talvez você queira cortar as contagens do processo temporariamente. Pode ser um ataque de negação de serviço no Apache.

Você pode usar o netstat para assistir conexões de entrada e saída. netstat -nt | wc -l deve ter uma contagem relativamente estável.

Tente pesquisar por negação de serviço e vazamentos de memória.

    
por 10.10.2010 / 06:22