Diagnóstico de falha do site para apenas alguns usuários

1

Eu rodei um site regular do Apache + mod_wsgi + nginx em um VDS e encontrei um problema estranho. O site funciona bem no meu computador e também no dos nossos gerentes (que usam um provedor de Internet diferente). No entanto, alguns dos usuários do nosso site relatam aos gerentes que eles não podem abri-lo no navegador, por um longo período de tempo, enquanto no mesmo momento ele funcionava do meu computador e dos gerentes.

A pergunta é: como devo fazer o diagnóstico (se esse bug é mesmo culpa minha) e qual bug devo procurar se for impossível para mim (mesmo se eu quisesse) ir ao usuário problemático e fazer os diagnósticos do seu computador?

ATUALIZAÇÃO: Obrigado pessoal pelo seu apoio! Vou entrar em contato com os clientes defeituosos por meio de nossos gerentes, fazer os testes sugeridos on-line com eles e fornecer informações adicionais, se necessário.

UPDATE # 2: Consegui entrar em contato com um dos clientes problemáticos e realizei o diagnóstico com o wireshark. Descobriu-se que o problema foi causado por um bug no notório script get-iana.sh em FireHol. Como resultado, um determinado intervalo de endereços IP foi incorretamente identificado como RESERVADO. Tudo funcionou bem ... até que nosso ISP local começou a usar esses endereços IP para seu pool de IP dinâmico e alguns usuários do site ficaram bloqueados. Como conseqüência, parece que eu não deveria ter usado Firehol em primeiro lugar, uma vez que não é mais mantido e nem suporta IPv6. Obrigado mais uma vez a todos pelas suas respostas.

    
por linux-warrior 31.03.2011 / 10:17

2 respostas

1

Acho que verificaria as coisas nesta ordem:

  1. Certifique-se de que os usuários com falha realmente atinjam o servidor da web com wireshark ou tcpdump. (Minha aposta é que eles não e você pode culpar alguém:)
  2. Verifique se há picos de carga ou outros bloqueios estranhos no servidor, por exemplo faça coisas como "encontrar / -tipo f" enquanto os usuários falham. Talvez desmonte quaisquer volumes NFS, se houver algum.
  3. Medição de ida e volta no servidor da Web, ativando o registro do tempo de ida e volta (no Apache isso seria LogFormat% D) ou usando wireshark para ver se o tempo é consumido no servidor ou no navegador.
  4. Instalando o Firebug em um Firefox em uma máquina com falha e observe seu diagrama de tráfego de rede para ver o que leva muito tempo (isso, é claro, presumindo que as etapas anteriores indicaram que o navegador realmente fala com o servidor).

EDIT: Mesmo se você não pode ir para o site dos navegadores com falha, talvez haja área de trabalho remota ou assistência remota para ajudá-lo?

    
por 31.03.2011 / 10:36
0

Um bom ponto de partida é verificar no nível da rede se o problema é recorrente.

Você pode obter um traceroute dos usuários que não podem acessar o site e copiá-lo e colá-lo no ISP. O ISP deve ser capaz de informar se o rastreamento está sendo concluído (e, portanto, é um problema do servidor) ou se está na rede e tem algo a ver com o peering / roteamento.

Traceroutes podem ser enganosos, portanto, entregá-lo ao provedor deve fornecer uma resposta mais clara para você.

    
por 31.03.2011 / 10:30