Diagnosticar falhas de rede

2

Aviso: Eu sou um desenvolvedor, não um administrador do sistema, por favor, seja gentil.

Onde eu trabalho, estamos tendo muitos problemas de rede intermitentes. Às vezes o DNS irá falhar, mas o acesso aos servidores pode ser feito via IP, às vezes o acesso via IP falha. Até onde podemos dizer nada foi alterado nos servidores, firewalls, switches gerenciados etc. Além disso, frustrantemente as falhas não causam problemas com todos os usuários o tempo todo, mas até onde podemos dizer, todos os usuários têm teve problemas em algum momento.

  1. Os servidores não estão relatando falhas.
  2. A rede física parece bem (é um site pequeno).
  3. Os firewalls não estão relatando nada fora do comum.
  4. Os switches gerenciados têm senhas que são armazenadas apenas na cabeça do administrador do sistema (um problema que conhecemos!)

Nosso sysadmin interno não está disponível no momento, então é deixado para os desenvolvedores tentar descobrir algo.

Então, dado que eu não tenho quase nenhuma pista, por onde eu começo?

Atualizar

Eu tentei o combo tracrt / ping e parece que é um problema interno. O material externo parece ser bastante consistente, mas os bits internos estão se mostrando escamosos.

    
por Rob White 08.12.2009 / 11:22

4 respostas

2

Traceroute para um site da Internet que você sabe que estará ativo. por exemplo, google.com. Em seguida, execute um ping constante contra três alvos, o roteador, o gateway padrão dos roteadores e google.com.

Isso deve pelo menos dizer se você perdeu algum pacote ao longo do caminho ou se a sua rede interna ou interna está com o problema.

Após esse post, volte se / quando você tiver a próxima resposta.

Parece que algo está perdendo conexões em algum lugar.

O melhor conselho seria rastrear o seu administrador de sistema, é por isso que ele está lá ...

    
por 08.12.2009 / 11:26
1

Parece que você tem uma interface ruim em um switch / servidor ou uma fonte de tráfego não autorizada na rede. Sem a capacidade de capturar algum tráfego estendido ou ver as estatísticas da interface, na verdade, rastrear um desses problemas seria quase impossível. Você adicionou algum dispositivo novo recentemente? Especialmente, na minha ordem pessoal de dispositivos suspeitos: dispositivos de rede, servidores conectados a mais de uma rede, impressoras.

No entanto, um administrador de sistema solitário que saiu de férias e saiu da loja sem visibilidade na rede é uma situação muito ruim. Algumas coisas para discutir quando ele retornar:

  1. monitoramento - existem numerosos soluções de monitoramento free / OSS para tudo a partir de estatísticas por porta (Cactos) ao monitoramento em profundidade serviços (Nagios). Parece você precisa de ambos.
  2. documentação - se você tiver apenas um pessoa qualificada para administrar o rede, então essa pessoa deve documento, documento, documento! Em Além disso, deve estar em um meio que é facilmente acessível mesmo se a rede está inativa! Isso inclui o armazenamento seguro das senhas, mesmo que seja uma cópia impressa armazenada em um cofre, para que a empresa não sofra, mesmo que o sysadmin seja atropelado pelo barramento preto.
  3. notificação - uma vez que você implementou um monitoramento decente solução, você deve decidir sobre um plano de escalonamento para que você não está enviando notificações para apenas um pessoa.

Eu era o único administrador de rede para uma empresa multimilionária há mais de 7 anos (tenho minions agora =) e de plantão 24/7/365 por praticamente todo esse tempo e posso dizer, definitivamente, que Se você se fez a única pessoa que pode fazer uma certa coisa, pode ter certeza de que você será chamado sempre que isso for necessário.

A única coisa em que você pode confiar 100% é a probabilidade de que o que pode quebrar quando você é o único que pode consertá-lo é a única coisa que é absolutamente garantida para quebrar quando você sai de férias.

    
por 08.12.2009 / 16:07
0

Sem acesso aos seus switches, suas opções são um pouco limitadas na busca de problemas de rede. Eu começaria verificando interfaces nos servidores; procure por pacotes descartados ou colisões. Você também pode usar o Wireshark ou o tcpdump para ver o tráfego real e ver o que está acontecendo quando os servidores DNS não estão falando, mas tudo isso é realizado com mais eficiência quando você pode monitorar coisas da rede e não do servidor. Se você realmente precisasse, você poderia redefinir as senhas nos switches, mas estar preparado para lidar com a ira de seu administrador quando ele voltar ...

    
por 08.12.2009 / 11:35
0

Isole o problema:
O melhor que você pode é tentar isolar o problema, eu acho. Se você tiver vários switches, os problemas estão acontecendo com as máquinas conectadas a apenas um dos switches? Se isso está acontecendo com todos os switches, e não é puramente um problema de DNS, então eu olharia para o roteador, ou a conexão entre os switches e o roteador. É possível que possa ser algum tipo de tempestade como problema, mas é menos provável que eu pense, e você provavelmente não vai consertar se for. Tem sido mencionado, tcpdump / wireshark e erros de interface podem ajudar nesse processo também.

Power Cycle Tudo ( Arriscado ) :
Uma segunda opção arriscada é apenas ligar / desligar tudo, ou coisas uma de cada vez para ver se corrige o problema. Eu digo que isso é arriscado porque, com muitos equipamentos de rede, há uma configuração em execução e uma configuração salva. Se o administrador esqueceu de cometer a configuração em execução para a configuração de inicialização na última vez que fez algo, você provavelmente estará em apuros após a reinicialização.

    
por 08.12.2009 / 13:58