Os servidores de produção podem repentinamente não acessar mais a Internet

2

Problema

Todos os Servidores de Produção de repente não conseguiram acessar a Internet, enquanto outros quatro Servidores se conectaram à mesma VLAN e as mesmas configurações de eth0.

Figura 1: System 1 representa os quatro sistemas que podem acessar a Internet, enquanto System 2 indica os que de repente não podem desde a tarde de hoje.

Análise

  • O sistema 1 pode acessar o sistema 2 e vice-versa
  • Default Gateway (10.10.10.1) pode ser pingado do Sistema 1 e do Sistema 2 também
  • O sistema 1 pode acessar o internet
  • O sistema 2 não pode acessar a internet
  • Configuração de eth0 do Ifconfig idêntica entre todos os Servidores de Produção
  • O servidor DNS interno é idêntico a outro sistemas que podem acessar a internet
  • Os IPs e nomes localizados em /etc/resolve.conf podem ser acessados
  • A internet pode ser acessada a partir do Switch
  • A configuração de todos os 8 Switchports no Cisco IOS é idêntica
  • Tracepath do System 2 para 8.8.8.8 (DNS Google), google IP ou google.com trava no Default Gateway
  • Os sistemas que não podem acessar o sistema parecem ter um adaptador em1 em vez de eth0
  • sudo arping -I eth0 ping.tweakers.net funciona em todos os 8 sistemas
  • Um dos sistemas que não podem acessar a Internet mostra uma saída se sudo iptables-save foi executado
  • A saída route -n é idêntica entre todos os sistemas

Tracepath

[username@hostname ~]$ tracepath google.com
 1:  10.10.10.10 (10.10.10.10)                                  0.222ms pmtu 1500
 1:  10.10.10.1 (10.10.10.1)                                    0.662ms
 1:  10.10.10.1 (10.10.10.1)                                    0.601ms
 2:  no reply

ARP

System1: ? (10.10.10.1) at AA:BB:CC:DD:EE:FF [ether] on em1

System2: ? (10.10.10.1) at AA:BB:CC:DD:EE:FF [ether] on eth0

Saída iptables-save em um dos sistemas que não podem acessar a internet

# Generated by iptables-save vX on Fri Aug  1 10:00:01 2014
*filter
:INPUT ACCEPT [X:Y]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [X:Y]
COMMIT
# Completed on Fri Aug  1 10:00:01 2014

route -n

Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.10.0      0.0.0.0         255.255.255.0   U     0      0        0 eth0
X.Y.0.0         0.0.0.0         255.255.0.0     U     Z      0        0 eth0
0.0.0.0         10.10.10.1      0.0.0.0         UG    0      0        0 eth0

Não está claro porque a internet não pode mais ser acessada dos quatro servidores de produção. Como estes estão sendo executados na Produção, um reinício da rede deve ser evitado. Quais testes adicionais poderiam ser feitos para investigar o problema?

    
por 030 31.07.2014 / 20:14

1 resposta

0

Verifique a saída do dmesg O que faz

route -n

dizer?

Qual é a saída para a interface apontadora de internet do ifconfig?

Você pode fazer ping no gateway padrão?

Além disso, verifique se não há um problema com as máscaras de sub-rede nas portas do switch e nos servidores de produção.

    
por 31.07.2014 / 20:55