enorme lentidão na rede de 40 nós quando o DNS local está ativo

3

Temos uma LAN com ~ 40 estações de trabalho (principalmente o Windows) e alguns servidores. Todos eles usam um DNS interno ( 196.168.0.4 executando BIND 9.5.0-P2 ) e um gateway ( 192.168.0.1 executando o OpenBSD Packet Filter) que é um PC local atuando como roteador.

Nos últimos meses, em alguns pontos durante o dia de trabalho, a rede é reduzida a um ponto em que não é possível fazer qualquer coisa relacionada à Internet. Nestes tempos ruins, pingar 8.8.8.8 dá:

12:16:12.078: Timeout waiting for seq=11a1
12:16:13.484: From 8.8.8.8: bytes=60 SEQ=11a9 TTL=48 ID=0000 time=399.334ms
12:16:15.078: Timeout waiting for seq=11a4
12:16:15.437: From 8.8.8.8: bytes=60 SEQ=11ab TTL=48 ID=0000 time=355.409ms
12:16:18.078: Timeout waiting for seq=11a8
12:16:19.453: From 8.8.8.8: bytes=60 SEQ=11af TTL=48 ID=0000 time=376.317ms
12:16:21.078: Timeout waiting for seq=11aa
12:16:21.078: Timeout waiting for seq=11ac
12:16:21.390: From 8.8.8.8: bytes=60 SEQ=11b1 TTL=48 ID=0000 time=306.727ms
12:16:22.437: From 8.8.8.8: bytes=60 seq=11b2 TTL=48 ID=0000 time=364.351ms
12:16:23.453: From 8.8.8.8: bytes=60 seq=11b3 TTL=48 ID=0000 time=371.944ms
12:16:24.078: Timeout waiting for seq=11ad
12:16:24.078: Timeout waiting for seq=11ae
12:16:26.390: From 8.8.8.8: bytes=60 SEQ=11b6 TTL=48 ID=0000 time=307.729ms
12:16:27.078: Timeout waiting for seq=11b0
12:16:29.437: From 8.8.8.8: bytes=60 SEQ=11b9 TTL=48 ID=0000 time=361.575ms
12:16:30.078: Timeout waiting for seq=11b4
12:16:30.453: From 8.8.8.8: bytes=60 seq=11ba TTL=48 ID=0000 time=367.647ms
12:16:33.078: Timeout waiting for seq=11b5
12:16:33.078: Timeout waiting for seq=11b7

Na mesma instância, se eu desativar o DNS (em .0.4 ), depois de alguns segundos, a integridade da rede ficará muito boa novamente:

12:47:43.046: From 8.8.8.8: bytes=60 seq=190b TTL=48 ID=0000 time=70.555ms
12:47:44.046: From 8.8.8.8: bytes=60 seq=190c TTL=48 ID=0000 time=82.684ms
12:47:45.046: From 8.8.8.8: bytes=60 seq=190d TTL=48 ID=0000 time=72.368ms
12:47:46.062: From 8.8.8.8: bytes=60 seq=190e TTL=48 ID=0000 time=84.310ms
12:47:47.046: From 8.8.8.8: bytes=60 seq=190f TTL=48 ID=0000 time=75.137ms
12:47:48.046: From 8.8.8.8: bytes=60 seq=1910 TTL=48 ID=0000 time=75.791ms
12:47:49.062: From 8.8.8.8: bytes=60 seq=1911 TTL=48 ID=0000 time=94.252ms
12:47:50.046: From 8.8.8.8: bytes=60 seq=1912 TTL=48 ID=0000 time=76.547ms
12:47:51.046: From 8.8.8.8: bytes=60 seq=1913 TTL=48 ID=0000 time=70.251ms
12:47:52.046: From 8.8.8.8: bytes=60 seq=1914 TTL=48 ID=0000 time=83.033ms
12:47:53.046: From 8.8.8.8: bytes=60 seq=1915 TTL=48 ID=0000 time=76.589ms
12:47:54.046: From 8.8.8.8: bytes=60 seq=1916 TTL=48 ID=0000 time=82.060ms

Isso é muito consistente e reproduzível. O fato de eu pingar 8.8.8.8 (DNS público do Google) é completamente aleatório e apenas uma maneira de testar a conectividade com a Internet. Eu poderia estar pingando 206.190.36.45 (um IP do site público do Yahoo).

O DNS não está aberto ao mundo exterior. Então eu acho que talvez uma (ou mais) das estações de trabalho façam uso muito ruim do DNS (provavelmente indiretamente através de um vírus) e o inundem com pedidos ou algo assim. O problema é que não posso rastrear isso de volta. Na 0.4 machine top não me dá nenhuma atividade suspeita da CPU e na filtragem 0.1 (gateway) usando dst host 192.168.0.4 in pftop não me fornece nenhum IP interno usando o DNS.

Eu tentei conectar os cabos ethernet nas estações de trabalho, um a um, para encontrar uma possível estação de trabalho problemática, mas esse processo não é muito rápido e preciso e, quando a rede se estabiliza, não tenho certeza se foi a última estação de trabalho eu liguei ou se a rede simplesmente foi bom novamente.

Alguma ideia de onde procurar a seguir?

    
por cherouvim 01.04.2013 / 12:30

3 respostas

3

Com base nas informações fornecidas, eu pessoalmente me inclinaria para um loop de comutação L2 e / ou agregação de links mal configurados no servidor DNS. Também pode ser um loop de roteamento L3, mas isso parece menos provável. No entanto, não posso ter certeza alguma sem mais informações.

O problema é que não tenho a reputação de comentar a questão para esclarecer o problema e determinar se essa resposta tem algum mérito antes de publicá-la. Espero que isso indique a direção certa e você encontre sua resposta em breve.

    
por 02.04.2013 / 05:31
2

Não tenho certeza se as evidências apontam para o DNS. Parece-me que sua conexão com a Internet está sendo sobrecarregada, com base nos longos tempos de ping e perda de pacotes. Gostaria de sugerir que desabilitar o servidor DNS esteja impedindo que um ou mais clientes (possivelmente se comportando mal devido a um vírus, como você sugeriu) usem a conexão com a Internet, porque não podem mais procurar nomes de host. Isso reduz o tráfego e a conexão com a Internet começa a funcionar normalmente.

Eu recomendaria monitorar a conexão à Internet com algo que possa informar sobre os principais palestrantes para ajudá-lo a encontrar a máquina ofensora.

    
por 01.04.2013 / 17:45
0

Se o seu servidor DNS for publicamente acessível, você poderá ser um peão em um ataque de amplificação de DNS e o tráfego de saída resultante sobrecarregará sua largura de banda disponível.

    
por 02.04.2013 / 04:27