Temos uma LAN com ~ 40 estações de trabalho (principalmente o Windows) e alguns servidores. Todos eles usam um DNS interno ( 196.168.0.4
executando BIND 9.5.0-P2
) e um gateway ( 192.168.0.1
executando o OpenBSD Packet Filter) que é um PC local atuando como roteador.
Nos últimos meses, em alguns pontos durante o dia de trabalho, a rede é reduzida a um ponto em que não é possível fazer qualquer coisa relacionada à Internet. Nestes tempos ruins, pingar 8.8.8.8
dá:
12:16:12.078: Timeout waiting for seq=11a1
12:16:13.484: From 8.8.8.8: bytes=60 SEQ=11a9 TTL=48 ID=0000 time=399.334ms
12:16:15.078: Timeout waiting for seq=11a4
12:16:15.437: From 8.8.8.8: bytes=60 SEQ=11ab TTL=48 ID=0000 time=355.409ms
12:16:18.078: Timeout waiting for seq=11a8
12:16:19.453: From 8.8.8.8: bytes=60 SEQ=11af TTL=48 ID=0000 time=376.317ms
12:16:21.078: Timeout waiting for seq=11aa
12:16:21.078: Timeout waiting for seq=11ac
12:16:21.390: From 8.8.8.8: bytes=60 SEQ=11b1 TTL=48 ID=0000 time=306.727ms
12:16:22.437: From 8.8.8.8: bytes=60 seq=11b2 TTL=48 ID=0000 time=364.351ms
12:16:23.453: From 8.8.8.8: bytes=60 seq=11b3 TTL=48 ID=0000 time=371.944ms
12:16:24.078: Timeout waiting for seq=11ad
12:16:24.078: Timeout waiting for seq=11ae
12:16:26.390: From 8.8.8.8: bytes=60 SEQ=11b6 TTL=48 ID=0000 time=307.729ms
12:16:27.078: Timeout waiting for seq=11b0
12:16:29.437: From 8.8.8.8: bytes=60 SEQ=11b9 TTL=48 ID=0000 time=361.575ms
12:16:30.078: Timeout waiting for seq=11b4
12:16:30.453: From 8.8.8.8: bytes=60 seq=11ba TTL=48 ID=0000 time=367.647ms
12:16:33.078: Timeout waiting for seq=11b5
12:16:33.078: Timeout waiting for seq=11b7
Na mesma instância, se eu desativar o DNS (em .0.4
), depois de alguns segundos, a integridade da rede ficará muito boa novamente:
12:47:43.046: From 8.8.8.8: bytes=60 seq=190b TTL=48 ID=0000 time=70.555ms
12:47:44.046: From 8.8.8.8: bytes=60 seq=190c TTL=48 ID=0000 time=82.684ms
12:47:45.046: From 8.8.8.8: bytes=60 seq=190d TTL=48 ID=0000 time=72.368ms
12:47:46.062: From 8.8.8.8: bytes=60 seq=190e TTL=48 ID=0000 time=84.310ms
12:47:47.046: From 8.8.8.8: bytes=60 seq=190f TTL=48 ID=0000 time=75.137ms
12:47:48.046: From 8.8.8.8: bytes=60 seq=1910 TTL=48 ID=0000 time=75.791ms
12:47:49.062: From 8.8.8.8: bytes=60 seq=1911 TTL=48 ID=0000 time=94.252ms
12:47:50.046: From 8.8.8.8: bytes=60 seq=1912 TTL=48 ID=0000 time=76.547ms
12:47:51.046: From 8.8.8.8: bytes=60 seq=1913 TTL=48 ID=0000 time=70.251ms
12:47:52.046: From 8.8.8.8: bytes=60 seq=1914 TTL=48 ID=0000 time=83.033ms
12:47:53.046: From 8.8.8.8: bytes=60 seq=1915 TTL=48 ID=0000 time=76.589ms
12:47:54.046: From 8.8.8.8: bytes=60 seq=1916 TTL=48 ID=0000 time=82.060ms
Isso é muito consistente e reproduzível. O fato de eu pingar 8.8.8.8
(DNS público do Google) é completamente aleatório e apenas uma maneira de testar a conectividade com a Internet. Eu poderia estar pingando 206.190.36.45
(um IP do site público do Yahoo).
O DNS não está aberto ao mundo exterior.
Então eu acho que talvez uma (ou mais) das estações de trabalho façam uso muito ruim do DNS (provavelmente indiretamente através de um vírus) e o inundem com pedidos ou algo assim. O problema é que não posso rastrear isso de volta. Na 0.4
machine top
não me dá nenhuma atividade suspeita da CPU e na filtragem 0.1
(gateway) usando dst host 192.168.0.4
in pftop
não me fornece nenhum IP interno usando o DNS.
Eu tentei conectar os cabos ethernet nas estações de trabalho, um a um, para encontrar uma possível estação de trabalho problemática, mas esse processo não é muito rápido e preciso e, quando a rede se estabiliza, não tenho certeza se foi a última estação de trabalho eu liguei ou se a rede simplesmente foi bom novamente.
Alguma ideia de onde procurar a seguir?