Websites (IIS 7.0) indisponíveis da Internet após a reinicialização de 1 de 4 DCs

1

O que aconteceu:

Tivemos que reiniciar um dos nossos controladores de domínio (DC), localizado na VLAN 1 para fins de manutenção.

Temos um total de 4 CDs em 3 VLANs, por isso pensamos que isso não afetaria nossos servidores de produção, pois um failover ocorreria.

Mas durante a reinicialização, os sites que exigem autenticação em nosso DC, e hospedados em servidores que estão na mesma VLAN que o DC de reinicialização, não eram acessíveis de fora (Internet) por 20 min.

Eu tenho a tendência de pensar que o IIS nos servidores de produção na VLAN 1 perdeu sua conexão com o domínio e não pôde usar nenhum outro DC localizado nas VLANs 2 ou 3, enquanto o DC na VLAN 1 estava reinicializando.

Configuração:

1º DC, executando o Win Svr 2K8 SP2, localizado na VLAN 1 2º e 3º DC, ambos executando o Win Svr 2003 R2, localizado na VLAN 2 4º DC, executando o Win Svr 2K8 SP2, localizado na VLAN 3 Servidores afetados, todos executando o Win Svr 2K8 SP2, com IIS 7.0 e .Net 4.0, parte da VLAN 1

O serviço DNS está sendo executado em todos os 4 DCs Nível Funcional do Domínio: nativo do Windows 2000 Balanceamento de carga de rede ativado

Medidas tomadas:

Executou REPADMIN / SHOWREPS em um prompt de comando elevado do 1º DC

Saída do comando:

DC = ForestDnsZones, DC = WXYZ, DC = com

Nome do site2 \ DC2 via RPC

    DSA object GUID: 

    Last attempt @ 2013-06-19 14:50:45 was successful.

Site-Name2\DC3 via RPC

    DSA object GUID: 

    Last attempt @ 2013-06-19 14:50:45 was successful.

Site-Name2\DC2 via RPC

    DSA object GUID:

    Last attempt @ 2013-06-19 14:52:19 was successful.

Assim, a replicação está ocorrendo bem.

Verifiquei e confirmei que todos os servidores na VLAN 1 têm um endereço IP estático, um DNS primário e 2 DNS alternativos configurados em sua NIC. Todos os servidores podem executar ping em todos os 3 servidores DNS.

Eu segui o KBase "Como verificar a criação de registros SRV para um controlador de domínio" ( link ) Eu usei o Nslookup e segui os 3 passos. A saída mostrou que todos os 4 servidores DC / DNS foram registrados e, para todos eles, consegui:

_ldap._tcp.dc._msdcs.mydomainname Localização do serviço SRV:

      priority       = 0
      weight         = 100
      port           = 389
      svr hostname   = 

Perguntas:

Este poderia ser um problema do Kerberos? Ou um problema de failover?

Agradeço se alguém puder fornecer algumas etapas ou ferramentas de solução de problemas que eu possa usar para encontrar o problema e resolvê-lo.

Acompanhamento:

Eu corri a seguinte linha de comando para cada CD:

dcdiag / s: dcname / u: domínio \ adminusername / p: / a / v / c * e retornou o seguinte resultado:

Iniciando teste: entre sites

     Doing intersite inbound replication test on site VLAN1:
        Locating & Contacting Intersite Topology Generator (ISTG) ...
           The ISTG for site VLAN1 is: DC1.
        Checking for down bridgeheads ...
           Bridghead VLAN1\DC1 is up and replicating fine.
           Bridghead VLAN2\DC2 is up and replicating fine.
           Bridghead VLAN2\DC3 is up and replicating fine.
           Bridghead VLAN3\DC4 is up and replicating fine.
        Doing in depth site analysis ...
           All expected sites and bridgeheads are replicating into site VLAN1

Iniciando teste: entre sites

    Doing intersite inbound replication test on site
    VLAN2:
       Locating & Contacting Intersite Topology Generator (ISTG) ...
          The ISTG for site VLAN2 is: DC2.
       Checking for down bridgeheads ...
          Bridghead VLAN1\DC1 is up and replicating fine.
          Bridghead VLAN2\DC2 is up and replicating fine.
          Bridghead VLAN2\DC3 is up and replicating fine.
          Bridghead VLAN3\DC4 is up and replicating fine.
       Doing in depth site analysis ...
          All expected sites and bridgeheads are replicating into site VLAN2

Iniciando teste: entre sites

     Doing intersite inbound replication test on site VLAN2:
        Locating & Contacting Intersite Topology Generator (ISTG) ...
           The ISTG for site VLAN2 is: DC2.
        Checking for down bridgeheads ...
           Bridghead VLAN1\DC1 is up and replicating fine.
           Bridghead VLAN2\DC2 is up and replicating fine.
           Bridghead VLAN2\DC3 is up and replicating fine.
           Bridghead VLAN3\DC4 is up and replicating fine.
        Doing in depth site analysis ...
           All expected sites and bridgeheads are replicating into site VLAN2.

Iniciando teste: entre sites

    Doing intersite inbound replication test on site VLAN3:
        Locating & Contacting Intersite Topology Generator (ISTG) ...
           The ISTG for site VLAN3 is: DC4.
        Checking for down bridgeheads ...
           Bridghead VLAN1\DC1 is up and replicating fine.
           Bridghead VLAN2\DC2 is up and replicating fine.
           Bridghead VLAN2\DC3 is up and replicating fine.
           Bridghead VLAN3\DC4 is up and replicating fine.
           Doing in depth site analysis ...
           All expected sites and bridgeheads are replicating into site VLAN3.

Confirmando a linha de comando anterior REPADMIN / SHOWREPS .

Estes são 4 CDs em produção e não posso permitir nenhum tempo de inatividade, portanto, reinicializar o DC1 para causar novamente o mesmo comportamento será minha última escolha.

Alguém tem algum conselho para solução de problemas? Poderia ser útil usar o Wireshark?

Obrigado pela sua ajuda.

    
por Laurent O. 19.06.2013 / 21:47

0 respostas