Reoccuring erros no Exchange 2003 levando a indisponibilidade e reinicialização?

2

Após a reconstrução do nosso servidor Exchange 2003 devido a uma falha no disco rígido, o Exchange fica indisponível após um período de tempo desconhecido. A grande maioria dos usuários agora está no Outlook 2007 (ainda em 2003).

Atingimos o nível de registro e percebemos esses avisos agora; Eu tenho acompanhado eles e parece que eles ocorrem a cada 15 minutos ou mais (não tenho certeza se o prazo tem algo a ver com isso)

Esses avisos às vezes levam a erros e ontem reinicializamos o servidor duas vezes; por volta das 8h30 e 14h30 (cerca de 6 horas - mais uma vez, não tenho certeza se o tempo tem algo a ver com isso)

Process INETINFO.EXE (PID=1300). DSAccess needs to close a connection to the Domain Controller AD-server.domain.com due to error 0x80040951.

Process STORE.EXE (PID=2936). DSAccess needs to close a connection to the Domain Controller AD-server.domain.com due to error 0x80040952.

Process MAD.EXE (PID=2160). DSAccess needs to close a connection to the Domain Controller AD-server.domain.com due to error 0x80040952.

each of the 3 warnings reoccur every 15 min or so.

The errors that preceed us rebooting exchange look like

LDAP Bind was unsuccessful on directory AD-server.domain.com for distinguished name ''. Directory returned error:[0x51] Server Down. DC=domain,DC=com

Não temos certeza se os avisos têm algo a ver com os erros (e, por fim, a reinicialização a seguir). Até o momento acima, pensamos que isso iria acontecer novamente em torno de 20:30 e 02:30, mas nada. Nenhum erro desde a reinicialização por volta das 14h30 de ontem.

Devo observar que o Exchange está em DMZ 1 e o AD está em DMZ 3 , mas o firewall (Sonicwall) está completamente aberto entre os 2 DMZs.

O Exchange costumava estar em seu próprio servidor, mas por recomendação de alguns técnicos, e desde então o movemos para uma VM. O servidor 2008 é o host, o servidor VMWare 2 para a VM e o Windows 2003 que executa o Exchange 2003.

Estamos realmente perdidos em relação ao que está acontecendo. Nós reinicializamos o firewall, desativamos o recurso AV / Content Filtering, reiniciamos o AD e o Exchange.

Estamos considerando migrar o Exchange para o mesmo DMZ que o AD. Todos com quem falamos recomendam isso, mas não podemos fazer isso ainda. A melhor parte é, até que tivemos que reconstruir o Exchange, rodamos perfeitamente bem, com o mesmo firewall, com a mesma configuração DMZ, com as mesmas versões do sistema operacional (exceto pela VM) por mais de 3 anos. Somente depois que perdemos o Exchange e tivemos que reconstruí-lo, temos tido esses problemas.

Alguma idéia?

--- notas adicionadas 11-23-11 11:11 am EST --- @ Even Anderson

Eu não tinha certeza de como realizar o que você estava me pedindo para fazer; nós normalmente não farejamos o tráfego aqui ...

Depois, lembrei-me de que o nosso Sonicwall NSA construía capacidades de captura de pacotes.

Então eu introduzi o servidor Exchange e os servidores AD, se ele enviasse as capturas para um servidor FTP no meu PC e agora eu posso assistir ao tráfego entre o Exchange e o AD. Ele me envia arquivos .cap que estou visualizando com o Wireshark.

O "problema" aconteceu esta manhã entre as 1 e as 3 da manhã, e de novo esta manhã por volta das 9 da manhã. Eu reiniciei quando cheguei por volta das 6h apenas para estar no lado seguro e reiniciei novamente quando o Exchange ficou sem resposta por volta das 9h30.

Filtrando para o protocolo LDAP, estou vendo as seguintes entradas:

Inegridade de GSS-API do SASL - parece com as pesquisas reais e cada searchRequest tem um searchResEntry

bindRequest e bindResponse - estes parecem de 1 a 1 - então parece bem.

Estou vendo algum unbindRequest do Exchange para o AD com o que parece não ter resposta - não sei se ele deve ter uma resposta.

Não vejo nada com um SYNC real.

Ainda procurando - A execução da captura não parece estar afetando a performance em nenhum lugar, portanto, espero continuar a executá-la até que os erros ocorram e a troca pare de responder.

    
por lsiunsuex 22.11.2011 / 14:35

1 resposta

2

O erro 0x80040951 é um erro "LDAP_SERVER_DOWN" e o 0x80040952 é um "LDAP_LOCAL_ERROR". Ambos me fazem pensar que o computador do Exchange Server está se tornando incapaz de se comunicar com o DC via LDAP.

Eu começaria cheirando o tráfego entre o Exchange e o DC. Se puder, use uma porta SPAN ou outro método para "tee" em um computador sniffer dedicado entre o DC e o Exchange, para que seu sniffing de longo prazo possa ser executado sem causar um problema de desempenho em um dos servidores. Você poderia usar um filtro de captura para isolar o tráfego para as conversas entre o Exchange Server e os DCs. Se você puder, use dois computadores para farejar e "tee" um entre cada servidor e o dispositivo de firewall, isolando-os.

Sem ver o que está acontecendo com o tráfego real da rede, é difícil fazer recomendações adicionais. Se você acabar com algumas capturas da falha "no ato", você pode publicá-las aqui e daremos uma olhada. Com base no que estou vendo até agora, espero que você descubra o computador do Exchange Server repetidamente SYN'ing para a porta LDAP no DC e não obtendo uma resposta. Se você tiver sorte o suficiente para capturar de ambos os "lados" do dispositivo de firewall, aposto que verá um tráfego que não está atravessando o firewall. Seu problema certamente tem essa sensação ...

    
por 22.11.2011 / 19:59