Exchange 2016 no Windows Server 2012 BSoD

1

Eu tenho um servidor do Exchange 2016 que funciona com cerca de 14 dias entre eles. O servidor é virtual e existe em um ambiente VMware em cluster com armazenamento via iSCSI. Nenhum dos outros servidores Windows que temos em execução (incluindo a cópia passiva do Exchange) bsods. O Exchange passivo está sendo copiado e limpa os logs de transações como deveria no nó passivo e ativo.

  • Eu tentei instalar os patches críticos mais recentes (nenhum dos opcionais ainda)
  • Tentei migrar a VM em questão para um novo host.

Veja o que o visualizador do BSoD me fornece de informações:

052716-21921-01.dmp 27.05.2016 10:22:16 CRITICAL_PROCESS_DIED   0x000000ef  ffffe000'de10d080   00000000'00000000   00000000'00000000   00000000'00000000   ntoskrnl.exe    ntoskrnl.exe+14e3a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e3a0                 C:\Windows\Minidump2716-21921-01.dmp 8   15  9600    138 150 27.05.2016 10:22:47 
051516-25765-01.dmp 15.05.2016 10:11:06 CRITICAL_PROCESS_DIED   0x000000ef  ffffe001'0ad80900   00000000'00000000   00000000'00000000   00000000'00000000   ntoskrnl.exe    ntoskrnl.exe+14e3a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e3a0                 C:\Windows\Minidump1516-25765-01.dmp 8   15  9600    138 150 15.05.2016 10:11:41 
042816-19328-01.dmp 28.04.2016 22:36:50 CRITICAL_PROCESS_DIED   0x000000ef  ffffe001'3da4f900   00000000'00000000   00000000'00000000   00000000'00000000   ntoskrnl.exe    ntoskrnl.exe+14e8a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e8a0                 C:\Windows\Minidump2816-19328-01.dmp 8   15  9600    294 472 28.04.2016 22:39:45 
041916-23859-01.dmp 19.04.2016 08:43:53 CRITICAL_PROCESS_DIED   0x000000ef  ffffe001'23101900   00000000'00000000   00000000'00000000   00000000'00000000   ntoskrnl.exe    ntoskrnl.exe+14e8a0 NT Kernel & System  Microsoft® Windows® Operating System    Microsoft Corporation   6.3.9600.18289 (winblue_ltsb.160328-1315)   x64 ntoskrnl.exe+14e8a0                 C:\Windows\Minidump1916-23859-01.dmp 8   15  9600    294 472 19.04.2016 08:47:04 

Eu vi um post com o mesmo problema em um site diferente, mas nenhum realmente respondeu ao problema e o post expirou.

Alguém tem alguma indicação sobre como corrigir isso? Eu teria que instalar o servidor do Exchange ANOTHTER e migrar para? Isso seria muito infeliz ..

    
por xstnc 28.05.2016 / 10:04

2 respostas

5

Seu sistema de armazenamento está falhando ou está muito lento para acompanhar. Se o pedido de inserção estiver parado por muito tempo, o Exchange acha que o armazenamento está morto e mata o Wininit para forçar a reinicialização a frio.

Consulte o link e vá até o final. É o mesmo para 2013 e 2016.

In some cases, the entire storage stack may be affected by the hang, making it impossible to write failure events to the crimson channel or any other area of the Windows Event Log. ESE also monitors the crimson channel by verifying that the event log can be written to. If writing to the event log fails for a long period of time, MSExchangeRepl intentionally causes a bugcheck of Windows by terminating wininit.exe. When the operating system I/O is hung, the system is obviously unable to write any ESE events to the event log.

Eu experimentei isso em primeira mão ao usar o Backup do Windows Server para fazer o backup do Exchange. Quando o backup é iniciado, ele fará a verificação de consistência em todos os bancos de dados em paralelo. Isso causou o Exchange para BSOD depois de alguns minutos quando o armazenamento caiu.

A primeira solução é desabilitar o heartbeat do ATS para o storage array link

O texto é muito longo para ser copiado, mas TL; DR: Sua conexão com o storage array pode ser descartada sob IO pesado quando o tempo de expiração de 8 segundos do ATS expirar, o que causará o tempo limite de IO na VM, fazendo com que o Exchange seja BSoD.

A solução secundária é adicionar controladores de armazenamento à VM e distribuir discos de banco de dados entre os controladores. No meu caso, o controlador pvscsi único iria sufocar mal sob 6 bases de dados, mas quando os discos (incluindo o disco do sistema operacional, etc) foram distribuídos por 4 controladores pvscsi, os problemas desapareceram. Não tenho uma referência para isso, apenas experiência pessoal no vSphere 5.5 U3.

    
por 28.05.2016 / 10:47
2

Você pode emitir um comando para desabilitar a reinicialização forçada do ESE, a causa é bem explicada pela resposta de Don.

Eu fiz isso para um cliente com um único servidor com esx, já que o IO estava exagerando no Exchange. (ainda está matando, já que demora a simplesmente abrir um console de gerenciamento no exemplo, mas pelo menos ele não reinicia ..)

Adicionar-GlobalMonitoringOverride -Identity ExchangeActiveDirectoryConnectivityConfigDCServerReboot -ItemType Respondente -PropertyName Ativado -PropertyValue 0 -ApplyVersion “15.0.712.24

Lá você precisa usar a versão correta do Exchange.

Veja lá para a versão do Exchange; link

Veja lá para mais detalhes; link

    
por 28.05.2016 / 12:45