Por que um controlador de domínio encontrou uma reversão do USN após um desligamento não limpo?

8

Eu tenho este controlador de domínio do Windows Server 2008 R2 em execução em um servidor Dell físico, o modelo PowerEdge R510.

Existem alguns problemas elétricos por aqui, portanto, um black-out é, infelizmente, uma ocorrência bastante comum; existem UPS, mas eles não são tão confiáveis como deveriam ser e, às vezes, os servidores passam por desligamentos sujos.

Por alguma razão eu realmente sou incapaz de entender, às vezes este DC específico vai aparecer após um desligamento impuro e encontrar um Reversão do USN , forçando-nos a rebaixar e promovê-lo de volta.

Isso não faz sentido, já que o servidor é físico e nenhum instantâneo, clonagem e / ou restauração jamais foi executado nele; Além disso, nenhum software adicional é instalado nele, ele executa somente tarefas DC; especificamente, nenhuma clonagem / recuperação / qualquer software está presente.

Uma corrupção no sistema de arquivos faria pelo menos algum sentido, mas uma reversão do USN realmente não faz, já que não há como o servidor ser trazido de volta a um estado anterior. No entanto, isso aconteceu pelo menos três vezes nos últimos dois meses, então definitivamente não foi um evento maluco; mas sou completamente incapaz de dar uma explicação.

Qual poderia ser o motivo desse problema?

    
por Massimo 08.10.2013 / 13:15

1 resposta

6

Pensei nisso por algumas horas hoje. É um pouco desconcertante, mas como indiquei no meu comentário, meu melhor palpite é que você tem algum tipo de cache de disco acontecendo que não está sendo confirmado em disco antes que a falta de energia / desligamento sujo tenha eliminado o conteúdo do cache ... Ou, como você está executando em um volume RAID que abriga o ntds.dit, a queda de energia pode estar fazendo com que o volume RAID seja interrompido temporariamente ou se torne incoerente, mesmo que por um momento.

Sabemos que a linha partidária nas reversões do USN é quando um DC é restaurado para um estado como era antes, sendo o exemplo clássico a restauração de um DC virtualizado de um instantâneo. Eu sei que isso não se aplica a você exatamente ... mas mesmo no caso de um disco com um cache de gravação, você pode pensar nos dados que estão fisicamente no disco como contendo um "estado anterior", enquanto o cache de gravação é o que realmente contém o estado mais atualizado do DC ... mesmo se os dois estados estiverem separados por meio segundo.

Ruminate sobre esses comentários da Microsoft:

Guidelines for virtualized domain controllers

Virtual SCSI disks provide increased performance compared to virtual IDE and they support Forced Unit Access (FUA). FUA ensures that the operating system writes and reads data directly from the media bypassing any and all caching mechanisms.

Eu sei que o seu DC não é uma VM, mas o conceito ainda se aplica. Cache de disco e DCs não se misturam. É por isso que a instalação do Active Directory desativa o cache de gravação como uma política do Windows, mas você ainda pode ter mecanismos de armazenamento em cache no controlador RAID de hardware, etc.

Scenario B: Starting Active Directory from other drives in a broken mirror

  1. Promote a domain controller. Locate the Ntds.dit file on a mirrored drive.

  2. Break the mirror.

  3. Continue to inbound replicate and outbound replicate by using the Ntds.dit file on the first drive in the mirror.

  4. Start the domain controller by using the Ntds.dit file on the second drive in the mirror.

Isso é um matador de replicação que me mordeu muito em DCs físicos com volumes RAID 1. Eu nunca tive uma reversão real do USN causada por ela, mas ela matará a replicação nesse controlador de domínio. Quero dizer, imagine um volume RAID 1 de 2 discos. 1 unidade morre. Você o remove, insere uma nova unidade ... aaaaaa e DSA não gravável.

Do AskDS blog :

If you do not have uninterruptable power supplies (UPS) for your VM hosts or the storage disk where the active directory database resides, then ensure write-caching is disabled on the virtual machine’s host computer. Please refer this link for additional guidance. Conversely, if the write caching needs to stay enabled for the VM host which hosts the DC, then install a UPS to avoid damage to the DC(s).

Novamente, estamos falando de DCs virtualizados, mas o conceito de cache de disco também se aplica a DCs físicos.

Então, há a minha ideia. Eu acho que tem algo a ver com o seu sistema de armazenamento. Definitivamente, deseja desabilitar todos os mecanismos de cache, pelo menos no volume ntds.dit, especialmente , se você estiver propenso a quedas de energia.

    
por 08.10.2013 / 20:15