Por que um controlador de domínio encontraria uma reversão de USN após um desligamento imundo?

8

Eu tenho esse controlador de domínio do Windows Server 2008 R2 em execução em um servidor físico da Dell, modelo PowerEdge R510.

Existem alguns problemas elétricos por aqui, portanto, um apagão é, infelizmente, uma ocorrência bastante comum; existem no-breaks, mas eles não são tão confiáveis ​​quanto deveriam e, às vezes, os servidores experimentam desligamentos impuros.

Por alguma razão, eu realmente sou incapaz de entender, às vezes esse controlador de domínio específico aparece após um desligamento impuro e encontra uma reversão da USN , forçando-nos a rebaixá-lo e promovê-lo de volta.

Isso não faz sentido, pois o servidor é físico e nenhum instantâneo, clonagem e / ou restauração foi realizado nele; Além disso, nenhum software adicional está instalado, ele apenas executa tarefas de DC; especificamente, nenhuma clonagem / recuperação / qualquer software está presente.

Uma corrupção no sistema de arquivos faria pelo menos algum sentido, mas uma reversão da USN realmente não acontece, pois não há como o servidor retornar ao estado anterior. No entanto, isso aconteceu pelo menos três vezes nos últimos dois meses, portanto, definitivamente não foi um evento louco; mas sou completamente incapaz de apresentar uma explicação.

Qual poderia ser o motivo desse problema?

Massimo
fonte
3
Como exatamente você determinou que era de fato uma reversão da USN?
Mathias R. Jessen
HKLM\System\CurrentControlSet\Services\NTDS\Parameters\DSA not writable= 4
Massimo
Muito boa pergunta. Estou pensando nisso há algumas horas. Eu ainda não sei. Mas, aliás, como você prevê que o servidor sofra quedas de energia com frequência, você confirmou que o cache de gravação ainda está desativado em todos os volumes? Eu sei que esse é o padrão quando você dcpromo, mas pode ser substituído. Só quero ter certeza de que você não ativou o cache de gravação novamente.
Ryan Ries
Bom palpite sobre o cache de gravação. Além do cache do sistema, o servidor possui um controlador RAID de hardware, portanto também deve ser verificado. Eu vou dar uma olhada amanhã.
Massimo

Respostas:

6

Pensei nisso por algumas horas hoje. É um pouco desconcertante, mas, como indiquei no meu comentário, meu melhor palpite é que você tem algum tipo de cache de disco em andamento que não está sendo comprometido com o disco antes que a falta de energia / desligamento sujo limpem o conteúdo do cache ... Ou, como você está executando um volume RAID que possui o ntds.dit, a falta de energia pode estar causando a interrupção temporária ou incoerente do volume RAID, mesmo que por um momento.

Sabemos que a linha da parte nas reversões do USN ocorre quando um controlador de domínio é restaurado para um estado como era anteriormente, o exemplo clássico é a restauração de um controlador de domínio virtualizado a partir de um instantâneo. Eu sei que isso não se aplica exatamente a você ... mas mesmo no caso de um disco com um cache de gravação, você pode pensar nos dados que estão fisicamente no disco como contendo um "estado anterior", enquanto o cache de gravação é o que realmente contém o estado mais atualizado do CD ... mesmo que os dois estados estejam separados apenas meio segundo.

Ruminar sobre esses comentários da Microsoft:

Diretrizes para controladores de domínio virtualizados

Os discos SCSI virtuais fornecem desempenho aprimorado em comparação com o IDE virtual e suportam FUA (Acesso Forçado à Unidade). O FUA garante que o sistema operacional grave e leia dados diretamente da mídia, ignorando todo e qualquer mecanismo de armazenamento em cache.

Eu sei que o seu controlador de domínio não é uma VM, mas o conceito ainda se aplica. O cache de disco e os DCs não se misturam. É por isso que a instalação do Active Directory desativa o cache de gravação como uma política do Windows, mas você ainda pode ter mecanismos de cache no controlador RAID de hardware, etc.

Cenário B: Iniciando o Active Directory a partir de outras unidades em um espelho quebrado

  1. Promova um controlador de domínio. Localize o arquivo Ntds.dit em uma unidade espelhada.

  2. Quebre o espelho.

  3. Continue com a replicação de entrada e a replicação de saída usando o arquivo Ntds.dit na primeira unidade no espelho.

  4. Inicie o controlador de domínio usando o arquivo Ntds.dit na segunda unidade no espelho.

Esse é um assassino de replicação que me incomodou muito em DCs físicos com volumes RAID 1. Eu pessoalmente nunca tive uma reversão real do USN causada por ele, mas matará a replicação nesse controlador de domínio. Quero dizer, imagine um volume RAID 1 de 2 discos. 1 unidade morre. Você o remove, instala uma nova unidade ... aaaaaa e DSA Not Writable.

A partir dos AskDS blogue :

Se você não tiver fontes de alimentação ininterrupta (UPS) para os hosts da VM ou o disco de armazenamento em que o banco de dados do diretório ativo reside, verifique se o cache de gravação está desabilitado no computador host da máquina virtual. Consulte este link para obter orientações adicionais. Por outro lado, se o cache de gravação precisar permanecer ativado para o host da VM que hospeda o controlador de domínio, instale um no-break para evitar danos ao (s) controlador (es).

Mais uma vez, trata-se de controladores de domínio virtualizados, mas o conceito de cache de disco também se aplica aos controladores de domínio físicos.

Então aí está a minha ideia. Eu acho que tem algo a ver com o seu sistema de armazenamento. Definitivamente, deseja desativar todo e qualquer mecanismo de cache, pelo menos no volume ntds.dit, especialmente se você estiver propenso a quedas de energia.

Ryan Ries
fonte
2
Exatamente meus pensamentos. Grave o cache no adaptador da matriz, mas não com bateria. Apostaria 0,05 GBP :-)
Simon Catlin 8/13
1
De fato, o cache de gravação foi ativado no controlador RAID e o sistema operacional não conseguiu desativá-lo automaticamente; Desativei-o manualmente e espero que isso tenha resolvido o problema de uma vez por todas. Essa configuração provavelmente era sua causa raiz.
Massimo
Agradável! Isso deve prendê-lo até que você possa melhorar a UPS! ;)
Ryan Ries
Confirmado: o problema nunca aconteceu novamente depois que o cache de gravação (sem bateria) foi desativado no controlador de disco físico.
Massimo
@ Massimo Eu amo que você voltou para confirmar isso depois de 4 anos. :)
Ryan Ries