Eu estava revisando os procedimentos de DR de nossa empresa e, quando procurava on-line por soluções para um quorum de perda do Always On Cluster, para comparar. Eu estava com três páginas nos resultados do google antes de encontrar a primeira publicação do SE sobre o assunto Clustering vs. replicação transacional vs. grupos de disponibilidade, que abordam apenas levemente o assunto de quorum perdido.
Embora todos concordem que o quorum perdedor é ruim, e existem algumas sugestões para diminuir o potencial, ele ainda pode acontecer. Estou procurando uma boa resposta revisada por pares para o melhor caminho para a recuperação de uma perda de quorum do cluster Always On.
sql-server
availability-groups
disaster-recovery
James Jenkins
fonte
fonte
Respostas:
Os AGs são baseados no Windows Clustering. Os procedimentos do WSFC para perda de quorum se aplicam.
Depois que o WSFC estiver em execução, você poderá forçar o AG, se necessário. Execute um failover manual forçado de um grupo de disponibilidade :
fonte
Eu já estive nessa situação especialmente com o clustering de várias sub-redes em diferentes países (NY-LD-HK).
Como evitar a perda de quorum em um cluster de várias sub-redes?
CrossSubnetDelay
ou aCrossSubnetThreshold
propriedade desse hotfix .As coisas mudam no Windows server 2016 com a introdução de clusters com reconhecimento de site e testemunha na nuvem .
O que fazer quando o Quorum está perdido?
Como sempre, para fazer uma análise de causa raiz (RCA), reúna os logs do cluster do Windows para o AlwaysON RCA - use os logs de diagnóstico do cluster de failover do SQL Server . Estes arquivos no diretório SQL Server Log ter o seguinte formato:
<HOSTNAME>_<INSTANCENAME>_SQLDIAG_X_XXXXXXXXX.xel
.fonte
Uma vez eu estive envolvido em uma interrupção em que nossos servidores espelhados perderam a conectividade. Uma das coisas com que se preocupar é garantir que seus aplicativos sejam apontados para uma única instância. Em uma interrupção de rede, é possível ter todos os nós de um cluster Always On ativos, mas não é possível se comunicar. Você força um failover para um secundário e, desde que haja uma interrupção, você pode ter dois nós primários, pois o primário original não saberá sobre o failover forçado.
Dependendo dos locais dos servidores de aplicativos, da configuração e da capacidade de acessar um servidor SQL, em teoria, você pode ter dois nós acreditando que são primários e que os dados foram alterados ao mesmo tempo. Depois de corrigir os problemas de rede e os nós retomarem a conectividade, todos os dados alterados no primário original serão substituídos no nó para o qual o failover foi forçado. Isso pode resultar na perda de dados críticos.
Eu já vi essa situação uma vez com o SQL 2005 e o espelhamento. E decidimos não forçar o failover e deixá-lo inalcançável. Na pior das hipóteses, se tivéssemos que fazer backup e restaurar para reiniciar o espelhamento, seria um processo de dois dias para nós, com riscos de o log de transações ficar cheio e não conseguir expandir o disco no qual estava sentado.
fonte