Remoção de instantâneo incrivelmente lenta

13

Eu tenho uma caixa ESXi com o armazenamento HP LeftHand exposto via iSCSI.

Eu tenho uma máquina virtual com um disco de 1 TB, dos quais 800 GB são consumidos. O disco é grosso provisionado no armazenamento LeftHand.

Um instantâneo foi aberto na VM (para que o Veeam Backup and Recovery pudesse funcionar) e ficou aberto por cerca de 6 horas. Um disco delta de cerca de 5 GB foi criado durante esse período.

A remoção do instantâneo já levou mais de 5 horas e ainda não está concluída. A matriz de armazenamento está relatando virtualmente nenhuma IOPS nessa matriz (cerca de 600, que é ruído de fundo), nenhuma taxa de transferência (cerca de 8 MB / s, que também é ruído de fundo), uma profundidade média da fila de 9.

Em outras palavras, o processo de consolidação de instantâneo não parece estar vinculado à E / S, não consigo ver nada que esteja causando a remoção da captura instantânea muito lenta. Ele está trabalhando, a julgar por assistir os arquivos delta.

Qualquer outra coisa que eu deva considerar porque esse instantâneo (relativamente pequeno) é tão lento para ser removido?


De acordo com a documentação do VMWare , estou assistindo ls -lh | grep -E "delta|flat|sesparse"agora e vejo dois arquivos delta que estão sendo alterados:

-rw-------    1 root     root      194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw-------    1 root     root      274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk

Estou deduzindo que um arquivo de instantâneo está sendo consolidado enquanto o outro coleta delta durante o processo de consolidação. Em seguida, o novo é consolidado e outro delta é criado durante esse processo.

Os tamanhos dos arquivos estão diminuindo a cada iteração (bem, na maioria das iterações), portanto, presumo que esse procedimento de consolidação seja concluído (talvez seja necessário tirar a VM da rede por 30 minutos para deixar isso terminar sem gerar alterações) .

Está demorando cerca de 2 minutos por cem megas de delta para consolidar. Isso certamente nunca aconteceu antes. A remoção do instantâneo em um backup normal do Veeam leva cerca de 40 minutos (certamente não é rápido, mas não é tão lento).


Após 6 horas e 2 minutos, o instantâneo é finalmente removido. No entanto, eu ainda gostaria de saber se há alguma maneira de solucionar normalmente esse tipo de problema (fora do desempenho do armazenamento).

Mark Henderson
fonte
Não consigo deixar de notar que 8 Mbits / segundo está bem próximo da rede de 10 Mbits / s menos algumas despesas gerais. Alguma chance de que este seja um problema relacionado à rede no link iSCSI - o patch desonesto está começando a falhar? É um único link, um único host, caso contrário, o host está executando OK para leituras / gravações sustentadas? Você pode verificar a porta do switch quanto a erros?
TessellatingHeckler
@TessellatingHeckler Acabei de fazer alguns testes e ainda posso obter cerca de 1,5 Gbit / s sequencial da matriz, que é o que eu esperaria obter dela em circunstâncias normais. Ontem à noite, a remoção do instantâneo levou três minutos, o que é de longe o mais rápido que eu vi (normalmente é cerca de 10x esse tempo, mas houve um grande jogo de futebol aqui ontem à noite, então eu suspeito que ninguém estava usando os sistemas depois de horas quando os backups são executados, daí o pequeno delta e o pequeno tempo de confirmação). Portanto, ele pode fazê-lo rapidamente, só que uma vez não.
Mark Henderson
Hmm. Você tem o VMware Storage IO Control em execução e o armazenamento de dados é compartilhado com outras VMs? Alguma chance de atingir algum limite de aceleração / suave lá, sem forçar o host ou o hardware da SAN?
usar o seguinte
Versão ESXi e vCenter?
Nils
@Nils 5.5 para ambos #
Mark Henderson

Respostas:

2

Entendo que a remoção de instantâneo ESXI pode (e geralmente demora) demorar muito tempo. Antes que o snapshot possa ser removido, as alterações do snapshot antigo precisam ser gravadas no próximo snapshot em ordem. Foi-me ensinado a sempre excluir instantâneos do mais antigo para o mais recente para ajudar esse processo a executar o mais rápido e eficientemente possível.

Naturalmente, quanto mais alterações entre os instantâneos, mais tempo a mesclagem levará.

Andrew Meyer
fonte
1
Certo, exceto 6 horas para remover um instantâneo de 5 GB é um absurdo. Como eu mencionei, normalmente leva cerca de 40 minutos para remover o instantâneo, e eu até sinto que 40 minutos é muito lento. Esse foi o único instantâneo nessa VM e a remoção do instantâneo foi alterada nas versões posteriores do ESXi, pois a ordem em que foram removidos não importa muito.
Mark Henderson
2
Eu já vi o comportamento lento da captura instantânea com pouca E / S no armazenamento, mas nunca o localizei até uma causa. Eu sempre presumi que o hipervisor estava mastigando os deltas na memória. (As máquinas em questão estavam usando armazenamento de conexão direta ou talvez eu também tenha analisado problemas de SAN, mas sempre atribuí-lo a grandes deltas ou código não otimizado no subsistema de instantâneos do VMWare).
voretaq7