O que é desduplicação?

8

Quero dizer, posso procurar a definição do dicionário, mas por que todos estão subitamente falando sobre isso em referência a bibliotecas de fitas virtuais? O que há de "novo" aqui para que haja tantas notícias ultimamente?

lavinio
fonte

Respostas:

14

A redução de redundância é onde você analisa o conteúdo de um conjunto de dados, anota todos os bits duplicados presentes e armazena os dados apenas uma vez, substituindo todas as cópias de dados com um ponteiro de volta para a única cópia. Isso é particularmente útil nos backups, porque quando você faz backup de coisas como servidores, muitos dados são iguais. Imagine, por exemplo, que você esteja fazendo backup de 1.000 servidores Windows - grande parte do conteúdo dessas caixas será idêntica.

A desduplicação é hoje tão popular por 3 razões:

  1. Ultimamente, todo mundo está obcecado em criar soluções de recuperação de desastres que utilizam servidores externos. Para fazer isso, é necessário replicar muitos dados de produção no site remoto e a largura de banda é um grande problema. Qualquer redução na quantidade de dados que você precisa replicar ajuda muito.

  2. A quantidade de dados que as empresas estão retendo está explodindo - graças ao armazenamento mais barato e aos requisitos de vários setores para retenção de registros.

  3. A tecnologia atingiu recentemente o ponto ideal. Tivemos coisas como desduplicação por um longo tempo (armazenamento de instância única, etc.), o que ajudou, mas apenas no último ano, vimos a desduplicação real que pode reduzir significativamente a quantidade de armazenamento atingida pelo mainstream.

icky3000
fonte
2
Eu também acrescentaria que o custo das soluções de redução de duplicação está caindo para que os fornecedores tenham um trabalho mais fácil vendendo seus benefícios - e, se for mais fácil de vender, os fornecedores falarão mais sobre isso ... Eu não notei discussões especificamente sobre fita virtual bibliotecas sobre outros métodos de backup, mas acho que é uma oportunidade de comercializar os benefícios de ambos juntos.
William
11
@ William: Sim, exatamente, eu meio que quis me referir à parte do custo quando disse "ponto ideal", mas não deixei isso claro, então obrigado por apontar. Certamente, o custo tornou-se baixo o suficiente para que muitos de nós possamos encontrar uma solução de desduplicação que realmente podemos pagar.
icky3000
0

Uma das coisas que descobrimos na minha empresa ao trabalhar com a Netapp é que a desduplicação realmente só funciona bem em um ambiente de VM se você tiver suas unidades alinhadas. O que é um problema para nós, pois temos muitas máquinas com Windows Server 2003 e nenhuma das unidades está alinhada. O que significa que você mal recupera cerca de um quarto do espaço possível se as unidades estiverem alinhadas corretamente.

No entanto, somos informados de que, assim que as unidades estiverem alinhadas corretamente, poderemos recuperar de 40 a 60% do nosso espaço com deduplicação.

Webs
fonte
Isso é um problema da implementação concreta da NetApp que usa (por outros motivos totalmente compreensíveis) tamanhos de bloco estático de 4 KB. A alternativa seria chunks de tamanho variável e definidos por conteúdo que não exijam um bom alinhamento.
Dreister