Eu tenho alguns dados complexos somente leitura no meu sistema de arquivos. Ele contém milhares de instantâneos de determinadas revisões de um repositório svn e a saída de testes de regressão. Arquivos idênticos entre instantâneos já são desduplicados usando links físicos. Dessa forma, a capacidade de armazenamento não precisa ser grande, mas ainda consome muitos inodes, e isso torna o fsck dolorosamente longo para o meu sistema de arquivos principal.
Gostaria de mover esses dados para outro sistema de arquivos, para que não afetem muito o sistema de arquivos principal. Você tem sugestões? O Squashfs parece ser uma opção possível, mas vou ter que verificar se ele consegue lidar com links físicos de forma eficiente.
filesystems
backup
hard-link
Wei-Yin
fonte
fonte
Respostas:
Se é uma lentidão abs fsck, você tentou o ext4? Eles adicionaram alguns recursos que tornam o fsck realmente rápido , sem olhar para inodes não utilizados :
fonte
O Btrfs possui suporte nativo para instantâneos, portanto você não precisaria usar links físicos para deduplicação. Você pode recriar sua configuração atual criando um sistema de arquivos btrfs e carregando-o com a primeira revisão necessária, tirando um instantâneo e, em seguida, acelerando o repositório para cada momento em que você precisar de um instantâneo e tirá-lo em cada degrau. Isso deve ser mais eficiente do que links físicos e também mais simples de configurar.
Também acho (embora não tenha certeza disso) que o squashfs deduplica arquivos de forma transparente; portanto, mesmo que não lide com links físicos, você ainda verá benefícios. Se você nunca precisar alterar os dados no sistema de arquivos, o squashfs provavelmente é o caminho a seguir, pois o fsck pode ser substituído pelo md5sum;)
fonte
Eu preferiria o XFS, pois tenho experiências muito boas com esse sistema de arquivos. Mas eu realmente recomendo que você faça um teste com seus dados e todos os sistemas de arquivos sugeridos.
fonte
Conheço várias lojas que usam um DataDomain exatamente para esse fim.
Seu script de arquivamento pode ser muito simples (tar ou rsync e cron, por exemplo), e você não precisa se preocupar em gerenciar links físicos ou diretórios que não podem ser vinculados na maioria dos sistemas de arquivos. Não há necessidade de cópias incrementais, exceto para economizar largura de banda. Toda a magia acontece embaixo da camada de blocos. Não é incomum hospedar dados virtuais de 15 a 20 TB, usando apenas 1-2 TB de espaço em disco real. Você ainda terá muito para seus backups de disco.
Os dados seriam veiculados por NFS ou iSCSI, mas não tenho certeza se isso é um problema
Quando o FreeBSD obtiver o ZFS v23, a desduplicação estará disponível para o resto de nós.
fonte