Uso meu disco rígido externo para fazer backup de meus arquivos, colocando-os em grandes arquivos.
Tenho milhares de pequenos arquivos e os coloco em arquivos de 500 MB a 4.2 GB antes de enviá-los para o disco rígido externo. Mas, uma falha no disco rígido destrói o arquivo inteiro ou apenas um arquivo no arquivo? Receio que um bit invertido possa inutilizar grandes partes do arquivo.
Coisas como as verificações de CRC podem alertá-lo para a existência de corrupção, mas estou mais interessado na capacidade de recuperar os arquivos não danificados de um arquivo corrompido. Quais formatos de arquivo de archive forneceriam a melhor capacidade de recuperação de tais falhas, através do design nativo da estrutura de archive ou da existência de ferramentas de recuperação suplementares? Existe alguma diferença nesse recurso entre arquivos zip e iso?
fonte
Respostas:
Como um dano a uma parte do diretório de qualquer arquivo morto pode potencialmente tornar inútil o arquivo inteiro, sua melhor aposta seria adicionar uma etapa separada ao processo de backup para gerar os chamados arquivos de paridade . Caso um bloco de dados no arquivo original seja danificado, ele poderá ser reconstruído combinando dados do arquivo de paridade com blocos válidos do arquivo original.
A variável seria de quanto dano você gostaria de reparar. Se você deseja se proteger contra um flip de um único bit, seu arquivo de paridade terá apenas 1 bit de tamanho. Se você deseja algo em sintonia com o tamanho de um setor de disco, obviamente isso custará mais.
Há uma grande teoria por trás disso (consulte Correção direta de erros ) e ela é amplamente usada na prática. Por exemplo, é assim que os CDs podem suportar certo grau de arranhões e como os telefones celulares podem manter uma qualidade de chamada razoável em conexões com perdas.
Para encurtar a história, dê uma olhada nos
.par
arquivos.fonte
O Bup [1] faz o backup das coisas e adiciona automaticamente redundância de paridade, tornando a rotatividade de bits extremamente improvável. Falha catastrófica no disco ainda é uma coisa, para que possamos usá-lo com o git-anexo.
O git-anexo [2] gerencia os arquivos armazenados em muitos repositórios, alguns dos quais podem ser armazenados no seu computador, pen drives, login ssh, alguns serviços em nuvem ou um repositório de backup bup [3], permitindo que os dados do arquivo fluam de maneira quase transparente. por solicitação ou automaticamente para o repositório que você configurou. É também um projeto de software de código aberto e gratuito financiado por multidões, escrito em Haskell com versões em várias plataformas, incluindo linux, mac, windows e android.
[1] https://github.com/bup/bup
[2] http://git-annex.branchable.com/
[3] http://git-annex.branchable.com/special_remotes/bup/
fonte
Se realmente não houver alternativa para copiar tudo como um grande arquivo, você provavelmente precisará tomar uma decisão entre usar um arquivo compactado ou descompactado.
O conteúdo de arquivos não compactados, como tarballs, ainda pode ser detectado com o software de recuperação de arquivos, mesmo que o próprio arquivo não possa mais ser lido (por exemplo, devido a um cabeçalho corrompido).
O uso de arquivos compactados pode ser perigoso, porque alguns podem se recusar a extrair arquivos se ocorrer um erro de soma de verificação que pode ser causado mesmo que apenas um bit do arquivo seja alterado.
Obviamente, pode-se minimizar o risco não armazenando centenas de arquivos em um arquivo compactado, mas centenas de arquivos compactados em um arquivo não compactado.
Embora eu nunca tenha visto muitos arquivos compactados em um tarball na vida selvagem antes. Apenas o oposto é popular (ou seja, arquivos tar.gz).
ZIP é um arquivo compactado (principalmente, mas não necessariamente) e ISO é um formato que indica dados brutos copiados em um nível baixo de um disco óptico para um arquivo. Este último pode conter literalmente tudo.
fonte