Quais formatos de arquivo fornecem proteção de recuperação contra corrupção de arquivos?

10

Uso meu disco rígido externo para fazer backup de meus arquivos, colocando-os em grandes arquivos.

Tenho milhares de pequenos arquivos e os coloco em arquivos de 500 MB a 4.2 GB antes de enviá-los para o disco rígido externo. Mas, uma falha no disco rígido destrói o arquivo inteiro ou apenas um arquivo no arquivo? Receio que um bit invertido possa inutilizar grandes partes do arquivo.

Coisas como as verificações de CRC podem alertá-lo para a existência de corrupção, mas estou mais interessado na capacidade de recuperar os arquivos não danificados de um arquivo corrompido. Quais formatos de arquivo de archive forneceriam a melhor capacidade de recuperação de tais falhas, através do design nativo da estrutura de archive ou da existência de ferramentas de recuperação suplementares? Existe alguma diferença nesse recurso entre arquivos zip e iso?

sevenkul
fonte
Sei que pelo menos um dos programas que utilizo para sincronização de arquivos oferece suporte à cópia multithread, o que acredito atenua a lentidão de copiar muitos arquivos pequenos; Além disso, embora eu precise testar para ter certeza, desconfio que criar um arquivo com muitos arquivos pequenos também levaria mais tempo do que criar um arquivo para vários arquivos grandes, mesmo que nenhuma compactação seja usada. Não me lembro se esse é apenas um problema do Windows ou não; iirc, existem algumas soluções de software disponíveis para Linux que podem lidar com muitos arquivos pequenos em blocos, mas não me lembro dos detalhes.
JAB
Reabra a pergunta. Eu o reformulei, e deve ficar mais claro agora. "Melhor" sempre será um tanto baseado em opiniões, mas a exigência de ser melhor aqui é bastante clara. Pouco espaço para opiniões pessoais IMHO. Exclua este comentário após a reabertura.
Marcel

Respostas:

8

Como um dano a uma parte do diretório de qualquer arquivo morto pode potencialmente tornar inútil o arquivo inteiro, sua melhor aposta seria adicionar uma etapa separada ao processo de backup para gerar os chamados arquivos de paridade . Caso um bloco de dados no arquivo original seja danificado, ele poderá ser reconstruído combinando dados do arquivo de paridade com blocos válidos do arquivo original.

A variável seria de quanto dano você gostaria de reparar. Se você deseja se proteger contra um flip de um único bit, seu arquivo de paridade terá apenas 1 bit de tamanho. Se você deseja algo em sintonia com o tamanho de um setor de disco, obviamente isso custará mais.

Há uma grande teoria por trás disso (consulte Correção direta de erros ) e ela é amplamente usada na prática. Por exemplo, é assim que os CDs podem suportar certo grau de arranhões e como os telefones celulares podem manter uma qualidade de chamada razoável em conexões com perdas.

Para encurtar a história, dê uma olhada nos .pararquivos.

Angstrom
fonte
1
Obrigado, enquanto pesquisava arquivos de paridade, achei o registro de recuperação do WinRAR mais simples no uso diário. Também tentarei o QuickPar.
sevenkul
2
Um bit de dados de correção de erro não é suficiente para reparar um erro de um bit no seu arquivo de dados de n bits. Você pode detectar esse erro com um único bit, mas para repará-lo, você precisa de pelo menos log n bits.
Thom Smith
4

O Bup [1] faz o backup das coisas e adiciona automaticamente redundância de paridade, tornando a rotatividade de bits extremamente improvável. Falha catastrófica no disco ainda é uma coisa, para que possamos usá-lo com o git-anexo.

O git-anexo [2] gerencia os arquivos armazenados em muitos repositórios, alguns dos quais podem ser armazenados no seu computador, pen drives, login ssh, alguns serviços em nuvem ou um repositório de backup bup [3], permitindo que os dados do arquivo fluam de maneira quase transparente. por solicitação ou automaticamente para o repositório que você configurou. É também um projeto de software de código aberto e gratuito financiado por multidões, escrito em Haskell com versões em várias plataformas, incluindo linux, mac, windows e android.

[1] https://github.com/bup/bup

[2] http://git-annex.branchable.com/

[3] http://git-annex.branchable.com/special_remotes/bup/

Yuval Langer
fonte
3

Mas, uma falha no disco rígido destrói o arquivo inteiro ou apenas um arquivo no arquivo?

Se realmente não houver alternativa para copiar tudo como um grande arquivo, você provavelmente precisará tomar uma decisão entre usar um arquivo compactado ou descompactado.

O conteúdo de arquivos não compactados, como tarballs, ainda pode ser detectado com o software de recuperação de arquivos, mesmo que o próprio arquivo não possa mais ser lido (por exemplo, devido a um cabeçalho corrompido).

O uso de arquivos compactados pode ser perigoso, porque alguns podem se recusar a extrair arquivos se ocorrer um erro de soma de verificação que pode ser causado mesmo que apenas um bit do arquivo seja alterado.

Obviamente, pode-se minimizar o risco não armazenando centenas de arquivos em um arquivo compactado, mas centenas de arquivos compactados em um arquivo não compactado.

gzip *
tar cf archive.tar *.gz

Embora eu nunca tenha visto muitos arquivos compactados em um tarball na vida selvagem antes. Apenas o oposto é popular (ou seja, arquivos tar.gz).

Existe alguma diferença entre arquivos zip e iso?

ZIP é um arquivo compactado (principalmente, mas não necessariamente) e ISO é um formato que indica dados brutos copiados em um nível baixo de um disco óptico para um arquivo. Este último pode conter literalmente tudo.

dulange
fonte