Qual meio deve ser usado para armazenamento de dados a longo prazo e alto volume (arquivamento)?

59

Esta pergunta foi inspirada em https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Houve outras perguntas semelhantes, mas nenhuma com os mesmos critérios.

Essas são duas perguntas em uma.

  1. Como você armazena registros financeiros / críticos que devem sobreviver a qualquer coisa, exceto um incêndio, e que devem estar disponíveis por décadas?
  2. Digamos que eu quero armazenar fotos e vídeos de família e que as pessoas possam encontrá-los em armazenamento daqui a 100 anos e ainda poder usá-los. Como isso seria feito?

Critério

  1. Longo prazo significa mais de 30 anos garantidos . 100+ anos em média. [Se isso não for prático, use a solução mais próxima]
  2. Alto volume significa alguns terabytes.
  3. As respostas podem ser soluções "sem compromisso / industriais" ou soluções práticas para o usuário doméstico / empresa de pequeno porte.
  4. A mídia não estará ativa durante o período. (ou seja, se você sugerir discos rígidos, eles não estarão girando).
  5. Além disso, não há expectativa de necessidade de ler esses arquivos. Eles estão lá para fins de emergência ou "para as gerações futuras".
  6. Não deve exigir manutenção (se possível).

Meus pensamentos:

  1. Os CD-R / DVD-Rs me provaram, mesmo a curto prazo, um meio terrível para backups. Eles parecem ser muito frágeis e perdem seus dados por um tempo muito curto, mesmo quando estão em bom estado.
  2. Não posso deixar de pensar que armazenar dados em um disco rígido de 1 TB e esperar que eles girem corretamente uma ou duas décadas depois seja uma péssima idéia. Estou errado?
  3. Unidades de fita industriais parecem uma opção viável?
user606723
fonte
Não sou especialista, mas diria fita. Essa pergunta pode ser melhor em Falha no servidor, mas sinceramente não acho que ela se encaixe perfeitamente, então vou recusar a votação. É uma boa pergunta e deve morar em algum lugar.
Shinrai 4/01/12
Eu concordo @Shinrai. Sou bem-vindo a mudar isso para outro lugar, se alguém puder comentar sobre onde deve morar.
user606723
4
Se você quer nenhum compromisso, não há tecnologia existente, que é projetado para durar pelo menos 40.000 anos, com nenhuma intervenção: voyager.jpl.nasa.gov/spacecraft/goldenrec.html
fixer1234
O futuro está em cristais, pode armazenar potencialmente 360 ​​TB e durar um milhão de anos. Veja: 5D 'Superman cristal de memória' anuncia armazenamento de dados de vida ilimitada
kenorb

Respostas:

20

Papel

Além da tinta de arquivo em papel de arquivo em armazenamento selado, não é comprovado que nenhum meio atual dure em média 100 anos sem nenhum tipo de manutenção.

Papel de arquivo

Papéis mais antigos eram feitos de materiais como linho e cânhamo e, portanto, são naturalmente alcalinos. ou sem ácido, durando, portanto, centenas de anos. O papel do século XX e o papel mais moderno são geralmente feitos de polpa de madeira, que geralmente é ácida e não se mantém por longos períodos.

Tintas de arquivo

Essas tintas permanentes, sem desbotamento, são resistentes à luz, calor e água e não contêm impurezas que podem afetar a permanência de papel ou materiais fotográficos. As tintas actínicas pretas são quimicamente estáveis ​​e apresentam um pigmento inorgânico que não tem tendência a absorver impurezas como outros pigmentos de tinta.

Armazenamento redundante

Torvalds disse uma vez

Somente os wimps usam backup em fita: _real_ men apenas carrega suas coisas importantes no ftp e deixa o resto do mundo refletir isso

O que sugere que você não deve confiar em uma única cópia em uma única mídia.

Mídia não magnética?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • Exemplo típico de degradação irrecuperável de meios magnéticos.
  • Problemas de hardware e software (e formatos de dados)

Sistemas não especializados

Em 2002, havia um grande medo de que os discos se tornassem ilegíveis porque os computadores capazes de ler o formato se tornaram raros e as unidades capazes de acessar os discos ainda mais raros. Além da dificuldade de emular o código original, o principal problema era que as imagens fixas haviam sido armazenadas no disco a laser como vídeo analógico de quadro único,

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

Armazenamento pessoal de longa duração

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • a mídia e o formato podem ficar ilegíveis.
  • imprima em papel sem ácido com tintas pigmentadas e guarde em local fresco, seco e escuro.
  • O primeiro problema é escolher formatos de dados para obter a máxima longevidade.
  • Evite usar formatos proprietários
  • O USCSF está transferindo todas as suas fitas originais - muitas em formatos agora obsoletos, como BetaSP e VHS - para o formato motionJPEG2000 de 75Mbit
RedGrittyBrick
fonte
11
1) Você pode fornecer detalhes sobre isso? As cópias impressas normais não durarão tanto tempo? (As fotos de 100 anos atrás parecem estar bem, AFAIK). 2) Se nenhum meio de dados atual durar tanto, sugiro que usemos a solução do armário possível. É deprimente que décadas a partir de agora não será capaz de olhar através de caixas velhas e esperar para ser capaz de olhar em qualquer um dos nossos velhos, fotos esquecidas, etc.
user606723
@ user606723: ver resposta atualizados
RedGrittyBrick
Imaginei que a impressão a laser em papel sem ácido seria uma boa maneira de armazenar dados (alguns megabytes por página) com alta probabilidade de serem legíveis em 100 a 200 anos. O software para lê-lo seria relativamente simples, e presume-se que os scanners sempre estarão disponíveis; assim, o formato (desde que não seja muito complicado) nunca "desaparecerá" além da capacidade de recuperação de um amador competente.
Daniel R Hicks
64

Resposta curta

É impossível garantir um longo período de tempo por causa da entropia (também chamada morte!). Os dados digitais decaem e morrem, como qualquer outra coisa no universo. Mas isso pode ser mais lento.

Atualmente, não existe uma maneira à prova de falhas e cientificamente comprovada para garantir mais de 30 anos de arquivamento de dados a frio. Alguns projetos têm como objetivo fazer isso, como o projeto Rosetta Disks do museu Long Now , embora ainda sejam muito caros e com baixa densidade de dados (cerca de 50 MB).

Enquanto isso, você pode usar mídias ópticas resistentes e cientificamente comprovadas para armazenamento a frio, como o Blu-ray Disc HTL como o da Panasonic, ou DVD + R de nível de arquivo como o Verbatim Gold Archival e mantê-las em caixas herméticas em um ponto fraco (evite alta temperatura) e fora da luz.

Também seja REDUNDANTE : faça várias cópias de seus dados (pelo menos 4) e calcule hashes para verificar regularmente se está tudo bem, e a cada poucos anos você deve reescrever seus dados em novos discos. Além disso, use muitos códigos de correção de erros , pois eles permitirão reparar seus dados corrompidos!

Resposta longa

Por que os dados estão corrompidos com o tempo? A resposta está em uma palavra: entropia . Essa é uma das forças primárias e inevitáveis ​​do universo, que faz com que os sistemas se tornem cada vez menos ordenados no tempo. A corrupção de dados é exatamente isso: uma desordem na ordem dos bits. Então, em outras palavras, o Universo odeia seus dados .

Lutar contra a entropia é exatamente como combater a morte: é provável que você nunca tenha sucesso. Mas, você pode encontrar maneiras de retardar a morte, assim como a entropia. Você também pode enganar a entropia reparando as corrupções (em outras palavras: você não pode parar as corrupções, mas pode reparar depois que elas ocorrerem se você tiver tomado medidas antes!). Como qualquer coisa sobre vida ou morte, não há uma bala mágica, nem uma solução para todos, e as melhores soluções exigem que você se envolva diretamente na curadoria digital de seus dados. E mesmo se você fizer tudo corretamente, não há garantia de manter seus dados em segurança, mas apenas maximizar suas chances.

Agora as boas notícias: agora existem maneiras bastante eficientes de manter seus dados, se você combinar mídias de armazenamento de boa qualidade e boas estratégias de arquivamento / curadoria : você deve projetar para falhas .

Quais são as boas estratégias de curadoria? Vamos esclarecer uma coisa: a maioria das informações que você encontrará será sobre backups, não sobre arquivamento. A questão é que a maioria das pessoas transfere seu conhecimento sobre estratégias de backup para o arquivo e, portanto, muitos mitos são agora ouvidos com frequência. De fato, armazenar dados por alguns anos (backup) e armazenar os dados pelo maior tempo possível ao longo de décadas, no mínimo (arquivamento) são objetivos totalmente diferentes e, portanto, requerem ferramentas e estratégias diferentes.

Felizmente, existem muitas pesquisas e resultados científicos, por isso aconselho a me referir a esses trabalhos científicos em vez de fóruns ou revistas. Aqui, resumirei algumas de minhas leituras.

Além disso, desconfie de reivindicações e estudos científicos não independentes , alegando que esse ou aquele meio de armazenamento é perfeito. Lembre-se do famoso projeto da BBC Domesday: «O Livro Digital Domesday dura 15 anos e não 1000» . Sempre verifique os estudos com documentos realmente independentes e, se não houver, assuma sempre que o meio de armazenamento não é bom para arquivamento.

Vamos esclarecer o que você está procurando (da sua pergunta):

  • Arquivamento de longo prazo : você deseja manter cópias de seus dados "pessoais" sensíveis e irreproduzíveis. O arquivamento é fundamentalmente diferente de um backup , conforme também explicado aqui : os backups são para dados técnicos dinâmicos que são atualizados regularmente e, portanto, precisam ser atualizados em backups (isto é, SO, layout de pastas de trabalho etc.), enquanto os arquivos são dados estáticos que você provavelmente escreveria apenas uma vez e apenas leria de tempos em tempos . Os arquivos são para dados intemporais , geralmente pessoais.

  • Armazenamento a frio : você deseja evitar a manutenção de seus dados arquivados o máximo possível. Essa é uma restrição GRANDE, pois significa que o meio deve usar componentes e uma metodologia de escrita que permaneçam estáveis ​​por um período muito longo, sem qualquer manipulação de sua parte e sem exigir nenhuma conexão com um computador ou fonte elétrica.

Para facilitar nossa análise, primeiro estudemos as soluções de armazenamento a frio e depois as estratégias de arquivamento a longo prazo.

Meios de armazenamento a frio

Definimos acima como deve ser um bom meio de armazenamento a frio: ele deve reter os dados por um longo tempo sem nenhuma manipulação necessária (é por isso que é chamado de "frio": você pode simplesmente armazená-lo em um armário e não precisa conectá-lo um computador para manter os dados).

O papel pode parecer o meio de armazenamento mais resistente da Terra, porque geralmente encontramos manuscritos muito antigos desde a antiguidade. No entanto, o papel sofre com as principais desvantagens: primeiro, a densidade de dados é muito baixa (não pode armazenar mais do que ~ 100 KB em um papel, mesmo com caracteres minúsculos e ferramentas de computador) e diminui com o tempo sem nenhuma maneira de monitorá-lo: papel , assim como os discos rígidos, sofrem corrupção silenciosa. Mas, embora você possa monitorar corrupções silenciosas nos dados digitais, não no papel. Por exemplo, você não pode garantir que uma imagem retenha as mesmas cores por apenas uma década: as cores serão degradadas e você não poderá encontrar quais eram as cores originais. Claro, você pode selecionar suas fotos se você é um profissional em restauração de imagens, mas isso consome muito tempo, enquanto que com dados digitais, você pode automatizar esse processo de curadoria e restauração.

Discos rígidos (HDDs) são conhecidos para ter uma vida útil média de 3 a 8 anos: eles não apenas degrada com o tempo, eles estão garantidos para, eventualmente, morrer (ou seja: inacessível). As curvas a seguir mostram essa tendência para todos os HDDs morrerem a uma taxa impressionante:

Curva da banheira, mostrando a evolução da taxa de falhas do disco rígido, considerando o tipo de erro (também aplicável a qualquer dispositivo de engenharia):

curva-hdd1

Curva mostrando a taxa de falha do disco rígido, todos os tipos de erro mesclados: curva-hdd2

Fonte: Backblaze

Você pode ver que existem três tipos de HDDs relativamente à sua falha: os que morrem rapidamente (por exemplo: erro de fabricação, HDDs de má qualidade, falha na cabeça etc.), os que morrem com taxa constante (boa fabricação, eles morrem por vários " razões normais ", esse é o caso da maioria dos HDDs) e, finalmente, os robustos que vivem um pouco mais do que a maioria dos HDDs e acabam morrendo logo após os" normais "(por exemplo: HDs sortudos, pouco usados, condições ambientais ideais, etc.). Assim, você tem a garantia de que seu HDD morrerá.

Por que os HDDs morrem com tanta frequência? Quero dizer, os dados são gravados em um disco magnético e o campo magnético pode durar décadas antes de desaparecer. A razão pela qual eles morrem é porque o meio de armazenamento (disco magnético) e o hardware de leitura (placa eletrônica + cabeça giratória) são acoplados : eles não podem ser dissociados, você não pode simplesmente extrair o disco magnético e lê-lo com outra cabeça, porque primeiro a placa eletrônica (que converte os dados físicos em digital) é diferente para quase cada disco rígido (mesmo da mesma marca e referência, depende da fábrica de origem), e o mecanismo interno da cabeça giratória é tão complexo que hoje em dia é impossível para um humano colocar perfeitamente uma cabeça giratória em discos magnéticos sem matá-los.

Além disso, sabe-se que os HDDs desmagnetizam com o tempo se não forem usados ​​(incluindo SSD). Portanto, você não pode simplesmente armazenar dados em um disco rígido, armazená-los em um armário e pensar que eles reterão dados sem nenhuma conexão elétrica: você precisa conectar seu HDD a uma fonte elétrica pelo menos uma vez por ano ou por par de anos . Portanto, os HDDs claramente não são adequados para armazenamento a frio.

Fitas magnéticas : geralmente são descritas como as principais necessidades de backups e, por extensão, de arquivamento. O problema das fitas magnéticas é que elas são MUITO sensíveis: as partículas de óxido magnético podem ser facilmente deterioradas pelo sol, água, ar, arranhões, desmagnetizadas pelo tempo ou por qualquer dispositivo eletromagnético ou simplesmente cair com o tempo ou imprimir . É por isso que eles geralmente são usados ​​apenas em datacenters por profissionais. Além disso, nunca foi provado que eles podem reter dados por mais de uma década. Então, por que eles são frequentemente recomendados para backups? Como costumavam ser baratos: antigamente, custava 10 a 100 vezes mais barato usar fitas magnéticas do que os HDDs, e os HDDs tendiam a ser muito menos estáveis ​​do que agora. Portanto, as fitas magnéticas são recomendadas principalmente para backups devido à relação custo-benefício, não por causa da resiliência, que é o que mais nos interessa quando se trata de arquivar dados.

Os cartões CompactFlash e Secure Digital (SD) são conhecidos por serem bastante resistentes e robustos, capazes de sobreviver a condições catastróficas .

Os cartões de memória na maioria das câmeras são praticamente indestrutíveis, segundo a revista Digital Camera Shopper. Cinco formatos de cartão de memória sobreviveram a serem fervidos, pisoteados, lavados e mergulhados em café ou cola.

No entanto, como qualquer outro meio magnético, ele depende de um campo elétrico para reter os dados e, portanto, se o cartão ficar sem suco, os dados poderão ser totalmente perdidos. Portanto, não é um ajuste perfeito para armazenamento a frio (pois você precisa reescrever todos os dados no cartão para atualizar o campo elétrico), mas pode ser um bom meio para backups e arquivamento de curto ou médio prazo.

Mídias ópticas: as mídias ópticas são uma classe de mídias de armazenamento que dependem do laser para ler os dados, como CD, DVD ou Blu-ray (BD). Isso pode ser visto como uma evolução do papel, mas escrevemos os dados em um tamanho tão pequeno que precisávamos de um material mais preciso e resistente que o papel, e os discos ópticos são exatamente isso. As duas maiores vantagens dos meios ópticos é que o meio de armazenamento é dissociado do hardware de leitura (ou seja, se o seu leitor de DVD falha, você sempre pode comprar outro para ler seu disco) e é baseado em laser, o que o torna universal e universal. prova do futuro (ou seja, desde que você saiba como fazer um laser, você sempre pode ajustá-lo para ler os bits de um disco óptico por emulação, assim como o CAMILEON fez para o Projeto BBC Domesday ).

Como qualquer tecnologia, as novas iterações não apenas oferecem maior densidade (depósito), mas também melhor correção de erros e melhor resiliência contra a deterioração ambiental (nem sempre, mas geralmente verdadeira). O primeiro debate sobre a confiabilidade do DVD foi entre o DVD-R e o DVD + R, e mesmo que o DVD-R ainda seja comum atualmente, o DVD + R é reconhecido por ser mais confiável e preciso . Atualmente, existem discos de DVD de arquivamento, feitos especificamente para armazenamento a frio, alegando que eles podem suportar no mínimo ~ 20 anos sem qualquer manutenção:

O DVD-R de arquivamento Verbatim Gold [...] foi classificado como o DVD-R mais confiável em um teste de estresse de longo prazo pela conceituada revista alemã c't (c't 16/2008, páginas 116-123 ) atingindo uma durabilidade mínima de 18 anos e uma durabilidade média de 32 a 127 anos (a 25 ° C, 50% de umidade). Nenhum outro disco chegou nem perto desses valores, o segundo melhor DVD-R tinha uma durabilidade mínima de apenas 5 anos.

Do LinuxTech.net .

Além disso, algumas empresas especializadas em muito longo de arquivo termo DVD e extensivamente comercializá-los, como o M-Disc a partir Millenniata ou o DataTresorDisc, alegando que eles podem conservar os dados por mais de 1000 anos, e verificado por alguns (não-independentes) estudos (de 2009) entre outros menos científicos .

Tudo isso parece muito promissor! Infelizmente, não há estudos científicos independentes suficientes para confirmar essas afirmações, e os poucos disponíveis não são tão entusiasmados:

A umidade (80% UR) e a temperatura (80 ° C) aceleraram o envelhecimento em vários DVDs durante 2000 horas (cerca de 83 dias) de teste, com verificação regular da legibilidade dos dados: Umidade e temperatura aceleraram o envelhecimento em várias marcas de DVDs

Traduzido da instituição francesa de arquivamento de dados digitais (Archives de France), estudo de 2012.

O primeiro gráfico mostra o DVD com uma lenta evolução da degradação. O segundo DVD com curvas de degradação rápida. E o terceiro é para DVDs especiais de "muito longo prazo", como M-Disc e DataTresorDisc. Como podemos ver, o desempenho deles não se encaixa perfeitamente nas reivindicações, sendo mais baixo ou igual aos DVDs padrão, que não são de arquivo!

No entanto, os discos ópticos inorgânicos, como o M-Disc e o DataTresorDisc, têm uma vantagem: são bastante insensíveis à degradação da luz:

Envelhecimento acelerado usando luz (750 W / m²) durante 240 horas: Envelhecimento acelerado por luz em várias marcas de DVDs

São ótimos resultados, mas um DVD de arquivo como o Verbatim Gold Archival também obtém o mesmo desempenho e, além disso, a luz é o parâmetro mais controlável para um objeto: é muito fácil colocar o DVD em uma caixa ou armário fechado e, assim, removendo qualquer possível impacto da luz. Seria muito mais útil obter um DVD muito resistente à temperatura e umidade do que a luz.

Essa mesma equipe de pesquisa também estudou o mercado de Blu-ray para ver se haveria alguma marca com um bom meio para armazenamento a frio a longo prazo. Aqui está a descoberta deles:

A umidade e a temperatura aceleraram o envelhecimento em várias marcas de Blu-ray, sob os mesmos parâmetros dos DVDs: temp-bd

O envelhecimento acelerou a luz em várias marcas de BluRays, mesmos parâmetros: light-bd

Traduzido a partir deste estudo da Archives de France, 2012.

Dois resumos de todas as descobertas (em francês) aqui e aqui .

Em suma, o melhor disco Blu-ray (da Panasonic) apresentou desempenho semelhante ao melhor DVD de arquivamento no teste de umidade + temperatura, sendo praticamente insensível à luz! E este disco Blu-ray não é nem de arquivo. Além disso, os discos Blu-ray usam um código aprimorado de correção de erros do que os DVDs (eles mesmos usando uma versão aprimorada em relação aos CDs), o que minimiza ainda mais os riscos de perda de dados. Assim, parece que alguns discos BluRay podem ser uma opção muito boa para armazenamento a frio.

E, de fato, algumas empresas estão começando a trabalhar em discos Blu-ray de armazenamento de alta densidade, como Panasonic e Sony, anunciando que poderão oferecer entre 300 GB e 1 TB de armazenamento, com uma vida útil média de 50 anos. Além disso, grandes empresas estão se voltando para mídias ópticas para armazenamento a frio (porque consome muito menos recursos, pois você pode armazená-las a frio sem qualquer suprimento elétrico), como o Facebook, que desenvolveu um sistema robótico para usar discos Blu-ray como "frios". armazenamento " para dados que seu sistema raramente acessa.

Iniciativa de arquivamento do Long Now: Existem outras pistas interessantes, como o projeto Rosetta Disc, do museu Long Now , que é um projeto para escrever páginas do Genesis em escala microscópica em todos os idiomas do planeta para os quais o Genesis foi traduzido. Este é um ótimo projeto, que é o primeiro a oferecer um meio que permite armazenar 50 MB para armazenamento a frio de muito muito longo prazo (já que está escrito em carbono) e com acesso à prova de futuro, pois você só precisa de uma lupa para acessar o dados (sem especificações de formato estranhas nem problemas tecnológicos para lidar, como o feixe violeta do Blu-ray, só precisa de uma lente de aumento!). No entanto, eles ainda são feitos manualmente e, portanto, estimados em cerca de US $ 20 mil, o que é um pouco demais para um esquema de arquivamento pessoal, eu acho.

Soluções baseadas na Internet: Mais um meio para armazenar a frio seus dados está na rede. No entanto, as soluções de backup em nuvem não se encaixam bem, pois a principal preocupação é que as empresas de hospedagem em nuvem possam não sobreviver enquanto você desejar manter seus dados. Outras razões incluem o fato de que é horrivelmente lento o backup (uma vez que é transferido pela Internet) e a maioria dos provedores exige que os arquivos também existam no sistema para mantê-los online. Por exemplo, o CrashPlan e o Backblaze excluirão permanentemente os arquivos que não são vistos pelo menos uma vez no seu computador nos últimos 30 dias. Portanto, se você desejar fazer o upload de dados de backup que você armazena apenas em discos rígidos externos, será necessário conectar seu USB HDD pelo menos uma vez por mês e sincronize com sua nuvem para redefinir a contagem regressiva. Contudo, alguns serviços em nuvem oferecem para manter seus arquivos indefinidamente (contanto que você pague, é claro) sem uma contagem regressiva, como o SpiderOak. Portanto, tenha muito cuidado com as condições e o uso da solução de backup baseada em nuvem que você escolher.

Uma alternativa para os provedores de backup na nuvem é alugar seu próprio servidor privado on-line e, se possível, escolher um com espelhamento / backup automático de seus dados em caso de falha de hardware do lado deles (alguns garantem até dados perdidos em seus contratos , mas é claro que é mais caro). Essa é uma ótima solução, primeiro porque você ainda possui seus dados e, em segundo lugar, porque não precisará gerenciar as falhas do hardware, essa é a responsabilidade do seu host. E se um dia seu host falir, você ainda poderá recuperar seus dados (escolha um host sério para que ele não seja desligado durante a noite e o notifique com antecedência, talvez você possa pedir para colocar isso no contrato), e rehost em outro lugar.

Se você não quer ter problemas para configurar seu próprio servidor online privado, e se puder pagar, a Amazon oferece um novo serviço de arquivamento de dados, chamado Glacier . O objetivo é exatamente armazenar seus dados a frio a longo prazo: portanto, custa muito armazenar dados em uma geleira, mas custa ainda mais recuperar esses dados, pois esse serviço é feito para armazenar dados fora do alcance , para não manter os dados que você deseja acessar com frequência. Isso significa que este serviço cita preços para gravar dados, mas também para lê-los. Este serviço tem um custo enorme, mas pode ser um bom negócio para alguns dos seus dados mais sensíveis (por exemplo: se você tiver alguns arquivos de texto ou imagens MUITO sensíveis, pois esse tipo de dados geralmente é de tamanho pequeno, não custará muito para armazenar em uma geleira).

Falhas no armazenamento a frio : no entanto, existe uma grande falha em qualquer meio de armazenamento a frio: não há verificação de integridade, porque os meios de armazenamento a frio NÃO PODEM verificar automaticamente a integridade dos dados (eles podem simplesmente implementar esquemas de correção de erros para "curar" um pouco de o dano após a corrupção ocorreu, mas não pode ser evitado nem gerenciado automaticamente!) porque, ao contrário de um computador, não existe uma unidade de processamento para calcular / registrar em diário / verificar e corrigir o sistema de arquivos. Considerando que, com um computador e várias unidades de armazenamento, você pode verificar automaticamente a integridade de seus arquivos e espelhar automaticamente em outra unidade, se necessário, se ocorrer alguma corrupção em um arquivo de dados (desde que você tenha várias cópias do mesmo arquivo).

Arquivamento a longo prazo

Mesmo com as melhores tecnologias atualmente disponíveis, os dados digitais só podem ser armazenados a frio por algumas décadas (cerca de 20 anos). Assim, a longo prazo, você não pode confiar apenas no armazenamento a frio: você precisa configurar uma metodologia para o seu processo de arquivamento de dados para garantir que seus dados possam ser recuperados no futuro (mesmo com mudanças tecnológicas) e que minimize os riscos de perder seus dados. Em outras palavras, você precisa se tornar o curador digital de seus dados, reparando corrupções quando elas acontecem e recriar novas cópias quando necessário.

Não há regras infalíveis, mas aqui estão algumas estratégias de curadoria estabelecidas e, em particular, uma ferramenta mágica que facilitará seu trabalho:

  • Princípio de redundância / replicação : A redundância é a única ferramenta que pode reverter os efeitos da entropia , que é um princípio baseado na teoria da informação. Para manter os dados, você precisa duplicar esses dados. Os códigos de erro são exatamente uma aplicação automática do princípio de redundância. No entanto, você também precisa garantir que seus dados sejam redundantes: várias cópias dos mesmos dados em diferentes discos, várias cópias em diferentes mídias (para que, se uma mídia falhar devido a problemas intrínsecos, há poucas chances de que as outras mídias diferentes também falhem ao mesmo tempo), etc. , você sempre deve ter pelo menos três cópias de seus dados, também chamadas de redundância tridimensional em engenharia, para que, se suas cópias forem corrompidas, você possa dar um voto majoritário simples para reparar seus arquivos de suas 3 cópias. Lembre-se sempre do conselho da bússola do marinheiro:

É inútil trazer duas bússolas, porque se uma delas der errado, você nunca poderá saber qual delas está correta ou se ambas estão erradas. Sempre pegue uma bússola ou mais de três.

  • Códigos de correção de erros : esta é a ferramenta mágica que tornará sua vida mais fácil e mais segura. Os códigos de correção de erros (ECCs) são uma construção matemática que gera dados que podem ser usados ​​para reparar seus dados. Isso é mais eficiente, porque os ECCs podem reparar muito mais dados usando muito menos espaço de armazenamento do que a replicação simples (ou seja, fazendo várias cópias de seus arquivos) e podem até ser usados ​​para verificar se o seu arquivo possui algum corrupção e até localizar onde estão essas corrupções. De fato, essa é exatamente uma aplicação do princípio de redundância, mas de uma maneira mais inteligente que a replicação. Atualmente, essa técnica é amplamente utilizada em qualquer comunicação de longo alcance, como 4G, WiMax e até nas comunicações espaciais da NASA. Infelizmente, embora os ECCs sejam onipresentes nas telecomunicações, eles não estão em reparo de arquivos, talvez porque seja um pouco complexo. No entanto, alguns softwares estão disponíveis, como o conhecido (mas agora antigo) PAR2, DVD Disaster (que oferece adicionar códigos de correção de erros em discos ópticos) e pyFileFixity (que desenvolvo em parte para superar as limitações e problemas do PAR2). Também existem sistemas de arquivos que opcionalmente implementam o Reed-Solomon, como o ZFS para Linux ou o ReFS para Windows, que são tecnicamente uma generalização do RAID5.

  • Verifique regularmente a integridade dos seus arquivos: Hash seus arquivos e verifique-os periodicamente (ou seja, uma vez por ano, mas isso depende do meio de armazenamento e das condições ambientais). Quando você perceber que seus arquivos estão corrompidos, é hora de reparar os ECCs que você gerou, se tiver feito isso, e / ou fazer uma nova cópia nova de seus dados em um novo meio de armazenamento. Verificar dados, reparar a corrupção e fazer novas cópias é um ciclo de curadoria muito bom, que garantirá a segurança dos seus dados. A verificação em particular é muito importante porque as cópias dos seus arquivos podem ficar corrompidas silenciosamente e, se você copiar as cópias que foram violadas, você terá arquivos totalmente corrompidos. Isso é ainda mais importante com mídias de armazenamento a frio, como discos ópticos, que NÃO PODEM verificar automaticamente a integridade dos dados (eles já implementam ECCs para curar um pouco, mas eles não podem verificar nem criar novas cópias automaticamente, esse é o seu trabalho!). Para monitorar alterações nos arquivos, você pode usar o script rfigc.py depyFileFixity ou outras ferramentas UNIX, como md5deep . Você também pode verificar o status de funcionamento de alguns meios de armazenamento, como discos rígidos, usando ferramentas como o Hard Drive Sentinel ou os smartmontools de código aberto .

  • Armazene as mídias dos seus arquivos em locais diferentes (com pelo menos uma cópia fora de sua casa!) Para evitar eventos catastróficos da vida real, como enchentes ou incêndios. Por exemplo, um disco óptico em seu trabalho ou um backup baseado em nuvem pode ser uma boa idéia para atender a esse requisito (mesmo que os provedores de nuvem possam ser desligados a qualquer momento, desde que você tenha outras cópias, você estará seguro , os provedores de nuvem servirão apenas como um arquivo externo em caso de emergência).

  • Armazene em recipientes específicos com parâmetros ambientais controlados : para meios ópticos, armazene longe da luz e em uma caixa estanque à água para evitar a umidade. Para discos rígidos e cartões SD, armazene em luvas anti-magnéticas para evitar eletricidade residual para violar a unidade. Você também pode armazenar em sacos / caixas herméticos e impermeáveis ​​à água e em um freezer: temperaturas baixas desaceleram a entropia e você pode prolongar bastante a vida útil de qualquer meio de armazenamento como esse (apenas certifique-se de que a água ganha) não entre por dentro, caso contrário seu meio morrerá rapidamente).

  • Use um hardware de boa qualidade e verifique-o com antecedência (por exemplo: quando você compra um cartão SD, teste o cartão inteiro com software como o HDD Scan para verificar se está tudo bem antes de gravar seus dados). Isso é particularmente importante para as unidades ópticas, porque a qualidade delas pode alterar drasticamente a qualidade dos discos gravados, conforme demonstrado pelo estudo da Archives de France (um gravador de DVD ruim produzirá DVDs que durarão muito menos).

  • Escolha com cuidado os seus formatos de arquivo: nem todos os formatos são resistentes à corrupção, alguns são claramente fracos. Por exemplo, imagens .jpg podem ser totalmente quebradas e ilegíveis, alterando apenas um ou dois bytes. Mesmo para arquivos 7zip. Isso é ridículo, portanto, tenha cuidado com o formato dos arquivos que você arquivar. Como regra geral, o texto não criptografado é o melhor, mas se você precisar compactar, use zip não sólido e, para imagens, use JPEG2 (ainda não é de código aberto ...). Mais informações e críticas dos curadores profissionais digitais aqui , aqui e aqui .

  • Armazene juntamente com os arquivos de dados todos os softwares e especificações necessárias para ler os dados. Lembre-se de que as especificações mudam rapidamente e, portanto, no futuro, seus dados podem não ser mais legíveis, mesmo que você possa acessar o arquivo. Portanto, você deve preferir formatos e softwares de código aberto e armazenar o código-fonte do programa junto aos seus dados, para poder sempre adaptar o programa a partir do código-fonte para iniciar em um novo sistema operacional ou computador.

  • Muitos outros métodos e abordagens estão disponíveis aqui , aqui e em várias partes da Internet.

Conclusão

Eu aconselho a usar o que você pode ter, mas sempre respeite o princípio de redundância (faça 4 cópias!), E sempre verifique regularmente a integridade (para que você precise pré-gerar um banco de dados de hashes MD5 / SHA1 antecipadamente) e crie novos novos cópias em caso de corrupção. Se você fizer isso, tecnicamente poderá manter seus dados pelo tempo que desejar, independentemente da sua mídia de armazenamento. O tempo entre cada verificação depende da confiabilidade de suas mídias de armazenamento: se for um disquete, verifique a cada 2 meses, se for um HTL Blu-ray, verifique a cada 2/3 anos.

Agora, no ideal, aconselho que o armazenamento a frio use discos Blu-ray HTL ou discos de DVD de arquivo armazenados em caixas opacas à prova de água e armazenados em um local fresco. Além disso, você pode usar cartões SD e provedores baseados em nuvem, como o SpiderOak, para armazenar cópias redundantes de seus dados ou até discos rígidos, se for mais acessível.

Use muitos códigos de correção de erros , pois eles salvarão seu dia. Além disso, você pode fazer várias cópias desses arquivos de ECCs (mas várias cópias de seus dados são mais importantes do que várias cópias de ECCs, porque os arquivos de ECCs podem se reparar!).

Todas essas estratégias podem ser implementadas usando o conjunto de ferramentas que estou desenvolvendo (código aberto): pyFileFixity . De fato, essa ferramenta foi iniciada por essa discussão, depois de descobrir que não havia ferramenta gratuita para gerenciar completamente a fixidade do arquivo. Além disso, consulte o leia-me e o wiki do projeto para obter mais informações sobre correção de arquivos e curadoria digital.

Em uma nota final, eu realmente espero que mais pesquisa e desenvolvimento sejam dedicados a esse problema. Essa é uma questão importante para nossa sociedade atual, com mais e mais dados digitalizados, mas sem nenhuma garantia de que essa massa de informações sobreviverá por mais de alguns anos. Isso é bastante deprimente, e eu realmente acho que esse problema deve ser colocado muito mais à frente, para que isso se torne um ponto de marketing para construtores e empresas que fabricam dispositivos de armazenamento que podem durar as gerações futuras.

/ EDIT: leia abaixo para uma rotina prática de curadoria .

laborioso
fonte
6
Excelente resposta! Isso precisa de muito mais votos.
precisa saber é o seguinte
11
Você planeja adicionar MAIS informações? Considere publicá-lo como um livro didático. :-)
fixer1234 21/03
11
@ fixer1234 sim, pretendo adicionar mais informações e, mais importante, informações mais pertinentes e confiáveis. Existem muitos conceitos errôneos e soluções seguras falsamente percebidas no campo da correção de arquivos, portanto, há muito a dizer. Encontrei tantas informações após a publicação deste post que é claramente necessária uma atualização e já compilei tudo nas minhas anotações, além de referências. Não tenho certeza se o SuperUser é o melhor lugar para publicar todos esses dados, mas não tenho um blog próprio: - / Tentarei ser o mais conciso possível.
precisa saber é o seguinte
3
Os DVD + Rs são bastante confiáveis ​​se você não tiver falsificações. Os CD-Rs foram afetados por qualquer luz do infravermelho para o violeta (e o infravermelho está em toda parte, às vezes em grande parte); os DVD + Rs são afetados apenas pelo vermelho ou mais curto, já mais difícil. Os DVDs também têm a camada sensível entre duas camadas de plástico, os CDs tinham a camada logo abaixo da superfície gravável a lápis !! Os discos BD-R são os melhores: você precisa de luz violeta ou ultravioleta para arruiná-los, e sua superfície é a mais forte. Eu diria que vá com o BD-R para arquivamento prático com alta probabilidade de sucesso após 30 anos. Mas você precisa de um jogador.
FarO 19/11/2015
11
@OlafM sim, é verdade, cada nova geração de discos ópticos traz consigo tecnologias mais confiáveis, não apenas em seu material, mas também em sua configuração tecnológica (por exemplo, a maneira como os poços / ranhuras são escritos e gerenciados , o código de correção de erros etc.) .), mas você também deve prestar atenção ao material em que as camadas foram feitas, nem todos os discos ópticos são iguais e, geralmente (mas nem sempre), os discos de arquivamento são feitos com materiais mais resistentes.
precisa saber é o seguinte
11

Não há uma solução fácil. A manutenção do arquivo morto é um processo , não um trabalho único. Todos os três tipos de mídia de arquivo disponíveis atualmente têm suas próprias vantagens e desvantagens, no entanto, esses argumentos se aplicam a todos os tipos de mídia:

  1. Ninguém armazenou DVDs ou discos rígidos por 30 ou 100 anos, por razões óbvias. Portanto, não há histórico e ninguém sabe como a mídia envelhecerá. Os testes de envelhecimento artificial não provam muito, e você confia nos testes do fornecedor (não imparciais).

  2. Você deve armazenar a mídia no ambiente controlado para obter melhores resultados (temperatura / umidade constante, pouca luz etc.). Caso contrário, a vida da mídia é reduzida significativamente.

  3. Você deve manter o hardware e o software que lê a mídia (por exemplo, as interfaces SATA podem não estar prontamente disponíveis daqui a 30 anos).

Portanto, na minha opinião, a única solução viável para usuários domésticos ou pequenas empresas é:

  1. Mantenha várias cópias de todos os dados em diversos tipos de mídia (discos rígidos e DVDs)
  2. Mantenha várias cópias de todos os dados em vários locais (em casa e no cofre do seu banco).
  3. Copie todos os dados para novas mídias de vez em quando (por exemplo, copie para um novo disco rígido e novos discos de DVD a cada 2 anos. À medida que a densidade de dados aumenta, você provavelmente precisará de menos discos também.
  4. Mantenha cópias em papel de todos os dados críticos, se possível (por exemplo, imprima os livros contábeis anuais da sua empresa, imprima as mais preciosas fotos de família, etc.)
haimg
fonte
11
Gostaria de saber se existe RAID para DVDs .... ou seja, se você armazenar DVDs por dois anos, você pode ter certeza de que 80% deles estarão livres de erros, portanto, você pode ter dois discos de paridade. Hmmmm. Usenet usa arquivos de paridade, eu acho. Pode valer a pena usar algo assim para o arquivamento de DVD / CD / BD.
user606723
11
@ user606723: Essa é uma ideia muito boa! Eu sugiro usar algo como multi-volume de arquivo RAR (se os arquivos originais são realmente grandes) com arquivos de paridade PAR2 ...
haimg
4
A compatibilidade da interface seria uma grande preocupação; já se passaram cerca de 30 anos desde que o IBM XT foi lançado, mas quantos computadores hoje podem, de alguma forma, interagir com um disco rígido pré-ATA? Quantos computadores construídos hoje podem até interagir com um disco rígido PATA sem hardware adicional (placa controladora ou adaptador USB)?
um CVn
11
@ user606723 O que você chama de "RAID para DVDs" realmente existe e já está implementado na forma de "códigos de correção de erros", em particular usando o CIRC (codificação intercalada Reed-Solomon). É por isso que pequenos arranhões ou poeira não o impedem de ler os dados, porque eles já são corrigidos automaticamente. No entanto, você não pode especificar o nível de redundância desejado, portanto, se desejar um DVD mais resistente, use um software de terceiros, como DVDisaster , PAR2 ou pyFileFixity .
gaborous
11

Seguimento rápido da minha resposta anterior acima , isso será tornado mais conciso e estendido com informações e referências adicionais (mas não de importância primária) que não posso adicionar na primeira resposta devido às restrições de comprimento de 30K.

Como o arquivamento de longo prazo é um processo de curadoria, aqui estão algumas outras coisas que você deve prestar atenção para tornar seu processo mais eficiente e consumir menos tempo (e recursos):

  • Desduplicação : como a única maneira de garantir o arquivamento a longo prazo é por meio de redundância deliberadamente projetada, você deseja evitar dados redundantes inúteis (por exemplo, cópias de arquivos que você buscou da sua chave USB no disco rígido do arquivo, mas você já tem uma cópia) do seu computador principal!). Dados redundantes indesejados, geralmente chamados de duplicados, são ruins, tanto no custo de armazenamento (eles consomem mais recursos de armazenamento, mas você terá dificuldade em encontrá-los quando necessário), para o seu processo (e se você tiver versões diferentes do mesmo arquivo? Como você pode saber qual cópia é a correta?) E para o seu tempo (isso aumentará os tempos de transferência quando você sincronizará o backup com todos os seus arquivos). É por isso que os serviços profissionais de arquivamento geralmente oferecem desduplicação automática: arquivos exatamente semelhantes obterão o mesmo inode e não ocuparão espaço adicional. É o que o SpiderOak faz, por exemplo. Existem ferramentas automatizadas que você pode usar e os sistemas de arquivos ZFS (Linux) ou ReFS (Windows) podem fazer isso automaticamente para você.

  • Priorização / categorização : como você pode ver, o arquivamento de longo prazo é um processo demorado que precisa ser conduzido regularmente (para verificar a integridade, sincronizar arquivos entre mídias, criar novos arquivos em novas mídias para substituir os moribundos, reparar arquivos usando códigos de correção de erros etc.). Para minimizar o tempo que lhe custa, tente definir diferentes esquemas de proteção, dependendo da prioridade dos seus dados com base em categorias. A idéia é que, quando você move os dados do computador para um disco rígido externo usado para arquivamento de longo prazo, os coloca diretamente em uma pasta que define a prioridade do backup: "sem importância", "pessoal", "importante" e "crítico" " Em seguida, você pode definir diferentes estratégias de backup para cada pasta: reserve a proteção completa (por exemplo, backup em 3 discos rígidos + nuvem + códigos de correção de erros + BluRays) apenas para os dados mais críticos que você deseja manter por toda a vida (a pasta crítica) , uma proteção média para dados "importantes" (por exemplo, backup em 3 discos rígidos + nuvem) e "pessoal" é copiada em pelo menos dois discos rígidos externos e "sem importância" não recebe cópia (ou talvez em um disco rígido) unidade se a sincronização não for muito longa ...). Normalmente, você verá que " é tudo o que você baixa da Internet ou vários arquivos e mídias que você realmente não interessa (como softwares, jogos e filmes). A linha inferior é que:quanto mais arquivos você desejar arquivar a longo prazo, mais difícil (e demorado) será ; portanto, tente manter os arquivos que obtêm esse tratamento especial no mínimo.

  • Os metadados são um ponto crítico: mesmo com boas estratégias de curadoria, geralmente há uma coisa que não está protegida: os metadados. Os metadados incluem as informações sobre seus arquivos, por exemplo: a árvore de diretórios (sim, são apenas alguns bytes; se você os perder, os arquivos ficam em total desordem!), O nome do arquivo e a extensão, o carimbo de data / hora (este Isso pode não parecer muito importante, mas imagine o seguinte: e se amanhã, todos os seus arquivos (incluindo arquivos fornecidos com softwares e outras coisas) forem colocados dentro de uma pasta plana, sem o nome do arquivo nem extensão. Você poderá recuperar os arquivos necessários de bilhões de arquivos no seu computador, por inspeção manual? Não pense que este é um cenário incomum; isso pode acontecer com a mesma facilidade que ocorre com uma falta de energia ou uma falha no meio de uma cópia: a partição que está sendo gravada pode ser totalmente destruída (o infame tipo RAW). Para superar esse problema, você deve estar preparado e preparar seus dados para recuperação de dados: para garantir que você mantenha os metadados, você pode aglomerar os arquivos com seus metadados usandoarquivos não sólidos , como ZIP DEFLATE ou DAR (mas não tar) Alguns sistemas de arquivos oferecem redundância automática de metadados, como DVDisaster (para discos ópticos) e ZFS / ReFS (para discos rígidos). Em caso de falha de metadados, você pode tentar recuperar suas partições usando TestDisk ou GetDataBack (permitir recuperação parcial da árvore de diretórios) ou ISOBuster (para discos ópticos), para recuperar a árvore de diretórios e outros metadados. Caso tudo isso falhe, você poderá recorrer à gravação de arquivos usando o PhotoRec: isso extrairá todos os arquivos que ele reconhecer, mas em total desordem e sem o nome do arquivo nem o carimbo de data / hora, apenas os dados serão recuperados. Se você compactou arquivos importantes, poderá recuperar os metadados dentro do zip (mesmo que o próprio zip não contenha mais metadados, pelo menos dentro dos arquivos ainda possuirão os metadados corretos). Contudo, você terá que verificar manualmente todos os arquivos gravados um a um manualmente, o que é demorado. Para proteger contra essa possibilidade, você pode gerar previamente um arquivo de soma de verificação de integridade usando pyFileFixity ou PAR2 e, em seguida, usar esse arquivo de soma de verificação de integridade após a captura de arquivo para reconhecer e renomear os arquivos automaticamente, dependendo do seu conteúdo (essa é a única maneira de automatizar a meta- recuperação de dados, porque a captura de arquivos só pode recuperar conteúdo tecnicamente, não os metadados.

  • Teste seus formatos de arquivo e estratégias de curadoria para si mesmo : em vez de confiar nas palavras dos artigos sobre qual tipo de formato é melhor que o outro, você pode tentar sozinho com pyFileFixity filetamper.py ou apenas substituindo alguns caracteres hexadecimais em alguns arquivos: você verá que a maioria dos formatos de arquivo pode ser quebrada com apenas três bytes diferentes. Então, você realmente deve escolher cuidadosamente seus formatos de arquivo: prefira arquivos de texto simples para anotações e use formatos de arquivo resilientes para mídias (eles ainda estão sendo trabalhados, como o Código de correção de erro variável MPEG-4, o ffmpeg o implementa, ref será adicionado ) ou gere seus próprios códigos de correção de erros.

  • Leia estudos estatísticos, não acredite em afirmações : como eu disse na resposta anterior, afirmações extravagantes são feitas o tempo todo sobre a longevidade dos meios de armazenamento sem nenhum fato científico, e você deve ser particularmente cauteloso quanto a isso. De fato, não há nada na lei que impeça o fabricante de se gabar de alegações falsas e inverificáveis ​​de longevidade. Prefira consultar estudos estatísticos, como o relatório anual do BackBlaze sobre taxas de falhas de discos rígidos .

  • Leve um meio de armazenamento garantido . Uma garantia não pode trazer seus dados de volta, mas informa como o produtor avalia a taxa de falha de seu produto (porque, caso contrário, custaria muito se a taxa fosse muito alta durante o período de garantia).


Uma atualização do esquema que uso: aplico a estratégia de priorização descrita acima e adicionei o serviço de backup em nuvem SpiderOak ao meu esquema, porque ele possui um plano com armazenamento infinito e é totalmente criptografado, mantendo assim a propriedade exclusiva dos meus dados. NÃO uso como meu único meio de backup para nenhum dos meus dados, é apenas uma camada adicional.

Então, aqui está o meu esquema atual:

  • 3 cópias de discos rígidos regularmente verificadas, sincronizadas e armazenadas em dois lugares diferentes e 1 sempre disponível (eu o uso para armazenar lixo e fazer backups rápidos).
  • SpiderOak com plano de armazenamento infinito
  • Discos BluRay para dados realmente realmente sensíveis, mas não muito grandes (limito a 50 GB os dados que posso armazenar nesses discos)
  • pyFileFixity e DVDisaster para pastas que eu realmente quero garantir a longo prazo.

Minha rotina diária é a seguinte: eu sempre tenho um HDD USB portátil de 2,5 que posso usar para guardar coisas sem importância (mover arquivos do meu computador para o HDD) ou fazer backup de coisas importantes (copiar arquivos para o HDD, mas manter uma cópia no meu computador). Para coisas realmente críticas, também ativei o backup on-line no SpiderOak (eu tenho uma pasta no meu computador com coisas críticas, então só preciso mover arquivos críticos para lá e eles serão sincronizados automaticamente pelo SpiderOak). Para arquivos REALMENTE críticos, também computo um arquivo de correção de erros usando pyFileFixity.

Para resumir, para coisas críticas, eu as armazeno: o HDD portátil, a nuvem SpiderOak e o meu computador, para ter 3 cópias a qualquer momento com apenas duas ações rápidas (copiar para o HDD portátil e mover para a pasta SpiderOak). Se uma cópia for corrompida, posso votar por maioria para corrigi-las usando pyFileFixity. É um esquema de custo muito baixo (tanto em preço quanto em tempo), mas muito eficiente e implementa todos os princípios básicos da curadoria digital (redundância tripla, cópias diferentes em diferentes locais, mídias diferentes, verificação de integridade e ecc pela SpiderOak).

Então, a cada 3 a 6 meses, sincronizo meu HDD portátil com o meu segundo HDD em casa e, a cada 6 a 12 meses, sincronizo meu HDD portátil com meu terceiro HDD, que fica em outra casa. Isso fornece o benefício adicional da rotação (se em 6 meses eu perceber que algo deu errado no meu último backup e excluir os arquivos críticos, posso obtê-los em um dos dois HDs domésticos).

Por fim, escrevi alguns arquivos muito críticos em discos BluRay usando o DVDisaster (e arquivos ecc adicionais com pyFileFixity, mas não tenho certeza se isso é necessário). Eu os guardo em uma caixa hermética em um armário. Eu só os checo a cada poucos anos.

Veja bem, meu esquema não é realmente um grande fardo: diariamente, leva alguns minutos para copiar arquivos para o HDD portátil e para a minha pasta SpiderOak, e então sincronizo a cada 6 meses para um ou outro HDD doméstico . Isso pode levar até um dia, dependendo da quantidade de dados que precisa ser sincronizada, mas é automatizada por softwares, então você só precisa deixar o computador executar o software e fazer outra coisa (eu uso um netbook de 100 $ que comprei apenas para faça isso, para que eu possa trabalhar no meu computador principal ao mesmo tempo sem me preocupar em travar o computador no meio de uma cópia, o que pode ser terrível e destruir o disco rígido que está sendo gravado ). Os códigos de correção de erros e os esquemas BluRay são usados ​​raramente para dados realmente críticos, por isso consome um pouco mais de tempo, mas é raro.

Esse esquema pode ser aprimorado (como sempre), por exemplo, usando o ZFS / ReFS nos discos rígidos : isso implementaria uma proteção automatizada do código de correção de erros Reed-Solomon e verificação de integridade (e dittoblocks !) Sem nenhuma interação manual da minha parte ( contrário ao pyFileFixity). Embora o ZFS não possa ser executado no SO Windows (no momento) , existe o ReFS que permite um controle semelhante de correção de erros no nível do sistema de arquivos. Além disso, pode ser uma boa ideia usar esses sistemas de arquivos em discos rígidos externos! Um disco rígido portátil executando ZFS / ReFS com correção e desduplicação de erro RS automáticas deve ser incrível! (e o ZFS parece ser bastante rápido, portanto, a cópia deve ser rápida!).

Uma última observação: tenha cuidado com as alegações sobre os recursos ECC de sistemas de arquivos, como nesta lista , porque para a maioria isso é limitado apenas aos metadados (como APFS ) ou ao espelhamento RAID 1 ( btrfs ). Que eu saiba, apenas o ZFS e o ReFS fornecem códigos reais de correção de erros (e não o espelhamento simples) de metadados e dados, com o ZFS sendo o mais avançado atualmente (embora ainda seja um pouco experimental a partir de 2018), principalmente porque as unidades ReFS não podem ser inicializáveis .

laborioso
fonte
5

Eu iria microfilme. Não sei se ainda é fabricado, mas ficaria surpreso se não fosse. Os negativos à base de prata duram centenas de anos, se armazenados corretamente. Claro que é um investimento enorme e ocupará uma sala inteira para fotografia e visualização, e isso não está contando com armazenamento. Então, isso é apenas se você realmente SIGNIFICA 100 anos ou mais sem manutenção.

Caso contrário - e é provável que você não esteja, a menos que queira fazer uma cápsula do tempo -, basta usar backups de HDD e copiar todo o material para novas mídias a cada 10 a 15 anos. Realmente, não há melhor seguro contra o envelhecimento da mídia do que copiar a coisa toda a cada 10 anos ou mais. Melhor que microfilme, melhor que tabletes de argila, melhor que obeliscos de pedra enterrados na areia do deserto.

Sigmoid
fonte
4

Até 5 TB (ou mais?), Você pode armazenar com segurança até 30 anos em uma fita magnética, também conhecida como unidade de fita. Este tempo está comprovado. Os graváveis ​​Blue-ray devem armazenar suas coisas com segurança por até 30 anos também, mas sua capacidade é de cerca de 100 GB.

Se você tiver mais dinheiro, guarde-o em um filme preto / branco de 35 mm. Supõe-se que os dados possam ser restaurados (dependendo da densidade) pelos próximos 700 anos. ( Link em alemão para a wikipedia )

tuergeist
fonte
Para o registro, gravar em 20-50 discos Blu-ray não está fora de questão.
user606723
Nunca ouvi falar de arquivamento de dados em 35mm, embora o princípio seja óbvio, suponho. Como é a densidade?
Shinrai 4/01/12
@Shinrai: Eu não sei a densidade do filme, desculpe
tuergeist
Provavelmente, você pode calcular uma densidade entre 1 e 10 megabits por quadro.
Daniel R Hicks
3
A Nikon LS-9000 ED digitaliza o filme a 4000 dpi, fornecendo 21,4 Mp / quadro a 35 mm (24 x 36 mm). Se você pode usar 1/10 disso para armazenamento de dados real (permitindo imperfeições de filme, limitações de foco e resolução na óptica nas duas extremidades, etc.), isso é 2 Mb / quadro ou algo como 10 MB para um rolo de filme de 36 exposições e preto / branco puro. Se os 4000 dpi do scanner são o fator limitante, são 100 MB para um rolo de 36 exp. Obviamente, você ainda teria que, de alguma outra maneira, preservar informações sobre como ler os dados, porque a olho nu os quadros provavelmente pareceriam uniformemente cinzentos.
um CVn
2

Eu recomendo um disco de níquel de três polegadas de diâmetro com informações gravadas microscopicamente em sua superfície.

http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/

dinamarquês
fonte
3
Tem que ser exatamente três polegadas? Eu tenho um 75 milímetros disco de diâmetro níquel calhar ...
um CVn
O único problema com essa abordagem é que ela pode armazenar apenas imagens estáticas (digitalizações). Mas atualmente é a melhor abordagem para armazenamento MUITO a longo prazo (até 2000 anos, milênios sim!). Outra falha destacada por alguns comentários no blog é que ele só pode armazenar cerca de 50 MB de dados.
gaborous
1

Nesse período de tempo, qualquer coisa que já esteja no papel (ou possa ser facilmente impressa sem perder informações) seria melhor armazenar nesse formulário. Lembre-se do papel e do toner usados ​​na cópia impressa.

Quanto aos outros, não conheço um meio digital usado atualmente que dure por esses períodos de tempo. Se você gastar tempo (e, portanto, dinheiro) para atualizar sua coleção, uma fita magnética pode ser uma opção viável - mas mesmo assim você precisará de redundância, pois poderá descobrir que uma única fita está com defeito (ou pode ser que a unidade de fita simplesmente atrapalhe a leitura).

E mesmo quando você consegue fazer com que a mídia real resista ao teste do tempo, você ainda se depara com a questão de saber se algum programa pode ler a mídia daqui a 30 anos, e muito menos daqui a 100 anos.

Juha Laiho
fonte
11
A fita magnética está sujeita a vários modos de falha, desde a impressão até a desmagnetização ao longo do tempo até o óxido simplesmente caindo da fita.
Daniel R Hicks
1

É verdade que CD-Rs e DVD-Rs comuns não são confiáveis ​​o suficiente para arquivar dados importantes. Mas você pode obter DVDs que não são tão rápidos em decair:

https://www.google.com/search?q=archival+dvd-r

Isaac Rabinovitch
fonte
Obrigado por apontar esta opção, uma boa alternativa aos M-Discs que é acessível a praticamente qualquer pessoa com um gravador de DVD.
gaborous
"O DVD-R de arquivamento Verbatim Gold [...] foi classificado como o DVD-R mais confiável em um completo teste de estresse de longo prazo pela conceituada revista alemã c't (c't 16/2008, páginas 116- 123) [...] alcançando uma durabilidade mínima de 18 anos e uma durabilidade média de 32 a 127 anos (a 25 ° C, 50% de umidade). Nenhum outro disco chegou nem perto desses valores, o segundo melhor DVD-R tinha um durabilidade mínima de apenas 5 anos. ", linuxtech.net/tips+tricks/best_safe_long-term_data_storage.html
gaborous
1

Eu li que o 'M-Disc' criou um DVD que precisa de um gravador especial, mas que pode ser lido em leitores de DVD genéricos. Eles reivindicam uma vida útil estimada de 1000 anos, declarando que não pode ser testado com precisão. Longa exposição ao sol, arranhões, uso múltiplo etc. e o disco é 100% utilizável. Eu estaria interessado em qualquer feedback de quem encontrou esse sistema.

Aqui está um trecho da Dell que talvez esteja instalando a unidade M-Disc em seus novos laptops / PCs

O M-DISC Ready direciona os dados de gravação a laser para um material inorgânico semelhante a uma rocha para evitar a perda de dados, garantindo que seus arquivos estejam seguros e possam ser armazenados por até 1000 anos, afirma a empresa.

Diferente de todos os outros DVDs graváveis ​​que usam corantes orgânicos para armazenar dados, os discos M não desaparecem ou se degradam com o tempo.

reitor
fonte
Em vez de republicar com mais informações, você deveria ter editado sua postagem original.
Kazark
Você pode citar a citação com um link ou algo assim? Além disso, você pode usá >-lo para formatá-lo como uma cotação em bloco.
Kazark
1

Você precisa combinar diferentes tecnologias, locais e mídias para obter backups de longa duração:

  • Grave em DVD - Bluray em baixa velocidade. Mantenha-os com pouca luz, baixa temperatura, baixa umidade, sem riscos.
  • Mantenha uma cópia em uma unidade RAID 1, Raid5, Raid6 ou Raid10.
  • Mantenha outra cópia em um disco rígido externo
  • Mantenha uma cópia na nuvem (carbonite, crashplan)
  • Mantenha uma cópia da tecnologia M-Disc (gravadores Mdiscs e Mdisc) não estão disponíveis na Amazon.com a preços muito bons. O fabricante afirma que eles podem armazenar dados por 1000 anos.
Alex
fonte
Vejo que três dos seus cinco pontos principais são realmente variações de um único tema: armazenamento magnético no disco rígido. Quanto ao seu último ponto, a questão não é tanto quanto tempo a mídia reterá os dados (e pelo menos os fabricantes de disco rígido costumam citar números muito melhores que a realidade), mas por quanto tempo o equipamento para ler os dados estará disponível. ou o conhecimento de como fazê-los estará disponível. Todas as suas técnicas sugeridas são de alta tecnologia. Suponha que os vikings armazenassem dados em discos blu-ray; Quais são as chances de termos o conhecimento de como interpretar esses dados agora?
um CVn
@ MichaelKjörling Armazene um computador adicional com todos os periféricos necessários. Use memória ROM, se necessário.
usar o seguinte código
1

Como alguém já mencionou, existe uma nova tecnologia chamada M-Disc. Eles são muito confiáveis: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Começamos a usá-los para proteger imagens de discos de máquinas de produção. Já existem Blu-Rays no mercado. A única desvantagem é que eles são mais lentos que os B-RDs clássicos.

Tomasz Szkudlarek
fonte
Tenho uma necessidade semelhante ao OP e, depois de ler sobre isso, acho que vou tentar esta solução, obrigado por apontar essa tecnologia! Requer apenas a compra de um gravador de DVD ou Blu-ray compatível com M-Disc, e a LG já produziu muito, por isso também é bastante acessível e de baixo custo!
gaborous
11
De fato, parece que os discos M não são tão confiáveis ​​quanto pretendem. Um estudo francês independente do Archives de France (instituição oficial de arquivamento de dados da França) para encontrar o melhor suporte de arquivamento de dados e eles descobriram que os M-Discs realmente não resistem à umidade e temperatura (envelhecimento acelerado). Vou postar aqui uma resposta com mais detalhes.
gaborous
0

Se você deseja ter um método para resolver esse problema, você deve estudar o campo Preservação Digital.

http://en.wikipedia.org/wiki/Digital_preservation

A preservação digital é o método de manter vivo o material digital, para que ele permaneça utilizável, pois os avanços tecnológicos tornam obsoletas as especificações originais de hardware e software (wikipedia)

Há também um modelo de referência: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System

Existem algumas soluções comerciais e de código aberto para acompanhá-lo. Bibliotecas e arquivos usam essas tecnologias para preservar livros digitalizados por longos períodos de tempo.

AGM
fonte
Manter os dados por um longo período de tempo não significa que a própria mídia sobreviva por tanto tempo, como já foi apontado em várias respostas altamente votadas. Uma parte importante da preservação digital é a migração de dados à medida que a mídia envelhece e se torna obsoleta.
um CVn
Obrigado Michael. Apenas apontando para o OAIS como um método para alcançar o objetivo real.
AGM
Essa é uma boa resposta para as estratégias de curadoria digital, mas de fato não para qual meio de armazenamento deve ser usado. O modelo OAIS é muito bom e, de fato, é usado pela maioria das bibliotecas e arquivos nacionais do mundo, mas acho um pouco complicado, teórico e contendo metadados desnecessários para uso individual. O modelo BagIt é um pouco mais prático e mais utilizável, mas ainda bastante complicado, onde ferramentas simples como PAR2 ou pyFileFixity podem ser suficientes.
gaborous
0

Sua resposta é simples:

https://wiki.openstack.org/wiki/Cinder

Openstack é um sistema de armazenamento quase 'imortal', pois você pode atualizar ou substituir nós de falha por novos, mesmo com tecnologias futuras desconhecidas para nós agora. Seus dados vivem pelo menos 2, até 5 locais simultaneamente neste sistema, para que as notas completas de armazenamento possam falhar e os dados ainda estejam presentes. Escala até 50 PB (verificado) - 110 PB. Basicamente, ele adiciona uma camada SW ao seu hardware e isso torna seu armazenamento infinito vivo. Ele supera a atual barreira do som dos conjuntos de ataques, com suas limitações nos tempos de reconstrução de conjuntos de ataques muito grandes. Os custos são cerca de 50% dos sistemas tradicionais de armazenamento Raid. Conheço um sistema da FUJITSU que apresenta isso como uma arquitetura de referência: CD10000

Thomas Holzknecht
fonte
11
Agora você só precisa depositar sua fé nessa empresa :-)
einpoklum - reinstala Monica 31/08/16
-1

Armazenamento prático de dados a longo prazo usando a tecnologia atual do ano de 2014:

... e é isso que estou fazendo.

Obtenha duas das unidades com vários terabytes, por exemplo, duas unidades com 3 terabytes cada. Ligue para um TB-1 e o outro TB-2. Faça backup de tudo no TB-1. Após um ano de backup no TB-1, reformate o TB-2 e copie o TB-1 para o TB-2. Então, para o próximo ano, faça backup de tudo no TB-2. Após esse ano, reformate o TB-1 e copie-o para TB-1, iniciando o ciclo bianual novamente.

A reformatação restaura a força magnética dos marcadores do setor. E a cópia restaura a força magnética dos dados.

O mesmo princípio pode ser aplicado ao backup em fita e ao CD, ou a qualquer outro backup. Mas os CDs são muito inconvenientes porque podem danificar-se em menos de um ano, e você precisa de muitos deles para fazer backup de tudo. Portanto, gravar cópias de todos os CDs de backup a cada 5 meses é muito trabalhoso. Até agora, posso armazenar toda a minha vida em uma unidade com vários terabytes.

Indinfer
fonte
2
CD's estragam em menos de um ano? Você está dizendo que não possui nenhum CD com mais de um ano? Tenho CDs de dados e áudio de mais de um ano, posso garantir, e eles funcionam bem!
19414 Dave
11
Eu tenho CDs de 1998 que ainda funcionam bem. Independentemente de sabermos que isso não é verdade, o que faz você acreditar que esse é o caso? Você pode obter suas informações? Obrigado.
Matthew Williams
Não é necessário reescrever os dados no disco rígido, você só precisa fornecer uma fonte elétrica para manter (ou restaurar) o campo eletromagnético. A reconfiguração dos dados para armazenamento a longo prazo é necessária apenas para cartões SD / Compact e SDDs.
gaborous