Arquivamento econômico e de longo prazo de dados de vídeo e imagem? ~ 50 TB

16

Meu laboratório está no processo de configuração de um pequeno servidor que contém dados (principalmente dados de vídeo e imagem, além de alguns documentos) para o projeto em que o nosso grupo está trabalhando no momento. Historicamente, após o término de um projeto de pesquisa, os dados acabam sendo arquivados em um disco rígido ou em uma grande pilha de DVDs (ou CDs nos velhos tempos) e / ou em parte do vídeo terminado em cassetes Sony DV ou mesmo Fitas VHS (este laboratório está ativo desde o início dos anos 90), OU uma mistura de todos os itens acima ...

Pergunta: Qual é a melhor maneira de (1) consolidá-las TODAS no mesmo formato E suporte de armazenamento e (2) qual é o melhor suporte para arquivamento a longo prazo desses dados para acesso muito ocasional (por exemplo, mais de 30 anos?)? Infelizmente, não temos orçamento em nível corporativo (somos apenas um laboratório de aproximadamente 10 pessoas), portanto não podemos fazer coisas que custam centenas de milhares de dólares.

Obrigado!

PS Considerando que nossos vídeos e imagens antigos são de resolução menor, mas os recentes são enormes, acho que estamos falando de 30 a 40 TB para dados realmente antigos, outros 10 a 20 TB para dados recentes e, em seguida, adições anuais de cerca de 5 TB .

hpy
fonte

Respostas:

22

Infelizmente, não há melhor maneira para você. O arquivamento de 30 anos da mídia digital é um problema muito difícil e requer investimentos de rotina. Os únicos formatos garantidos para leitura em 30 anos são ASCII e UTF8, que não são formatos de vídeo. Os formatos de armazenamento mudam; as fitas de oito faixas que usamos há 30 anos são quase impossíveis de serem lidas hoje em dia, embora os dados ainda estejam na fita (há uma história interessante sobre a NASA reconstruindo uma unidade de fita de 40 anos) para obter algumas fitas de dados Apollo recém-recuperadas / descobertas). Sua melhor aposta é se comprometer com avaliações periódicas, eu diria a cada 5 anos, de seu ambiente de arquivamento com orçamento suficiente para trazer formatos antigos para formatos mais novos.

Você provavelmente sabe melhor do que eu, mas o cenário do vídeo está mudando rapidamente. A edição online em tempo real agora é possível, onde era possível apenas com um kit realmente bom, mesmo há 10 anos. Quem sabe como as coisas serão daqui a 30 anos?

  • Defina sua janela de arquivamento por 5 anos.
    • No prazo imediato, uma matriz de armazenamento ampla deve ser suficiente (
      • um disco grande e lento de 50 TB pode ser adquirido por menos de US $ 70 mil, possivelmente bem abaixo.
      • Uma unidade de fita LTO5 e 50 fitas (bem acima de 50 TB) podem ser adquiridas por menos de US $ 15 mil.
  • O formato em que você armazena seu vídeo é com você.
  • Comece a encontrar e converter todos os seus itens mais antigos nesse novo armazenamento.
  • No final de 5 anos, faça outra avaliação completa do seu ambiente de arquivamento.
    • Quais formatos você está usando?
    • Quais são os formatos mais recentes?
    • Quais codecs parecem ser becos sem saída e quais mídias você armazenou codificado dessa maneira?
    • Decida como você migrará para métodos de armazenamento mais recentes (formatos de dados, disco / fita / outra coisa) e gaste adequadamente.
  • Repita 6 vezes.

Isso deve levar você a 30 anos.

sysadmin1138
fonte
+1, se você estiver realmente tentando ser barato, provavelmente poderá fazer isso a cada 10 anos. As unidades ATA-66 e 100 eram as HD preferidas há uma década, e ainda existem tecnologias para se conectar a elas. Mas já existem computadores que não possuem cabeçalhos IDE, a tecnologia de uma década está ficando duvidosa.
Chris S
6
+1 para obter bons pontos na cópia, mas -1 para afirmar que os formatos ficarão ilegíveis. Quando os dados estão disponíveis em um meio copiável, é provável que esses arquivos não se tornem reproduzíveis, a menos que estejam em um formato MUITO estranho. O arquivamento em algo muito popular como o MPEG2 é extremamente provável que seja um formato durável. A transcodificação de vídeo com perda é um processo com perda. Isso não deve ser feito. Não custa-nos muita coisa para manter um codec de vídeo dominante em torno de ...
Paul McMillan
@ Paul Obrigado pelas dicas. A última vez que eu andava regularmente com pessoas de vídeo era há 7 anos, então estou enferrujada.
sysadmin1138
Muito obrigado pela avaliação detalhada e dicas! Faremos o melhor que pudermos com nosso orçamento de TI infelizmente limitado. Que bom que vocês e serverfault.com estão aqui para ajudar.
Hpy
Sim, nós viemos um caminho. Ainda assim, não tenho problemas para reproduzir arquivos AVI de 17 anos do Windows 3.1 dias. O truque está na escolha de formatos que já estão sendo amplamente utilizados.
Paul McMillan
11

Eu concordo totalmente com o post de sysadmin1138 em todos os aspectos, exceto uma ressalva - acho que você não terá o orçamento para realmente alcançar o que deseja.

Existem 5 funções principais que você precisa criar;

  • uma política padronizada de conteúdo e catálogo - eu sei que você deseja armazenar tudo em um formato, mas deve considerar dois - PDF para imagens e H.264 para vídeo - ambos são formatos de suporte de longo prazo com código multiplataforma que quase certamente será apoiado por uma parte ou outra por 25 a 50 anos em sua forma atual, simplesmente devido ao uso existente em todo o mundo.
  • um catálogo ou CMS para indexar e publicar o conteúdo.
  • um sistema de 'ingestão de conteúdo' - isso levará toda a sua mídia, empacotar, codificar, armazenar e atualizar o catálogo para cada nova parte do conteúdo. Você precisará de uma verificação manual ou automatizada da qualidade do conteúdo.
  • um armazenamento de conteúdo primário - isso terá dois blocos de armazenamento principais; um pequeno para armazenar o conteúdo de origem enquanto está sendo transcodificado / verificado e um bloco muito maior para manter o conteúdo "próximo". Esse é um dos únicos usos válidos para o RAID 6 que encontrei, mas tente usar discos de qualidade corporativa que possuam um 'ciclo de serviço' 24x365 aqui.
  • sistema de backup a longo prazo - é aqui que o dinheiro real será gasto; você precisará selecionar um fornecedor que ofereça capacidade de backup a longo prazo. Se eu estivesse fazendo isso agora, ainda utilizaria fita sobre disco por motivos de longevidade dos dados, talvez pela IBM, pois eles têm muita experiência nessa área. Você também precisa considerar que também precisa fazer restaurações regulares de fita e verificações de dados, o que significa que precisará de um terceiro bloco de armazenamento pelo menos tão grande quanto a maior fita que você tiver - e os sistemas para verificar também, é claro. Além disso, você precisará garantir que o software de backup que você usa estará disponível por um longo tempo também, algo como o TAR on * nix provavelmente estará presente por um tempo, mas pode não fornecer funcionalmente o que você deseja. verifique se isso não é esquecido pelo seu fornecedor de fitas.

Então, o que você quer fazer pode ser feito, eu já fiz isso várias vezes nas últimas duas décadas, mais ou menos - mas acho que nenhum foi barato.

Boa sorte.

Chopper3
fonte
O PDF para imagens parece uma maneira horrível de fazê-lo. Sim, absolutamente PDF para documentos, mas mantenha as imagens como tiffs ou JPEGS, dependendo do seu formato de saída. É improvável que a capacidade de lê-los desapareça.
Paul McMillan
Obrigado pelas dicas! Se eu pudesse sinalizar duas respostas aceitas, eu o faria. :)
HPY
11
Isso é ok, penyuan, 1138 e são brotos;) #
Chopper3
2
Honestamente, a dificuldade com qualquer tipo de sistema CMS é que ele provavelmente será a primeira e mais desatualizada parte de um sistema. Você seria melhor exigir que todos escrevam um arquivo de texto ASCII com algumas descrições básicas e os armazenem com seus dados brutos. Qualquer CMS ou sistema automatizado ficará velho em uma escala de alguns anos.
Paul McMillan
3

Os outros deram bons conselhos sobre como fazer backup de sua mídia. Eu sugiro que você gaste algum tempo de qualidade consultando as diretrizes da biblioteca do congresso:

http://www.digitalpreservation.gov/formats/index.shtml

Você também pode considerar criar uma matriz ZFS de caixa branca barata. Você provavelmente poderia fazer algo para atender às suas necessidades por menos de US $ 10.000. À medida que as unidades morrem, substitua-as por outras maiores e, assim, sua capacidade de armazenamento aumenta à medida que você gera dados. Isso provavelmente o manteria ativo por um bom tempo e você poderá substituí-lo por um dispositivo de maior capacidade quando envelhecer. A vantagem é que seus dados estão on-line (e, portanto, podem ser acessados ​​conforme necessário) e estão relativamente bem protegidos contra o bitrot, um problema sério quando você tem tantos dados.

Uma opção de compilação decente foi criada aqui:

http://www.zfsbuild.com/

Paul McMillan
fonte
2

Por mais difícil que seja para os tecnólogos, eu recomendaria interromper imediatamente os pensamentos sobre discos e tecnologia. Divida o seu problema de negócios em coisas sobre as quais você precisa tomar decisões.

Exemplo:

  • Como você vai lidar com a conversão de formatos analógicos / diversos de fita digital em mídia digital que pode ser armazenada em algum tipo de armazenamento digital?
  • Como você gerencia o conteúdo e os metadados associados? O armazenamento é fácil - você pode colocar tudo na fita LTO e armazená-lo em uma antiga mina de sal, mas não terá acesso aos dados.
  • Você está reinventando a roda? Se você está em uma universidade, já existem soluções para gerenciamento de conteúdo disponíveis centralmente? Ou, se você precisar comprar / criar seu próprio gerenciamento de conteúdo, existe uma infraestrutura centralizada da qual você pode comprar um pedaço? (Fita, Armazenamento de objetos, SAN)
  • Quais são os requisitos reais de negócios? O que você realmente quer manter e por quê? Muitas vezes, quando você realmente se aprofunda no assunto, os requisitos reais de retenção a longo prazo se aplicam a apenas um pequeno subconjunto de dados.
duffbeer703
fonte
1

Lembre-se de que, se você armazenar dados em um formato com perdas e depois converter para outro formato com perdas e, em seguida, outro, a qualidade do vídeo diminuirá a cada transição.

A seguir, falamos sobre áudio, mas o mesmo geralmente se aplica:

Você pode converter qualquer formato de áudio para Ogg Vorbis. No entanto, a conversão de um formato com perdas, como MP3, para outro formato com perdas, como o Vorbis, geralmente é uma má idéia. Os codificadores MP3 e Vorbis alcançam altas taxas de compressão jogando fora partes da forma de onda de áudio que você provavelmente não ouvirá. No entanto, os codecs MP3 e Vorbis são muito diferentes, de modo que cada um joga fora partes diferentes do áudio, embora certamente haja alguma sobreposição. Converter um MP3 em Vorbis envolve decodificar o arquivo MP3 de volta para um formato não compactado, como WAV, e recompactá-lo usando o codificador Ogg Vorbis. O MP3 decodificado não terá as partes do áudio original que o codificador MP3 descartou. O codificador Ogg Vorbis descartará outros componentes de áudio quando compactar os dados. No melhor, o resultado será um arquivo Ogg que soa igual ao seu MP3 original, mas é mais provável que o arquivo resultante tenha um som pior que o seu MP3 original. Em nenhum caso, você obterá um arquivo que soa melhor que o MP3 original.

Como muitos tocadores de música podem reproduzir arquivos MP3 e Ogg, não há razão para que você precise mudar todos os seus arquivos para um formato ou outro. Se você gosta de Ogg Vorbis, recomendamos que você o use quando codificar a partir de fontes de áudio originais e sem perdas (como CDs). Ao codificar a partir de originais, você descobrirá que pode criar arquivos Ogg menores ou de melhor qualidade (ou ambos) que seus MP3s.

(Se você precisar absolutamente converter de MP3 para Ogg, existem vários scripts de conversão disponíveis no Freshmeat.)

http://www.vorbis.com/faq/#transcode

Portanto, provavelmente é melhor escolher um formato sem perdas, porque depois de escolher um formato com perdas, você fica com ele.

TRiG
fonte
3
No momento, o vídeo sem perdas não é prático para armazenar. É simplesmente muito caro arquivar shows por minuto de filmagem. Escolha um codec com perdas com o qual você está satisfeito agora e amplamente utilizado e deixe sua mídia nele.
Paul McMillan
Obrigado pelo ponto positivo sobre o lossless-ness, definitivamente pensaremos bastante sobre isso.
Hpy
1

Talvez esteja faltando alguma coisa, você não poderia codificar tudo usando um formato aberto, onde o código-fonte dos codecs está disponível, e depois colocar tudo no Amazon S3?

Dessa forma, a Amazon precisa se preocupar com o armazenamento real dos dados e, a menos que não haja computadores que possam compilar C / C ++ dentro de 30 anos, você poderá obter as informações ...

Rico
fonte