Arquivamento de dados de vídeo e imagem de custo efetivo e longo prazo? ~ 50 TB

16

Meu laboratório está no processo de configurar um pequeno servidor que contém dados (principalmente dados de vídeo e imagem, além de alguns documentos) para o projeto em que o nosso grupo está trabalhando em um momento. Historicamente, depois que um projeto de pesquisa termina, os dados acabam sendo arquivados em um disco rígido, ou uma grande pilha de DVDs (ou CDs nos velhos tempos), e / ou alguns dos vídeos acabaram em cassetes Sony DV ou até mesmo Fitas VHS (este laboratório tem estado ativo desde o início dos anos 90), ou uma mistura de todos os acima ...

Pergunta: Qual é a melhor maneira para (1) consolidar todos eles no mesmo formato e meio de armazenamento, e (2) qual é o melhor meio de arquivamento a longo prazo de tais dados para acesso muito ocasional (digamos, 30+ anos ?) Infelizmente, não temos orçamento de nível empresarial (somos apenas um laboratório de cerca de 10 pessoas), por isso não podemos fazer coisas que custam centenas de milhares de dólares.

Obrigado!

P.S. Considerando que o nosso vídeo antigo e as imagens são de resolução menor, mas as recentes são enormes, acho que estamos falando de 30 ~ 40 TB para os dados realmente antigos, outros 10 ~ 20 TB para dados recentes e acréscimos anuais de cerca de 5 TB.

    
por hpy 16.11.2010 / 07:13

6 respostas

22

Infelizmente, não há melhor maneira para você. O arquivamento digital de 30 anos é um problema muito difícil e exige investimentos rotineiros. Os únicos formatos garantidos de serem legíveis em 30 anos são ASCII e UTF8, que não são formatos de vídeo. Os formatos de armazenamento mudam, as fitas de 8 faixas que estávamos usando há 30 anos são quase impossíveis de serem lidas nos dias de hoje, embora os dados ainda estejam na fita (há uma história interessante sobre a reconstrução de uma unidade de fita de 40 anos pela NASA). para obter algumas fitas de dados recém-recuperadas / descobertas do Apollo). Sua melhor aposta é se comprometer com avaliações periódicas, eu diria a cada 5 anos, do seu ambiente de arquivamento com orçamento suficiente para trazer formatos antigos para formatos mais novos.

Você provavelmente sabe melhor do que eu, mas o panorama do vídeo está mudando rapidamente. Edição on-line em tempo real agora é possível, onde só foi possível em kit seriamente bom, mesmo há 10 anos. Quem sabe como serão as coisas daqui a 30 anos?

  • Defina sua janela de arquivamento por 5 anos.
    • No termo imediato, uma matriz de armazenamento largish deve ser suficiente (
        O
      • disco grande e lento de 50 TB pode ser adquirido por menos de $ 70.000, possivelmente bem abaixo de
      • Uma unidade de fita LTO5 e 50 fitas (bem acima de 50 TB) podem ser adquiridas por menos de US $ 15.000.
  • Qual formato você armazena seu vídeo é com você.
  • Comece a encontrar e converter todos os seus itens antigos nesse novo armazenamento.
  • Ao final de 5 anos, faça outra avaliação completa do seu ambiente de arquivamento.
    • Quais formatos você está usando?
    • Quais são os formatos mais recentes?
    • Quais codecs parecem ser becos sem saída e que mídia você armazenou codificada dessa maneira?
    • Decida como você migrará para novos métodos de armazenamento (formatos de dados, disco / fita / algo-mais) e gastará de forma adequada.
  • Repita 6 vezes.

Isso deve levar você a 30 anos.

    
por 16.11.2010 / 07:43
11

Eu concordo totalmente com o post do sysadmin1138 em todos os aspectos - uma advertência - eu não acho que você vai ter o orçamento para realmente alcançar o que você quer.

Existem 5 funções principais que você precisa criar:

  • um conteúdo padronizado e uma política de catálogo - Eu sei que você quer armazenar tudo em um formato, mas você deve considerar dois - PDF para imagens e H.264 para vídeo - ambos são formatos de suporte de longo prazo com código multiplataforma que quase certamente será apoiado por uma ou outra parte por 25-50 anos em sua forma atual, simplesmente devido ao uso existente em todo o mundo.
  • um catálogo ou CMS para indexar e publicar o conteúdo.
  • um sistema de 'ingest de conteúdo' - isso pegará todas as suas mídias, empacota, codifica, armazena e atualiza o catálogo para cada novo conteúdo. Você precisará também de uma verificação de qualidade de conteúdo manual ou automatizada.
  • um armazenamento de conteúdo principal - isso terá dois blocos de armazenamento principais; um pequeno para manter conteúdo de origem enquanto está sendo transcodificado / verificado e um bloco muito maior para manter o conteúdo "próximo". Este é um dos únicos usos válidos para o RAID 6 que eu já vi, mas tente usar discos de qualidade empresarial que tenham um "ciclo de trabalho" 24x365 aqui.
  • sistema de backup de longo prazo - é aí que o dinheiro real será gasto, você precisará selecionar um fornecedor que ofereça capacidade de backup genuinamente de longo prazo. Se eu estivesse fazendo isso agora, eu ainda usaria fita sobre disco apenas por motivos de longevidade de dados, talvez pela IBM, já que eles têm muita experiência nessa área. Você também precisa considerar que você precisa fazer restaurações de fita regulares e verificações de dados também, o que significa que você precisará de um terceiro bloco de armazenamento pelo menos tão grande quanto a maior fita que você tem - e os sistemas para verificar também é claro. Além disso, você precisará garantir que o software de backup que você usa estará por aí por muito tempo também, algo como TAR no * nix é provável que seja em torno de um tempo, mas não pode funcionalmente dar-lhe o que você quer assim garanta que isso não seja esquecido pelo seu fornecedor de fitas.

Então, o que você quer fazer pode ser feito, eu já fiz isso várias vezes nas últimas duas décadas, mas nenhum deles foi barato.

Boa sorte.

    
por 16.11.2010 / 09:40
3

Os outros deram bons conselhos sobre como apoiar sua mídia. Sugiro que você passe algum tempo de qualidade olhando a biblioteca das diretrizes do congresso:

link

Você também pode considerar a criação de um array ZFS whitebox barato. Você provavelmente poderia fazer algo para atender às suas necessidades por menos de $ 10k. À medida que os drives morrem, substitua-os por outros maiores e, assim, sua capacidade de armazenamento aumenta à medida que você gera dados. Isso provavelmente irá mantê-lo por um bom tempo, e você pode substituí-lo por um dispositivo de maior capacidade quando ficar velho. A vantagem é que seus dados estão on-line (e, portanto, podem ser acessados conforme necessário) e estão relativamente bem protegidos contra o bitrot, um problema sério quando você tem tantos dados.

Uma opção de construção decente foi criada aqui:

link

    
por 16.11.2010 / 18:02
2

Por mais difícil que seja para os tecnólogos, recomendo que parem imediatamente os pensamentos sobre discos e tecnologia. Divida seu problema de negócios em coisas sobre as quais você tem que tomar decisões.

Exemplo:

  • Como você vai lidar com a conversão de formatos de fita digital analógica / variada em mídia digital que pode ser armazenada em algum tipo de armazenamento digital?
  • Como você vai gerenciar o conteúdo e os metadados associados? O armazenamento é fácil - você poderia colocar tudo em fita LTO e armazená-lo em uma antiga mina de sal, mas você não teria acesso aos dados.
  • Você está reinventando a roda? Se você está em uma universidade, já existem soluções para gerenciamento de conteúdo disponíveis centralmente? Ou se você precisa comprar / construir sua própria gestão de conteúdo, existe uma infraestrutura centralizada na qual você pode comprar um pedaço? (Fita, armazenamento de objetos, SAN)
  • Quais são os requisitos reais de negócios? O que você realmente quer manter e por quê? Muitas vezes, quando você realmente se interessa pelo assunto, os reais requisitos de retenção a longo prazo realmente se aplicam a apenas um pequeno subconjunto de dados.
por 16.11.2010 / 19:13
1

Lembre-se de que, se você armazenar dados em um formato com perdas e, em seguida, converter para outro formato com perdas, e depois outro, a qualidade do seu vídeo será prejudicada a cada transição.

O que se segue é sobre áudio, mas o mesmo geralmente se aplica:

You can convert any audio format to Ogg Vorbis. However, converting from one lossy format, like MP3, to another lossy format, like Vorbis, is generally a bad idea. Both MP3 and Vorbis encoders achieve high compression ratios by throwing away parts of the audio waveform that you probably won't hear. However, the MP3 and Vorbis codecs are very different, so they each will throw away different parts of the audio, although there certainly is some overlap. Converting a MP3 to Vorbis involves decoding the MP3 file back to an uncompressed format, like WAV, and recompressing it using the Ogg Vorbis encoder. The decoded MP3 will be missing the parts of the original audio that the MP3 encoder chose to discard. The Ogg Vorbis encoder will then discard other audio components when it compresses the data. At best, the result will be an Ogg file that sounds the same as your original MP3, but it is most likely that the resulting file will sound worse than your original MP3. In no case will you get a file that sounds better than the original MP3.

Since many music players can play both MP3 and Ogg files, there is no reason that you should have to switch all of your files to one format or the other. If you like Ogg Vorbis, then we would encourage you to use it when you encode from original, lossless audio sources (like CDs). When encoding from originals, you will find that you can make Ogg files that are smaller or of better quality (or both) than your MP3s.

(If you must absolutely must convert from MP3 to Ogg, there are several conversion scripts available on Freshmeat.)

link

Então, é melhor escolher um formato sem perdas, porque, depois de escolher um formato com perdas, você fica com ele.

    
por 16.11.2010 / 14:17
1

Talvez haja algo que esteja faltando, você não pode codificar tudo usando um formato aberto em que o código-fonte dos codecs esteja disponível e, em seguida, coloque tudo no Amazon S3?

Dessa forma, a Amazon precisa se preocupar com o armazenamento real dos dados e, a menos que não haja computadores que possam compilar o C / C ++ em 30 anos, você poderá obter as informações ...

    
por 16.11.2010 / 20:05