Existe algo como um contêiner hospedado em arquivo que desduplica os dados contidos nele?

3

Antecedentes

Eu tenho backups de um site que armazena todos os dados em um único arquivo. Este arquivo é vários shows grandes e eu tenho muitos backups diferentes deste arquivo. A maioria dos dados dentro é praticamente a mesma mais o que foi adicionado ou alterado para ele.

Eu quero manter todos os backups simultâneos que fiz ao longo dos anos, caso eu encontre uma surpresa horrível de corrupção de dados ao longo da linha. No entanto, armazenar um arquivo de 10gig todo mês fica caro.

Procurando solução

Eu sempre pensei em maneiras diferentes de aliviar esse problema. Um pensamento que surge com muita frequência combina a ideia de um sistema de arquivos duplicado que não requer seu próprio volume particionado em um disco rígido. Algo como o que o TrueCrypt faz, o que ele chama de "contêineres hospedados por arquivos", que, ao usar o programa TrueCrypt, permite montar e desmontar esse volume como um disco rígido comum.

Pergunta

Existe um montador de disco rígido virtual que usa o contêiner baseado em arquivo que usa o sistema de arquivos deduplicação de dados?

(Esta questão é um pouco embaraçosa para colocar em palavras, se tiver uma ideia melhor de como fazer esta pergunta, por favor, sinta-se à vontade para ajudar.)

    
por Mallow 08.11.2013 / 00:54

3 respostas

2

Use ZFS ou BTRFS filesystems ou OpenDEDUP.

Devo notar também que você pode criar "discos" em arquivos no linux e montá-los com o dispositivo de loopback ( mount -o loop ... ); assim eles sendo virtuais.

Você pode estar melhor apenas montando um arquivo ZFS formatado; já que o ZFS é muito bonito quando se trata de desduplicação. Se você não sabe como fazer isso, veja aqui .

    
por 08.11.2013 / 01:15
1

Embora não seja útil para os dados que você tem até agora, você realmente deve estar procurando por algo como rsnapshot ou mesmo simplesmente rsync para fazer backups incrementais. Embora a desduplicação seja muito brilhante e impressionante, é necessário verificar todos os blocos e compará-los. A desduplicação de arquivos semelhantes é pesada. Fazer backups incrementais no tempo de backup faz muito mais sentido.

    
por 08.11.2013 / 01:33
1

Um utilitário de correção binária pode produzir um arquivo de correção que, se a maioria dos dois arquivos forem iguais, é muito pequeno. Você pode escolher pares de arquivos, gerar um patch e excluir o destino e salvar apenas o arquivo de origem e o arquivo de patch.

Eu usei xdelta para essa finalidade.

xdelta delta JanFile FebFile JanToFebPatch

xdelta delta JanFile MarFile JanToMarPatch

Funciona bem se você fizer backup completo + vários incrementais com base no total. Várias opções para acelerar ou reduzir o uso de memória.

    
por 08.11.2013 / 03:53