Deduplicação e redução de custos em armazenamentos de objetos IaaS (Blobs S3 / Azure)

3

Algum dos armazenamentos de objetos IaaS comerciais (S3, Azure Blobs etc.) evita cobranças várias vezes para armazenar dados duplicados (arquivos idênticos ou partes de arquivos)? Por exemplo, temos um conjunto de dados de tweets de 15 TB e um de nossa equipe deseja fazer uma cópia e, em seguida, fazer algumas modificações nos dados. Seremos cobrados por 30 TB de armazenamento?

Existe uma boa maneira de encontrar fragmentos duplicados nesses grandes armazenamentos de objetos ou de compactar grandes conjuntos de dados no local? Podemos substituir arquivos duplicados por algum tipo de link simbólico?

    
por Jedi 22.12.2016 / 18:18

2 respostas

4

Os provedores de armazenamento (pelo menos, AWS, Google e Microsoft) não realizam deduplicação e / ou compactação em objetos blob. Isso leva a atrasos imprevisíveis, aumento do jitter e aumento do consumo de RAM. Para não dizer que é impossível implementar uma boa estratégia de faturamento nesse cenário, e desduplicar objetos em vários servidores / zonas de disponibilidade é um enorme desafio tecnológico.

Você pode implementar a compactação no seu lado. A desduplicação é mais difícil porque você precisará manter o middleware com tabelas de hash e assim por diante.

Outra abordagem poderia estar usando o ZFS nas instâncias do EC2 em vez do S3. Você pode anexar volumes do EBS e montá-los como volumes do ZFS, e o ZFS tinha recursos incorporados para compactação e desduplicação. Se você precisar desses arquivos / objetos em várias instâncias do EC2, poderá sempre exportar e importar o ZFS como compartilhamento NFS. Mais uma vez, a desduplicação exigirá RAM adicional .

    
por 22.12.2016 / 20:12
4

Você pode usar a deduplicação no local, que pode ser executada por algumas soluções de backup, Veeam , por exemplo link , e envia dados deduzidos para a nuvem, economizando assim a largura de banda da rede. Pode ser útil especialmente se a recuperação no tempo for crítica.

Temos uma quantidade bastante grande de VMs em execução em nossa produção atm e usando o Veeam e o Starwind, por isso acho que é um caso semelhante. Também testou outras soluções, por ex. MS DPM e Backup Exec, mas a Veeam mostrou melhores resultados.

    
por 30.12.2016 / 10:56