Os provedores de armazenamento (pelo menos, AWS, Google e Microsoft) não realizam deduplicação e / ou compactação em objetos blob. Isso leva a atrasos imprevisíveis, aumento do jitter e aumento do consumo de RAM. Para não dizer que é impossível implementar uma boa estratégia de faturamento nesse cenário, e desduplicar objetos em vários servidores / zonas de disponibilidade é um enorme desafio tecnológico.
Você pode implementar a compactação no seu lado. A desduplicação é mais difícil porque você precisará manter o middleware com tabelas de hash e assim por diante.
Outra abordagem poderia estar usando o ZFS nas instâncias do EC2 em vez do S3. Você pode anexar volumes do EBS e montá-los como volumes do ZFS, e o ZFS tinha recursos incorporados para compactação e desduplicação. Se você precisar desses arquivos / objetos em várias instâncias do EC2, poderá sempre exportar e importar o ZFS como compartilhamento NFS. Mais uma vez, a desduplicação exigirá RAM adicional .