A desduplicação funciona em um nível de bloco. Se você tiver arquivos com conteúdo idêntico, mas com metadados diferentes, supondo um sistema totalmente desduplicado, todo o conteúdo será armazenado apenas uma vez. Mesmo que os arquivos sejam apenas parcialmente idênticos, a desduplicação pode economizar espaço. Por exemplo, se você tivesse blocos de dois bytes e arquivos contendo
file1 = ABCD
file2 = AABAAB
file3 = AAB
eles seriam armazenados em 5 blocos:
file1 = block1,block2
file2 = block3,block4,block1
file3 = block3,block5
Se você tiver diretórios idênticos (ou seja, diretórios contendo arquivos com os mesmos nomes e os mesmos números de inode, por exemplo, como resultado de cp -al
ou um backup incremental de desduplicação no nível de arquivo), eles também podem ser armazenados no mesmo blocos.