Como eu suspeitava, ele é baseado no subsistema VSS ( source ) que também explica sua natureza assíncrona. Os pedaços de desduplicação são armazenados em \System Volume Information\Dedup\ChunkStore\*
, com configurações em \System Volume Information\Dedup\Settings\*
. Isso tem impactos significativos sobre como o software de backup interage com esses volumes, o que é explicado no artigo vinculado (em resumo: sem o suporte a dedupe, os backups terão o mesmo tamanho de sempre). a loja de dedupes muito menor).
Quanto aos métodos utilizados, o melhor que pude encontrar foi um trabalho de pesquisa publicado por um pesquisador da Microsoft em 2011 ( source , fulltext ) em a conferência Usenix FAST11. A seção 3.3 entra em Deduplicação no armazenamento primário . Parece provável que esses dados tenham sido usados no desenvolvimento do recurso de desduplicação do NTFS. Esta citação foi usada:
The canonical algorithm for variable-sized content-defined blocks is Rabin Fingerprints [25].
Existem muitos dados no jornal para analisar, mas a complexidade do conjunto de ferramentas que eles usaram, combinada com os recursos que já conhecemos em 2012, sugere strongmente que o raciocínio no artigo foi usado para desenvolver os recursos . Não sei ao certo sem artigos do msdn, mas isso é o mais próximo que provavelmente chegaremos no momento.
As comparações de desempenho com o ZFS terão que esperar até que os comparadores de desempenho concluam isso.