Detalhes técnicos para o recurso de desduplicação do Server 2012

Question

Detalhes técnicos para o recurso de desduplicação do Server 2012

#1 resposta do (9 votos)

12

Agora que o Windows Server 2012 vem com recursos de desduplicação para volumes NTFS , estou tendo É difícil encontrar detalhes técnicos sobre isso. Eu posso deduzir da documentação do TechNet que a ação de deduplicação em si é um processo assíncrono - não muito diferente de como o SIS O Groveler costumava funcionar - mas praticamente não há detalhes sobre a implementação (os algoritmos usados, os recursos necessários, até mesmo as informações sobre considerações de desempenho nada mais são do que recomendações de estilo regra-de-polegar).

Insights e ponteiros são muito apreciados, uma comparação com a eficiência de desduplicação do Solaris para um conjunto de cenários seria maravilhosa.

zfs windows-server-2012 deduplication

por the-wabbit 26.10.2012 / 16:59

1 resposta

Tags zfs windows-server-2012 deduplication

Gerenciamento central de licenças da Microsoft A autenticação do Windows continuou pedindo nome de usuário / senha

score 9 · Accepted Answer

Como eu suspeitava, ele é baseado no subsistema VSS ( source ) que também explica sua natureza assíncrona. Os pedaços de desduplicação são armazenados em \System Volume Information\Dedup\ChunkStore\* , com configurações em \System Volume Information\Dedup\Settings\* . Isso tem impactos significativos sobre como o software de backup interage com esses volumes, o que é explicado no artigo vinculado (em resumo: sem o suporte a dedupe, os backups terão o mesmo tamanho de sempre). a loja de dedupes muito menor).

Quanto aos métodos utilizados, o melhor que pude encontrar foi um trabalho de pesquisa publicado por um pesquisador da Microsoft em 2011 ( source , fulltext ) em a conferência Usenix FAST11. A seção 3.3 entra em Deduplicação no armazenamento primário . Parece provável que esses dados tenham sido usados no desenvolvimento do recurso de desduplicação do NTFS. Esta citação foi usada:

The canonical algorithm for variable-sized content-defined blocks is Rabin Fingerprints [25].

Existem muitos dados no jornal para analisar, mas a complexidade do conjunto de ferramentas que eles usaram, combinada com os recursos que já conhecemos em 2012, sugere strongmente que o raciocínio no artigo foi usado para desenvolver os recursos . Não sei ao certo sem artigos do msdn, mas isso é o mais próximo que provavelmente chegaremos no momento.

As comparações de desempenho com o ZFS terão que esperar até que os comparadores de desempenho concluam isso.