A desduplicação é onde você observa o conteúdo de um conjunto de dados, observa todos os bits duplicados presentes e armazena os dados apenas uma vez, substituindo todas as cópias de dados que estavam com um ponteiro de volta para a única cópia. É particularmente útil com backups, porque quando você faz backup de coisas como servidores, muitos dos dados são os mesmos. Imagine, por exemplo, que você está fazendo backup de 1.000 servidores Windows - grande parte do conteúdo dessas caixas será idêntico.
A desduplicação é tão popular hoje por três motivos:
-
Ultimamente, todos estão obcecados em criar soluções de recuperação de desastres que utilizam servidores externos. Para fazer isso, você precisa replicar muitos dados de produção para o site remoto e a largura de banda é um problema enorme. Qualquer redução na quantidade de dados que você precisa replicar ajuda muito.
-
A quantidade de dados que as empresas estão retendo está explodindo - graças ao armazenamento mais barato e aos requisitos de vários setores para a retenção de registros.
-
A tecnologia recentemente atingiu o ponto ideal. Tivemos coisas como a desduplicação por um longo tempo (armazenamento de instância única, etc.), o que ajudou, mas apenas no último ano vimos uma desduplicação real que pode reduzir significativamente a quantidade de armazenamento que atingiu o mainstream.