Opções de otimização de capacidade / desduplicação para armazenamento primário

5

Estou explorando opções para usar de forma mais eficiente nosso armazenamento principal.

Nosso NAS atual é um HP ProLiant DL380 G5 com um HP Storageworks MSA20 e uma outra prateleira de disco que não sei ao certo.

A grande maioria dos nossos arquivos são arquivos PDF (centenas de milhões deles), com um alto grau de similaridade.

Em uma opinião especializada de George Crump (com referência na Central de Deduplicação do Data Domain , na seção sobre granularidade, ele diz: "Para ser eficaz, a desduplicação de dados precisa ser feita em um nível de sub-arquivo usando segmentos de tamanho variável."

Isso é difícil de encontrar, mas exatamente o que eu preciso. A maioria das opções de desduplicação parece ser baseada em blocos, o que funciona muito bem para minimizar a quantidade de backups espaciais, já que apenas os blocos alterados são armazenados, mas as técnicas baseadas em blocos não localizam segmentos idênticos localizados em diferentes deslocamentos dentro dos blocos de nossos blocos. PDFs.

Eu encontrei Ocarina Networks outro dia, que parece exatamente o que precisamos.

Visão geral do relatório de laboratório do Storage Switzerland - a desduplicação do armazenamento primário compara a Ocarina Networks e a NetApp como sendo "duas das líderes na desduplicação de armazenamento primário".

Idealmente, gostaríamos de continuar usando nosso NAS atual, mas com muito mais eficiência.

A outra solução que encontrei é Storwize , que parece executar compactação inline de single arquivos, integrando com soluções de deduping.

Que outras soluções e recursos informativos existem?

    
por Stephen Denne 01.05.2009 / 10:41

6 respostas

4

Descobri que a maioria das soluções de caixa preta para desduplicação não são tão eficazes ou tão eficientes quanto as criadas diretamente no armazenamento.

Por exemplo, um dispositivo black-box dedupe exigirá que todos os seus dados passem por ele em ambas as direções antes de acessar qualquer armazenamento genérico que você esteja usando, processando tudo para dupe, enquanto storage arrays como NetApp, O Data Domain, e muitos outros, permitem que você controle a deduplicação em uma base por volume, e todo o processamento é feito no próprio controlador.

Se você estiver usando o armazenamento não-inteligente existente, mas empregando uma solução na frente dele, eu recomendaria domínio de dados, mas honestamente eu o encorajaria a atualizar para um sistema de armazenamento diferente que pode desmontar internamente.

Eu procuraria no NetApp V-Series dos controladores de armazenamento. Eles permitem que você conecte um controlador de disco inteligente ao hardware existente na prateleira de disco que você já possui.

    
por 13.05.2009 / 19:39
2

A tecnologia que você está procurando é chamada de desduplicação, e há uma tonelada de fornecedores oferecendo dedupe.

Se você estiver usando uma SAN, ligue para o fornecedor da SAN e eles ficarão viciados tentando vender suas opções de desduplicação.

Aqui está um bom recurso sobre como começar a dedupe:

link

    
por 05.05.2009 / 14:34
2

Eu conheço bem a faixa da MSA e acho que você terá dificuldades para deduzir o que você tem, para começar a deduzir é um trabalho razoavelmente lento e com uso intensivo de IO que é melhor feito pelos controladores SAN / NAS reais. É um pouco diferente em um cenário de backup, pois o servidor de mídia de backup pode se desdobrar, mas com dados em tempo real é importante manter a integridade dos dados e o desempenho geral, e não tenho certeza se há algo disponível como 'add-on' Vou realmente te dar o que você precisa.

    
por 06.05.2009 / 00:17
1

Vale notar que o sistema Ocarina vasculha um sistema de arquivos original e verifica se um arquivo corresponde a uma política. Se isso acontecer, a caixa Ocarina expande o arquivo e aplica seus algoritmos de compactação proprietários. Em seguida, ele grava esse novo arquivo em um novo sistema de arquivos diferente, opcionalmente excluindo o arquivo original.

Aparentemente, o lado da leitura pode ser configurado com um sistema de arquivos de fusíveis que podem ser interceptados pelo fusível para usar a versão "otimizada" de modo que pareça muito mais transparente do que o vendedor original descrito.

    
por 24.06.2009 / 22:51
1

Lista de Alvos de disco para arquivos

da Central de backup

(Não confunda com a lista mais extensa de Alvos de disco para backup )

    
por 05.05.2009 / 23:04
0

O FILEminimizer Server da balesio é uma solução somente de software que otimiza sua pilha de arquivos de imagem e do Office preservando o formato de arquivo nativo. Você pode liberar até 70% da capacidade de armazenamento atualmente ocupada por esses arquivos. www.balesio.com/fileminimizerserver

    
por 12.07.2010 / 11:50