configuração de 24 TB RAID 6

7

Estou encarregado de um novo site em um nicho de mercado que armazena muitos dados (10+ TB por cliente, crescendo para 2 ou 3 clientes em breve). Estamos considerando encomendar cerca de US $ 5.000 em unidades de 3 TB (10 em uma configuração RAID 6 e 10 em backup), o que nos dará aproximadamente 24 TB de armazenamento de produção. Os dados serão gravados uma vez e permanecerão inalterados durante a vida útil do site, portanto, só precisamos fazer um backup uma vez.

Eu entendo a teoria básica de RAID, no entanto, não tenho experiência com isso. Minha pergunta é, isso soa como uma boa configuração? Quais possíveis problemas essa configuração pode causar?

Além disso, qual é a melhor maneira de fazer um backup único? Tem dois arrays RAID 6, um para backup externo e outro para produção? Ou devo fazer backup do array de produção do RAID 6 para um JBOD?

EDITAR: O servidor de dados está executando o Windows 2008 Server x64.

EDIT 2: Para reduzir o tempo de recriação, o que você acha sobre o uso de dois RAID 5 em vez de um RAID 6?

    
por Phil 06.06.2011 / 18:59

8 respostas

16

Atualmente suporto 220 servidores de até 96 TB (totalizando 2 PB ou mais), alguns em clusters de até 240 TB, que minha equipe construiu. Aqui estão meus conselhos:

  • use um controlador RAID de hardware bom e confiável: as opções possíveis são 3Ware 96xx ou 97xx, LSI 92xx, Areca 16xx, Adaptec 5xx5 ... É claro que, com uma unidade de backup de bateria, ocorrem falhas de energia às vezes.
  • use apenas unidades de nível profissional, com suporte para operação 24/24 e 7/7; não use unidades desktop baratas . Você não quer perder 100.000 dólares em dados porque escolheu economizar 20 dólares por unidade.
  • Quanto maiores as unidades, maior a reconstrução. 3 TB vai precisar de pelo menos 12 horas no melhor dos casos. Use o RAID-6 para proteção confiável.
  • as unidades falham. Até 5% ao ano; nem sonhe em usar o JBOD, mesmo para backup. Este é um conselho muito ruim. Use o RAID-6.
  • O RAID-5 é obsoleto, simplesmente não o utilizamos em unidades com mais de 300 GB. Veja este posto de especialista, por exemplo . Eu mencionei que você deveria usar o RAID-6?
  • Por apenas 24 TB, eu ficaria com 2 TB drives; há um prêmio de 10-15% sobre 3 TB; mais fusos fornecerão melhor desempenho, reconstrução mais curta e melhor segurança, porque as unidades estão disponíveis por um longo tempo e são realmente muito confiáveis.
  • Você poderia comprar um excelente chassi Supermicro, AIC ou equivalente de 3U com 16 slots de acionamento, preenchidos com unidades de 2 TB (RAID-6 + hot spare) que forneceriam exatamente 24 TiB de espaço disponível e fontes de alimentação redundantes.
por 06.06.2011 / 23:02
5
Honestamente, acho que $ 5k para as unidades é um pouco íngreme ... mas isso é um assunto totalmente diferente. A configuração soa como som suficiente, mas no caso de uma falha na unidade ... ter um volume único de 24 TB levará a FOREVER a reconstruir. (já tentou ler 3tb de dados divididos em outros 9 discos?) Seria melhor ter conjuntos de raids menores e juntá-los para formar um volume maior. Se uma unidade falhar, ela não mata o desempenho do volume inteiro enquanto a coisa toda é reconstruída ... mas apenas o desempenho do conjunto de ataque.

Além disso, dependendo do site em que o seu site é executado ... (Linux / Windows / OSX / Solaris / ???) também pode ditar quais ferramentas você usa e a configuração que você usa.

O que você quer dizer com "backup único"? Se você quis dizer um "arquivo unidirecional" ... (ou seja, novos arquivos são gravados no servidor de backup ... mas nada é lido a partir dele), eu recomendo usar o rsync em ambientes com * nix (linux / unix / etc ...) ou se é baseado no IIS (windows) use algo como synctoy ou xxcopy. Se você precisar de uma cópia LIVE (0 atraso entre o momento em que um arquivo é gravado e quando ele aparece em outro servidor), você precisará fornecer mais informações sobre o seu ambiente. Linux e & O Windows funciona completamente diferente e as ferramentas são 100% diferentes. Para coisas assim, você provavelmente vai querer olhar para os sistemas de arquivos em cluster e provavelmente deve procurar mais em uma SAN do que em armazenamento baseado em host.

    
por 06.06.2011 / 19:11
4

Em geral, usamos RAID5 ou 6 para discos de backup, pois ele fornece o melhor custo-benefício, uma vez que você ignora o RAID 0 :-), então eu prefiro isso em vez de JBODs

Uma coisa que você pode considerar é comprar seus discos em lotes separados, em vez de todos os 20 de uma só vez, como se houvesse um defeito de fabricação em um lote, eles podem falhar em momentos semelhantes.

Você também pode considerar o uso de espelhamento em vez de backups convencionais se os dados estiverem sendo gravados apenas uma vez - existem vários sistemas de armazenamento de software e hardware que permitem a configuração e você também pode obter o benefício de failover no caso de falha no armazenamento principal.

    
por 06.06.2011 / 19:08
2

Uma opção que se ajusta bem ao seu caso de uso, especialmente se suas necessidades continuarem crescendo, é um HSM (Hierarchical Storage Manager). Eu instalei vários HSMs com até 150 TB de disco e 4 GB de fita.

A ideia é que um HSM gerencie o ciclo de vida dos dados para reduzir o custo geral de armazenamento. Os dados são inicialmente armazenados em disco, mas quase imediatamente arquivados em fita (o que é muito mais barato por byte). Políticas de arquivamento podem ser configuradas para armazenar várias cópias em fita para maior segurança, e a maioria das pessoas tira uma segunda cópia do site externo. A migração de e para a fita é transparente para o usuário final - os arquivos ainda aparecem no sistema de arquivos.

Quando o usuário final solicita o arquivo no futuro, os dados são automaticamente recuperados da fita e exibidos ao usuário. Com uma biblioteca de fitas, o processo de teste adiciona apenas cerca de um minuto ao tempo de recuperação.

Um grande benefício de um HSM é o tempo de recuperação se seus discos falharem ou se você tiver corrupção do sistema de arquivos. Se você já teve um disco catastrófico ou falha no sistema de arquivos, é possível encontrar mais algum disco e restaurar um backup recente dos metadados do sistema de arquivos (uma pequena fração do volume total de dados). Nesse ponto, todos os dados estão disponíveis sob demanda, como de costume.

    
por 07.06.2011 / 04:52
1

Ao determinar a configuração do raid para um san, você precisa se preocupar com o desempenho, a confiabilidade e o tempo de recuperação necessários. Como você dobra o número de gravações de paridade (dependendo do seu tipo particular de invasão seis), geralmente é melhor em um san com ASICs personalizados fazer os cálculos. Como os seus dados são estáticos, sua preocupação real é quanto tempo você pode se dar ao luxo de estar em um estado degradado se uma unidade falhar. Também é importante observar que as unidades tendem a falhar em múltiplos, por isso é melhor instalar unidades com algum tempo entre as configurações.

No que diz respeito aos backups, não vejo necessidade de redundância no conjunto de backup, portanto, o JBOD é bom

    
por 06.06.2011 / 19:26
0

Atualmente, tenho sistemas de arquivos nesse intervalo de escala, atualmente totalizando 58 TB no local, além de uma cópia externa separada.

Eu tive algumas falhas no drive e, sim, quanto maior o drive, maior a reconstrução. Para aliviar um pouco, divido o armazenamento em vários RAIDs, cada um com 5-7 drives. É atualmente RAID5, mas quando eu recebo drives de 3 TB, eu pretendo começar a usar o RAID6.

Tudo é juntado e recriado com o LVM, por isso não preciso pensar no que vai a seguir, basta adicionar caixas extras quando necessário e remover as unidades antigas quando elas são pequenas demais para justificar os slots que ocupam.

O Hardware é em grande parte Coraid AoE boxes (mas alguns targets iSCSI irão se juntar em breve), gerenciado com LVM, os sistemas de arquivos são Ext3 / 4 se abaixo de 4-6 TB, ou XFS se acima (até 34TB, atualmente). Todo o backup é tratado com rsync e DVD para arquivamento offline.

Além de algum software de monitoramento (principalmente o Zabbix), é uma configuração quase livre de manutenção.

    
por 06.06.2011 / 19:52
0

Outro ponto a acrescentar ao que todos estão dizendo aqui. Com o Windows e sistemas de arquivos enormes, se você decidir quebrar um sistema de arquivos, mas quiser manter a mesma estrutura de arquivos que você teria, veja a montagem dessas unidades em caminhos de pasta.

link

    
por 06.06.2011 / 21:37
0

Surpreende-me que ninguém tenha sugerido o uso de MogileFS (github ).

O MogileFS espelha os dados em diferentes servidores automaticamente e cada disco é apenas um disco estúpido "JBOD". Existem muitas instalações de produção com muitos TBs (100+) de dados.

Para o hardware do servidor, há muitas opções para "muitos discos em um gabinete". Por exemplo, um Pod do Backblaze (um pouco de faça-você-mesmo / sem suporte, relativamente) ou um servidor Super Micro (usamos Silicon Mechanics . Acredito que no wordpress.com eles usam 2U regulares Servidores Dell com gabinetes MD1000 para os discos.

    
por 26.03.2012 / 05:17