Quando o RAID vale a pena?

14

Em nossa loja, estamos usando fielmente o RAID em todas as nossas estações de trabalho, provavelmente porque isso parece ser o que deve ser feito. Estou falando de estações de trabalho para simulações científicas, usando os chips RAID internos.

Mas eu ouvi muitas histórias de terror do RAID. O próprio Stackoverflow teve uma interrupção de causada indiretamente pelo controlador RAID .

O RAID protege você contra um tipo muito restrito de falha - falha no disco físico - mas, ao mesmo tempo, também introduz pontos extras de falha. Pode haver problemas com o controlador RAID e geralmente há problemas. Em nossa loja, pelo menos, parece que os controladores RAID falham pelo menos com a mesma frequência que os próprios discos. Você também pode facilmente confundir algo com o processo de trocar uma unidade defeituosa.

Quando o RAID vale a pena? Você não obtém um melhor retorno do investimento adicionando mais redundância às suas soluções de backup? Qual tipo de RAID é melhor ou pior nesse sentido?

Editar: alterei o título do original "O RAID vale a pena?", por isso parece menos negativo

    
por amarillion 30.05.2009 / 20:34

21 resposta

17

Não se preocupe, o RAID não é usado em todo o mundo dos negócios por causa do pensamento de grupo! A chance de falhas de controladores RAID decentes é muito, longe menor que a chance de uma falha no disco. Eu não me lembro de ter visto um controlador RAID falhar na vida real, enquanto eu vi muitos dados de um disco, tanto no escritório quanto no datacenter.

PS: vejo suas tags. RAID não é backup! :)

    
por 30.05.2009 / 20:45
9

ZFS por SUN (também parte do OpenSolaris; Apples OSX - atualmente somente leitura) não apenas executa raids com vários níveis, mas sempre verifica se os dados gravados no disco estão realmente lá. consistência é a chave! O RAID é inútil se você não pode confiar na sua integridade . Escolha um controlador RAID decente (prefiro o HP) e esfregue seu RAID para encontrar erros periodicamente.

O Softwareraid (como ZFS), por outro lado, torna-o mais independente do hardware se o controlador RAID morrer e você não conseguir obter uma substituição exata.

    
por 30.05.2009 / 21:10
8

Sempre. Discos são baratos, sua informação não é. Mas use o software RAID, para que você tenha a flexibilidade de avançar ou alterar o hardware mais tarde (confie em mim, você precisará dele). E também use um sistema de arquivos de soma de verificação como o ZFS, para proteger contra a corrupção de dados silenciosa (o que é muito provável com grandes discos hoje em dia).

    
por 31.05.2009 / 03:02
8

Para aqueles que estão dizendo que você não usará o RAID por hardware, porque se o controlador falhar e você não conseguir obter um substituto de identificação, você está errado do jeito errado.

  1. Se o tempo de atividade é tão importante para você, você NÃO deve comprar hardware barato. Como foi dito antes, use um bom controlador RAID, HP, LSI, Dell, etc.

  2. Se o controlador foi comprado do fabricante do computador, ou seja, o servidor Dell, com o controlador RAID da Dell, a Dell informará por quanto tempo eles estocarão essas peças, geralmente isso no prazo de 4+ anos do EOL desse servidor.

  3. Se ter alguém correndo de novo rapidamente significa que você não pode esperar pela entrega, então deve comprar um segundo controlador de reserva para si mesmo, independentemente de quem o fez.

  4. Se você configurar como RAID 1, às vezes, pode pegar uma dessas unidades e soltá-las em um controlador normal para recuperar os dados. Se isso for importante para você, confirme / teste isso com seu controlador antes de entrar em uma situação crítica.

Hardware RAID salvou minha bunda 2x. Uma vez em um servidor de e-mail, uma das unidades falhou, recebi o alerta de e-mail do software de monitoramento de invasão naquela máquina, liguei para dell e tive uma nova unidade no dia seguinte, apresentei e recriou tudo por conta própria. Tempo de inatividade ZERO naquele

Segundo, um disco falhou em um servidor de arquivos antigo que foi programado para substituição em 6 meses. O controlador manteve a execução e nós movemos a substituição do servidor até aquela semana. Salvou a compra de uma nova unidade (desde que estava fora de warrenty) e novamente o tempo de inatividade ZERO.

Eu já usei raids de software antes e eles não se recuperam tão bem quanto um hardware. Você tem que testar sua configuração, software ou hardware para ter certeza de que funciona e sabe o que fazer quando o material marrom atinge o ventilador.

    
por 31.05.2009 / 10:01
6

As falhas de disco rígido são muito mais prováveis de acontecer em um servidor do que em uma estação de trabalho de desktop ...

Você não pode simplesmente dizer "adicionar mais pontos de falha" sem levar em conta a probabilidade dessa falha. Especialmente porque esses pontos de falha menos prováveis estão especificamente no local para subverter a queda mais provável da unidade de disco rígido. Como você disse, você basicamente criou uma falácia semelhante à Aposta de Pascal .

A maioria dos sistemas RAID em placas-mãe para desktop são híbridos de software / hardware baratos com a maior parte do trabalho realizado em seu driver de software. IMHO eles são pedaços de lixo usados para vender para usuários de energia.

Por outro lado, um bom RAID de hardware real é bastante confiável, e ele tem o hardware para fazer a sua coisa sem (apesar de?) o sistema operacional. Mas eles ficam caros, porque o hardware real geralmente tem backups de bateria e uma matriz XOR completa para calcular checksums, etc. Ainda mais caro se for feito usando SCSI.

Resumo: Se você estiver executando sistemas RAID baseados em placa-mãe, não, não vale a pena.

    
por 30.05.2009 / 21:34
5

Embora os backups e RAID sejam soluções para problemas diferentes, a maioria dos "problemas de RAID" é muito semelhante ao problema de backup mais comum (ou seja, ninguém testa uma restauração) - ninguém testa a recuperação do sistema. Outros problemas de RAID são muitas vezes um resultado direto de pessoas que não entendem o que fazem e o que não fazem. Por exemplo, muitas pessoas pensam que o RAID garante a integridade de seus dados - isso não acontece.

Para estações de trabalho, se você estiver usando RAID-0 para melhorar o desempenho de aplicativos vinculados a E / S ou RAID-1/5/6 para manter um cientista de US $ 100 / hora trabalhando quando seu disco rígido de US $ 80 falhar, você está usando RAID adequadamente. Apenas não confunda a redundância de disco com o backup , e tenha os procedimentos de teste implementados para garantir que seus funcionários de TI lidem com a recuperação.

    
por 31.05.2009 / 03:18
4

Existem dois tipos de RAID

  • Um que é barato integrado. Este NÃO é um ataque real, o trabalho real é feito pelo software (o driver especial faz as computações raid). Você deve evitar este.
  • O outro é caro, mas o que você recebe é um verdadeiro ataque. Se você puder pagar, vale a pena.

Alguns sistemas operacionais têm uma boa solução de invasão de software (isso não tem nada a ver com os cartões de baixa qualidade mencionados acima). O ataque ao software Linux é especialmente bom, seu desempenho é muito bom.

O Raid só pode melhorar a confiabilidade, não é uma solução de backup. Os arquivos podem ser apagados acidentalmente, o disco defeituoso pode retornar (e duplicar) dados incorretos para outros discos em uma matriz de invasão, portanto, uma solução de backup real ainda é necessária.

    
por 30.05.2009 / 23:48
4

O RAID é ótimo para o tempo de atividade, mas não é um substituto para o backup. Como um colega uma vez comentou: "Você sabe que 'Oh, o momento em que você apagou algo acidentalmente? RAID significa que você chega a' Oh, sh! T 'mais de uma unidade ao mesmo tempo."

Dito isto, o dia em que você entra com a cabeça no escritório de seu chefe e diz a ela: "A propósito, o servidor de banco de dados teve uma pane no disco rígido na noite passada - nós nunca caímos, ele acabou de ser reconstruído 5 da manhã e enviei a unidade defeituosa em garantia "- é quando o RAID não tem preço.

    
por 06.06.2009 / 05:22
2

Qual é a sua taxa de falhas em discos rígidos e controladores RAID? A falha no controlador de ataque deve ser bem menor que os discos. Se você tem uma alta taxa de falhas, pode querer olhar para o seu ambiente, como descargas estáticas que podem estar causando problemas.

Para estações de trabalho, você pode querer usar a invasão de software, como sugerido pela Alakdae, porque você não precisa se preocupar em manter estoques do controlador de hardware preciso. No entanto, você deve ter todas as informações vitais armazenadas em seus servidores que possuem invasão de hardware e são copiadas para diferentes mídias.

Os fabricantes de hardware de servidor mantêm os controladores RAID, então, mesmo que seja um controlador mais antigo, normalmente você ainda pode obtê-lo se precisar (ele custará a você um belo centavo).

    
por 30.05.2009 / 22:00
2

Parece que muitas das postagens acima estão esquecendo a pergunta original e estão apenas debatendo sobre o RAID 1. A pergunta era "Quando o RAID vale a pena?" Bem, isso depende ... Se seus desenvolvedores fizerem muitos dados, leia & escreve com suas estações de trabalho do que uma configuração RAID 0 valeria a pena. Adicionar mais unidades a este RAID 0 irá, naturalmente, aumentar a velocidade e o desempenho, MAS aumentará a probabilidade de uma falha (disco ou controlador).

Eu trabalho para uma Escola de Enfermagem com cerca de 500 máquinas Dell implantadas e quase nenhuma delas utiliza qualquer tipo de RAID. Parece-me que o meu tipo de usuários não verá benefícios suficientes para adicionar a complexidade de um sistema RAID em cada máquina. Preocupo-me mais com a recuperação de dados e imagens de disco do que com a velocidade do RAID 0 ou com a redundância do RAID 1. É claro que não estou falando sobre nossos servidores de produção, isso é outra história. Como a recuperação de dados é crucial, confiamos em outros métodos de backup para compensar mais do que apenas a redundância de disco. Qualquer tipo de RAID não o ajudará se um usuário excluir acidentalmente um arquivo.

Então, para responder à sua pergunta IMHO ... RAID 0 em uma estação de trabalho vale a pena quando o usuário precisa do desempenho. (Apenas certifique-se de que todos os dados importados sejam copiados para backup). Tenho certeza de que você pode verificar a taxa de transferência de dados na configuração existente para ver se ela é adequada. O RAID 1 deve ser usado no ambiente do servidor, onde controladores RAID de classe superior estão disponíveis. Não vale a pena o hassel em uma estação de trabalho porque isso complica a implantação, a geração de imagens de disco e os reparos. Muitas dessas estações de trabalho vêm com controladores RAID construídos na placa-mãe. É uma boa sensação saber se uma placa-mãe sai em uma máquina. Sempre posso colocar a unidade em outro sistema para obter os dados.

    
por 10.11.2010 / 04:10
2

O RAID de software Linux é excelente e, na verdade, supera as opções de RAID de hardware de baixo custo. Ele também possui algumas otimizações que podem ser úteis para uma estação de trabalho. Por exemplo, ele pode ler coisas diferentes em cada disco ao mesmo tempo, duplicando efetivamente os tempos de leitura de acesso aleatório, que é um caso de uso comum diferente das operações vinculadas à taxa de transferência otimizadas por RAID 0 .

Quanto à confiabilidade, é uma parte muito bem mantida do kernel do Linux, usada por milhões, que lida muito bem com falhas de hardware, então é claramente uma vitória no que diz respeito à disponibilidade. Eu tenho usado em minhas estações de trabalho pessoais, bem como algumas dezenas de servidores low-end há anos, alguns muito carregados e nunca poderia atribuir qualquer falha. Eu experimentei uma boa dúzia de discos quebrados, entretanto.

(As placas RAID de hardware de extremidade superior têm outros recursos, como cache de gravação suportado por bateria. Basicamente multiplica a velocidade de gravação de disco sincronizada aleatória por dez. É absolutamente necessário para bancos de dados, provavelmente inúteis para estações de trabalho).

    
por 31.05.2009 / 14:43
1

Acabei de falhar os controladores RAID em dois servidores (idênticos), uma vez que obtivemos essas duas máquinas e não tivemos uma falha no disco rígido em toda a empresa.

Acho RAID no desktop é uma má idéia, os controladores RAID baratos que você vai colocar nessas máquinas vão falhar muito antes do disco rígido real.

Nos servidores, talvez, eu não confie nos controladores RAID novamente, verifique se você tem uma máquina reserva e bons backups.

    
por 30.05.2009 / 22:27
1

Eu sou um desenvolvedor e todas as nossas estações de trabalho usam RAID para as unidades internas. RAID 0. Isso definitivamente vale a pena. Você nunca mais vai querer voltar a compilar a partir de uma única unidade de 7200 RPM depois de ter experimentado um par de 15000s.
Eu fui desafiado se é o RAID ou a unidade de 15k que está tornando os tempos de compilação mais curtos. Eu não sei, para compilar um único disco rápido pode dar exatamente o mesmo desempenho. No entanto, uma única unidade SAS não é particularmente grande para um PC moderno, portanto, RAID embutido dispendioso ainda tem um lugar. Isso e eu duvido que o RAID vá prejudicar o desempenho do sistema.
Eu acho que este tipo de RAID é certamente apropriado para uma estação de trabalho e provavelmente é melhor feito usando os controladores on-board de baixo custo. Do lado do servidor, a maioria dos nossos servidores tem alguma forma de matriz RAID para o disco do sistema operacional e os dados estão em uma matriz separada de algum formato apropriado. Eu não sei sobre nossos servidores de produção, mas nossos servidores dev (dos quais temos uma quantidade justa) nunca tiveram um controlador com falha, mas tivemos falhas nos drives. Em um caso, tivemos metade da matriz do sistema operacional falhar em uma caixa de SQL, enquanto ele estava reconstruindo, o outro disco falhou! Às vezes o RAID1 não é suficiente!

    
por 31.05.2009 / 00:21
1

Para suas estações de trabalho científicas, pode valer a pena se esses sistemas funcionarem melhor com seus dados armazenados localmente, ao contrário de um compartilhamento em um servidor de arquivos. Para a população em geral, no entanto, eu diria que não. Não vale a pena o incômodo e dor de cabeça quando tudo o que você realmente precisa é restaurar os dados que devem ser mantidos em compartilhamentos.

    
por 31.05.2009 / 17:56
1

O RAID só é útil quando você absolutamente não consegue que o servidor desça inesperadamente. Usamos o RAID em todos os nossos servidores em nosso datacenter, onde não há outra forma de redundância. Por exemplo, não usamos RAID em nossos servidores, porque há outros 10 ainda funcionando.

O teste decisivo é "se um disco quebra no meio da noite e não pode esperar até 9h, ele precisa de RAID"

    
por 03.06.2009 / 01:51
1

O RAID vale a pena quando você tem um controlador com bateria.

Para aplicativos de servidor que freqüentemente registram arquivos de log fdatasync () (o que não é incomum em bancos de dados) para durabilidade, você acabará escrevendo os mesmos blocos repetidamente. Isso matará o desempenho do IO se você não tiver um controlador com bateria.

Se você tiver um controlador com bateria, muitas das gravações nem chegarão aos discos, ficando na memória até que sejam substituídas por outra. Isso é uma coisa boa.

A redundância é um bônus, mas não essencial, pois as coisas importantes devem ser redundantes no nível do sistema.

    
por 03.06.2009 / 22:32
1

Implementações baratas de RAID são terríveis.

Suas escolhas são, por ordem de confiabilidade:

1) HP DL servers with their hardware RAID.
2) 3Ware RAID cards.
3) ZFS
4) Linux Software Raid

Qualquer outra coisa está causando problemas e, de fato, pode resultar em menor confiabilidade geral do que uma solução não-RAID.

Considere o que fazer se o seu controlador falhar e o fabricante estiver fora do negócio.

Considere se você pode se recuperar de uma aparente falha de disco duplo causada por problemas de energia / cabeamento.

Esses são dois exemplos entre centenas.

    
por 06.06.2009 / 02:33
1

Para estações de trabalho O RAID provavelmente não vale a pena comparado a ter um novo sistema no qual os dados podem ser restaurados ...

Muitos estavam falando sobre o RAID 0 ... isso não está disponível para ajudar na disponibilidade. Você está dobrando as chances do volume falhar, já que uma vez que uma unidade morre, você perde a coisa toda. RAID 0 é apenas sobre jogar com velocidade de acesso a leituras / gravações em um volume e dar mais armazenamento. A única maneira de isso ajudar em um ambiente de negócios é obter dois RAID 0s e espelhá-los como RAID 1.

O RAID não é uma solução de backup, como foi apontado.

O RAID também não é perfeito. Acho que este post do blog desse cara resume o que sinto sobre o RAID e quando vale a pena: Pensando em RAID?

Em uma estação de trabalho, você deve conseguir que uma pessoa use outro sistema enquanto uma substituição é lançada. Por que usar o RAID? Seus dados devem ser armazenados no servidor, onde o gerenciamento, a integridade dos dados e os backups são centralizados. A estação de trabalho deve ser configurada para ser periodicamente atualizada ou alterada conforme as finanças permitirem e o RAID é apenas outra camada de custo e dor de cabeça para gerenciar (além de problemas de uso de energia e aquecimento com unidades adicionais e imposição de fluxo de ar). Na maioria dos casos, para empresas, é provavelmente muito mais econômico colocar o dinheiro de um cartão RAID em uma unidade maior, e se você estiver usando o RAID integrado, ainda terá problemas, pois ele tende a vincular o RAID formato para a placa-mãe (e não é verdade RAID de qualquer maneira ... é encontrado em buscas no Google como "fake raid".) A menos que você tenha uma placa-mãe muito parecida para substituir uma quando ficar ruim você pode não ser capaz de voltar Volume RAID!

    
por 24.07.2009 / 17:45
0

Por que se preocupar em uma estação de trabalho? Certamente você tem todos os diretórios de sua casa e os dados armazenados centralmente. É aí que você quer usar o RAID.

    
por 30.05.2009 / 20:58
0

Se você se preocupa com a falha de um controlador de unidade, também precisa considerar a falha do servidor - ventiladores, placa-mãe, RAM, rede ... e também é necessário considerar a falha do roteador, o cabeamento e a energia. .. e você também precisa considerar a falha do datacenter (flood, fire, human error), e então você precisa considerar a falha da rede externa (corte de cabos - o tempo todo em alguns lugares!).

Em suma, você pode se preocupar com o tempo de inatividade do site tanto que você nunca se incomodaria em colocar nada online! Ou você poderia fatorar o risco de falha contra o custo da redundância e obter uma abordagem muito mais realista. E de todas as coisas que listei, o disco rígido é o único ponto de falha mais provável.

Próximo ao erro humano, isso é. Quem tipo " shutdown -h now " quando eles queriam reiniciar ....: (

    
por 03.06.2009 / 21:21
0

Minha grande preocupação é com os discos, pois parece que você não pode comprar os preços baixos:

Um importante fornecedor observa:

'A maioria dos controladores RAID são projetados para tempo limite de um determinado comando se a unidade de disco não responder dentro de um determinado período de tempo. O resultado será que a unidade aparecerá off line ou será marcada como ruim e um alerta será dado ao cliente. As unidades de classe empresarial (ou unidades projetadas para ambientes RAID) têm um limite de tentativas antes de um setor ser marcado como ruim. Esse limite de nova tentativa permite que a unidade responda ao controlador RAID dentro do prazo esperado. Embora as unidades de desktop possam funcionar com um controlador RAID, a matriz ficará progressivamente fora de linha à medida que a unidade de disco envelhece e pode resultar em perda de dados. '

Isso parece uma loucura para mim, outra pegadinha que garante que os fornecedores de discos recebam muitos retornos de pessoas que "não sabem melhor". No entanto, eu li que o Google fez um whitepaper (não pode encontrá-lo) que mostra que não há diferença na confiabilidade da unidade entre as duas 'classes' oferecidas pelos fornecedores de armazenamento. Duvido que o Google use controladores de RAID de hardware em sua frota de caixas bege.

Talvez o mdadm (em raids linux) tenha configurações que podem ser usadas para lidar com as configurações mais impacientes em firmwares de unidade de desktop?

Talvez, na realidade, todos estejam pagando por sua garantia por meio de um período de 'tempo limite' no firmware do controlador?

    
por 09.11.2010 / 23:27