mdadm 3-way RAID 1 - boa solução para garantia de tolerância a falhas de 2 unidades?

3

Um RAID1 de 3 vias usando o mdadm é uma boa solução para sustentar falhas de duas unidades sem a falha do RAID? Eu sei que isso custa extra no sentido de apenas ser capaz de usar 1/3 do espaço em disco (1 das 3 unidades), mas e além disso?

    
por sa289 06.04.2015 / 23:03

5 respostas

8

Para ter um único array com capacidade de falha de 2 discos, você tem duas opções:

  • RAID1 de três vias , conforme sugerido
  • RAID6 , como outra possibilidade.

Qual é a melhor escolha? Depende do que você está tentando alcançar.

  • Se você quiser uma configuração que ofereça a possibilidade de remover um disco, instalá-lo em outro computador e ainda ser capaz de ler seus dados, use RAID1 .
  • se você quiser expandir sua matriz e ganhar espaço adicional a cada vez, use RAID6

Uma nota sobre a degradação do desempenho do RAID1: ele não depende do congestionamento do barramento, em vez de como o tempo médio de busca do disco é influenciado por gravações múltiplas. Tempo de busca de disco é composto de duas partes diferentes: procurar latência (o tempo que a cabeça precisa para alcançar o ângulo correto) e atraso rotacional (o tempo que o disco precisa girar para a posição correta).

Quando vários discos estão envolvidos em gravações múltiplas e idênticas, o atraso rotacional medido pelo host será o pior de todos os discos envolvidos. O tempo de busca, por outro lado, deve ser relativamente similar entre os discos RAID1. No final, isso significa que os arrays RAID1 terão valores de IOPS de gravação um pouco menores em comparação com um único disco idêntico.

O mdadm do Linux tem uma disposição interessante para minimizar o impacto da latência de discos diferentes. Por exemplo, leia a man page sobre "write-behind" e "write-mostly":

-W, --write-mostly subsequent devices listed in a --build, --create, or --add command will be flagged as 'write-mostly'. This is valid for RAID1 only and means that the 'md' driver will avoid reading from these devices if at all possible. This can be useful if mirroring over a slow link

--write-behind= Specify that write-behind mode should be enabled (valid for RAID1 only). If an argument is specified, it will set the maximum number of outstanding writes allowed. The default value is 256. A write-intent bitmap is required in order to use write-behind mode, and write-behind is only attempted on drives marked as write-mostly.

Observe que isso reduzirá seu desempenho de IOPS de leitura aleatória (já que algum disco será efetivamente usado apenas para gravação), portanto, tenha cuidado ao escolher seu veneno.

    
por 19.04.2015 / 17:56
6

Sim, você pode adicionar quantos espelhos a um RAID1 desejar e tolerar falhas de todos, menos de um dispositivo. Se você adicionar 10 dispositivos, poderá tolerar uma falha de 9 dispositivos.

Não se esqueça de que haverá uma penalidade de gravação para essa configuração. Todos os dados devem ser gravados em todos os dispositivos. Geralmente, deve ser bastante insignificante, mas se todos os dispositivos estiverem no mesmo controlador / barramento, você poderá começar a notar os atrasos à medida que seus dados forem gravados em todos os dispositivos. Por exemplo, com 3 dispositivos, escrever 1mb de dados na matriz requer que o controlador / barramento grave 3mb no disco.

    
por 16.04.2015 / 02:04
3

Outra solução é o raid 6 com 3 discos. Veja este post:

Número mínimo de discos para implementar o RAID6

O Raid 6 também permitirá dobrar a capacidade adicionando um quarto drive. Eu tive 2 unidades falharem em uma matriz e não perderam dados.

    
por 07.04.2015 / 06:07
1

Primeiro, acho importante observar o cenário de uso e a qualidade dos componentes usados. Não é o mesmo se você estiver usando HDDs de desktop e controladores de RAID baratos ou executando hardware corporativo completo.

Se a única coisa que você está fazendo é replicação em HDDs (RAID1), então você pode perder os discos rígidos n-1 e ainda assim ter todos os dados intactos.

Mas eu realmente gostaria de saber qual é o seu cenário de uso e seleção de hardware que você está preocupado em perder duas unidades simultaneamente?

Recentemente, configurei um servidor da Web para um ISP. O servidor tinha um controlador RAID de 6 portas. Então eu configurei o RAID 60 como uma boa troca entre velocidade / segurança.

Eu aconselho que você leia este link

Em relação ao seu esclarecimento, sugiro strongmente que você vá para o RAID 5 ou o RAID 60 ... Como alternativa, se o custo for o problema, o RAID0 simples com backup externo de dois níveis seria suficiente.

Minhas referências são minhas próprias experiências ao configurar vários servidores em cenários de uso muito diferentes.

    
por 18.04.2015 / 23:14
1

Eu sempre fui um grande fã do RAID 5 baseado em hardware. Eu normalmente uso o Ubuntu Linux para o servidor se o uso planejado permitir. Com o RAID baseado em hardware, o Ubuntu (assim como qualquer outro sistema operacional) não tem problemas para inicializar a partir de um array RAID-5 na maioria dos servidores modernos. Eu também uso vários backups. O primeiro backup é um backup por hora no servidor em uma unidade externa usando o Back-In-time para fornecer um backup no local a cada hora durante o horário comercial. O backup de segundo nível é um backup noturno das unidades de compartilhamento de rede usando outro computador que executa o Ubuntu e o Back-In-Time. Os backups noturnos também são feitos para drives USB portáteis e pelo menos um é mantido fora do local. As unidades são giradas diariamente durante a semana útil. O backup de terceiro nível é para um computador Windows Vista aposentado executando o Ubuntu Linux, configurado de forma semelhante à configuração do servidor, onde a cada noite os arquivos do servidor são sincronizados com o sistema de backup usando o utilitário Linux rsync. RAID-5 (com um hot spare) foi bom nos últimos anos, quando houve falhas no drive. A unidade com falha (hot-swappable) foi substituída em cada instância sem interromper as atividades da rede. O RAID-5 não ajudou quando o servidor sofreu uma falha grave, provavelmente devido a uma falha na placa-mãe ou na memória. O que ajudou foi o servidor de backup sobressalente, que tinha os arquivos sincronizados após o fechamento dos negócios na noite anterior. Eu tenho um pequeno script que eu corri para migrar a configuração do servidor para o servidor de backup, que migra todas as contas de usuário e máquina, tornando o computador sobressalente um PDC temporário. Demorou algumas horas para montar outro computador Windows aposentado para criar um novo sistema de computador de backup e colocá-lo on-line. Optei por substituir o servidor Proliante ML350 mais caro por um servidor Proliant ML10 mais modesto. Eu configurarei o novo servidor com o RAID-1 como um espelho de 3 unidades com um hot spare. O servidor ML10 que eu pedi usa um controlador RAID de software que tem que ser configurado como AHCI em vez de RAID para o Ubuntu inicializar. O custo total para o servidor e quatro unidades de 1 TB é o custo de uma unidade de 300 GB no ML350. Esta é a segunda vez em 25 anos de gerenciamento de servidores que o RAID-5 não ajudou (a primeira vez foi provavelmente uma falha do controlador RAID). Ambas as instâncias não são um problema de RAID, apenas um problema resultante do uso da tecnologia.

O ponto principal que quero transmitir é estar preparado para quando a falha do servidor ocorrer e tiver um bom plano de backup. Para ser um bom plano de backup, você precisa testar os procedimentos de backup e recuperação. No caso do fracasso mais recente, para tempo total de eu adquiri o telefone que me tira da cama, se vestindo, enquanto pegando uma mordida rápida para comer enquanto saindo a porta, enquanto dirigindo ao local (10 passeio de minuto), diagnosticando o problema (incluindo uma tentativa de reinicialização do servidor), e obter o servidor de backup on-line foi de 52 minutos.

Você pode ter discussões sobre qual é a melhor das diferentes possibilidades de RAID. Apenas tenha em mente que mais coisas podem falhar além de discos rígidos. Use o tipo de RAID que você considera melhor para seu uso, mas planeje a recuperação devido a uma falha de hardware ou um ataque de malware / vírus.

    
por 27.07.2017 / 08:41