Desempenho do sistema de arquivos degradado durante a reconstrução do RAID

3

É uma pergunta rápida - nossa matriz RAID6 está atualmente sendo reconstruída e há um impacto muito perceptível no desempenho do sistema de arquivos (diretórios base são montados com NFS na matriz).

Eu meio que esperava isso, já que você está reconstruindo a matriz, então há uma sobrecarga maciça de leitura / gravação no controlador, mas ocorreu-me que realmente não tenho nada para comparar isso para.

É grave (5-10 segundos congela com bastante frequência) um tipo esperado de comportamento durante a reconstrução RAID, juntamente com uso pesado de leitura / gravação (o desempenho recebe um impacto notável durante backups e quando os usuários estão baixando arquivos grandes [multi GB] via FTP).

Qualquer pensamento sobre isso seria apreciado. Isso é hardware RAID6 (LSI 9266-i8) em uma matriz de 40 TB montada sobre NFS localmente (ou seja, o servidor está fisicamente muito próximo das estações de trabalho).

    
por Alex 23.04.2014 / 04:47

1 resposta

7

Primeiro, aqui está um excelente recurso que descreve os tempos de reconstrução.

RAID reconstrói e como eles funcionam e pós falha.

Agora, no que diz respeito à minha reconstrução, sabemos que as reconstruções contribuem para um desempenho realmente lento e legítimo. Como você verá no meu link acima, as reconstruções de RAID não estão apenas extraindo informações de um disco com falha para os discos conhecidos (no caso de uma reconstrução pós-falha), elas também estão gravando informações na unidade do sistema, bem como outros dados / drives secundárias durante todo o tempo em que o servidor opera. Outra coisa a ter em mente é que as funções usuais que você normalmente veria não levam tempo e recursos relativamente pequenos agora tomam mais recursos do que o normal e cobram impostos de um servidor já taxado. No caso de uma falha de pré-reconstrução (um pouco melhor desempenho, mas não muito) Você pode ter sorte e ter uma unidade (lógica ou física) falhar e reconstruir o RAID antes dos usuários finais (espero que você como um SA deve ter algum tipo de sistema de alerta para que você não se surpreenda com isso) até mesmo saber que algo tinha um problema.

Os congelamentos de 5 a 10 segundos que você vê são definitivamente normais e especialmente se o servidor em que você está reconstruindo for qualquer tipo de servidor de banco de dados que tenha gravações e leituras mais altas por padrão (ou seja, um servidor SQL que hospede um banco de dados que os usuários finais acessam o dia todo; uma empresa de administração de imóveis que eu costumava consultar tinha um programa que acessava seus registros de inquilino o dia inteiro para ver e escrever novas informações para eles e sempre tinha um uso pesado.) isso seria mais perceptível.

Outra coisa que eu recomendo é pegar qualquer utilitário RAID (a versão GUI) que vem com o seu controlador e instalá-lo no sistema operacional para que você possa monitorar a reconstrução sem ter que carregar em um Controller BIOS.

Uma questão muito pequena e quase inexistente atualmente é o NFS vs iSCSI. Eu sei que você está usando o NFS e costumava ser que o iSCSI teria melhor desempenho geral no caso de virtualização, mas com melhorias recentes para hipervisores e discos rígidos, bem como controladores, o NFS é quase idêntico em desempenho ao iSCSI Parece que você tem uma SAN muito legal.

Eu ficaria feliz em responder qualquer outra coisa que você precise saber, então sinta-se à vontade para comentar.

    
por 23.04.2014 / 05:20