RAID de execução horrível

1

Eu tenho um pequeno cluster GlusterFS com dois servidores de armazenamento que fornecem um volume replicado. Cada servidor tem 2 discos SAS para o sistema operacional e logs e 22 discos SATA para os dados reais distribuídos juntos como um RAID10 usando o MegaRAID SAS 9280-4i4e com essa configuração: link

Conectados a este cluster estão alguns outros servidores com o cliente nativo executando nginx para servir arquivos armazenados na ordem de 3-10MB.

Neste momento, um servidor de armazenamento tem uma banda de saída de 300 Mbit / seo índice de ocupação do array de ataque está em 30-40%. Há também efeitos colaterais estranhos: Às vezes, a latência do io skyrocket e não há acesso possível no ataque por > 10 segundos. O sistema de arquivos usado é o xfs e foi ajustado para corresponder ao tamanho da faixa de ataque.

Alguém tem uma idéia de qual poderia ser a razão para uma matriz tão ruim? 22 Discos em um RAID10 devem entregar caminho mais taxa de transferência.

    
por Philip 13.04.2012 / 11:18

2 respostas

3

Alguém grita com seus discos rígidos ? :-)

Mais seriamente: há muita atividade de gravação durante os picos de latência de E / S? Você já tentou usar iotop e / ou btrace para ver o que está acontecendo sob o capô?

Talvez o controlador RAID libere seu cache durante os picos e bloqueie tudo até que ele seja concluído?

    
por 13.04.2012 / 11:29
0

Se você conseguir registrar um pico, teremos mais com o que trabalhar. De qualquer forma, sem problemas de configuração gritante, estou razoavelmente confiante em dizer que este é provavelmente um problema de hardware. Eu começaria substituindo o cartão e talvez os discos se eles estivessem na garantia.

    
por 13.04.2012 / 18:39