PERC 6 / i RAID no Dell R710: disco lento… RAID10 no controlador único?

4

Há várias perguntas aqui - mas começa com isto: temos um Dell PowerEdge R710 com um controlador PERC 6 / i RAID (ou controladores) em uma configuração RAID10.

O sistema está executando o Ubuntu Server 10.04 LTS com o MySQL fazendo uma carga de trabalho intensiva de leitura.

Aumentei a leitura antecipadamente usando blockdev --setra ### /dev/sda para aumentar a leitura (as leituras são, pelo menos em teoria, leituras sequenciais). Isso não parece ter tido um impacto significativo. Eu não mudei o elevador de disco (eu vi noop e deadline recomendado).

A carga no sistema dispara e parece estar relacionada às esperas de E / S de disco. O sistema pode estar aguardando até 50% do tempo pela E / S do disco - enquanto a% da CPU está em torno de 7 a 10%. Um sistema comparável com um RAID5 e uma instalação MySQL com uso intensivo de gravação fumou totalmente este sistema.

O sistema RAID10 parece ter dois controladores PERC 6 / i, de acordo com o que o Dell OpenManage reporta; no entanto, somente o Controlador 0 possui um gabinete e somente o Controlador 0 tem o RAID nele. O RAID é composto de quatro discos (slots 0-3 eu acredito) com dois slots livres.

O sistema também está sendo executado em um perfil PowerSaving que permite que o sistema operacional gerencie as velocidades da CPU.

O sistema é também afligido pelo bug fsync () encontrado em alguns kernels do Linux.

Por último, o PERC 6 / i está informando que o firmware está desatualizado: ele tem 6.2.0-0013 e deseja 6.3.0-0001.

Agora as perguntas:

  • É possível mover uma parte da matriz RAID10 para um segundo controlador?
  • Na verdade, existem dois controladores que podem ser usados no mesmo painel traseiro ou estou faltando alguma coisa?
  • Uma atualização de firmware corrige o problema de velocidade do disco?
  • O nível do RAID teria algo a ver com a grande espera por E / S de disco?
  • Qual o efeito do modo Economia de energia? (Alguns relatórios parecem dizer que isso desacelera o kernel.)

Suspeito strongmente que exista algum tipo de configuração que leve os discos a velocidades assustadoramente altas, mas não consigo defini-lo.

Atualização : Os quatro discos usados aqui são o modelo Hitachi HDS721010CLA332, que está listado como tendo um "Protocolo de barramento SATA", mas com um "Endereço SAS" também? Esses discos são aqueles que representam o SAS que eu ouvi falar que são supostamente lentos? De qualquer forma, essas unidades são de 7200 RPM, aparentemente.

O sistema de comparação possui unidades SAS: o Seagate ST31000640SS - também 7200 RPM. Este sistema de comparação também possui controladores RAID utilizados e entradas de "backplane" associadas a eles.

    
por Mei 19.08.2011 / 02:08

4 respostas

2

O PERC 6 / i é um controlador de porta dupla; cada porta tem 4 pistas SAS. No chassi R710 de 8x2,5 polegadas, esse é um mapeamento de um para um dos discos do painel frontal para as faixas SAS. No chassi 3.5in, as portas 6 e 7 não são usadas. Com uma matriz de 4 discos, você pode mover 2 discos para os slots 4 e 5 para dividir a carga de trabalho entre os canais, embora ainda haja um único processador e memória na placa PERC.

A atualização de firmware é normalmente uma boa ideia e é um processo indolor (embora exija uma reinicialização).

    
por 19.08.2011 / 02:28
1

4 disco RAID 10 oferece desempenho de 2 discos para gravações e 4 discos para leituras (cenário absolutamente melhor). Um 7200 rpm HDDs deve dar 75-100 IOps. Que tipo de performance você vê? Você lê %util perto de 100 em iostat ?

Se a carga primária é gerada por um banco de dados, o que faz você pensar que será basicamente sequencial? Bancos de dados são o caso de acesso aleatório estereotipado. Você pode usar iostat para ver o tamanho médio da solicitação. collectl fornecerá adicionalmente informações sobre as fusões de E / S feitas no kernel. Concorda com sua expectativa de leituras sequenciais principalmente?

Qual bug do kernel fsync () você quer dizer?

Qual sistema de arquivos você usa? Quais opções de montagem? A opção noatime pode comprar uma aceleração perceptível no ext [34], porque a modificação do tempo de acesso pode significar gravação extra para cada leitura de um arquivo (pior caso, registros de data e hora de alta resolução).

seção de resposta;)

A atualização de firmware pode ajudar, mas não espere milagres. Você pode ganhar alguns por cento, não

O RAID 10 é o melhor nível de desempenho (se você quiser manter a redundância), por isso não deve causar problemas por si só. No entanto, você pode ter partições e / ou LVs não alinhados com o tamanho da faixa. Isso poderia potencialmente duplicar os pedidos de veiculação necessários para pequenas leituras aleatórias (pior cenário) e impor sobrecarga em qualquer tipo de E / S.

O modo de economia de energia não deve custar muito caro. Pelo que você nos diz, os discos estão muito ocupados para serem desligados, e a CPU está esperando por E / S de qualquer forma.

    
por 19.08.2011 / 06:37
0

Tenha cuidado ao usar ferramentas que mostram uma carga média da CPU. Esse número é certamente um bom ponto de partida para se ver uma carga de estacionamento de bola, mas se você ver 50% de carga em um sistema de 24 cpu, como você sabe que 12 cpus não estão sendo 100% utilizados e os outros 12 ociosos? Já vi casos em que a carga é de < 10%, mas 1 CPU está sendo martelada a 100% das interrupções de processamento. -mark

    
por 22.08.2011 / 20:14
0

Um dos nossos servidores tinha esse controlador RAID e revisão de firmware; aparentemente, a versão mais recente do firmware corrige um bug em que a bateria do cache de gravação não é carregada corretamente. Devido à bateria não ser carregada, o controlador alterna para o modo Write Through para proteger seus dados, afetando significativamente seu desempenho.

Atualize o firmware e aguarde algumas horas para que a bateria seja carregada. Então você estará correndo normalmente.

    
por 09.11.2011 / 23:16