a matriz mdadm continua perdendo discos em um controlador SATA separado

1

Meu servidor Ubuntu Linux tem um array mdadm (RAID 5) com quatro discos SATA de 2 TB que mantém "perdendo" dois discos de tempos em tempos. Reinicializar e remontar os arrays funcionou bem até agora.

Hardware é um Dell PowerEdge T20 com uma placa Exsys EX-3400 que fornece quatro portas SATA adicionais. Dois dos quatro discos no conjunto RAID estão conectados ao cartão Exsys e os dois discos restantes estão conectados às portas SATA integradas (as outras portas SATA integradas estão em uso para outros discos). Eu verifiquei por falhas de disco usando utilitários inteligentes, todos eles parecem bons.

Os discos que estão sendo "perdidos" do RAID são os dois conectados ao controlador SATA do complemento, então eu troquei o cartão complementar por outro (não ajudei, mesmos sintomas). Eu substituí os cabos SATA dos discos relevantes (não ajudou, mesmos sintomas).

Alguém tem uma ideia de qual é a origem desses problemas e o que mais posso testar?

    
por brennmat 18.03.2015 / 10:58

2 respostas

1

Não é mdadm, o mdadm controla apenas a funcionalidade de raid de software baseada em kernel.

Você não precisa reinicializar para remontar uma matriz. (Talvez apenas se for sua partição raiz.)

Colocar as mensagens do kernel correspondentes (você pode obtê-las com um comando dmesg ) ajudaria muito, embora eu possa dizer quase com segurança, qual é a causa do seu problema. E é provavelmente a fonte de alimentação, apesar de você dizer que o problema é apenas no controlador conectado.

Você pode testá-lo facilmente, se for um problema de energia: apenas conecte seus cabos de dados entre o SATA adicional e o original. Os problemas acontecem exclusivamente no controlador adicional?

Se não: há um problema na fonte de alimentação, você precisa encontrar uma solução de suprimento de energia. No hardware "normal" eu compraria uma fonte de alimentação melhor, no seu caso eu sugiro fazer uma nova pergunta, mais específica ao hardware.

Se os problemas ocorrerem exclusivamente, sempre, em todas as configurações de cabos de energia / dados, no cartão adicional: o problema provavelmente está no cartão. Tente obter um novo ou um tipo diferente.

p. Você pode conectar os cabos de energia e dados que você quiser, o software raid linux é inteligente e pode reconhecer os dispositivos de hardware (ele faz isso com as chaves geradas automaticamente no superbloco raid).

    
por 18.03.2015 / 11:56
1

Eu tentei todas as dicas acima. Mesmo a troca de cabos (alimentação, SATA) não alterou os sintomas. Os dois discos conectados ao controlador SATA do complemento continuavam sendo perdidos da matriz mdadm, então eu tentei outro controlador SATA. Sem sorte. Acabei reorganizando toda a máquina para poder viver sem o controlador SATA complementar. A matriz mdadm está estável há alguns dias e espero que permaneça estável.

    
por 03.04.2015 / 10:16