Falha de disco repetida no servidor Dell T610

1

Eu comprei um Poweredge T610 usado e o atualizei para 2x processadores Hexcore Xeon X5675 e 96 GB de RAM. Inicialmente, eu usei 3 unidades WD Green 2TB em um array RAID-5 (controlador Perc6i) e instalei o servidor Ubuntu no disco virtual. Essa configuração me serviu bem por cerca de um ano e, em seguida, os problemas começaram:

Comprei algumas unidades novas para expandir como uma segunda matriz - 4 unidades vermelhas de 3 TB da WD. Enquanto isso, eu aprendi que pelo menos o WD green não é uma boa escolha, então eu queria fazer backup de alguns dados no novo VD. Acontece que o Perc6i não gosta de unidades > 2TB, mas reconheceu o primeiro 2 de 3 TB. Eu ainda não tinha começado a configurar um VD com as novas unidades, mas 3 semanas depois, meu array verde WD começou a corromper (primeiro apenas alguns glifos estranhos em alguns softwares, depois problemas mais graves até a seqüência de inicialização corrompida). Acabei com um serviço profissional de recuperação de dados que felizmente poderia me ajudar. Troquei o Perc6i por um H700 e configurei um conjunto RAID6 de 4 unidades vermelhas de 3TB WD (que testei com o teste estendido de diagnósticos de hardware da Dell antes da configuração - sem erros em nenhum deles). Instale o Ubuntu, todos os softwares que eu preciso, o x2go, etc ... Ligue e volte a funcionar.

Agora eu recebo o mesmo problema de antes - no X2go ele começa com o mesmo software (bioemformatics artemis package) cuspindo glifos na linha de comando e parece que estou voltando à estaca zero. Todos os LEDs de status nos caddies são verdes constantes, ou seja, online. Nenhuma falha prevista que o sistema reconheça pelo menos.

Estou começando a me perguntar qual seria o problema:

O que eu não acho provável: - falha no disco primário (novamente!), uma vez que as unidades eram novas, não tinham setores defeituosos após testes estendidos e não tinham muito tempo de ativação. -o controlador perc6i foi trocado por um H700 após o primeiro desastre e não deve ser o problema

O que eu preciso de ajuda para avaliar: Problemas de backplane / cabo? (O controlador H700 veio com cabos para outro tipo de servidor que não se encaixava no meu caso - simplesmente usou outro cabo SATA6 para conectar o controlador ao backplane) As unidades estão, por sinal, nas mesmas baias que as anteriores, com um cabo SATA original da Dell indo para lá.

- Problemas na placa mãe? Problemas de CPU ou RAM? - Fornecimento de energia (picos de tensão ??)

Alguém já teve um problema semelhante antes? Qualquer ajuda aqui é muito apreciada. Infelizmente eu estou ausente por mais duas semanas antes que eu possa ter acesso ao servidor (fisicamente e em rede), o problema foi "relatado" por minha esposa, que trabalha com o servidor em nossa rede local (mas infelizmente não será capaz de ajudar na solução de problemas).

Sim, executei o procedimento completo de diagnóstico de hardware da Dell, sem problemas. Apenas uma das unidades foi detectada com blocos defeituosos, mas não consegui reconstruir a matriz da raid 5, daí o especialista em recuperação de dados. Todo o outro hardware foi ok

Pergunto-me se poderia haver problemas inconsistentes, como contatos problemáticos em qualquer lugar, que possam passar pelos testes em um ponto e falhar em qualquer outro momento. Ou se os testes não cobrem todos os cenários ...

    
por kruemelprinz 11.03.2018 / 19:32

2 respostas

1

Da experiência, parece um problema de corrupção de memória RAM. A primeira coisa que eu tentaria é uma ferramenta de diagnóstico de memória. A Dell os disponibiliza por download.

Se isso não encontrar nenhum erro, eu retiraria todo o hardware para obter o mínimo necessário e, em seguida, os adicionaria de volta até você ver o problema. Muito demorado, mas às vezes a única maneira se o diagnóstico não mostrar nada. Obviamente, é difícil fazer isso com discos rígidos, mas você pode fazer isso com cpu e ram. Não se esqueça de adicionar coisas de volta uma de cada vez, senão você não saberá qual delas é a culpada.

Minha outra sugestão é usar um hipervisor e criar máquinas virtuais, em vez de instalar no bare metal. Isso tornará a funcionalidade de restauração em face de falhas muito mais fácil. Além disso, estabelecer um regime de backup antes de instalar aplicativos ajudará você a evitar a necessidade de serviços de recuperação de dados novamente.

    
por 12.03.2018 / 06:04
0

Má sorte? Teste o HDD em outro computador novo, por favor, para ver seu status atual.

Tenha em mente que um T610 tem 9 anos de idade. Eu sinceramente acho que qualquer desktop atual seria mais rápido que um T610.

O firmware da unidade pode causar impacto, mas sua matriz os sinalizaria como disco estrangeiro, o fato de você ter alterado todos de uma vez é melhor, nenhuma unidade da Dell com seu firmware com unidade baunilha misturada, o controlador não permitiria isso.

O firmware deles no disco permite que o controlador faça uma função avançada com o disco, enquanto um array, se for usado um disco padrão com firmware normal, funcionará normalmente.

O fato de você array foi detectado me faz pensar que o controlador pode vê-los e usá-los. É por isso que afirmo a princípio a má sorte.

    
por 11.03.2018 / 22:38