Extrai dados do servidor sem causar alta taxa de disco rígido

1

Meu diagnóstico atual é de que há uma falha de hardware, relacionada à memória do controlador RAID de hardware ou algo relacionado ao suco extra que os discos rígidos exigem quando são executados na íntegra.

Tentei substituir o PSU, sem dados. Tentei ao vivo arrancar outro sistema operacional, sem dados. Alto disco IO garante um desligamento rígido, seja qual for o sistema operacional. Eu estabeleci que um novo servidor é definitivamente necessário.

Agora, no entanto, estou enfrentando o desafio de fazer um backup do conteúdo das unidades, sem causar um alto IO. Eu configurei cgroups com um limite de IOps com o qual eu tenho jogado para ver o quão alto ele pode ser sem causar um desligamento. Os resultados parecem variar um pouco de cada disco, mas uma média de cerca de 100 iops parece funcionar por mais tempo antes de bater. No entanto, isso não é realmente viável considerando que há cerca de 120 GB de dados. Estas são as unidades SAS 15K.

A otimização do IO parece funcionar, mas é um processo cansativo, já que preciso configurá-lo novamente quando o servidor é desligado. Estou copiando os dados das unidades para uma unidade externa usando o Runtime Live CD (Knoppix fork).

O servidor tem cerca de 7 anos e não tenho um conector extra para as unidades.

Ao enfrentar esse cenário, qual é a maneira confiável de obter os dados das unidades?

Apenas para referência, este é o link que me ajudou a configurar os cgroups que limitam o IO: link

    
por Henrik Skogmo 14.08.2014 / 15:45

1 resposta

1

Eu mesmo vi algo parecido, embora tenha sido há alguns anos atrás.

No meu caso, era memória de problemas e, ao copiar dados, havia alguma forma de armazenamento em cache que eu suspeitava estar usando lentamente a memória até chegar à memória do problema e ... boom! computador caiu. Um teste de memória deve identificar isso com bastante facilidade, ou talvez remover alguma memória para ver se resolve ou piora o problema?

Se não, então duvido que a taxa de transferência de dados esteja relacionada e que a taxa de transferência esteja simplesmente atrasando o problema enquanto oculta a causa real.

pode valer a pena verificar os tempos de CPU apenas no caso de a cópia de dados estar a causar trabalho de CPU suficiente para aumentar o ponto de falha? ou seja, com um ventilador com falha ou dissipador de calor deslizado? desacelerar a cópia de dados está apenas reduzindo a carga o suficiente para atrasar o aumento da temperatura.

Por último, você não diz como seus discos estão configurados? ou seja, RAID ou JBOD? você consegue mover as unidades para outro servidor individualmente ou como um grupo? obviamente, não os mova apenas se forem drives RAID, exceto como último, último recurso! a menos que você saiba o que está fazendo, é claro!

HTH

    
por 14.08.2014 / 16:59