Sim, teste sua memória RAM. Tente testar IO simples com mais intensidade. Além disso, tente obter um cenário repetitivo e abra um bug no launchpad.net
Eu tenho uma partição de software RAID 5 no LVM no Ubuntu (desktop, na verdade, mas estou usando isso como um servidor). Eu tenho passado uma tonelada de dados para ele, e o computador estava congelando, já que eu precisava pressionar "Reset".
Então eu achei que era rsync. Mas eu decidi tentar um dd se = / dev / zero de = / path / to / raid5 e com certeza, o computador travou. Fez um dd idêntico a uma partição JBOD na mesma máquina e não travou.
Assumindo uma partição limpa do RAID5, processador tri-core de 2 GB de memória RAM, troca de 6 GB, o que poderia estar causando isso?
Edit: eu descartei a memória; Eu corri um memtest de 8 horas sem um acidente.
26/04/2011 Edit: Eu descartei o Ubuntu sozinho; o erro ocorreu no Debian 6 estável. É um hardware ou um bug do upstream.
Sim, teste sua memória RAM. Tente testar IO simples com mais intensidade. Além disso, tente obter um cenário repetitivo e abra um bug no launchpad.net
Supondo que você esteja usando o software RAID5 através do LVM (você não diz o que está fornecendo o R5) isso pode ser um sinal de um bug do kernel. R5 requer cálculo de paridade, que consome recursos da CPU. Se isso for alto o suficiente, o kernel pode se deparar com alguns problemas de contenção insolúveis. Este é apenas um palpite, no entanto.
O array RAID está todo no servidor (incluindo /
e assim por diante) ou é separado? Se separado, você pode ver alguma coisa nos logs antes do hard hang? Além disso, você poderia confirmar que era uma interrupção completa - você poderia fazer ping na máquina pela rede e assim por diante?
As diferenças entre escrever para um array JBOD e um array RAID5 são que as unidades são acessadas mais uniformemente no caso do RAID5 e mais tempo de CPU será usado (para os cálculos de paridade). Se fosse um problema com uma das unidades, eu esperaria que ela caísse fora da matriz e não da máquina, a menos que o problema seja tal que o controlador da unidade tenha caído e levado o controlador de E / S da máquina com ele. A primeira coisa que faço aqui é um teste de memória completa, e certifique-se de que o resfriamento da CPU esteja funcionando como deveria (os cálculos de paridade para RAID5 não imporão nenhuma carga significativa em um CPU moderno por conta própria, mas podem derrubá-lo a borda se já estiver perto de problemas).
Tags debian raid5 ubuntu debian-squeeze