RAID 5 heavy IO hard congela Ubuntu: Por quê?

1

Eu tenho uma partição de software RAID 5 no LVM no Ubuntu (desktop, na verdade, mas estou usando isso como um servidor). Eu tenho passado uma tonelada de dados para ele, e o computador estava congelando, já que eu precisava pressionar "Reset".

Então eu achei que era rsync. Mas eu decidi tentar um dd se = / dev / zero de = / path / to / raid5 e com certeza, o computador travou. Fez um dd idêntico a uma partição JBOD na mesma máquina e não travou.

Assumindo uma partição limpa do RAID5, processador tri-core de 2 GB de memória RAM, troca de 6 GB, o que poderia estar causando isso?

Edit: eu descartei a memória; Eu corri um memtest de 8 horas sem um acidente.
26/04/2011 Edit: Eu descartei o Ubuntu sozinho; o erro ocorreu no Debian 6 estável. É um hardware ou um bug do upstream.

    
por Luke has no name 09.01.2011 / 21:03

3 respostas

1

Sim, teste sua memória RAM. Tente testar IO simples com mais intensidade. Além disso, tente obter um cenário repetitivo e abra um bug no launchpad.net

    
por 10.01.2011 / 19:40
0

Supondo que você esteja usando o software RAID5 através do LVM (você não diz o que está fornecendo o R5) isso pode ser um sinal de um bug do kernel. R5 requer cálculo de paridade, que consome recursos da CPU. Se isso for alto o suficiente, o kernel pode se deparar com alguns problemas de contenção insolúveis. Este é apenas um palpite, no entanto.

    
por 09.01.2011 / 21:15
0

O array RAID está todo no servidor (incluindo / e assim por diante) ou é separado? Se separado, você pode ver alguma coisa nos logs antes do hard hang? Além disso, você poderia confirmar que era uma interrupção completa - você poderia fazer ping na máquina pela rede e assim por diante?

As diferenças entre escrever para um array JBOD e um array RAID5 são que as unidades são acessadas mais uniformemente no caso do RAID5 e mais tempo de CPU será usado (para os cálculos de paridade). Se fosse um problema com uma das unidades, eu esperaria que ela caísse fora da matriz e não da máquina, a menos que o problema seja tal que o controlador da unidade tenha caído e levado o controlador de E / S da máquina com ele. A primeira coisa que faço aqui é um teste de memória completa, e certifique-se de que o resfriamento da CPU esteja funcionando como deveria (os cálculos de paridade para RAID5 não imporão nenhuma carga significativa em um CPU moderno por conta própria, mas podem derrubá-lo a borda se já estiver perto de problemas).

    
por 09.01.2011 / 21:21