corrupção de arquivos em leitura / gravação 2.6.32-22-server (acontece em muitos kernels)

5

Estou tendo um problema em que depois que o servidor ficou ativo por um período de tempo (~ semana / alguns dias), o servidor começará a ler os dados corrompidos. Por exemplo, quando eu executo um arquivo sha1 de um arquivo depois de uma inicialização, ele permanece o mesmo. No entanto, depois de um tempo eu vou começar a obter segfaults e a partir de então, sempre que eu ler este arquivo, eu recebo um sha1sum diferente.

Eu verifiquei S.M.A.R.T com testes longos e executei um memtest86 + estendido (12 passagens)

Meu lspci é o seguinte:

00:00.0 Host bridge: Advanced Micro Devices [AMD] RS780 Host Bridge
00:01.0 PCI bridge: Advanced Micro Devices [AMD] RS780 PCI to PCI bridge (int gfx)
00:06.0 PCI bridge: Advanced Micro Devices [AMD] RS780 PCI to PCI bridge (PCIE port 2)
00:07.0 PCI bridge: Advanced Micro Devices [AMD] RS780 PCI to PCI bridge (PCIE port 3)
00:11.0 SATA controller: ATI Technologies Inc SB700/SB800 SATA Controller [AHCI mode]
00:12.0 USB Controller: ATI Technologies Inc SB700/SB800 USB OHCI0 Controller
00:12.1 USB Controller: ATI Technologies Inc SB700 USB OHCI1 Controller
00:12.2 USB Controller: ATI Technologies Inc SB700/SB800 USB EHCI Controller
00:13.0 USB Controller: ATI Technologies Inc SB700/SB800 USB OHCI0 Controller
00:13.1 USB Controller: ATI Technologies Inc SB700 USB OHCI1 Controller
00:13.2 USB Controller: ATI Technologies Inc SB700/SB800 USB EHCI Controller
00:14.0 SMBus: ATI Technologies Inc SBx00 SMBus Controller (rev 3c)
00:14.1 IDE interface: ATI Technologies Inc SB700/SB800 IDE Controller
00:14.3 ISA bridge: ATI Technologies Inc SB700/SB800 LPC host controller
00:14.4 PCI bridge: ATI Technologies Inc SBx00 PCI to PCI Bridge
00:14.5 USB Controller: ATI Technologies Inc SB700/SB800 USB OHCI2 Controller
00:18.0 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] HyperTransport Configuration
00:18.1 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Address Map
00:18.2 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] DRAM Controller
00:18.3 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Miscellaneous Control
00:18.4 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Link Control
01:05.0 VGA compatible controller: ATI Technologies Inc Radeon HD 3300 Graphics
01:05.1 Audio device: ATI Technologies Inc RS780 Azalia controller
02:00.0 Ethernet controller: Atheros Communications Atheros AR8121/AR8113/AR8114 PCI-E Ethernet Controller (rev b0)
03:00.0 FireWire (IEEE 1394): VIA Technologies, Inc. Device 3403

Eu realmente poderia usar alguma ajuda sobre isso, você tem alguma idéia do que poderia causar isso? É realmente frustrante, pois parece ser acionado aleatoriamente e não vai embora até que eu reinicie. Eu também uso KVM para virtualização, assim como MD para software RAID neste servidor e o processador é um Phenom II X4 965. Eu não acredito que seja a invasão de software, já que isso afeta arquivos também hospedados em partições não-raid, então Eu não sei.

Atualização 21 de jun 10 Ok, apenas a placa-mãe foi substituída. Ainda tem o mesmo erro. Não há erros de CPU que eu possa encontrar; discos todos relatam bem com teste inteligente. Alguém tem alguma idéia do que isso poderia ser? Eu estou puxando meu cabelo para fora daqui.

Atualização 22 de jun 10 Então eu verifiquei os logs e tentei outro filesyste, ainda a mesma coisa. Isso é tudo na VM host também btw.

    
por Iain 31.05.2010 / 14:24

3 respostas

1

Meus instintos me dizem que este é um problema de hardware, possivelmente relacionado à temperatura (como aparece depois de algum tempo de execução). Muito provavelmente você tem um problema com o southbridge ou hardware relacionado.

Considere executar alguns testes de transação extensivos no southbridge ou simplesmente substituir a placa-mãe.

O fato de seu SO permanecer estável, mas você tem erros aleatórios de E / S, normalmente elimina a CPU / Memória, pois erros nesses sistemas tendem a fazer com que o SO trava e queime junto com o outro software. Mas a maioria do Kernel é lido do disco na inicialização e nunca é trocado, portanto, um sistema Linux pode ser surpreendentemente estável, mesmo que não possa ser lido adequadamente a partir do disco.

    
por 31.05.2010 / 15:14
0

A corrupção acontece no próprio host ou em máquinas convidadas? Há um bug conhecido no qemu-kvm que leva à corrupção de dados em grandes discos virtuais (veja link por exemplo)

    
por 09.06.2010 / 22:56
0

Concordo com o @pehrs de que vale a pena investigar o aspecto térmico disso, pois o problema se arrasta ao longo do tempo. Que tipo de servidor você tem? Atualmente, a maioria das montagens de rack vem com um bom número de sensores que podem ser usados para monitorar a integridade do hardware. Confira lm-sensors . Se for um servidor Dell, o pacote Dell OMSA pode ser útil. Tenho certeza de que outros grandes jogadores também têm seus próprios pacotes proprietários.

Eu também posso jogar fora algumas outras idéias - elas não correspondem exatamente ao cenário que você descreveu do problema, aparecendo depois de um tempo, mas elas não podem machucar.

No que se refere aos logs de erros, você está recebendo mensagens de erro nos logs do disco ou do subsistema RAID? Ou no dmesg? O Software-RAID HOTWO do Linux tem algumas informações sobre os tipos de erros que você estar procurando. Algo como um cabo ruim pode não aparecer nos autotestes SMART da unidade, mas você definitivamente veria algumas mensagens de erro registradas.

Qual é a configuração RAID? Qualquer coisa em / proc / mdstat? Se (por exemplo) o servidor tiver um RAID 5 de 3 unidades e uma das unidades estiver ruim, isso pode causar problemas.

Além disso, verifique a revisão de firmware da placa-mãe / placa SCSI / etc e veja se ela está atualizada ou se há erros relacionados à E / S do disco que foram corrigidos.

    
por 21.06.2010 / 22:09