Experimentando a corrupção! O que é um bom teste de confiabilidade para um sistema de arquivos do Windows, RAID ou outro?

4

Eu tenho uma caixa do Windows Server 2003 na minha pequena rede. Nele está um controlador Promise Fasttrak RAID e dois drives ATA Western Digital paralelos em uma configuração RAID-1 (espelho). Quando eu configurei isso, eu esperava que fosse um sistema de armazenamento confiável, e que o controlador RAID me informaria quando houvesse um problema para que eu pudesse reagir.

No entanto, está falhando em ambas as contas agora. Quando copio arquivos desse servidor, descubro que arquivos grandes foram corrompidos. Por exemplo, eu estava recentemente copiando a instalação de rede do XP SP3 (~ 320MB) para outro PC. A extração falhou. Eu pensei que estranho desde que eu usei esse executável antes. Então eu copiei da rede novamente duas vezes, e usando FileAlyzer , descobri que o MD5 & ; SHA1 hashes das 3 cópias diferentes variadas. Realizei testes semelhantes de outros PCs na minha rede e consegui replicar a falha. Pior, o RAID BIOS nunca reclamou de nada estar errado! O que me leva a acreditar que o controlador em si pode ser ruim. (Nota: não acho que seja a rede, já que outros PCs podem copiar arquivos de forma confiável uns para os outros).

Mas minha pergunta é: Que tipo de ferramentas existem para o Windows "certificar" que um sistema de arquivos está se comportando de maneira confiável, com RAID ou de outra forma?

Por exemplo, eu comprei uma ferramenta chamada GoldMemory para executar um teste de memória exaustivo ao criar um novo PC. Não vou confiar em um novo PC até que sobreviva 24 horas no GoldMemory sem erros de memória. Eu também comprei o SpinRite de Steve Gibson para testar discos ATA individuais.

Existe uma ferramenta que eu possa rodar no Windows para testar um sistema de arquivos NTFS, baseado em RAID ou não, que lerá e gravará repetidamente e verificará se há corrupção?

Eu não posso confiar em meu servidor atual como está, e se eu trocar componentes para tentar reparar, ou então construir um novo sistema, eu gostaria de ter certeza de que meus sistemas de arquivos estão operando de forma confiável antes de apostar na fazenda. Embora eu queira confiar em que um controlador RAID de marca e discos rígidos decentes sejam confiáveis, agora preciso adotar uma abordagem da Horatio Caine: "Confie, mas verifique".

Obrigado pela sua ajuda! : -)

ATUALIZAÇÃO:

Então, eu executei alguns testes locais no servidor (no cygwin) para descartar a rede como o problema. Isso deve lhe dar uma idéia do que estou enfrentando. O problema acontece na maior parte do tempo com arquivos BIG. (O abaixo é 462MB.)

$ md5sum VMware-workstation-6.5.2-156735.exe
7bf6145eb7d3e4fbcc945d87017fb6bd * VMware-workstation-6.5.2-156735.exe

$ para ((c = 1; c < = 50; c ++)); do md5sum VMware-workstation-6.5.2-156735.exe; feito
545c2f8e9363823af3aa703a1cbd35e3 * VMware-workstation-6.5.2-156735.exe
b47d4aa75aae27264cfd6396fbfe646a * VMware-workstation-6.5.2-156735.exe
b47d4aa75aae27264cfd6396fbfe646a * VMware-workstation-6.5.2-156735.exe
 ... etc ... (repete)

$ para ((c = 1; c < = 50; c ++)); do md5sum VMware-workstation-6.5.2-156735.exe; feito
9d2fbb3fa46194f6915d6328f0881a24 * VMware-workstation-6.5.2-156735.exe
9d2fbb3fa46194f6915d6328f0881a24 * VMware-workstation-6.5.2-156735.exe
  ... etc ... (repete)

$ para ((c = 1; c < = 50; c ++)); do md5sum VMware-workstation-6.5.2-156735.exe; feito
512181c3838e91a02a92280462e2f4c3 * VMware-workstation-6.5.2-156735.exe
512181c3838e91a02a92280462e2f4c3 * VMware-workstation-6.5.2-156735.exe
  ... (repete uma dúzia de vezes, depois muda!)
7a84da59a83f203506244e23507bb4df * VMware-workstation-6.5.2-156735.exe
7a84da59a83f203506244e23507bb4df * VMware-workstation-6.5.2-156735.exe
  ... aargh!

    
por Chris W. Rea 04.07.2009 / 22:32

5 respostas

3

Deve ser fácil configurar um script de shell que repita a cópia de um arquivo no servidor e recalcula a soma de verificação de cada cópia. Depois de preencher o seu servidor, você verifica todos os checksums manualmente.

Minha experiência é que os controladores RAID que têm Promise escrito do lado de fora estão quebrados por dentro. Livre-se disso. Às vezes, até mesmo os controladores Promise fazem apenas uma invasão de software orientada por driver. Tente Areca ou algo assim.

Se você planeja invadir, coloque um pricetag em seus dados. Em seguida, coloque um pricetag em não poder trabalhar alguns dias. Em seguida, verifique os preços de bons controladores de raid.

    
por 04.07.2009 / 23:13
3

Você não precisa gastar dinheiro com ferramentas de teste de RAM, porque o memtest86 + rege e é gratuito. Para testar a integridade do sistema de arquivos, você pode usar um afick , ele funciona bem para mim (mas eu não usei muito no Windows , embora).

Qual é a marca dos seus discos? a priori , eu suspeitaria do cartão Promise. Eles têm uma história muito longa e dolorosa de produtos absolutamente ruins, com desempenho péssimo, corrupção de dados, drivers de buggy e várias combinações de todos eles.

    
por 04.07.2009 / 23:16
2

Tem certeza que é o controlador RAID? Eu experimentei problemas semelhantes que tinham a ver com os drivers de rede / cartão falhando.

Você diz que outros PCs podem copiar arquivos uns para os outros, mas isso não significa que a placa de rede (ou driver) servidor não seja frívola.

    
por 06.07.2009 / 15:40
1

O Chkdsk sempre foi minha ferramenta de primeira linha para corrigir NTFS. Vem na caixa e funciona como um encanto. Divulgação completa: raramente tenho a necessidade de verificar sistemas de arquivos, por isso nunca precisei de outra ferramenta.

Dos cerca de 100 servidores que gerenciei, precisei usá-lo uma vez, e esse tempo foi causado por problemas causados por uma sincronização incorreta de dados na SAN, não na placa RAID. Eu estou com todo mundo dizendo que esqueça o cartão Promise e pegue algo melhor.

    
por 06.07.2009 / 16:56
0

Experimente o Robocopy para copiar arquivos grandes.

    
por 11.07.2009 / 11:38