Como monitorar e medir a integridade dos cartões Compact Flash usados como armazenamento do servidor?

2

Contexto

A empresa vende acesso a uma espécie de aplicativo da web para caixa registradora. O acesso ao aplicativo é dado por meio de uma VPN. O ponto de entrada da VPN para os clientes é um painel Soekris executando o Voyage Linux (uma versão reduzida do Debian). Essas placas são executadas há 3 anos no MySQL com replicação e uma pilha de aplicativos RoR.

O suporte de armazenamento para essas placas é um cartão Compact Flash de 4 GB.

O problema

Estamos recebendo erros regulares e falhas aleatórias de aplicativos nesses quadros. Os erros mais frequentes são os seguintes:

Aug 24 14:54:44 box45 puppetd[3669]: Could not run Puppet::Network::Client::Master: Stale NFS file handle - /var/lib/puppet/state/state.yaml

Aug 24 13:37:01 box76 kernel: [ 2091.575622] EXT2-fs error (device hda1): read_block_bitmap: Cannot read block bitmap - block_group = 30, block_bitmap = 983040

Se eles fossem baseados em HDD, eu executaria ferramentas de monitoramento SMART para verificar se há setores defeituosos e a integridade geral do disco. Exceto que, por serem eles cartões de CF, eu estou no escuro e tenho dificuldade em medir o quão ruim (ou boa!) A situação é.

O que posso fazer para monitorar a saúde desses cartões e medir sua saúde? Eu insisto em "medida", como eu preciso dar alguns fatos concretos que acabarão por motivar a mudança de todos os cartões CF.

E para tornar as coisas um pouco mais complexas, eu não tenho acesso físico às placas Soekris, então tudo isso precisa ser remoto.

    
por Antoine Benkemoun 25.08.2011 / 14:58

2 respostas

2

O erro parece apontar bastante solidamente para um problema com uma seção da mídia do cartão CF. Se ele está funcionando há algum tempo sem problemas e agora está dando esses problemas, eu acho que o cartão começou a ficar ruim. A maneira mais fácil de testar é enviar uma tecnologia com um cartão de substituição e trocá-lo, especialmente se você estiver vendo isso em um número limitado de sistemas. Todas as mídias têm expectativa de vida e taxas de falha; quanto mais ciclos de leitura / gravação você tiver indo para os cartões, mais cedo eles morrerão.

Outra coisa a considerar: os erros de leitura estão próximos do (s) mesmo (s) ponto (s) de cada vez? Isso me diria que provavelmente é uma célula ruim também em uma parte específica do cartão.

Eu não sei se o fsck funcionaria da mesma maneira nesses cartões ou não. Minha primeira inclinação ao ver esse erro é substituí-lo.

    
por 25.08.2011 / 15:05
-2

Por que você, no mundo, trabalha com cartões CF? Use mídia de estado sólido (destinada a esse propósito) se precisar de armazenamento flash. Os cartões CF não são feitos com padrões técnicos para incluir monitoramento. O máximo que você pode fazer é um checkdisk e verificar se há setores defeituosos.

    
por 25.08.2011 / 15:01