Com que frequência você deve digitalizar depende de muitas coisas.
- Idade dos discos. Quanto mais velhos eles são, maior a probabilidade de eles conterem o mal
- A qualidade original dos discos em questão. As coisas vendidas como 'enterprise' têm maior probabilidade de durar sem erros, e os discos de tamanho 1 + TB de 2014 são muito mais confiáveis do que os equivalentes de 2009 quando eles foram enviados.
- Quão sensível sua E / S de produção é para a E / S de limpeza.
- Quanto do seu conjunto de dados você considera seu conjunto de trabalho.
Os fornecedores de RAID de hardware geralmente incluem um processo de limpeza de plano de fundo por essa mesma razão, alguns até permitem ajustar a prioridade de E / S do processo de depuração que permite evitar (ou reduzir bastante) a penalidade de E / S de produção um esfoliante. É claro que, se sua prioridade for baixa e sua E / S for executada, os discos ficarão praticamente vazios e você provavelmente nunca completará um scrub e nem perceberá até que você tenha uma falha.
Infelizmente, não sei se o kernel do Linux desprioriza a depuração de E / S ou não. De qualquer forma, é uma boa ideia testá-lo com suas cargas de produtos para garantir que qualquer impacto no desempenho seja aceitável. Se for aceitável, bom! Se não for, você pode fazer uma escolha sobre adicionar ou não eixos para permitir a E / S de scrub + prod ou apenas aceitar o risco de possíveis falhas de matriz no futuro.
Outra coisa que afeta a frequência de limpeza é o padrão de uso de E / S. Se as cargas de produção atingem apenas uma minoria dos discos, a única E / S que normalmente encontraria um bloco defeituoso na parte inativa seria sua limpeza; Nesse caso, você quer esfregar com mais freqüência. Se as cargas de produção rotineiramente lerem todo o conjunto de discos (como backups completos diários), a E / S de produção vai se deparar com problemas mais cedo e você poderá esfregar com menos frequência.
Um bom plano de ação seria:
- Execute alguns testes para ver se a limpeza atrapalhará a produção.
- Descubra quanto tempo um scrub completo leva enquanto você está nisso.
- Descubra qual porcentagem do seu conjunto de discos receberá vários acessos em uma determinada semana (inclua E / S de backup, se houver, nesse cálculo).
- Com base em 1 e 2, decida se você está no campo menos frequente ou mais frequentemente.
Depois de ter esses dados ...
- Se uma varredura completa levar menos de um dia e não afetar a produção visivelmente, você poderá ir com uma frequência de uma vez por semana.
- Se uma varredura completa levar menos de um dia e afetar a produção, descubra qual parte de sua semana / mês é menos afetada e tente executá-la.
- Se uma varredura completa demorar mais de um dia, mas menos de uma semana, e não afetar a produção, execute-a com frequência a cada duas semanas ou uma vez a cada dois meses.
- Se uma varredura completa demorar mais de um dia, mas menos de uma semana e afetar a produção, considere adicionar recursos para permitir a execução, exigir que as varreduras sejam executadas durante as janelas de manutenção organizadas ou aproveitar a capacidade ociosa / de verificação esfregando para fazê-lo aos trancos e barrancos continuamente.
- Se uma varredura completa demorar mais de uma semana, uma vez por mês será suficiente. Mas se impactar a produção, você precisará adicionar recursos para permitir a conclusão.