Como você mantém a integridade do servidor de arquivos sem ficar offline com o chkdsk?

3

Estou apenas imaginando como as pessoas lidam com a estabilidade do sistema de arquivos em andamento ao usar um servidor Windows como um servidor de arquivos sem colocar o sistema offline para executar chkdsk / f ou chkdsk / r? Obviamente, não é realmente necessário que um servidor de arquivos não esteja disponível ... e os servidores de arquivos agora têm muito espaço de armazenamento que pode levar dias para executar um chkdsk ... então, como você está protegendo os dados contra corrupção?

    
por David Mackey 12.03.2011 / 16:33

4 respostas

0

A Microsoft publicou orientações prescritivas para melhorar o desempenho e minimizar o tempo de inatividade ao executar o checkdisk:

Práticas recomendadas e desempenho do NTFS Chkdsk
link

De nota particular:

  • O tamanho do volume não afeta o desempenho.

  • Para volumes com grande número de arquivos (centenas de milhões / bilhões), o aumento no desempenho de utilizar mais memória para o chkdsk é impressionante.

  • O chkdsk do Windows 2008 R2 é entre duas a cinco vezes o desempenho do Windows 2008. O Windows 2003 era tão ruim que provavelmente estavam com vergonha de publicar as estatísticas.

  • Você deve verificar proativamente se o (s) volume (s) estão sujos antes de um reinício agendado. Isso pode ajudar a atenuar o efeito de atrasos inesperados na inicialização de várias horas.

Não está no documento, mas altamente recomendado: usar um servidor multifuncional para arquivos que atendem a centenas de milhões de arquivos aumenta a probabilidade de ocorrer uma falha e um volume será marcado como sujo. Devem ser tomadas medidas para garantir que uma falha não ocorra. Um exemplo seria não usar o servidor de arquivos como um servidor de impressão (os drivers de impressora têm um longo histórico notório em termos de tela azul). Outro exemplo seria "software de arquivamento de arquivos". Uma fonte de energia de backup com tempo de execução estendido é altamente recomendada.

    
por 12.03.2011 / 18:09
5

Na minha opinião, o chkdsk não é uma ferramenta para executar manutenção preventiva. Se você está tendo que executar o chkdsk regularmente para corrigir problemas, então você tem um problema subjacente que precisa ser resolvido.

    
por 12.03.2011 / 16:53
5

Mantive servidores de arquivos com cerca de 7 TB de dados gerais do usuário. Esse 7TB foi formado principalmente por arquivos do tipo office, então estamos falando em milhões. Eu não tenho um número exato porque demora muito para chegar, mas em algum lugar entre 7-12 milhões de arquivos nos vários sistemas de arquivos em nosso cluster de failover do Server 2008.

Nunca executamos o chkdsk, exceto para corrigir problemas, e nunca desfragmentamos.

O NTFS agora é autocurável o suficiente para nos depararmos com problemas muito, muito raramente. Quando nos deparamos com problemas, geralmente é devido a uma falha na infra-estrutura do sistema de armazenamento de alguma forma; reinicialização do controlador de matriz de canal de fibra espontânea, switch FC pânico-e-reboot, esse tipo de coisa. Arrancar a energia da parte de trás do servidor é eminentemente permissível.

Na verdade, recentemente sobrevivemos a uma falha catastrófica do no-break. A sala inteira caiu com força, simultaneamente. O NTFS recuperou com apenas um peep e não há necessidade de executar o chkdsk.

Sobre a desfragmentação ... nosso FC disk array possui 48 unidades e, como é um HP EVA, as faixas são distribuídas aleatoriamente pelos eixos. Isso significa que mesmo acessos em grande parte seqüenciais são realmente aleatórios no que diz respeito às unidades, o que significa que um sistema de arquivos significativamente sequencial tem um desempenho minimamente melhor que um sistema significativamente fragmentado. Portanto, os defrags de rotina fazem muito pouco para ajudar em muita sobrecarga de I / O.

Quanto à manutenção preventiva, o NTFS agora é automatizado o suficiente para fazer quase tudo isso sozinho. De vez em quando eu vou executar o chkdsk no modo somente leitura para ver se vale a pena executá-lo no modo completo. Até agora, em nosso cluster, ainda será necessário . Mesmo em nosso LUN de 2 milhões de arquivos, ele é executado em menos de um dia.

Dito isso, há algumas decisões arquiteturais que podem ser tomadas para ajudar a reduzir a necessidade eventual de um chkdsk off-line e torná-lo mais rápido se você precisar fazer uma:

  • Defina a política de cache em seus controladores RAID / SAN para não gravar em cache. No entanto, é por isso que existe cache com backup de bateria, então o impacto de desempenho isso fará com que não precise ser usado. Mas esta é a melhor coisa a fazer para evitar um chkdsk offline.
  • Mantenha seus LUNs menores. A contagem de arquivos é mais importante que o tamanho. Um LUN de 6 TB cheio de imagens do Ghost será verificado muito mais rápido do que um LUN de 512 GB cheio de arquivos de 6 KB.
  • Mantenha espaço livre adequado. Uma boa regra baseada em critérios totalmente subjetivos não é menos que 15% grátis a qualquer momento.
  • Se seus dados permitirem, use um tamanho de bloco maior que o tamanho de bloco padrão de 4KB para NTFS. Depois de fazer algumas estatísticas em meus arquivos, descobri que posso usar blocos de 16 KB para a maioria dos meus sistemas de arquivos. Blocos maiores significam menos blocos a serem verificados e também permitem que o subsistema de armazenamento aproveite melhor a leitura antecipada. Sim, arquivos itty bitty consomem mais espaço, mas em nossos volumes ele só adicionou cerca de 4% ao tamanho total.
por 12.03.2011 / 17:38
2

No anterior, onde trabalhei, usamos o Tripwire. Para mais informações você pode dar uma olhada aqui: Tripwire File Integrity Manager

Aqui você também encontrará uma visão geral das soluções no mercado para verificação de integridade de arquivos: verificadores de integridade de arquivos

    
por 12.03.2011 / 16:43