Mantive servidores de arquivos com cerca de 7 TB de dados gerais do usuário. Esse 7TB foi formado principalmente por arquivos do tipo office, então estamos falando em milhões. Eu não tenho um número exato porque demora muito para chegar, mas em algum lugar entre 7-12 milhões de arquivos nos vários sistemas de arquivos em nosso cluster de failover do Server 2008.
Nunca executamos o chkdsk, exceto para corrigir problemas, e nunca desfragmentamos.
O NTFS agora é autocurável o suficiente para nos depararmos com problemas muito, muito raramente. Quando nos deparamos com problemas, geralmente é devido a uma falha na infra-estrutura do sistema de armazenamento de alguma forma; reinicialização do controlador de matriz de canal de fibra espontânea, switch FC pânico-e-reboot, esse tipo de coisa. Arrancar a energia da parte de trás do servidor é eminentemente permissível.
Na verdade, recentemente sobrevivemos a uma falha catastrófica do no-break. A sala inteira caiu com força, simultaneamente. O NTFS recuperou com apenas um peep e não há necessidade de executar o chkdsk.
Sobre a desfragmentação ... nosso FC disk array possui 48 unidades e, como é um HP EVA, as faixas são distribuídas aleatoriamente pelos eixos. Isso significa que mesmo acessos em grande parte seqüenciais são realmente aleatórios no que diz respeito às unidades, o que significa que um sistema de arquivos significativamente sequencial tem um desempenho minimamente melhor que um sistema significativamente fragmentado. Portanto, os defrags de rotina fazem muito pouco para ajudar em muita sobrecarga de I / O.
Quanto à manutenção preventiva, o NTFS agora é automatizado o suficiente para fazer quase tudo isso sozinho. De vez em quando eu vou executar o chkdsk no modo somente leitura para ver se vale a pena executá-lo no modo completo. Até agora, em nosso cluster, ainda será necessário . Mesmo em nosso LUN de 2 milhões de arquivos, ele é executado em menos de um dia.
Dito isso, há algumas decisões arquiteturais que podem ser tomadas para ajudar a reduzir a necessidade eventual de um chkdsk off-line e torná-lo mais rápido se você precisar fazer uma:
- Defina a política de cache em seus controladores RAID / SAN para não gravar em cache. No entanto, é por isso que existe cache com backup de bateria, então o impacto de desempenho isso fará com que não precise ser usado. Mas esta é a melhor coisa a fazer para evitar um chkdsk offline.
- Mantenha seus LUNs menores. A contagem de arquivos é mais importante que o tamanho. Um LUN de 6 TB cheio de imagens do Ghost será verificado muito mais rápido do que um LUN de 512 GB cheio de arquivos de 6 KB.
- Mantenha espaço livre adequado. Uma boa regra baseada em critérios totalmente subjetivos não é menos que 15% grátis a qualquer momento.
- Se seus dados permitirem, use um tamanho de bloco maior que o tamanho de bloco padrão de 4KB para NTFS. Depois de fazer algumas estatísticas em meus arquivos, descobri que posso usar blocos de 16 KB para a maioria dos meus sistemas de arquivos. Blocos maiores significam menos blocos a serem verificados e também permitem que o subsistema de armazenamento aproveite melhor a leitura antecipada. Sim, arquivos itty bitty consomem mais espaço, mas em nossos volumes ele só adicionou cerca de 4% ao tamanho total.