Como é uma falha no disco rígido em um pool do ZFS e o que você realmente faz?

Question

Como é uma falha no disco rígido em um pool do ZFS e o que você realmente faz?

#1 resposta do (6 votos)
#2 resposta do (1 votos)

2

As pessoas costumam falar sobre os benefícios teóricos do ZFS e sobre como ele leva (RAIDZ1 / 2) falhas no disco rígido com facilidade, e o Server Fault tem muitos testemunhos desse fato. Estou pensando em configurar um NAS com 3 a 5 discos rígidos usando o FreeNAS, e posso estar fazendo o backup de documentos importantes todas as noites, por isso não posso levar mais de uma semana de tempo de inatividade.

Como (fisicamente) um disco rígido falha ?

O que o ZFS faz, e o FreeNAS em particular, quando um disco rígido em um zpool falha? Como em SMTP envia um e-mail dizendo "substitua o disco rígido 1 e clique em OK. quando terminar. "

Quanto tempo leva para o FreeNAS se recuperar de uma falha de 2 discos no RAIDZ2?

Qual a probabilidade de eu ter sucesso em me recuperar de uma falha no disco rígido pior tolerável em uma configuração RAIDZ2, assumindo uma interação humana mínima?

Pode um leigo realizar a restauração graficamente a partir de um manual de qualidade SO ou de um assistente?

freenas

por Simon Kuang 10.08.2014 / 08:14

2 respostas

Tags freenas

Conexão de rede da Juniper ncsvc no Linux: “o verificador de host falhou, erro 10” Como posso fazer com que meu servidor proxy use um proxy para acessar outro proxy

score 6 · Answer 1

O FreeNAS suporta o monitoramento de S.M.A.R.T, portanto, normalmente, antes de uma unidade falhar se as notificações estiverem definidas corretamente e o monitoramento estiver ativado. O sysadmin obterá relatórios sobre setores inutilizáveis, superaquecimento, etc. FreeNAS a partir da versão 9.2.1.8 DOESNOT suporta "hot spare". As peças configuradas em um zpool podem ser enviadas manualmente para substituir uma unidade com falha, mas nada no software fornece a automação do processo. Com 2 falhas simultâneas no RAIDZ2, haverá quase garantidos erros de arquivos irrecuperáveis. Isto é devido a um processo conhecido como Bitrot . Unidades contemporâneas são tipicamente 3TB +. Para melhorar a utilização do espaço de espelho, seria possível construir o RAIDZ2 a partir de pelo menos 6 Drives. Agora, com uma unidade com falha e capacidade de vdev maior que 12 TB na tarja restante do RAID 5 e uma taxa de URE de 10 ^ 14, é muito provável que você encontre um URE. Quase certo, se os fornecedores de unidades estiverem certos. O que resultará no mínimo em uma mensagem como esta:

~# zpool status -v
  pool: dpool
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
scan: resilvered 6.90T in 52h5m with 313 errors on Wed Oct 22 17:44:25 2014
config:

        NAME                         STATE     READ WRITE CKSUM
        dpool                        DEGRADED     0     0 5.75K
          raidz2-0                   ONLINE       0     0    78
            c0t50014EE05807CC4Ed0    ONLINE       0     0     0
            c0t50014EE6AAD9F57Fd0    ONLINE       0     0     0
            c0t50014EE204FC5087d0    ONLINE       0     0     0
            c0t50014EE6AADA3B7Cd0    ONLINE       0     0     0
            c0t50014EE655849876d0    ONLINE       0     0     0
            c0t50014EE6AADA3DFDd0    ONLINE       0     0     0
            c0t50014EE6AADA38FFd0    ONLINE      39     0     0
          raidz2-1                   ONLINE       0     0 11.4K
            c0t50014EE6AADA45E4d0    ONLINE   1.69K     0     0
            c0t50014EE6AADA45ECd0    ONLINE     726     0     0
            c0t50014EE6AADA3944d0    ONLINE       0     0     0
            c0t50014EE204FC1F46d0    ONLINE       0     0     0
            c0t50014EE6002A74CEd0    ONLINE       0     0     0
            c0t50014EE2AFA6C8B4d0    ONLINE       0     0     0
            c0t50014EE6002F9C53d0    ONLINE       5     0     0
          raidz2-2                   DEGRADED     0     0     0
            c0t50014EE6002F39C5d0    ONLINE       0     0     0
            c0t50014EE25AFFB56Ad0    ONLINE       0     0     0
            c0t50014EE6002F65E3d0    ONLINE       0     0     0
            c0t50014EE6002F573Dd0    ONLINE       0     0     0
            c0t50014EE6002F575Ed0    ONLINE       0     0     0
            spare-5                  DEGRADED     0     0     0
              c0t50014EE6002F645Ed0  FAULTED      1    29     0  too many errors
              c0t50014EE2AFA6FC32d0  ONLINE       0     0     0
            c0t50014EE2050538DDd0    ONLINE       0     0     0
          raidz2-3                   ONLINE       0     0     0
            c0t50014EE25A518CBCd0    ONLINE       0     0     0
            c0t50014EE65584A979d0    ONLINE       0     0     0
            c0t50014EE65584AC0Ed0    ONLINE       0     0     0
            c0t50014EE2B066A6D2d0    ONLINE       0     0     0
            c0t50014EE65584D139d0    ONLINE       0     0     0
            c0t50014EE65584E5CBd0    ONLINE       0     0     0
            c0t50014EE65584E120d0    ONLINE       0     0     0
          raidz2-4                   ONLINE       0     0     0
            c0t50014EE65584EB2Cd0    ONLINE       0     0     0
            c0t50014EE65584ED80d0    ONLINE       0     0     0
            c0t50014EE65584EF52d0    ONLINE       0     0     0
            c0t50014EE65584EFD9d0    ONLINE       0     0     1
            c0t50014EE2AFA6B6D0d0    ONLINE       0     0     0
            c0t5000CCA221C2A603d0    ONLINE       0     0     0
            c0t50014EE655849F19d0    ONLINE       0     0     0
        spares
          c0t50014EE2AFA6FC32d0      INUSE     currently in use

errors: Permanent errors have been detected in the following files:

O processo de reconstrução chamado "resilvering" dependerá Pense na velocidade máxima de 25MB / s. No entanto,

~# zpool status pool: dpool state: ONLINE status: One or more devices is currently being resilvered. continue to function, possibly in a degraded state. action: Wait for the resilver to complete. scan: resilver in progress since Thu Nov 13 10:41:28 2014 338M scanned out of 48.3T at 5.72M/s, (scan is 32.3M resilvered, 0.00% done config:

NAME                                            STATE dpool                                           ONLINE raidz2-0                                      ONLINE gptid/9640be78-a3e1-11e3-844a-001b21675440  ONLINE gptid/97b9d7c5-a3e1-11e3-844a-001b21675440  ONLINE gptid/994daffc-a3e1-11e3-844a-001b21675440  ONLINE gptid/9a7c78a3-a3e1-11e3-844a-001b21675440  ONLINE gptid/9c48de9d-a3e1-11e3-844a-001b21675440  ONLINE gptid/9e1ca264-a3e1-11e3-844a-001b21675440  ONLINE gptid/9fafcc1e-a3e1-11e3-844a-001b21675440  ONLINE gptid/a130f0df-a3e1-11e3-844a-001b21675440  ONLINE gptid/a2b07b02-a3e1-11e3-844a-001b21675440  ONLINE gptid/a44e4ed9-a3e1-11e3-844a-001b21675440  ONLINE raidz2-1                                      ONLINE gptid/a617b0c5-a3e1-11e3-844a-001b21675440  ONLINE gptid/a785adf7-a3e1-11e3-844a-001b21675440  ONLINE gptid/a8c69dd8-a3e1-11e3-844a-001b21675440  ONLINE gptid/aa097d45-a3e1-11e3-844a-001b21675440  ONLINE gptid/ab7e0047-a3e1-11e3-844a-001b21675440  ONLINE gptid/acfe5649-a3e1-11e3-844a-001b21675440  ONLINE gptid/ae5be1b8-a3e1-11e3-844a-001b21675440  ONLINE gptid/afd04931-a3e1-11e3-844a-001b21675440  ONLINE gptid/b14ef3e7-a3e1-11e3-844a-001b21675440  ONLINE gptid/b2c8232a-a3e1-11e3-844a-001b21675440  ONLINE raidz2-2                                      ONLINE gptid/b43d9260-a3e1-11e3-844a-001b21675440  ONLINE gptid/b5bd6d79-a3e1-11e3-844a-001b21675440  ONLINE gptid/b708060f-a3e1-11e3-844a-001b21675440  ONLINE gptid/b8445901-a3e1-11e3-844a-001b21675440  ONLINE gptid/b9c3b4f4-a3e1-11e3-844a-001b21675440  ONLINE gptid/bb53a54f-a3e1-11e3-844a-001b21675440  ONLINE gptid/bccf1980-a3e1-11e3-844a-001b21675440  ONLINE gptid/be50575e-a3e1-11e3-844a-001b21675440  ONLINE gptid/bff97931-a3e1-11e3-844a-001b21675440  ONLINE gptid/c1b93e80-a3e1-11e3-844a-001b21675440  ONLINE spares gptid/c4f52138-a3e1-11e3-844a-001b21675440    AVAIL gptid/c6332a6f-a3e1-11e3-844a-001b21675440    AVAIL

errors: No known data errors

A proteção de dados no RAIDZ não se destina a Se alguém definir o monitoramento e prestar atenção No entanto, a versão atual do FreeNAS (9.2.1.8) não Como determinar qual disco falhou em uma configuração FreeNAS / ZFS

score 1 · Answer 2

Eu posso responder às seguintes perguntas da minha experiência pessoal;

Você perguntou: Quanto tempo leva para o FreeNAS se recuperar de uma falha de 2 discos no RAIDZ2?

Eu noto: Atualmente, estou substituindo uma unidade não-defeituosa existente por outra nova unidade maior usando o comando "Substituir" encontrado no Status do volume.

4.67T de dados precisavam ser verificados. Eu obtive uma taxa de transferência de 30M / s. Acho que isso é muito bom. Demorou cerca de 48 horas para substituir a unidade. Como a matriz não foi degradada, não fiquei (as) preocupado com a falha de outra unidade durante o processo.

É por isso que é importante substituir as unidades antes de falhas, como erros SMART ou qualquer tipo de erro de gravação ou leitura. Eu também concordo com Dimitar que o pool deve ser sincronizado com outro dispositivo logicamente separado, de preferência de hora em hora.

Você perguntou: Um leigo pode executar a restauração graficamente a partir de um manual de qualidade SO ou de um assistente?

Eu observo: Na minha opinião, não. É preciso um pouco de habilidade técnica para trabalhar com o FreeNAS / ZFS.