ZFS (Solaris 11) - O controlador SAS morreu e foi substituído - o pool está suspenso

1

(Nota eu vou corrigir com zpool status para maior clareza, quando eu voltar para o servidor)

Eu tenho um pool ZFS raidz2 de 6x2TB que estou hospedando no Solaris 11

Meu M1015 original (flashed para o modo IT) instalado há 2 anos quando eu criei este servidor falhou e não era mais reconhecido no barramento PCI-E. Eu substituí-lo com outro M1015 ontem (piscou para o modo de TI) e Solaris encontrou todos os discos novamente.

No entanto, o pool do ZFS foi colocado no modo SUSPENDED (provavelmente devido a M1015 anterior ao executar e todos os discos desaparecerem antes) e eu vejo o resilvering ocorrendo em 2 discos (??), com todos os discos listados como indisponíveis. / p>

Não tenho dúvidas de que existem alguns erros no pool. Mas eu limpei (fmadm repaired e zpool clear) as falhas na esperança de que o conjunto pudesse ser remontado em estado degradado. No entanto, após a reinicialização, o conjunto aparece como DEGRADED (alguns discos são exibidos como indisponíveis, alguns como degradados), e as transições imediatas para SUSPENDED com todos os discos exibidos como indisponíveis e resilvering são iniciados.

A velocidade de resilvering começa em cerca de 100MBps e diminui rapidamente para 50kbps ou menos. Isso equivale a várias centenas de horas de tempo de recuperação esperado. O que é mais importante é que o iostat mostra transações ZERO ocorrendo em qualquer um dos discos no pool. Parece que todas as transações ocorrem em uma explosão logo após a reinicialização, como eu posso ver em cerca de + 1 GB de progresso digitalizado após reinicializações sequenciais.

Não tenho como desligar qualquer um dos discos ou exportar o conjunto enquanto ele está no estado suspenso (também, não tenho a menor ideia do motivo pelo qual ele está entrando no estado suspenso quando todas as entradas "fmadm faulty" são reparadas)

Onde eu errei ao substituir o controlador SAS e como me recupero?

$ zpool status
  pool: rpool
 state: ONLINE
  scan: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          c8t0d0s1  ONLINE       0     0     0

errors: No known data errors

  pool: tank
 state: SUSPENDED
status: One or more devices is currently being resilvered.  The pool will
        continue to function in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Thu Apr 16 19:37:54 2015
    14.7G scanned out of 8.71T at 127K/s, (scan is slow, no estimated time)
    1.23G resilvered, 0.17% done
config:

        NAME                       STATE     READ WRITE CKSUM
        tank                       UNAVAIL      0     0     0
          raidz2-0                 UNAVAIL      0     0     0
            c0t5000C5005E169C55d0  UNAVAIL      0     0     0
            c0t5000C5005C08BE07d0  UNAVAIL      0     0     0
            c0t5000C5005C07780Ad0  UNAVAIL      0     0     0
            c0t5000C5005E21AE92d0  UNAVAIL      0     0     0  (resilvering)
            c0t5000C5005E0C5056d0  UNAVAIL      0     0     0
            c0t5000C5005C04F982d0  UNAVAIL      0     0     0  (resilvering)

device details:

        c0t5000C5005E169C55d0    UNAVAIL          experienced I/O failures
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005C08BE07d0    UNAVAIL          experienced I/O failures
        status: FMA has degraded this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.
           see: http://support.oracle.com/msg/ZFS-8000-GH for recovery

        c0t5000C5005C07780Ad0    UNAVAIL          experienced I/O failures
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005E21AE92d0    UNAVAIL          experienced I/O failures
        status: FMA has degraded this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005E0C5056d0    UNAVAIL          experienced I/O failures
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005C04F982d0    UNAVAIL          experienced I/O failures
        status: FMA has degraded this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.
           see: http://support.oracle.com/msg/ZFS-8000-LR for recovery
$ iostat -en
  ---- errors ---
  s/w h/w trn tot device
    0   0   0   0 c8t0d0
    0  11   0  11 c7t0d0
    0   0   0   0 c0t5000C5005E0C5056d0
    0   0   0   0 c0t5000C5005E169C55d0
    0   0   0   0 c0t5000C5005C08BE07d0
    0   0   0   0 c0t5000C5005E21AE92d0
    0   0   0   0 c0t5000C5005C07780Ad0
    0   0   0   0 c0t5000C5005C04F982d0
    
por Animosity 17.04.2015 / 18:59

0 respostas

Tags