ZFS - Impacto da falha do dispositivo de cache L2ARC (Nexenta)

10

Eu tenho um servidor HP ProLiant DL380 G7 sendo executado como uma unidade de armazenamento NexentaStor . O servidor tem 36 GB de RAM, 2 controladores LSI 9211-8i SAS (sem expansores SAS), 2 unidades de sistema SAS, 12 unidades de dados SAS, um disco hot-spare, um cache Intel X25-M L2ARC e um acelerador DDRdrive PCI ZIL. Este sistema serve NFS para vários hosts VMWare. Eu também tenho cerca de 90-100GB de dados desduplicados no array.

Eu tive dois incidentes em que o desempenho disparou repentinamente, deixando os guests da VM e os consoles do SSH / Nexenta da Web inacessíveis e exigindo uma reinicialização completa da matriz para restaurar a funcionalidade. Em ambos os casos, foi o SSD Intel X-25M L2ARC que falhou ou foi "off-line". O NexentaStor não me alertou sobre a falha do cache, no entanto, o alerta geral do ZFS FMA ficou visível na tela do console (que não responde).

A saída zpool status mostrou:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Isso não acionou nenhum alerta de dentro da Nexenta.

Fiquei com a impressão de que uma falha no L2ARC não afetaria o sistema. Mas neste caso, certamente foi o culpado. Eu nunca vi nenhuma recomendação para o RAID L2ARC. Removendo o SSD ruim inteiramente do servidor, eu estou de volta, mas estou preocupado com o impacto da falha do dispositivo (e talvez a falta de notificação do NexentaStor também).

Editar - Qual é o atual SSD best-choice para aplicativos de cache L2ARC atualmente?

    
por ewwhite 07.06.2011 / 21:06

3 respostas

10

O ZFS não executa E / S de disco, drivers de dispositivo abaixo do E / S de disco do ZFS. Se o dispositivo não responder de maneira oportuna ou, como neste caso, interromper todos os outros dispositivos no expansor, ele não será visível como uma falha no ZFS. Tudo o que o ZFS vê é uma E / S lenta.

Existe um bug no firmware Intel X-25M que afeta seu comportamento durante cargas pesadas e pode causar tempestades de reset. Esse problema afeta todos os sistemas operacionais e não pode ser resolvido na camada do sistema operacional. Entre em contato com seu fornecedor de hardware para correções ou remediação.

Se for esperado que uma leitura seja satisfeita pelo L2ARC, então a leitura será tentada lá. O ZFS depende dos drivers da camada inferior para relatar um erro. Nesse caso, o inversor continua a reinicializar e a tentar novamente por até cinco minutos antes de declarar a E / S como falha, dependendo das configurações de driver, dispositivo e tempo limite padrão. Somente depois que os drivers da camada inferior declararem a E / S como falha, o ZFS tentará novamente no pool.

Os corredores de verificação de volume e verificação de disco do NexentaStor procuram mensagens de erro adicionais e o alertam via e-mail e registro de falhas. O gerenciador de verificação de disco foi aprimorado na versão 3.1 para ajudar a alertar especificamente sobre as condições exibidas pelo firmware quebrado em SSDs.

Resultado: seu hardware está com defeito e precisa ser consertado ou substituído.

    
por 12.06.2011 / 21:40
3

Você está conectando o SSD X25-M ao backplane? Há um problema conhecido com a Nexenta e o acesso ao L2ARC em um backplane. Sua melhor aposta é conectar o SSD diretamente em uma porta SATA na placa-mãe. Certifique-se de que esteja configurado para usar o AHCI também.

Se você estiver executando algo de missão crítica neste servidor, eu mudaria para um SSD do SLC (como o X25-E ou um SSD do STEC). Dito isto, você provavelmente ficará bem com o X25-M se não for.

    
por 07.06.2011 / 23:00
0

Ed, existem vários que você pode usar desde preços relativamente razoáveis até preços muito altos. Eu prefiro implantar SSDs SAS em todos os casos e tenho feito muito bem com o STEC e o Pliant. Ambos agora oferecem uma unidade MLC que funcionará famosamente tem um dispositivo L2ARC. Ainda não testado, mas em breve está a oferta de SSD da Seagate, que é o SLC SAS 2.0 e supostamente "não é cara". Fique ligado ...

-PB

    
por 24.06.2011 / 01:20