Erros de falha de caminho errático do driver RDAC MPP

2

No meu syslog central, vejo algumas instâncias doo seguinte erro do driver multi-pathing RDAC da LSI para Linux.

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1

também algumas instâncias de

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 Illegal Request ASC/ASCQ 0x20/0x0, SKSBs 0x0/0x0/0x0

seguido por

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 IO FAILURE. vcmnd SN 887 pdev H2:C0:T0:L10 0x05/0x20/0x00 0x08000002 mpp_status:1

Eu recebo de quase todas as minhas máquinas na SAN durante o dia, mas não todas de uma só vez - geralmente uma delas em 5 horas. Todos os switches FC e todos os FC HBAs não mostram erros a partir de hoje e todos os caminhos para qualquer LUN estão ativos quando eu os verifico. O desempenho (IOPS e acesso seqüencial) também é muito bom. Alguém viu isso?

    
por pfo 09.12.2010 / 22:38

1 resposta

0

Bem ASC / ASCQ 0x20 / 0x0 traduz-se em CÓDIGO DE OPERAÇÃO DE COMANDO INVÁLIDO que poderia também ter sido "INVALID FIELD IN CDB" esse cmd não é suportado neste destino. O que não sabemos é o que realmente é o comando que causou essa falha. Ativar depuração detalhada para esse driver MP proprietário pode ajudar.

As mensagens do driver de caminho múltiplo específicas do fornecedor não ajudam muito:

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1

O 0x02 é o byte de status definido como CHECK CONDITION , o que significa que temos um problema, o byte do driver é 0x08 que pode ser qualquer coisa que o vendedor queira. Eu não sei o que significa 0x05 / 0x94 / 0x01 , pergunte ao suporte.

Vendo que isso é em toda a SAN, e supondo que você esteja executando a mesma ferramenta LSI RDAC MP em todos eles, eu concentraria meus esforços em um bug do LSI MP ou em um problema de configuração da SAN. Eu também procuraria em qualquer configuração de cluster e certifique-se de que eles não foram ligados por acidente.

Já que você está usando o driver mpath do LSI, você deve realmente começar com o suporte deles e levá-lo a partir daí. É importante manter a perspectiva aqui, já que até agora esta mensagem não resultou em nenhum comportamento fatal ou prejudicial, que você tenha medido até agora. Tenha isso em mente se / quando o suporte solicitar que você remonte sua SAN;).

    
por 31.01.2012 / 15:26