Decifrando a continuação de mensagens do syslog mpt2sas

15

Resumo

Eu tenho recebido essas mensagens secretas no syslog desde que instalei um novo hardware e não consigo descobrir qual é o problema, se é sério, ou o que fazer sobre isso.

Eles são do novo SATA HBA e seguem um padrão. Receberei várias mensagens da primeira mensagem, seguidas por várias da segunda mensagem, 5 a 30 segundos depois. Eles vêm em blobs que estão todos logados no mesmo segundo e a quantidade exata de cada um varia entre cerca de 2 e 35. Pode ser de minutos ou horas entre as aparições das entradas.

Exemplo das duas mensagens:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Sempre é sempre 0x31120303 seguido por 0x31110d01.

mpt2sas é o driver para o adaptador de barramento de host SATA que estou usando, mas o conteúdo do erro é excessivamente enigmático. Ele não me diz qual é o problema, com qual disco ou porta está ou com que gravidade ele é.

Hardware

Supermicro X9SCL com um Xeon E3-1220 e 8GB de RAM.

Supermicro com base em LSI SAS2008 AOC-USAS2-L8I HBA SAS / SATA conectado a um conjunto de bandeja de disco Supermicro CSE-M35T-1B . Ele tem três WD30EZRX da Western Digital e dois Segate < ht="http://www.seagate.com/au/en/internal-hard-drives/desktop-hard-drives/barracuda/"> ST3000DM001 conectado a ele. Todos os drives de 3 TB (exatamente o mesmo número de setores, na verdade). Nenhum expansor de porta em uso.

O HBA, as bandejas de disco e 4 das unidades são novas. Um dos WD30EZRXes já existe há meses, não teve problemas com isso. Se ele estivesse conectado ao controlador Intel SATA integrado anteriormente, movesse-o para os compartimentos de unidade com essa nova configuração.

Tive problemas com o HBA precisando redefinir com frequência e obter um desempenho realmente ruim. Atualizei o firmware / bios para "Phase 12", a última versão disponível da Supermicro e mudei o tipo para IT (ou seja, repasse de IR para raid integrado já que eu ia usar todo o software raid): 2008IT12.FW. Essa atualização esclareceu todos os problemas iniciais e eu não comecei a receber as mensagens acima até mais tarde (veja abaixo).

Os primeiros quatro discos que adicionei estão todos na primeira porta SFF-8087 (divididos em 4 cabos SATA). O disco mais recente que eu adicionei está na outra porta, se isso importa.

O único outro disco no sistema contém o sistema operacional, e é um antigo SSD de 80GB da Intel conectado ao controlador SATA integrado.

Software

Ubuntu 11,10 (onírico). Linux 3.0.0-14-server x86_64. Usando o driver mpt2sas que vem com o sistema operacional.

Tentando construir um array RAID6 usando o Linux md com esses cinco discos. Começou com uma matriz degenerada de 3 discos, os dois Segates e um dos novos drives WD. Isso foi rápido e correu muito bem, sem mensagens nos logs depois que fiz a atualização do firmware. Enquanto isso, ainda estou usando o antigo disco WD na porta 0 do mesmo controlador.

Adicionado o outro novo disco WD ao array. Reconstrução iniciada e agora estou recebendo essas mensagens no syslog periodicamente. Não tenho certeza de quanto tempo deve levar para adicionar um disco à matriz, mas o tempo estimado (cat / proc / mdstat) varia de milhares a dezenas de milhares de minutos, muito mais do que os três primeiros discos. Eu entendo que os discos WD são muito mais lentos; Eu tenho modelos diferentes para reduzir as chances de falha múltipla de disco, e esses eram os dois modelos mais baratos de 3 TB.

Notas

O SMART não relata problemas em nenhum disco. Não há erros registrados em nenhum disco e nenhuma das estatísticas de falha está perto do limite.

As mensagens registradas só começaram a aparecer depois que eu adicionei o último disco, o que sugere que um pode estar tendo um problema, mas não tenho mais nada apontando para isso.

Eu encontrei um arquivo de cabeçalho que parece correspondem às mensagens de registro desse driver. A primeira mensagem parece ser um aborto (código 12) para um "subcódigo" 0303 que não está listado. A segunda mensagem é uma redefinição (código 11) por um motivo que também não está claro. Se eu pudesse determinar o que 0303 e 0d01 significam, isso seria muito útil.

Eu sei que 4 discos em um RAID6 de 5 discos são um array incompleto. Estou planejando copiar o conteúdo do disco antigo para o array assim que ele terminar de integrar o 4º disco e depois adicionar o disco antigo ao array também.

    
por Chris Smith 14.07.2012 / 05:06

3 respostas

5

Provavelmente, sua melhor aposta é um problema de hardware em algum lugar entre seus discos e até e incluindo o seu controlador sas raid. Eu recomendo tentar:

  1. Execute quaisquer ferramentas de diagnóstico do fornecedor, se estiverem disponíveis
  2. Verificar / recolocar / substituir cabos
  3. retire os componentes de hardware e troque o hardware pela corrente que conecta os discos ao seu controlador RAID, incluindo o controlador em si (ou seja, para você, tente algo diferente do RAID integrado à placa-mãe).

Eu tive um em dois Dell PowerEdge R515 idênticos dando mensagens muito semelhantes (logs preenchendo periodicamente com mensagens mpt2sas0, embora eu não tenha os códigos numéricos exatos). O próprio diagnóstico inicializável da Dell os identificou como "erros de hardware" e a substituição do backplane RAID SAS resolveu o problema.

Quando eu estava investigando, não consegui encontrar um recurso abrangente do que vários códigos de erro mpt2sas0 significam. Eu suspeito que eles podem até ser específicos do fornecedor de hardware (alguém que saiba mais sobre o SAS precisa confirmar ou negar isso). Portanto, seus códigos de erro podem significar algo muito diferente, mas, se o SMART estiver limpo, é difícil imaginar outras boas razões para o mpt2sas0 relatar códigos de erro.

Esses erros podem ser muito sérios. Meu R515 funcionou aparentemente bem com essas mensagens por uma semana com uma invasão de software Ubuntu Linux de 12 discos, mas de repente ejetou todos os 12 discos da matriz como quebrados (!)

Também no meu caso, o SMART para todos os discos estava completamente limpo. Uma boa verificação é um teste de autodiagnóstico inteligente: smartctl -t long /dev/sdX e, em seguida, verifica os resultados cerca de um dia depois com smartctl -l selftest /dev/sdX . Se tudo estiver OK, o teste deve dizer Completed e a coluna LBA_first_err deve estar vazia.

    
por 24.07.2012 / 21:23
3

Uau, difícil.

Isso parece indicar que 0x31120303 é uma redefinição de barramento devido a um de seus dispositivos estarem sob carga pesada. Também diz que você não precisa se preocupar com isso. (Haha, sim, certo.)

Este indica que essas mensagens de log estão acontecendo porque um dos seus dispositivos está recebendo muito tempo para responder aos comandos. Este diz a mesma coisa e também indica ocorre sob carga pesada.

Embora esta não seja uma resposta completa, esperamos que você aponte uma direção útil.

    
por 24.07.2012 / 19:33
0

Isso significa que você tem algum erro no disco, é um disco SATA em um controlador SAS do LSI e, devido ao erro, todas as solicitações pendentes foram anuladas.

Na maioria dos casos, você tem um erro médio no disco, que é o acionador desse erro. Este erro por si só não significa um erro médio e você precisará verificar os logs para obter outras dicas para descobrir qual é a origem da falha original do disco.

Versão ligeiramente mais elaborada em: link

    
por 27.03.2014 / 21:33