Resumo
Eu tenho recebido essas mensagens secretas no syslog desde que instalei um novo hardware e não consigo descobrir qual é o problema, se é sério, ou o que fazer sobre isso.
Eles são do novo SATA HBA e seguem um padrão. Receberei várias mensagens da primeira mensagem, seguidas por várias da segunda mensagem, 5 a 30 segundos depois. Eles vêm em blobs que estão todos logados no mesmo segundo e a quantidade exata de cada um varia entre cerca de 2 e 35. Pode ser de minutos ou horas entre as aparições das entradas.
Exemplo das duas mensagens:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Sempre é sempre 0x31120303 seguido por 0x31110d01.
mpt2sas é o driver para o adaptador de barramento de host SATA que estou usando, mas o conteúdo do erro é excessivamente enigmático. Ele não me diz qual é o problema, com qual disco ou porta está ou com que gravidade ele é.
Hardware
Supermicro X9SCL com um Xeon E3-1220 e 8GB de RAM.
Supermicro com base em LSI SAS2008 AOC-USAS2-L8I HBA SAS / SATA conectado a um conjunto de bandeja de disco Supermicro CSE-M35T-1B . Ele tem três WD30EZRX da Western Digital e dois Segate < ht="http://www.seagate.com/au/en/internal-hard-drives/desktop-hard-drives/barracuda/"> ST3000DM001 conectado a ele. Todos os drives de 3 TB (exatamente o mesmo número de setores, na verdade). Nenhum expansor de porta em uso.
O HBA, as bandejas de disco e 4 das unidades são novas. Um dos WD30EZRXes já existe há meses, não teve problemas com isso. Se ele estivesse conectado ao controlador Intel SATA integrado anteriormente, movesse-o para os compartimentos de unidade com essa nova configuração.
Tive problemas com o HBA precisando redefinir com frequência e obter um desempenho realmente ruim. Atualizei o firmware / bios para "Phase 12", a última versão disponível da Supermicro e mudei o tipo para IT (ou seja, repasse de IR para raid integrado já que eu ia usar todo o software raid): 2008IT12.FW. Essa atualização esclareceu todos os problemas iniciais e eu não comecei a receber as mensagens acima até mais tarde (veja abaixo).
Os primeiros quatro discos que adicionei estão todos na primeira porta SFF-8087 (divididos em 4 cabos SATA). O disco mais recente que eu adicionei está na outra porta, se isso importa.
O único outro disco no sistema contém o sistema operacional, e é um antigo SSD de 80GB da Intel conectado ao controlador SATA integrado.
Software
Ubuntu 11,10 (onírico). Linux 3.0.0-14-server x86_64. Usando o driver mpt2sas que vem com o sistema operacional.
Tentando construir um array RAID6 usando o Linux md com esses cinco discos. Começou com uma matriz degenerada de 3 discos, os dois Segates e um dos novos drives WD. Isso foi rápido e correu muito bem, sem mensagens nos logs depois que fiz a atualização do firmware. Enquanto isso, ainda estou usando o antigo disco WD na porta 0 do mesmo controlador.
Adicionado o outro novo disco WD ao array. Reconstrução iniciada e agora estou recebendo essas mensagens no syslog periodicamente. Não tenho certeza de quanto tempo deve levar para adicionar um disco à matriz, mas o tempo estimado (cat / proc / mdstat) varia de milhares a dezenas de milhares de minutos, muito mais do que os três primeiros discos. Eu entendo que os discos WD são muito mais lentos; Eu tenho modelos diferentes para reduzir as chances de falha múltipla de disco, e esses eram os dois modelos mais baratos de 3 TB.
Notas
O SMART não relata problemas em nenhum disco. Não há erros registrados em nenhum disco e nenhuma das estatísticas de falha está perto do limite.
As mensagens registradas só começaram a aparecer depois que eu adicionei o último disco, o que sugere que um pode estar tendo um problema, mas não tenho mais nada apontando para isso.
Eu encontrei um arquivo de cabeçalho que parece correspondem às mensagens de registro desse driver. A primeira mensagem parece ser um aborto (código 12) para um "subcódigo" 0303 que não está listado. A segunda mensagem é uma redefinição (código 11) por um motivo que também não está claro. Se eu pudesse determinar o que 0303 e 0d01 significam, isso seria muito útil.
Eu sei que 4 discos em um RAID6 de 5 discos são um array incompleto. Estou planejando copiar o conteúdo do disco antigo para o array assim que ele terminar de integrar o 4º disco e depois adicionar o disco antigo ao array também.