Suprime as mensagens de log sobre pequenas alterações de temperatura do disco 3ware no CentOS?

2

Eu tenho um número de servidores CentOS 5 que usam controladores 3ware RAID.

Esses servidores estão incomodando minha equipe com mensagens sobre pequenas alterações de temperatura, como esta:

Jun  8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_01], SMART Usage Attribute: 194 Temperature_Celsius changed from 119 to 118 
Jun  8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_03], SMART Usage Attribute: 194 Temperature_Celsius changed from 122 to 121 

Como posso suprimir essas mensagens?

De acordo com o homem smartd.conf :

To disable any of the 3 reports, set the corresponding limit to 0. Trailing zero arguments may be omitted. By default, all temperature reports are disabled (´-W 0´).

Nos meus sistemas, o smartd está informando sobre alterações de temperatura por padrão.

Eu tentei uma abordagem manual. Em /etc/smartd.conf , tenho o seguinte:

/dev/twa0 -d 3ware,1 -a -W 0
/dev/twa0 -d 3ware,3 -a -W 0

Mas isso ainda não suprime as mensagens.

Como essas mensagens aparecem em / var / log / messages, o LogWatch está enviando e-mails desnecessários todas as noites.

    
por Stefan Lasiewski 08.06.2012 / 22:04

1 resposta

3

OK, desde que nós estabelecemos que seus discos não estão se derretendo porque você pode tocá-los, eu diria que Jason tem a idéia certa com ajustes no LogWatch.
Já faz um tempo que eu olhei para o LogWatch (acho que é muito ruim e geralmente desabilito), mas você pode definitivamente desabilitar os alarmes de temperatura usando ignore.conf ( há algumas informações sobre isso nesta questão , bem como na documentação do LogWatch).

Uma solução melhor seria descobrir exatamente o que significa o valor de temperatura informado - aparentemente os atributos de temperatura SMART não são bem definidos, e até mesmo o smartctl man page diz coisas desagradáveis sobre a variabilidade entre implementações de fornecedores de fornecedores:

The conversion from Raw value to a quantity with physical units is not specified by the SMART standard. In most cases, the values printed by smartctl are sensible. For example the temperature Attribute generally has its raw value equal to the temperature in Celsius. However in some cases vendors use unusual conventions. For example the Hitachi disk on my laptop reports its power-on hours in minutes, not hours. Some IBM disks track three temperatures rather than one, in their raw values. And so on.

Se você entrar em contato com seu fornecedor de HD, eles poderão fornecer informações sobre o que as unidades estão retornando para o parâmetro de temperatura e você poderá ensinar ao LogWatch quando disparar um alarme (ou deixar o LogWatch configurado para ignorar o e executar um sistema de monitoramento mais inteligente para procurar por condições reais de problemas).

    
por 08.06.2012 / 23:59