Disco rígido do servidor doméstico: 186k ciclos de início e parada em 325 dias?

2

Eu configurei um servidor doméstico há cerca de um ano, usando o servidor Ubuntu (10.04 LTS no momento), quatro discos em RAID 5 para armazenamento (WD Green 1.5 TB) e uma unidade de laptop para o sistema operacional.

Hoje, a saída de smartctl , um utilitário de linha de comando para verificar os atributos SMART de um disco rígido, informa me que a unidade de sistema operacional primário teve nada menos que 186.000 ciclos de início e parada em 325 dias e pode estar chegando ao fim de sua vida útil.

The smartctl output is in "normalized values", in this case a number between 200 and 000, where 200 is "brand new" and 000 means "worn out". My disk gets 001.

Então eu me pergunto o que aconteceu: os ciclos de início / parada do 186k em 7820 horas são de cerca de uma partida / parada por 2,5 minutos o tempo todo. Isso parece um tanto excessivo para um computador que vê o uso real uma ou duas vezes por dia. (Os discos RAID são normais, com média de um início / parada por dia, conforme o esperado.)

Alguém tem experiências semelhantes ou indicações do que pode ser o problema aqui?

Especificamente, gostaria de saber

  • Por que o maciço start / stop conta? Eu tenho algum tipo de problema de configuração? Poderia haver um serviço de segundo plano que está causando problemas?
  • Poderia ter um disco de laptop como unidade do sistema operacional como parte do problema? Alguém pode confirmar ou negar isso?

Aqui está a configuração do /etc/hdparm.conf

/dev/sda {
  apm = 127
  spindown_time = 120
}

e as partes mais relevantes de smartctl --attributes /dev/sda :

smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   001   001   000    Old_age   Always       -       185875
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7820
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       109
193 Load_Cycle_Count        0x0032   118   118   000    Old_age   Always       -       246833
194 Temperature_Celsius     0x0022   107   098   000    Old_age   Always       -       36

Como geralmente prefiro que meus discos durem mais de um ano, qualquer conselho é apreciado.

Atualizar

Aparentemente, a configuração "apm = 127" em hdparm.com foi o problema. Comentando as configurações, recebo o padrão, 254, e o disco nunca se desacelera.

Não é bem o que eu estava procurando, vou ter que ver se consigo encontrar um meio-termo em algum lugar. Ainda assim, o problema do título deste post está resolvido. Obrigado pela sua ajuda.

Mais alguns detalhes para a próxima pessoa com problemas semelhantes:

apm is Advanced Power Management, a value 1-255. Higher values mean "more performance", lower values "more power saving", 255 is "disabled".

I had picked 127 as the "highest performance that still allows disk spindown" according to hdparm man pages, as I wanted the disk to go to sleep when the server was not in use.

What it got me was the manufacturer's 20-second default spindown time for this particular drive (a WD Scorpio Blue), a fair enough default for a laptop running on batteries.

With the OS writing to disk all the time (system logs and such, whether or not the computer is in actual use), the disk would barely fall asleep before being awoken again, and I got the start/stop every 20 seconds behavior. My attempt at increasing the spindown time (I had set it to 10 minutes) was apparently ignored by the drive.

At some point I had installed laptop-mode, which caches disk reads/writes in memory, so the OS was only supposed to write to disk every couple of hours.

The primary problem in this case was that laptop-mode stopped working after an upgrade - it is still listed as a service to start at bootup, but it no longer starts. And I had more or less forgotten about it and didn't think of checking.

At least I know where to look now, thanks again for your input.

    
por j-g-faustus 18.06.2010 / 06:28

3 respostas

1

Algumas coisas para verificar:

  • O problema está ocorrendo agora? (experimente a unidade, espere um dia, faça uma nova amostragem e veja se ela aumenta notavelmente (digamos uma vez a cada 2,5 minutos em um dia)
  • O problema está ocorrendo em todos os discos ou apenas um?
  • Qual é a configuração de energia do computador? Economia de energia ou não? Rodar os discos ou não? Verifique hdparm -B e hdparm -S (e leia a man page para obter informações sobre como interpretar os dados)

Se o problema não está acontecendo agora, eu me lembro de um bug que foi relatado relacionado a discos rígidos girando para baixo e para cima repetidamente no Ubuntu, mas pode ter sido há um tempo atrás. Você pode investigar isso, ver se talvez foi corrigido em uma atualização.

Se o problema for apenas para um disco, você deve perguntar o que há de especial sobre esse disco.

Se as configurações acima não corresponderem às suas necessidades, elas podem estar relacionadas ao problema ou até mesmo ao culpado.

    
por 18.06.2010 / 06:52
2

Ah, sim, esse problema . ..

Isso deve funcionar.

    
por 18.06.2010 / 06:55
1

Qual é o fabricante da unidade de laptop? É também WD como os do RAID? O Start_Stop_Count é definido como "Número de ciclos de início / parada do fuso" para as unidades que eu vi no smartmontools faq . Infelizmente eu não tenho um grande número de unidades para comparar com este. Meu laptop tem uma unidade digital ocidental e também estou executando o Ubuntu. Tem vários anos e só tem cerca de 300 do mesmo atributo. Há muitas coisas que podem estar acontecendo aqui.

  1. Aparentemente, diferentes fabricantes relatam seus dados de maneira diferente um do outro (mesmo entre marcas do mesmo fabricante). Então, o número pode significar algo diferente do que o rótulo sugere.

  2. As unidades de laptop podem ter uma lógica de economia de energia incorporada, o que pode envolver impedir que o fuso gire quando estiver ocioso.

  3. O sensor que relata o atributo para inteligente pode estar corrompido.

  4. A causa mais provável é que o Ubuntu esteja configurado para desativar a unidade quando ocioso. Você deve conferir esta postagem .

por 18.06.2010 / 07:00