Eu configurei um servidor doméstico há cerca de um ano, usando o servidor Ubuntu (10.04 LTS no momento), quatro discos em RAID 5 para armazenamento (WD Green 1.5 TB) e uma unidade de laptop para o sistema operacional.
Hoje, a saída de smartctl
, um utilitário de linha de comando para verificar os atributos SMART de um disco rígido, informa me que a unidade de sistema operacional primário teve nada menos que 186.000 ciclos de início e parada em 325 dias e pode estar chegando ao fim de sua vida útil.
The smartctl
output is in
"normalized values", in this case a
number between 200 and 000, where 200
is "brand new" and 000 means
"worn out". My disk gets 001.
Então eu me pergunto o que aconteceu: os ciclos de início / parada do 186k em 7820 horas são de cerca de uma partida / parada por 2,5 minutos o tempo todo. Isso parece um tanto excessivo para um computador que vê o uso real uma ou duas vezes por dia. (Os discos RAID são normais, com média de um início / parada por dia, conforme o esperado.)
Alguém tem experiências semelhantes ou indicações do que pode ser o problema aqui?
Especificamente, gostaria de saber
- Por que o maciço start / stop conta? Eu tenho algum tipo de problema de configuração? Poderia haver um serviço de segundo plano que está causando problemas?
- Poderia ter um disco de laptop como unidade do sistema operacional como parte do problema? Alguém pode confirmar ou negar isso?
Aqui está a configuração do /etc/hdparm.conf
/dev/sda {
apm = 127
spindown_time = 120
}
e as partes mais relevantes de smartctl --attributes /dev/sda
:
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 001 001 000 Old_age Always - 185875
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 7820
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 109
193 Load_Cycle_Count 0x0032 118 118 000 Old_age Always - 246833
194 Temperature_Celsius 0x0022 107 098 000 Old_age Always - 36
Como geralmente prefiro que meus discos durem mais de um ano, qualquer conselho é apreciado.
Atualizar
Aparentemente, a configuração "apm = 127" em hdparm.com foi o problema. Comentando as configurações, recebo o padrão, 254, e o disco nunca se desacelera.
Não é bem o que eu estava procurando, vou ter que ver se consigo encontrar um meio-termo em algum lugar. Ainda assim, o problema do título deste post está resolvido. Obrigado pela sua ajuda.
Mais alguns detalhes para a próxima pessoa com problemas semelhantes:
apm is Advanced Power Management, a
value 1-255. Higher values mean "more
performance", lower values "more power
saving", 255 is "disabled".
I had picked 127 as the "highest
performance that still allows disk
spindown" according to hdparm man
pages, as I wanted the disk to go to
sleep when the server was not in use.
What it got me was the
manufacturer's 20-second default
spindown time for this particular
drive (a WD Scorpio Blue), a
fair enough default for a laptop
running on batteries.
With the OS
writing to disk all the time (system
logs and such, whether or not the
computer is in actual use), the disk
would barely fall asleep before being
awoken again, and I got the start/stop
every 20 seconds behavior. My attempt at increasing
the spindown time (I had set it to 10
minutes) was apparently ignored by the
drive.
At some point I had installed
laptop-mode, which caches disk
reads/writes in memory, so the OS was
only supposed to write to disk every
couple of hours.
The primary problem in this case was
that laptop-mode stopped
working after an upgrade - it is still
listed as a service to start at
bootup, but it no longer starts. And I
had more or less forgotten about it
and didn't think of checking.
At least I know where to look now, thanks again for your input.