O Dell Inspiron Running Debian é encerrado com uso pesado

1

Eu não sei se isso é um problema do Debian ou um problema de hardware, mas as informações estão no Linux.

Eu tenho o Debian 6.7 instalado em um Dell Inspiron 520 (chip AMD). Eu obtenho a informação da CPU com

less /proc/cpuinfo

que resulta em

processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 6
model name      : AMD Athlon(tm) II X2 250 Processor
stepping        : 3
microcode       : 0x10000b6
cpu MHz         : 800.000
cache size      : 1024 KB
physical id     : 0
siblings        : 2
core id         : 0
cpu cores       : 2
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 5
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt hw_pstate npt lbrv svm_lock nrip_save
bogomips        : 6000.65
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate

processor       : 1
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 6
model name      : AMD Athlon(tm) II X2 250 Processor
stepping        : 3
microcode       : 0x10000b6
cpu MHz         : 800.000
cache size      : 1024 KB
physical id     : 0
siblings        : 2
core id         : 1
cpu cores       : 2
apicid          : 1
initial apicid  : 1
fpu             : yes
fpu_exception   : yes
cpuid level     : 5
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt hw_pstate npt lbrv svm_lock nrip_save
bogomips        : 6000.02
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate

Eu instalei o psensor para monitorar a temperatura. Pode ir até 100% de uso com a temperatura da CPU abaixo de 50C. No entanto, com uma longa duração, intensivo da CPU, aplicação como

sudo maldet --scan-all /

o computador desliga antes que o aplicativo seja concluído. Uma vez a luz de energia ainda estava acesa e houve um estridente gemido vindo da área de trabalho. Eu substituí a pasta térmica na CPU com o Arctic Silver. Sob operação normal, a temperatura sobe para cerca de 46, mesmo com 100% de uso da CPU. Tirar o lado do computador não causou uma alteração perceptível na temperatura da CPU.

eu corri

sudo dmidecode |grep -B 2 Stat

e obtivemos

Serial Number: DST5MS1
Asset Tag: 
Boot-up State: Safe
Power Supply State: Safe
Thermal State: Safe
Security Status: None
--
Max Speed: 3000 MHz
Current Speed: 3000 MHz
Status: Populated, Enabled
--
Handle 0x0017, DMI type 32, 20 bytes
System Boot Information
Status: No errors detected

Quando entrei

sensors

Eu tenho

k10temp-pci-00c3
Adapter: PCI adapter
temp1: +16.5°C (high = +70.0°C)

it8720-isa-0a10
Adapter: ISA adapter
in0: +1.07 V (min = +0.00 V, max = +4.08 V)
in1: +1.10 V (min = +0.00 V, max = +4.08 V)
in2: +3.02 V (min = +0.00 V, max = +4.08 V)
+5V: +3.01 V (min = +0.00 V, max = +4.08 V)
in4: +3.33 V (min = +0.00 V, max = +4.08 V)
in5: +2.14 V (min = +0.00 V, max = +4.08 V)
in6: +2.14 V (min = +0.00 V, max = +4.08 V)
5VSB: +2.96 V (min = +0.00 V, max = +4.08 V)
Vbat: +3.25 V 
fan1: 816 RPM (min = 0 RPM)
fan2: 888 RPM (min = 0 RPM)
temp1: +23.0°C (low = -1.0°C, high = +127.0°C) sensor = thermal diode
temp2: +33.0°C (low = -1.0°C, high = +127.0°C) sensor = thermal diode
temp3: -128.0°C (low = -1.0°C, high = +127.0°C) sensor = disabled
cpu0_vid: +0.375 V
intrusion0: ALARM

Substitui o PSU por este

Eu decidi fazer um teste de estresse executando

sudo maldet --scan-all /

em uma janela de terminal. Essa chamada é executada por horas e exige muita CPU. O psensor tinha o ventilador 1 de repente caindo de 830 para 770 e então começava a subir lentamente. Mas a temperatura da CPU subiu gradualmente de meados dos 30s para os 40s negativos. Maldet estava a cerca de um quarto do caminho quando eu entrei para a noite com a temperatura nos 40s baixos. Na manhã seguinte, o computador parou de funcionar. Não foi apenas o cursor desde que eu corri um site no PC e não consegui acessá-lo.

Para descartar a área de trabalho do Gnome, eu reiniciei o Debian e fiz o ctrl-alt-F4 para usar a linha de comando básica. Eu então corri

sudo maldet --scan-all /

Ele funcionou por algumas horas e o PC começou com um som agudo, alto e alto, e havia um monte de texto aleatório, na tela, que mudava constantemente. Era difícil dizer de onde estava vindo. Desconectar o disco rígido parou o texto, mas não choramingou, então eu suspeito que seja o PSU.

Comecei a executá-lo novamente, desta vez com o PSU fora do PC para que eu pudesse ter certeza de que era o PSU. Após cerca de uma hora, o seguinte texto apareceu na tela. (Eu posso ter perdido as primeiras linhas desde a rolagem fora de vista.)

test_tsk_need_resched
check_preempt_cur
ttwu_do_wakeup
x86_pmu_config_addr
paravirt_write_msr
perf_ctx_adjust_freq
read_tsc
timekeeping_get_ns
ktime_get_update_offsets
hrtimer_interrupt
test_tsk_need_resched
resched_tsk
check_preempt_curr
ttwin_do_wakeups
smp+apic_timer
apic_timer_interrupt
copy_pte_range
copy_page_range
dup_mn
copy_process
do_fork
stub_clone
system_call_fastpath

Neste ponto, o PC parou de responder aos retornos de carro do teclado.

Editar:

Eu testei a memória com

sudo /usr/bin/memtester 5 1

e obtivemos

memtester version 4.2.2 (64-bit)
Copyright (C) 2010 Charles Cazabon.
Licensed under the GNU General Public License version 2 (only).

pagesize is 4096
pagesizemask is 0xfffffffffffff000
want 5MB (5242880 bytes)
got  5MB (5242880 bytes), trying mlock ...locked.
Loop 1/1:
  Stuck Address       : ok         
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok         
  Block Sequential    : ok         
  Checkerboard        : ok         
  Bit Spread          : ok         
  Bit Flip            : ok         
  Walking Ones        : ok         
  Walking Zeroes      : ok         
  8-bit Writes        : ok
  16-bit Writes       : ok

Done.
    
por OtagoHarbour 12.10.2015 / 01:10

2 respostas

2

Não vejo como isso poderia ser um problema de software. Você precisa rastrear esse ruído. Se o seu PSU é novo e foi usado como um substituto por causa deste problema, então também não é provável que a causa.

Não é bem relacionado, mas você já tentou algo que apenas enfatiza a CPU e não o disco? Você pode usar:

pyrit benchmark_long

Verifique o log do kernel no sistema antes que ele falhe. Talvez haja algo útil.

Se você quiser ter certeza absoluta de que não está relacionado a software, obtenha um CD de inicialização do Linux e execute alguns testes de estresse. Se ele falhar, é muito provável que seja um problema de hardware. Ou melhor ainda, tente um sistema operacional diferente.

Durante o teste de estresse, continue observando a temperatura e fique de olho no dmesg ou no log do kernel em busca de mensagens de erro.

EDITAR

Erros de memória podem causar problemas assim também. Tente memtest86, funcionou para mim no passado. É um CD de inicialização, independente do sistema operacional. Parece pegar tudo.

link

    
por 12.10.2015 / 05:36
2

Verifique se o dissipador de calor do processador não está bem fixado (verifique se há algum componente ou falta) Verifique o ventilador e vi que a memória é responsável por essas máquinas. Além disso, o PSU não seria uma má idéia testá-lo com um novo. . Todos os seus indicadores apontam para possíveis problemas de hardware.

    
por 12.10.2015 / 13:10