Random falha em 16.04 LTE devido a um microcódigo errado?

0

Estou executando um servidor Dell PowerEdge R430 com o Ubuntu 16.04.3 para processar alguns números do Matlab ... pelo menos esse é o plano ... o sistema está travando aleatoriamente em intervalos de algumas horas, enquanto está ocioso e não faz nada: (

É um sistema remoto e não consigo verificar a tela em busca de mensagens. Tudo o que posso fazer é ligar e desligar o UPS, e ele volta normal (até o próximo acidente). Não há logs de travamento e (na maioria das vezes) nada óbvio nos logs do sistema. Ocasionalmente (3 de 10 falhas) tem mensagens como esta no kern.log:

Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762004] INFO: rcu_sched detected stalls on CPUs/tasks:
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762014]    1-...: (1 GPs behind) idle=e29/1/0 softirq=236453/236454 fqs=7446
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762016]    (detected by 2, t=15002 jiffies, g=251301, c=251300, q=9798)
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762020] Task dump for CPU 1:
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762022] swapper/1       R  running task        0     0      1 0x00000008
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762025] Call Trace:
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762035]  ? cpuidle_enter_state+0x12b/0x2d0
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762039]  ? cpuidle_enter_state+0x119/0x2d0
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762042]  ? cpuidle_enter+0x17/0x20
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762047]  ? call_cpuidle+0x23/0x40
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762050]  ? do_idle+0x17f/0x1f0
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762053]  ? cpu_startup_entry+0x71/0x80
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762059]  ? start_secondary+0x154/0x190
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762062]  ? start_cpu+0x14/0x14

Assim eu dei uma olhada no / proc / cpuinfo

processor       : 1
vendor_id       : GenuineIntel
cpu family      : 6
model           : 63
model name      : Intel(R) Xeon(R) CPU E5-2609 v3 @ 1.90GHz
stepping        : 2
microcode       : 0x3a
cpu MHz         : 1489.245
cache size      : 15360 KB
physical id     : 0
siblings        : 6
core id         : 1
cpu cores       : 6
apicid          : 2
initial apicid  : 2
fpu             : yes
fpu_exception   : yes
cpuid level     : 15
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm epb tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm xsaveopt cqm_llc cqm_occup_llc dtherm arat pln pts

Agora, alguns dos sinalizadores (como hyper-threading), na verdade, não correspondem à especificação da cpu da intel: link

É possível que haja um bug no microcódigo ???

Alguém mais está tendo problemas com o Ubuntu sendo executado em um E5-2609?

Qualquer ajuda muito apreciada.

Felicidades

    
por number cruncher 22.12.2017 / 00:22

0 respostas