Erros de segmentação do Ubuntu 12.10, relatórios de falhas danificados, letras aleatórias que mudam em arquivos

0

Eu tenho o Ubuntu 12.10, em um SSD (OCZ Agility 3 128GB), com um i5-2500k (4.4GHz) com overclock modestamente na placa-mãe P8Z68V_LX. Eu acho que pode haver um problema com o SSD. Seu bastante não utilizado e está atualmente apenas 11% completo.

Executando o ruby on rails, quando as coisas às vezes misteriosamente quebram, geralmente porque em algum lugar nas bibliotecas do núcleo uma letra parece ter mudado. Por exemplo, em um hash um "S" foi alterado para "{", e dias depois em um arquivo spork o título de uma def mudou para "s {ite" quando deveria claramente ter sido "suite". / p>

O Ubuntu tem experimentado muitos erros internos e não conseguiu reportá-los, gerando assim outro erro para relatar isso ... e assim por diante. Às vezes, reclama de preenchimento incorreto.

Esta não é a minha principal máquina de trabalho, por isso estou ansioso para experimentar para descobrir o que é.

smartctl expelido:

> sudo smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-3.5.0-27-generic] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     SandForce Driven SSDs
Device Model:     OCZ-AGILITY3
Serial Number:    OCZ-822QB5MV0QDI394P
LU WWN Device Id: 5 e83a97 e3d1ecf1a
Firmware Version: 2.15
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ACS-2 revision 3
Local Time is:    Thu Apr 18 15:40:12 2013 BST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
          was completed without error.
          Auto Offline Data Collection: Disabled.
Self-test execution status:      (   1) The previous self-test routine completed
          without error or no self-test has ever
          been run.
Total time to complete Offline
data collection:    ( 1465) seconds.
Offline data collection
capabilities:        (0x7f) SMART execute Offline immediate.
          Auto Offline data collection on/off support.
          Abort Offline collection upon new
          command.
          Offline surface scan supported.
          Self-test supported.
          Conveyance Self-test supported.
          Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
          power-saving mode.
          Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
          General Purpose Logging supported.
Short self-test routine
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (  48) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x0021) SCT Status supported.
          SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   090   090   050    Pre-fail  Always       -       0/2566041
  5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   100   100   000    Old_age   Always       -       731h+39m+09.960s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       256
171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       68
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       1
181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   030   030   000    Old_age   Always       -       30 (Min/Max 30/30)
195 ECC_Uncorr_Error_Count  0x001c   120   120   000    Old_age   Offline      -       0/2566041
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   120   120   000    Old_age   Offline      -       0/2566041
204 Soft_ECC_Correct_Rate   0x001c   120   120   000    Old_age   Offline      -       0/2566041
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0013   100   100   010    Pre-fail  Always       -       0
233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       481
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       454
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       454
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       1025

SMART Error Log not supported
SMART Self-test Log not supported
SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Atualização:

Ter executado o Memtest86, inicialmente estava exibindo muitos erros de segunda passagem, então eu reiniciei e verifiquei as tensões do BIOS, eles estavam todos ok. Downclocked à velocidade normal de 3.3GHz, voltagens verificadas, tudo ok.

Voltagens:

CPU  : 1.096V
3.3V : 3.344V
5V   : 5.000V
12V  : 12.096V

Reran Memtest86 durante a noite:

Time 16:23:23  Iterations: 6  AdsrMode:64Bit   Pass: 24 Errors:65535+

Error Confidence Value: 50
Lowest Error Address: 00180a73000 - 6154.4MB
Highest Error Address: 001dffffffc - 7679.9MB
Bits in Error Mask: ffffffff
Bits in Error - Total: 32  Min: 1  Max:31  Avg:32768
Max Contiguous Errors: 65535+

Após os documentos no MemTest86, isso sugere que um valor de confiança acima de 100 sugere certeza de problemas de memória. Dado que é apenas 50, vou trocar a RAM e ver se é a RAM ou a placa-mãe.

Update2:

Eu troquei os 2 4GB Ram Sticks entre A2 e B2 (é assim que eles deveriam entrar, não A1 e B1, isso seria muito intuitivo) rodou o memtest, 6 passes e nada aconteceu. Overclock para 4.3GHz, 6 passes e nada novamente. Talvez eu não tenha colocado a RAM corretamente ...

Update3:

Deixou de funcionar no fim de semana, encontrou erros que sugerem que pode ser um problema com a placa-mãe:

Time:  61:07:22   Iterations:240   AdrsMode:64Bit   Pass: 106   Errors: 65535+

Error Confidence Value: 77
Lowest Error Address  : 001c0027000 -  7168.1MB
Highest Error Address : 001dffffffc -  7679.9MB
Bits in Error Mask    : ffffffff
Bits in Error - Total : 32  Min: 1  Max: 31  Avg: 32768
Max Contiguous Errors : 65535+

Meu melhor palpite é que o endereço ainda é alto (acima de 4GB depois de trocar o ram entre os slots usados) é um problema com a placa-mãe.

Update3:

Coloque a RAM nos slots A1 e B1. MemTest fez 44 passes, sem erros. Certamente um problema da placa-mãe - um dos slots é ruim. Eu não gostaria de culpar a placa-mãe da Asus, era provavelmente o envio ou as minhas mãos de peixe.

    
por xxjjnn 18.04.2013 / 16:47

1 resposta

1

O problema foi com a placa-mãe, especificamente houve erros de memória ao usar um slot de memória RAM específico. MemTest86 é uma ferramenta valiosa!

    
por xxjjnn 23.04.2013 / 09:49