Erro de entrada / saída pouco frequente - servidor Linux

3

De vez em quando, encontramos erros de entrada / saída em um de nossos discos.

Nosso servidor (DELL PowerEdge R720, Ubuntu 14.04) usa o Perc H710 Raid controller, e o disco que está produzindo o erro é um Disco Dell 600 GB SAS 6 Gbps 15 k 3,5" .

Sempre podemos corrigir os erros usando fsck.ext4 , mas não temos ideia do que pode causar a ocorrência deles.

Atualizamos o firmware do servidor para a versão mais recente e executamos todos os testes em que pudemos pensar.

O que mais podemos fazer para encontrar a origem do problema?

EDITAR:

Entramos em contato com a DELL há cerca de uma semana, e depois que eles me instruíram como executar vários testes, eles concluíram que o servidor está bem e que nada de anormal apareceu nos testes.

Não foi possível ativar o suporte SMART para o dispositivo:

$ sudo smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        1,199,101,181,952 bytes [1.19 TB]
Logical block size:   512 bytes
Logical Unit id:      0x6b8ca3a0f210dc0019eead8c1111fb0a
Serial number:        000afb11118cadee1900dc10f2a0a38c
Device type:          disk
Local Time is:        Wed Jul  8 10:47:35 2015 IDT
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===

Error Counter logging not supported

Device does not support Self Test logging

e eu tentei:

$ sudo smartctl -s on /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
unable to fetch IEC (SMART) mode page [unsupported field in scsi command]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Além disso, não sei o que fazer com isso (o googling não ajudou):

$ sudo hdparm -I /dev/sda

/dev/sda:
SG_IO: bad/missing sense data, sb[]:  70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

ATA device, with non-removable media
Standards:
    Likely used: 1
Configuration:
    Logical     max current
    cylinders   0   0
    heads       0   0
    sectors/track   0   0
    --
    Logical/Physical Sector size:           512 bytes
    device size with M = 1024*1024:           0 MBytes
    device size with M = 1000*1000:           0 MBytes 
    cache/buffer size  = unknown
Capabilities:
    IORDY not likely
    Cannot perform double-word IO
    R/W multiple sector transfer: not supported
    DMA: not supported
    PIO: pio0 

Qualquer conselho é muito bem-vindo!

    
por R. Itzi 07.07.2015 / 12:39

3 respostas

8

Você tem uma unidade em um RAID que está se comportando mal e produz erros ocasionais? Soa como um problema de hardware, e um que provavelmente vai piorar. Você deve considerar a substituição da unidade. Sim, é caro, mas quanto vale o seu tempo, e quão ruim seria se todo o trajeto fosse para o sul em um momento inoportuno?

    
por 07.07.2015 / 14:02
3

Você pode ver as informações SMART dos discos individuais por meio do Utilitário de Disco? Veja as verificações de pré-falha e & veja se alguma coisa se destaca. Isso indicará um dispositivo físico com falha.

O disco está produzindo os erros em um grupo de RAID com outros discos? Se não, pode ser o sistema de arquivos e não a unidade ou, dependendo do layout, pode ser o controlador (cache incorreto, incompatibilidade de firmware). Eu também verificaria as versões de firmware no disco & controlador para ver se estão lamentavelmente desatualizados.

Você tem outros discos do mesmo tipo neste controlador? Eles possuem o mesmo firmware, etc?

    
por 07.07.2015 / 14:18
0

Quais erros específicos você está recebendo?

Eu recomendaria tentar obter mais algumas informações do controlador PERC. Com o Ubuntu, você pode não conseguir instalar o OMSA da Dell para monitoramento e gerenciamento.

Você poderia provavelmente instalar a MegaCLI e usá-la para exportar um log do controlador para obter mais informações sobre eventos que estão ocorrendo.

Existe algum motivo para você não ter contatado o suporte da Dell? Esse modelo de servidor parece novo o suficiente Eu esperaria que ainda estivesse na garantia ...

    
por 07.07.2015 / 18:04