Erro de E / S do buffer no dispositivo (unidade sata)

2

Eu continuo recebendo essas mensagens em um dos logs do kernel de meus servidores (que é responsável pelas operações de arquivos). Eu me pergunto se alguém sabe o quão sério são esses problemas. Não consigo usar smartmontools porque os discos são manipulados por uma placa 3ware que possui o seu próprio (utilitário tw_cli muito limitado).

[2522065.275739] sd 0:0:1:0: [sdg] CDB: 
[2522065.275741] Read(10): 28 00 2e 90 97 f8 00 00 08 00
[2522065.275750] end_request: I/O error, dev sdg, sector 781228024
[2522065.281091] Buffer I/O error on device sdg, logical block 97653503
[2522065.287157] sd 0:0:1:0: [sdg] Device not ready
[2522065.287163] sd 0:0:1:0: [sdg]  
[2522065.287166] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[2522065.287168] sd 0:0:1:0: [sdg]  
[2522065.287170] Sense Key : Not Ready [current] 
[2522065.287174] sd 0:0:1:0: [sdg]  
[2522065.287176] Add. Sense: Logical unit not ready, cause not reportable
[2522065.287179] sd 0:0:1:0: [sdg] CDB: 
[2522065.287181] Read(10): 28 00 00 00 00 00 00 00 20 00
[2522065.287190] end_request: I/O error, dev sdg, sector 0
[2522065.291147] Buffer I/O error on device sdg, logical block 0
[2522065.291147] Buffer I/O error on device sdg, logical block 1
[2522065.291147] Buffer I/O error on device sdg, logical block 2
[2522065.308465] sd 0:0:1:0: [sdg] Device not ready
[2522065.308465] sd 0:0:1:0: [sdg]  
[2522065.308465] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[2522065.308465] sd 0:0:1:0: [sdg]  
[2522065.308465] Sense Key : Not Ready [current] 
[2522065.308465] sd 0:0:1:0: [sdg]  
[2522065.308465] Add. Sense: Logical unit not ready, cause not reportable
[2522065.308465] sd 0:0:1:0: [sdg] CDB: 
[2522065.308465] Read(10): 28 00 00 00 00 00 00 00 08 00
[2522065.308465] end_request: I/O error, dev sdg, sector 0

Obrigado!

    
por fonnera 17.07.2014 / 09:25

2 respostas

2

Você pode usar valores inteligentes: por exemplo:

 smartctl -a -d 3ware,2 /dev/twe0

Qouting the manpage of smartctl:

Under Linux and FreeBSD, to look at ATA disks behind 3ware SCSI RAID controllers, use syntax such as:
          smartctl -a -d 3ware,2 /dev/sda
          smartctl -a -d 3ware,0 /dev/twe0
          smartctl -a -d 3ware,1 /dev/twa0
          where in the argument 3ware,N, the integer N is the disk number (3ware ´port´) within the 3ware ATA RAID controller.  The allowed values of N are from 0  to  31  inclusive.   The  first  two
          forms,  which  refer to devices /dev/sda-z and /dev/twe0-15, may be used with 3ware series 6000, 7000, and 8000 series controllers that use the 3x-xxxx driver.  Note that the /dev/sda-z form
          is deprecated starting with the Linux 2.6 kernel series and may not be supported by the Linux kernel in the near future. The final form, which refers to devices /dev/twa0-15,  must  be  used
          with 3ware 9000 series controllers, which use the 3w-9xxx driver.

          Note  that  if the special character device nodes /dev/twa? and /dev/twe? do not exist, or exist with the incorrect major or minor numbers, smartctl will recreate them on the fly.  Typically
          /dev/twa0 refers to the first 9000-series controller, /dev/twa1 refers to the second 9000 series controller, and so on. Likewise /dev/twe0 refers to  the  first  6/7/8000-series  controller,
          /dev/twa1 refers to the second 6/7/8000 series controller, and so on.

Para algumas ideias sobre a sua pergunta:

Isso pode ainda não ser um problema completo com o HDD / SSD, mas sugiro alterá-lo o mais rápido possível.

Faça backups se ainda não o fez!

Você pode verificar se há algum problema com algo como:

e2fsck -fv /dev/sdX

Se você vir setores realocados dentro do smart, você deve alterar o drive na minha opinião.

    
por 17.07.2014 / 09:57
1

Você pode acessar as informações inteligentes usando (por exemplo):

smartctl -a -d 3ware,N /dev/twa0

N é a porta nr, twa0 do controlador.

Com o seguinte, você pode obter algumas estatísticas de erros de interface:

smartctl -l sataphy -d 3ware,N /dev/twa0

Com esse comando, consegui determinar que 'exceções de ata' que recebia em meus logs eram resultado de erros de interface / cabo, porque as contagens de CRC aumentavam (o que exigia a substituição dos discos por um tipo diferente. Substituir a mainboard com o mesmo tipo não ajudou). Olhando para ele, um controlador SATA normal fornece mais informações do que uma porta 3Ware.

Quanto ao 'erro de buffer', nunca tive esse, então não posso especular. Eu tive numerosas 'exceções ata' no passado (em software RAID), que quase sempre foi um precursor do fracasso. Portanto, eu examino meus logs para isso agora.

    
por 17.07.2014 / 09:55