O erro de leitura de E / S 'dd' sempre indica falha de hardware?

0

Eu comprei duas unidades de 2 TB. Um foi formatado com um sistema de arquivos HFS + (não-journaled) e ~ 800GB de arquivos escritos com rsync . Estou tentando criar um backup no segundo com uma cópia básica do bloco dd , mas minha operação repetidamente erra ao ler a unidade:

root@deb-server:/home/adm_user# dd if=/dev/sdb bs=32M | pv -s 2000G | dd of=/dev/sdc bs=32M
dd: error reading ‘/dev/sdb’: Input/output error              ]  0% ETA 28:24:40
75+1 records in
75+1 records out
2519728128 bytes (2.5 GB) copied2.35GiB 0:02:00 [19.9MiB/s] [>                                ]  0%             
, 120.663 s, 20.9 MB/s
0+36998 records in
0+36998 records out
2519728128 bytes (2.5 GB) copied, 125.599 s, 20.1 MB/s

root@deb-server:/home/adm_user# dd if=/dev/sdb bs=1M | pv -s 2000G | dd of=/dev/sdc bs=1M
dd: error reading ‘/dev/sdb’: Input/output error              ]  0% ETA 26:07:44
10333+1 records in
10333+1 records out
10.1GiB 0:07:57 [21.6MiB/s] [>                                ]  0%             
10835591168 bytes (11 GB) copied, 477.965 s, 22.7 MB/s
0+152209 records in
0+152209 records out
10835591168 bytes (11 GB) copied, 478.852 s, 22.6 MB/s

root@deb-server:/home/adm_user# dd if=/dev/sdb bs=1M | pv -s 2000G | dd of=/dev/sdc bs=1M
dd: error reading ‘/dev/sdb’: Input/output error              ]  0% ETA 25:55:35
13796+1 records in136KiB/s] [>                                ]  0% ETA 25:58:01
13796+1 records out
14466285568 bytes (14 GB) copied13.5GiB 0:10:34 [21.7MiB/s] [>                                ]  0%             
, 634.609 s, 22.8 MB/s
0+202579 records in
0+202579 records out
14466285568 bytes (14 GB) copied, 635.957 s, 22.7 MB/s

root@deb-server:/home/adm_user# dd if=/dev/sdb of=/dev/sdc
dd: error reading ‘/dev/sdb’: Input/output error
186677728+0 records in
186677728+0 records out
95578996736 bytes (96 GB) copied, 13782 s, 6.9 MB/s

root@deb-server:/home/adm_user# dd if=/dev/sdb of=/dev/sdc
dd: error reading ‘/dev/sdb’: Input/output error
167896800+0 records in
167896800+0 records out
85963161600 bytes (86 GB) copied, 12391.2 s, 6.9 MB/s

Os erros nunca ocorrem exatamente no mesmo ponto, o que indica que ele não está atingindo um setor inválido no disco. Como você pode ver, eu tentei com tamanhos de bloco mais modestos e sem pv , o que parece fazer mais progresso, mas ainda assim cometer erros. Eu recortei várias outras tentativas, todas com o mesmo erro em pontos diferentes.

Li sobre uma dúzia de tópicos de fórum e postagens do Stack Exchange sobre problemas semelhantes, e a conclusão sempre parece ser " dd erros de E / S == falha de disco". Outros que descrevem esse problema geralmente tentam recuperar discos defeituosos antigos / conhecidos, embora a falha de hardware pareça improvável nesse caso: são dois novos discos (um modelo de renome da HGST) e gabinetes USB. O que é muito provavelmente são arquivos corrompidos no disco: eles foram consolidados em cerca de uma dúzia de outros discos de diferentes idades e condições. Pelo que entendi, erros no sistema de arquivos ou no arquivo são irrelevantes para uma cópia de bloco (também, nenhuma partição foi clonada no disco).

Estou ciente que posso instruir dd a continuar a cópia com erros, e o próximo passo é fazer um backup (supostamente muito mais lento) em nível de sistema de arquivos com rsync, mas primeiro eu gostaria de ter mais certeza sobre se este disco é bom ou não. Considerei algumas outras explicações e estou procurando orientação sobre como diagnosticar esse erro. Outras possibilidades:

  • Recursos restritos: o sistema Debian tem ~ 6.5GB de RAM livre e 2.4GB de espaço livre em disco que parece adequado para mim.
  • Largura de banda USB: esse sistema possui apenas portas USB 2.0 e ambas as unidades são conectadas por meio delas (alimentadas externamente). Poderia dd simplesmente errar porque está tentando ler mais rápido do que o link permite?
  • Também notei alguns detalhes ausentes em hdparm , como tamanho do cache. É possível estar faltando algum suporte de driver para um disco?

    /dev/sdb:
    
    ATA device, with non-removable media
        Model Number:       Hitachi HUA723020ALA641                 
        Serial Number:      YGHJ32SD            
        Firmware Revision:  MK7OA840
        Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6; Revision: ATA8-AST T13 Project D1697 Revision 0b
    Standards:
        Used: unknown (minor revision code 0x0029)
        Supported: 8 7 6 5 
        Likely used: 8
    Configuration:
        Logical             max     current
        cylinders   16383   16383
        heads               16      16
        sectors/track       63      63
        --
        CHS current addressable sectors:   16514064
        LBA    user addressable sectors:  268435455
        LBA48  user addressable sectors: 3907029168
        Logical  Sector size:                   512 bytes
        Physical Sector size:                   512 bytes
        device size with M = 1024*1024:     1907729 MBytes
        device size with M = 1000*1000:     2000398 MBytes (2000 GB)
        cache/buffer size  = unknown
        Form Factor: 3.5 inch
        Nominal Media Rotation Rate: 7200
        [...]
    
  • Editar: por recomendação, verifiquei /var/log/messages . Ele contém várias seqüências como abaixo. Isso indica que o controlador USB está travando / falhando e soltando o disco durante a leitura?

    Dec 11 10:15:26 deb-server kernel: [409707.840187] usb 2-1.8: USB disconnect, device number 17
    Dec 11 10:15:26 deb-server kernel: [409707.847408] sd 19:0:0:0: [sdb] Unhandled error code
    Dec 11 10:15:26 deb-server kernel: [409707.847412] sd 19:0:0:0: [sdb]  
    Dec 11 10:15:26 deb-server kernel: [409707.847413] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
    Dec 11 10:15:26 deb-server kernel: [409707.847414] sd 19:0:0:0: [sdb] CDB: 
    Dec 11 10:15:26 deb-server kernel: [409707.847415] Read(10): 28 00 00 5e 93 00 00 00 f0 00
    Dec 11 10:15:26 deb-server kernel: [409707.847423] quiet_error: 22 callbacks suppressed
    Dec 11 10:15:26 deb-server kernel: [409707.847473] sd 19:0:0:0: [sdb] Unhandled error code
    Dec 11 10:15:26 deb-server kernel: [409707.847474] sd 19:0:0:0: [sdb]  
    Dec 11 10:15:26 deb-server kernel: [409707.847475] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
    Dec 11 10:15:26 deb-server kernel: [409707.847476] sd 19:0:0:0: [sdb] CDB: 
    Dec 11 10:15:26 deb-server kernel: [409707.847477] Read(10): 28 00 00 5e 93 f0 00 00 10 00
    Dec 11 10:15:27 deb-server kernel: [409708.303411] usb 2-1.8: new high-speed USB device number 18 using ehci-pci
    Dec 11 10:15:27 deb-server kernel: [409708.396916] usb 2-1.8: New USB device found, idVendor=2537, idProduct=1066
    Dec 11 10:15:27 deb-server kernel: [409708.396921] usb 2-1.8: New USB device strings: Mfr=1, Product=2, SerialNumber=3
    Dec 11 10:15:27 deb-server kernel: [409708.396924] usb 2-1.8: Product: NS1066
    Dec 11 10:15:27 deb-server kernel: [409708.396926] usb 2-1.8: Manufacturer: Norelsys
    Dec 11 10:15:27 deb-server kernel: [409708.396928] usb 2-1.8: SerialNumber: 0123456789ABCDE
    Dec 11 10:15:27 deb-server kernel: [409708.397214] usb-storage 2-1.8:1.0: USB Mass Storage device detected
    Dec 11 10:15:27 deb-server kernel: [409708.397573] scsi20 : usb-storage 2-1.8:1.0
    Dec 11 10:15:27 deb-server kernel: [409708.984090]  sdc: sdc1
    Dec 11 10:15:28 deb-server kernel: [409709.916622] scsi 20:0:0:0: Direct-Access     ATA      Hitachi HUA72302 A840 PQ: 0 ANSI: 6
    Dec 11 10:15:28 deb-server kernel: [409709.916953] sd 20:0:0:0: Attached scsi generic sg2 type 0
    Dec 11 10:15:28 deb-server kernel: [409709.917560] sd 20:0:0:0: [sdb] 3907029168 512-byte logical blocks: (2.00 TB/1.81 TiB)
    Dec 11 10:15:28 deb-server kernel: [409709.918568] sd 20:0:0:0: [sdb] Write Protect is off
    Dec 11 10:15:28 deb-server kernel: [409709.919565] sd 20:0:0:0: [sdb] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
    Dec 11 10:15:28 deb-server kernel: [409709.927455]  sdb: sdb1
    Dec 11 10:15:28 deb-server kernel: [409709.930559] sd 20:0:0:0: [sdb] Attached SCSI disk
    
por ghostly_s 13.12.2016 / 06:38

1 resposta

1

Depende do que você quer dizer com falha de hardware, mas sim, é algum tipo de falha de hardware.

Pode ser um transiente (fonte de alimentação, superaquecimento ou apenas um erro de comunicação), ou um problema real de hardware na fonte de alimentação, nos cabos, no disco rígido (ou em algum chip controlador, mas é mais raramente).

Pare de usar dd e use rescuedd m para não estragar mais o disco rígido, até eliminar o problema no disco.

    
por 13.12.2016 / 11:41