Esses erros no dmesg (relacionados à unidade PCI / NVME) estão relacionados a alguma coisa?

1

Alguém sabe o que esse erro abaixo (saída dmesg) indica? Eu estou recebendo quando periodicamente escrevendo para uma unidade Intel NVME (anexado a uma placa PCI) no Linux. Não tenho certeza se "nenhuma ação adicional" significa que eu deveria apenas ignorá-la ou se a placa PCI é apenas lixo eletrônico.

[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 0
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]: It has been corrected by h/w and requires no further action
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]: event severity: corrected
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:  Error 0, type: corrected
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   section_type: PCIe error
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   port_type: 0, PCIe end point
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   version: 3.0
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   command: 0x0506, status: 0x0010
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   device_id: 0000:17:00.0
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   slot: 0
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   secondary_bus: 0x00
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   vendor_id: 0x8086, device_id: 0xf1a6
[Mon Oct  1 13:46:53 2018] {24}[Hardware Error]:   class_code: 020801
[Mon Oct  1 13:46:53 2018] nvme 0000:17:00.0: aer_status: 0x000010c0, aer_mask: 0x00002000
[Mon Oct  1 13:46:53 2018] Bad TLP, Bad DLLP, Replay Timer Timeout
[Mon Oct  1 13:46:53 2018] nvme 0000:17:00.0: aer_layer=Data Link Layer, aer_agent=Transmitter ID
[Mon Oct  1 14:21:56 2018] perf: interrupt took too long (3147 > 3135), lowering kernel.perf_event_max_sample_rate to 63500
    
por Server Fault 04.10.2018 / 20:40

1 resposta

1

Esse é um recurso do RAS informando que houve um erro, mas foi corrigido. Nenhuma ação adicional é necessária para essa falha específica. Uma alta taxa de erros corrigidos às vezes é um indicador precoce de falha.

Uma resposta razoável é em algum lugar entre ignorar e lixo o disco. Tenha um pronto sobressalente, verifique os backups e verifique se há redundância como parte de um array.

    
por 07.10.2018 / 17:31