Níveis excepcionais de spam do kernel sobre “MR_DCMD_PD_LIST_QUERY falharam / não são suportados pelo firmware”

0
Jul  1 22:17:14 nosgoth kernel: [1382019.484038] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.516031] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.548076] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.580026] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.612047] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.644054] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.676055] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.708081] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.740061] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Jul  1 22:17:15 nosgoth kernel: [1382019.772074] megaraid_sas 0000:01:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware

Como você pode ver, é spam dezenas de vezes por segundo, provavelmente 20 ou 30, e apenas uma reinicialização parece consertá-lo. Uma reinicialização é meio cara, pois é um dom0. Isso não foi um problema quando eu estava rodando um kernel do archlinux, mas parece ser um problema com qualquer kernel que o Ubuntu esteja usando.

existe alguma solução para isso? Não consigo encontrar nada na internet, exceto o código-fonte do driver quando o procuro.

O dispositivo Megaraid SAS:

01:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)

Não sei o que mais é útil, é um servidor Dell Poweredge 2900, com unidades SATA conectadas.

O servidor está funcionando bem, apenas o kernel está sendo ridiculamente cheio de spam no log.

EDIT: "Idioma", disse o Capitão América.

    
por BeepDog 02.07.2016 / 05:23

2 respostas

1

Isso ainda está em andamento e foi recentemente corrigido para o RedHat relacionado a 2 CVEs: (Clarity): Esse problema não estava relacionado aos CVEs, mas sim ao patch para 2 CVE's + e algumas correções de bugs.

link

(edit), que parece apontar para isso: link

(edit) Estou no meio de recompilar + testar o kernel, vou hospedá-lo em alguns com o patch.

Oct 31 21:38:36 ohlookadell kernel: [943983.390883] megaraid_sas 0000:03:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Oct 31 21:38:36 ohlookadell kernel: [943983.414877] megaraid_sas 0000:03:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Oct 31 21:38:36 ohlookadell kernel: [943983.438801] megaraid_sas 0000:03:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Oct 31 21:38:36 ohlookadell kernel: [943983.462982] megaraid_sas 0000:03:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
Oct 31 21:38:36 ohlookadell kernel: [943983.486832] megaraid_sas 0000:03:00.0: MR_DCMD_PD_LIST_QUERY failed/not supported by firmware
    
por exaraxe 01.11.2016 / 02:40
0

Isto é emitido pelo driver na função megasas_get_pd_list (), veja drivers / scsi / megaraid / megaraid_sas_base.c

    if (instance->ctrl_context && !instance->mask_interrupts)
            ret = megasas_issue_blocked_cmd(instance, cmd,
                    MFI_IO_TIMEOUT_SECS);
    else
            ret = megasas_issue_polled(instance, cmd);

    switch (ret) {
    case DCMD_FAILED:
            dev_info(&instance->pdev->dev, "MR_DCMD_PD_LIST_QUERY "
                    "failed/not supported by firmware\n");

            if (instance->ctrl_context)
                    megaraid_sas_kill_hba(instance);
            else
                    instance->pd_list_not_supported = 1;
            break;

....

Gostaria de saber se alterar o parâmetro do kernel do driver msix_disable para 1 alterará o comportamento.

    
por Colin Ian King 02.07.2016 / 12:35