Segfault em um servidor debian

1

Transferimos nosso software de varejo para novo hardware (passamos de um IBM x3200 com discos SATA 7200rpm para um IBM x3200 com discos SAS 15000rpm), mas depois de alguns dias sem nenhum problema continuamos recebendo

Aug 29 08:39:50 server01 kernel: [64680.439253] retail-soft[1089]: segfault at 104 ip ? 081106ea sp bfd1b7c0 error 4 in retail-soft[8048000+18b000]

em /var/log/messages e o software apenas trava ou fica fechado.

Nós mudamos a RAM assumindo que esse era o problema, mas continua acontecendo.

O que mais podemos verificar?

Instalamos a última versão estável do Debian. Também descartamos uma falha de programação porque o mesmo software está sendo executado em outros servidores sem nenhum problema.

    
por Gonzalo 31.08.2012 / 16:30

1 resposta

1

Por que você acha que o problema está no hardware? Será que o software atinge uma condição sob a qual produz uma falha de segmentação?

Se você realmente quiser saber se tem ou não um problema com a memória, eu sugiro que você procure ECC erros em /var/adm/messages logs ou no console remoto, se tiver um. Você também pode executar Memtest86 que no Ubuntu é instalado por padrão e está disponível no menu de inicialização, eu não tenho certeza sobre o Debian, mas poderia ser o mesmo.

Você não pode descartar a falha de programação sob nenhuma circunstância até provar que não há outro motivo para falha. O software executado em outros servidores seria apenas um indicador se:

  1. O software executa exatamente a mesma função
  2. Serviços de software, o mesmo número de solicitações
  3. Serviços de software as solicitações exatamente iguais
  4. A configuração do software é 100% idêntica
  5. A configuração do SO fora dos drivers de hardware é 100% idêntica

Fora disso, eu começaria com a análise do núcleo para ver se o software falha no mesmo lugar todas as vezes.

    
por 31.08.2012 / 16:56