“rcu_sched detectou barracas em CPUs / tarefas” - jiffies - ESXi Ubuntu 16 FileServer Guest

1

Eu tenho uma configuração de VM Ubuntu x64 muito simples no meu host ESXi que atua como um servidor de arquivos. Tem NFS / SMB e MDADM instalado. Está totalmente atualizado.

Duas vezes na última semana, houve um erro sobre “rcu_sched detected stalls on CPUs e alguma coisa sobre falta de informações.

Eu fiz uma captura de tela desta vez, mas é tão ruim que o ESXi não pode matar a VM e depois da reinicialização está causando uma reconstrução do meu MDADM Array. Eu me preocupo se isso causará danos desnecessários aos meus HDDs e me pergunto qual poderia ser o problema? A VM recebe vários recursos extras com 1vCPU e 4vThreads com 6 GB de Ram.

Alguma ideia? A VM está de volta em execução agora, para que eu possa depurar as informações solicitadas. Estou pensando em mudar para uma Distro baseada em RHEL, mas gostaria de descobrir o problema em relação à reconstrução em um sistema operacional Linux diferente.

PS: Eu sou o usuário principal e, até onde eu me lembro, não havia operações intensivas de R / W acontecendo no momento.

    
por FreeSoftwareServers 13.03.2018 / 06:21

1 resposta

0

TLDR; Cerca de uma semana depois Eu perdi uma CPU Núcleo provavelmente devido ao superaquecimento / dissipador mal colocado / ventilador.

  • Se você estiver usando o ESXi, eu ligaria outro sistema operacional, verificaria o Temp e / ou consideraria reposicionar seu dissipador de calor da CPU.

  • Esta postagem tem muitas visualizações, e quando eu tive o problema, o google tinha muito pouca informação para mim. Por favor, compartilhe suas experiências em comentários ou respostas!

Linha do tempo:

  • recebo um erro sobre os Jiffies
  • Tem que usar o botão de energia para reiniciar
  • Reconstrução da matriz MDADM - > Bem sucedido.
  • recebo outro erro no dia seguinte
  • Reiniciar / Reconstruir com sucesso.
  • Outro erro!
  • Reconstruir VM com novo SO
  • Estável por cerca de uma semana
  • Um único núcleo na CPU morre!
Mais pesquisas sobre o ESXi mostraram-me que o ESXi NÃO recolhe o dispositivo Temps sem algum tipo de adição avançada de hardware que eu não tinha (Possivelmente porque eu não estava usando um computador da "Lista de Compatibilidade de Hardware"). href="https://communities.vmware.com/thread/547244"> link ) Se tivesse, o ESXi provavelmente teria acelerado minha CPU.Eu agora uso o KVM, que verifica todos os meus Temps de dispositivo através de métodos normais E não apenas isso, mas minha velocidade RW aumentou muito, pois meu Hypervisor agora também é meu FileServer vs antes de ter que passar os discos para uma VM FileServer, pois o ESXi não suporta SMB / NFS / MDADM etc. estou falando de um aumento de 2 ou 3 vezes nas velocidades de RW agora que meus clientes falam diretamente com o Hypervisor / FileServer).

    
por 20.03.2018 / 03:47