Asus ZenBook Pro com Ubuntu 16.04 tem quedas de desempenho massivo

3

Plano de fundo

Comprei recentemente o Asus ZenBook Pro . Eu uso para testar experiências de aprendizagem profunda localmente. Esses experimentos costumam ser bastante intensos, tanto na CPU quanto na GPU. Recentemente, tive uma queda enorme no desempenho ao fazer cálculos pesados.

Eu tenho o Ubuntu 16.04 instalado.

Problema

O problema surge quando, e. Agende um trabalho de treinamento usando TensorFlow, Keras ou executando um trabalho pesado de CPU e GPU em ROS ou Python. Após cerca de 30 a 60 segundos de desempenho esperado (ou seja, bom e alto desempenho), o desempenho desaparece repentinamente e o computador inteiro quase não responde. Uma reinicialização completa é necessária para recuperar a funcionalidade.

Usando top , nvidia-smi ou o monitor do sistema de sistema, não vejo nenhum pico súbito no uso de CPU ou memória por parte de qualquer processador. Nenhum outro processo começa a usar a CPU ou a GPU.

Quando no estado sem resposta, também não vejo nenhum processador usando qualquer quantidade notável de poder de processamento.

Eu suspeito que o gerenciamento de energia do Ubuntu cause o problema, já que meu fã também está agindo de forma incontrolável de tempos em tempos, mas eu não sou especialista em Linux. No entanto, quando eu instalei o Ubuntu eu tive que fazer o boot inicial com acpi=off se isso ajuda.

EDIT: Eu testei o mesmo código em outros computadores com o Ubuntu 16.04 instalado e não vejo nenhum problema aqui.

Agradeço qualquer ajuda para localizar o problema ou me guiar para algum lugar onde eu possa pesquisar.

    
por marcopah 27.06.2018 / 10:29

3 respostas

3

É possível ser um problema com o driver nvidia, você instalou o .RUN para download via nvidia website ou o ubuntu um? Deve estar disponível através do gerenciador de dispositivos, easly encontrar algum guia para instalar o driver, pesquisando-lo.

Minha sugestão pessoal é usar o driver nvidia proprietário do repositório de distribuição linux, isso porque o driver open source nouveau funciona bem, mas quando são necessários o desempenho (e é o seu caso) o nouveau não é a melhor solução. Também o download do site manufacter neste caso não é a melhor solução, porque eles escrevem o driver genérico do linux, o que poderia, com certeza, lhe dar mais performance, mas também mais bug. Outra sugestão que eu poderia lhe dar é testar diferentes versões do driver.

    
por 09.09.2018 / 01:46
1

Um laptop pode ficar muito quente se não tiver refrigeração suficiente. O seu CPU é o moderno Intel I7, e os mais modernos (caros) processadores high-end automaticamente a sua velocidade do relógio quando ficam muito quentes, a fim de evitar um colapso, e nem sempre voltam à velocidade normal.

Esta teoria recebe apoio do fato de que o problema só chega quando o computador está sob carga pesada. Pode ser um problema da CPU, da GPU ou de ambos.

Sugiro adicionar alguns indicadores das temperaturas da CPU e GPU, então você pode visualmente ver sua evolução. O seguinte pode ajudar:

Se o problema for de fato superaquecimento, há algumas etapas que você pode seguir:

  • Um bloco de resfriamento pode melhorar a situação
  • Assegure-se de que todas as passagens de ar estejam limpas
  • Se o seu ambiente estiver empoeirado, a limpeza do interior pode ajudar
  • Se o computador ainda estiver na garantia, use-o
  • Se não estiver na garantia, a pasta térmica da CPU pode exigir substituição
  • A (s) ventoinha (s) de arrefecimento pode (m) ser deficiente (a)
por 08.09.2018 / 21:56
1

Sua CPU pode estar esquentando demais. Dado que seu sistema torna-se essencialmente não responsivo, você precisa configurar uma maneira de monitorar e gravar no disco a temperatura, a velocidade do clock e outros parâmetros, portanto, após a reinicialização, você terá informações post-mortem .

Você pode usar um script como abaixo, que irá verificar a velocidade dos ventiladores, várias temperaturas e freqüência do clock da CPU . Isso provavelmente lhe dará informações suficientes para descobrir (ou sugerir) o que está acontecendo. Qualquer outra coisa provavelmente seria tiros no escuro (o que não significa que eles não estarão no alvo).

Uma formatação de saída mais sofisticada pode ser obtida usando sed , grep e / ou awk , há vários exemplos lá fora (veja abaixo). Há também outras informações que você pode reunir (veja abaixo), mas acho que isso seria suficiente.

Espero que isso ajude você a encontrar o problema (sua pergunta!) ... agora, quanto à solução, vale a pena outra pergunta.

Script para monitorar vários parâmetros.
#!/bin/bash

echo -n "" > monitor.log
while true ; do
    echo "$(date +"%H:%M:%S")" >> monitor.log
    sensors | sed 's/^/    /' >> monitor.log
    cat /proc/cpuinfo | grep '\(processor\)\|\(cpu\ MHz\)' | sed 's/^/    /' >> monitor.log
    echo "" >> monitor.log
    # Write output every 2 seconds
    sleep 2
done

Referências sobre como formatar a saída de sensores, etc.

link

Referências para outras informações.

link

    
por 09.09.2018 / 09:49