Servidor de tarefas ponto-a-ponto

0

Atualmente, estou criando um pequeno cluster (de 2 a 6 nós) de computadores Linux para Deep Learning. Essas máquinas de GPU estão localizadas em diferentes partes do país e podem subir e descer ao longo do dia.

Existe um servidor de tarefas peer-to-peer pronto para Linux? Estou procurando os seguintes recursos:

  • Configuração simples (para servidor e tarefas)
  • Capacidade de executar tarefas não binárias (scripts bash / python)
  • Ponto a ponto por meio da lista de permissões (sem servidor mestre)
  • Sincronização automática eficiente de arquivos para tarefas
  • Monitoramento do status básico por meio de http
  • Prioridade de trabalho e outras opções básicas de agendamento de trabalho

Eu olhei para coisas como Sun Grid Engine - eu uso isso no trabalho, ordens de magnitude mais complexas do que eu quero ou preciso - mas todas elas ficam aquém de pelo menos um desses requisitos, especialmente no que diz respeito a dificuldade de configuração e execução de trabalhos.

Eu faço tenho acesso a um servidor Linux que eu posso usar se não houver soluções ponto-a-ponto, mas eu não serei capaz de servir arquivos grandes dessa forma, então eu ainda vou preciso de um protocolo eficiente de sincronização de arquivos - eu poderia usar explicitamente o rsync se necessário, mas isso é realmente inconveniente e difícil de monitorar.

Eu posso remendar algo usando o IPython, que eu usei em trabalhos em cluster no passado, mas eu realmente gostaria de uma opção sólida e bem suportada, se possível.

    
por Justin W 29.12.2016 / 00:31

0 respostas

Tags