Atualmente, estou criando um pequeno cluster (de 2 a 6 nós) de computadores Linux para Deep Learning. Essas máquinas de GPU estão localizadas em diferentes partes do país e podem subir e descer ao longo do dia.
Existe um servidor de tarefas peer-to-peer pronto para Linux? Estou procurando os seguintes recursos:
Eu olhei para coisas como Sun Grid Engine - eu uso isso no trabalho, ordens de magnitude mais complexas do que eu quero ou preciso - mas todas elas ficam aquém de pelo menos um desses requisitos, especialmente no que diz respeito a dificuldade de configuração e execução de trabalhos.
Eu faço tenho acesso a um servidor Linux que eu posso usar se não houver soluções ponto-a-ponto, mas eu não serei capaz de servir arquivos grandes dessa forma, então eu ainda vou preciso de um protocolo eficiente de sincronização de arquivos - eu poderia usar explicitamente o rsync se necessário, mas isso é realmente inconveniente e difícil de monitorar.
Eu posso remendar algo usando o IPython, que eu usei em trabalhos em cluster no passado, mas eu realmente gostaria de uma opção sólida e bem suportada, se possível.
Tags cluster