O que precisamos: Várias equipes de diferentes empresas querem compartilhar nossas GPUs para tarefas de aprendizagem profunda (três computadores com várias GPUs cada). Portanto, gerencie várias GPUs para vários usuários.
- Equipes diferentes não devem ter acesso aos dados de outras equipes.
- As equipes devem ser capazes de executar qualquer recipiente que precisarem (com GPU, por exemplo, tensorflow, etc.)
- Cada equipe deve ter pelo menos 8 GPUs e um máximo de, por exemplo, 15 GPUs, portanto, as GPUs são usadas na maior parte do tempo
- Estatísticas sobre o uso da GPU seriam boas para ver quem não as está usando.
- Acesso de vários contêineres aos mesmos conjuntos de dados (por equipe) para treinamento em
- As equipes não devem conseguir escapar do contêiner, e..g montar '/' do host para o contêiner docker e excluir / remover / editar arquivos aleatórios no servidor, o que levaria à violação de dados.
Pergunta: Quais são as melhores ferramentas de código aberto para conseguir isso?
por exemplo. algo como Rancher 2.0? Mesosfera? Como devemos configurar o armazenamento? NFS Como o Uber? Google? Outras startups de DL fazem isso?
Perguntas não respondidas semelhantes:
por
andi
08.12.2017 / 11:55