Existem várias soluções que você pode querer dar uma olhada:
Torque - Esta é uma variação da base de código original do PBS (Portable Batch Scheduler) . Eles o chamam de gerenciador de recursos porque, tecnicamente, ele não cuida dos trabalhos de agendamento, embora inclua vários agendadores. No entanto, ele cuidará de gerenciar e alocar sua CPU, memória, arquivo e outros recursos consumíveis do nó de computação. Se você tem algo mais do que as necessidades básicas de agendamento, você provavelmente vai querer complementá-lo com o Maui Cluster Agendador . Eu sei mais sobre isso porque é o que usamos. Pode ser um pouco difícil, porque a maioria é desenvolvida pela comunidade, e a maioria dos desenvolvedores são sysadmins e não engenheiros de software. Há um produto comercial que surgiu da mesma base de código da PBS chamada PBS Professional , que parece mais maduro e está disponível por uma taxa relativamente modesta.
Mecanismo Sun Grid - Semelhante aos sistemas baseados em PBS, mas escritos pela Sun. O gerenciador de recursos e o planejador estão mais integrados nesse sistema e oferecem alguns modos diferentes de operação e alocação de recursos. Apesar de ser um produto da Sun, aparentemente funciona bem no Linux e em outros sistemas operacionais, não apenas na solaris.
Plataforma LSF - É outra oferta comercial popular no mesmo espaço.
Condor - Outro sistema de agendamento de lotes mais adequado para alto rendimento, toneladas de trabalhos curtos.
SLURM - é outra oferta de código aberto. Não é tão maduro quanto os produtos baseados em PBS, mas tem uma arquitetura mais agradável baseada em plugins e é fácil de instalar se você usar a distribuição CAOS NSA Linux e o gerenciador de cluster Perceus. Veja este artigo da Linux Magazine para um exemplo de como é fácil começar a trabalhar.
Qual desses você escolhe é basicamente uma questão de preferência e corresponde às suas necessidades. Eu diria que o Torque e o SGE têm uma pequena inclinação para clusters multiusuários em um ambiente de computação científica. Com base no que vi do PBS Professional da Altair, parece que é muito mais adequado para um ambiente comercial e tem um conjunto de ferramentas melhor para o desenvolvimento de fluxos de trabalho específicos do produto. O mesmo vale para o LSF.
O SLURM e o Condor são provavelmente os mais fáceis de usar e, se seus requisitos forem relativamente modestos, eles podem ser os mais adequados. No entanto, se você precisa de políticas de agendamento mais complicadas e muitos usuários enviam trabalhos para seus sistemas, eles podem estar faltando a esse respeito sem serem complementados por um agendador externo.