Primeiro, faça um único programa encadeado ( md5er
), que pode gerar a saída correta dada a entrada:
#!/usr/bin/python
import sys
import hashlib
for r in sys.stdin:
print r[:-1], '\t', hashlib.md5(r[:-1]).hexdigest()
Em seguida, use o GNU Parallel para dividir a entrada em blocos que podem ser distribuídos para servidores de computação:
parallel --pipepart -a my80gb-file -Sworker1,worker2,worker3,: --block -10 md5er