Acabei escrevendo uma rotina PHP (não vou postar o código completo como é uma solução realmente impura) que fez o truque.
Usando phasher , consegui iterar todos os arquivos de imagem e encontrar as duplicatas suspeitas (!): cada imagem é transformada em um pequeno hash (baseado em uma versão 8x8 da imagem). Esses hashes podem ser comparados.
2 coisas para ter em mente:
- Como é um loop aninhado, é importante obter todos os hashes primeiro e armazená-los em cache antes de fazer a comparação real. Caso contrário, vai demorar uma eternidade.
- a abordagem NÃO fornece resultados perfeitos. Eu tive uma pequena taxa de erro na primeira execução. Então, ainda havia alguma verificação de erros a ser feita.