Você pode usar Anti-palavras para tentar ler DOC
arquivos. Você pode obter a versão para Windows aqui .
Descompacte o Antiword em C:\antiword\
e navegue para essa pasta usando o prompt de comando.
Você pode então usar o comando:
antiword PATH_TO_DOC_FILES\*.doc > tmpfile.txt
O Antiword gerará o conteúdo em texto puro dos arquivos DOC
que ele foi capaz de ler para tmpfile.txt
e você poderá classificar os arquivos necessários e excluir os arquivos corrompidos.
A saída do Antiword pode ser algo assim:
:::::::::::::: Document 1.doc :::::::::::::: Sample Document 1 This is a sample Word document. :::::::::::::: Document 2.doc :::::::::::::: Sample Document 2 This is another sample Word document. :::::::::::::: Corrupt Document.doc :::::::::::::: :::::::::::::: Another Corrupt Document.doc ::::::::::::::
Você poderia então usar grep
ou fazer uma correspondência de expressão regular para encontrar os nomes dos documentos corrompidos e excluí-los.