KindleUnpack funciona bem. É que pode ser baixado do GitHub .
Veja também: KindleUnpack (MobiUnpack): extrai texto, imagens e metadados dos arquivos Kindle / Mobi nos fóruns do MobileRead.
Gostaria de obter todo o texto de um arquivo prc
(livre de DRM) no Linux. Existe alguma ferramenta para isso? Descompactar um arquivo epub
é apenas um prc
, então espero que haja um truque / ferramenta similar para prc
também.
KindleUnpack funciona bem. É que pode ser baixado do GitHub .
Veja também: KindleUnpack (MobiUnpack): extrai texto, imagens e metadados dos arquivos Kindle / Mobi nos fóruns do MobileRead.
O que você está realmente vendo é um formato de arquivo "executável" do PalmOS, que (por motivos além da minha compreensão) foi reutilizado como um formato de e-book para "Mobipocket". Veja aqui para o fundo e uma descrição de baixo nível do formato do arquivo.
Como você afirmou que o arquivo de origem é não DRMed, significa que todo o texto está em algum lugar em um formato pronto para ser convertido. Então, tudo que você precisa é de uma biblioteca para ler os dados adequadamente.
Meu programa favorito no Linux para converter entre diferentes formatos de e-books (ou fora dos formatos de e-books) é Calibre - suporta arquivos prc
não criptografados.
Se o próprio Caliber não conseguir extrair o texto em um formato que você possa usar e só puder convertê-lo em formatos que você não pode usar, recomendamos que você verifique as bibliotecas de baixo nível que o calibre usa como dependências leia prc
arquivos. Em seguida, você poderia usar o código de amostra dessa biblioteca para desenvolver uma ferramenta para ler os dados do PRC em um alto nível, determinar onde está o texto e gravá-lo em um arquivo. Deve ser razoavelmente simples se você é um desenvolvedor.
Esta é uma boa pergunta. +1.