Você não pode "extrair" HTML de um arquivo PDF.
O arquivo PDF consiste em comandos dizendo ao processador PDF onde colocar os glifos, as linhas são outras primitivas na página.
HTML, por outro lado, consiste em tags e texto, onde tags como <b>
dizem ao renderizador HTML para usar uma fonte em negrito para o texto, etc. Ele não informa ao renderizador onde colocar os caracteres, mas geralmente o renderizador decide sobre o layout e as posições com base em outras informações.
Agora é possível adivinhar a formatação do arquivo PDF usando a posição dos glifos e usar esse palpite para gerar HTML que pode se assemelhar vagamente ao layout do arquivo PDF quando renderizado. Além disso, se as tabelas necessárias estiverem presentes (o que geralmente são, mas há surpresas), você também pode converter os glifos nos caracteres unicode originais.
Isso significa que qualquer conversão em HTML permanecerá adivinhando. Será aceitável até certo ponto, mas para formatos complicados ele falhará. Você sempre terá que corrigir manualmente o palpite.
Se você quiser uma lista de ferramentas que você poderia usar para isso: Isso é uma recomendação de software, e não no tópico sobre este stackexchange.