Houve uma cotação incorreta no meu xml.
Estou tentando utilizar um documento xml, mas estou com esse erro:
Invalid byte 3 of 3-byte UTF-8 sequence
Meu documento é parecido com este abaixo, mas com mais tags e conteúdo. Por favor não se concentre no documento abaixo. Eu uso vários documentos com este formato. Eu acredito que é um caractere no meu documento que é inválido, mas eu não sei a melhor maneira de encontrá-lo, porque é muito grande.
Alguma ideia ou ferramenta que eu possa usar? Obrigado.
Obrigações!
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE map PUBLIC "-//OASIS//DTD DITA Map//EN" "file:C:/Documentum/Viewed/map.dtd">
<map xmlns:dctm="http://www.documentum.com" dctm:obj_status="Read-Only" dctm:obj_id="09002af8800af696" dctm:version_label="CURRENT" xmlns:ditaarch="http://dita.oasis-open.org/architecture/2005/">
<title>Overview of the Commercial General Liability (CGL) Insurance Coverages </title><moreTagsHere><!-- more tags here... --></moreTagsHere>
</map>
Eu tentaria XMLStarlet :
[...] XMLStarlet is a set of command line utilities (tools) which can be used to transform, query, validate, and edit XML documents and files using simple set of shell commands in similar way it is done for plain text files using UNIX grep, sed, awk, diff, patch, join, etc commands. [...]
[emphasis mine]
Suspeito que você esteja usando uma ferramenta da Microsoft.
Na minha experiência, o Expression Web costumava colocar informações de cabeçalho em arquivos de texto para identificá-las como sempre que eram formatadas - nada mais as reconhecia e elas apareciam como caracteres aleatórios. Este foi particularmente um problema com o PHP, uma vez que quebrou inclui.
Esqueça o fato de ser XML, você precisa validar o UTF-8. Talvez simplesmente abrir no Firefox e procurar o caractere ? Caso contrário, consulte validação de UTF-8 no Stack Overflow.
Você provavelmente já usou um editor que adiciona uma Marca de pedido de byte (BOM) ao arquivo. muitos / mais editores xml / editores de sites permitem que você salve o documento com / sem o bom. Verifique as opções de salvamento em qualquer editor que você esteja usando.
Você provavelmente precisará remover a lista de materiais para evitar o erro.
Se o seu editor não suportar essa opção, posso recomendar o excelente Notepad ++
Se você está usando o tomcat, você precisa configurar a codificação, estou usando o tomcat como um serviço no Windows e nas opções de configuração, o seguinte comando fez o truque para mim:
Dfile.encoding=UTF-8
Espero que ajude.
Tags xml validation