Problema com um documento: Byte inválido 3 da sequência UTF-8 de 3 bytes

2

Estou tentando utilizar um documento xml, mas estou com esse erro:

Invalid byte 3 of 3-byte UTF-8 sequence

Meu documento é parecido com este abaixo, mas com mais tags e conteúdo. Por favor não se concentre no documento abaixo. Eu uso vários documentos com este formato. Eu acredito que é um caractere no meu documento que é inválido, mas eu não sei a melhor maneira de encontrá-lo, porque é muito grande.

Alguma ideia ou ferramenta que eu possa usar? Obrigado.

Obrigações!

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE map PUBLIC "-//OASIS//DTD DITA Map//EN" "file:C:/Documentum/Viewed/map.dtd">
<map xmlns:dctm="http://www.documentum.com" dctm:obj_status="Read-Only" dctm:obj_id="09002af8800af696" dctm:version_label="CURRENT" xmlns:ditaarch="http://dita.oasis-open.org/architecture/2005/">
    <title>Overview of the Commercial General Liability (CGL) Insurance Coverages  </title><moreTagsHere><!-- more tags here... --></moreTagsHere>
</map>
    
por joe 21.08.2009 / 22:43

6 respostas

1

Houve uma cotação incorreta no meu xml.

    
por 31.08.2009 / 18:46
0

Eu tentaria XMLStarlet :

[...] XMLStarlet is a set of command line utilities (tools) which can be used to transform, query, validate, and edit XML documents and files using simple set of shell commands in similar way it is done for plain text files using UNIX grep, sed, awk, diff, patch, join, etc commands. [...]
[emphasis mine]

    
por 21.08.2009 / 22:56
0

Suspeito que você esteja usando uma ferramenta da Microsoft.

Na minha experiência, o Expression Web costumava colocar informações de cabeçalho em arquivos de texto para identificá-las como sempre que eram formatadas - nada mais as reconhecia e elas apareciam como caracteres aleatórios. Este foi particularmente um problema com o PHP, uma vez que quebrou inclui.

    
por 21.08.2009 / 23:20
0

Esqueça o fato de ser XML, você precisa validar o UTF-8. Talvez simplesmente abrir no Firefox e procurar o caractere ? Caso contrário, consulte validação de UTF-8 no Stack Overflow.

    
por 22.08.2009 / 09:37
0

Você provavelmente já usou um editor que adiciona uma Marca de pedido de byte (BOM) ao arquivo. muitos / mais editores xml / editores de sites permitem que você salve o documento com / sem o bom. Verifique as opções de salvamento em qualquer editor que você esteja usando.

Você provavelmente precisará remover a lista de materiais para evitar o erro.

Se o seu editor não suportar essa opção, posso recomendar o excelente Notepad ++

    
por 22.08.2009 / 00:18
0

Se você está usando o tomcat, você precisa configurar a codificação, estou usando o tomcat como um serviço no Windows e nas opções de configuração, o seguinte comando fez o truque para mim:

Dfile.encoding=UTF-8

Espero que ajude.

    
por 16.12.2013 / 15:31