Copiar texto do YouTube para a Área de Transferência introduz traços?

3

Veja um exemplo de um link que encontrei no YouTube na seção de comentários de um vídeo.

gnu.org/distros/free-distros.h­tml

É assim que aparece no comentário.

Se eu destacar este link e copiá-lo para a área de transferência (ctrl + c), vá para uma nova guia do navegador e cole-o (ctrl + v) na barra de endereço, e é assim que aparece.

gnu.org/distros/free-distros.h­tml

Parece o mesmo, certo? Mas se eu apertar Enter, recebo um erro.

404 - Page Not Found

The page you were looking for could not be found on the GNU web server.

If you followed a link that turned out to be broken, and the page with the broken link mentions an explicit address to which to report bugs, please use that address.

O URL também muda para o seguinte.

http://www.gnu.org/distros/free-distros.h%C2%ADtml%EF%BB%BF

Se eu remover %C2%ADtml%EF%BB%BF e digitar tml para que eu recupere o endereço http://www.gnu.org/distros/free-distros.html e, em seguida, pressione Enter, bem, agora funciona e a página é carregada.

Eu pensei que isso é muito estranho, então eu tentei colar o mesmo texto da área de transferência para um editor de texto simples (bloco de notas) e é isso que eu consegui.

gnu.org/distros/free-distros.h­-tml

Como foi o traço entre h e tml introduzido? É por isso que eu estava recebendo o erro 404. Mas o URL aparece corretamente quando colado na barra de endereço. Isso é algum tipo de personagem oculto, talvez?

Além disso, se eu voltar ao YouTube e destacar o link, posso ver que há um aumento nas três últimas letras. O destaque é mais alto em torno de "tml". Você pode ver isso na captura de tela abaixo.

Por que isso está acontecendo? O que está acontecendo? Será que o Google está de alguma forma intencionalmente salgando o link?

Atualizar

Se eu colar no Notepad ++ (versão 6.3), eu obtenho o seguinte.

gnu.org/distros/free-distros.h­tml?

Se eu tentar colar na barra de endereço do navegador Google Chrome, parece haver algum tipo de personagem oculto no final do URL. Veja a captura de scree abaixo.

Issonãoéumespaçoembranco.Éoutracoisa...algoalienígena!AlgodoplanetaX?

Observação:alinhaverticalnofinalnãoéaqueeuquerodizer,apenasocursordeentradadetextopiscando.

Atualização2

InspecionandoocódigohtmlnoFirefoxusandoaferramentadeinspeçãodeelementos.

Por que existe um quadrado dentro da tag wbr de abertura?

Atualização 3

O "quadrado" parece ser a entidade de caractere de hífen flexível. Aqui segue o código fonte atual desta linha em particular.

<p>gnu.org/distros/free-distros.h<wbr>&shy;tml</p>

O hífen suave é o &shy; que você vê aqui. Tags HTML, como, por exemplo, para texto em negrito, não são selecionáveis. Quando você realça um texto de uma página da Web em um navegador, não está selecionando as tags HTML. Nada dentro de <> é mostrado.

Assim, parece que o hífen suave é a causa raiz do problema de copiar e colar. Não é exibido na página da Web, mas é selecionado quando você realça o texto.

Atualização 4

Isso é o que parece quando colo o URL no Microsoft Word 2010 e vejo caracteres ocultos.

Para mover o cursor de texto de .|html para .ht|ml , é necessário pressionar a tecla de seta três vezes. Você pode dizer pela imagem acima porque é isso. É por causa desse personagem oculto. Com o cursor na frente daquele personagem de aparência estranha, pressionar Alt + X mostra 0068. Com o cursor atrás do caractere, e na frente da letra T não aparece nada. O 0068 é apenas a página de códigos Unicode para a letra H.

    
por Samir 07.08.2013 / 09:05

2 respostas

2

Sim, é um incômodo.

Existem dois hiphens O normal \ u2D e o engraçado. O engraçado é usado às vezes nos comentários do youtube. \ u00AD e aparece como oculto.

Cole no bloco de notas (para remover a formatação) e também, o bloco de notas mostre-o e, em seguida, no MS Word (ou apenas no Ms Word cole especial..unformatted unicode), coloque o cursor à direita do hiphen ou caractere, e pressione ALT-x e você verá o código ASCII ou unicode para ele.

Isso pode parecer estranho. Esteja ciente de que existem alguns caracteres com dois tipos diferentes. Um tipo que você usa normalmente, que está dentro do intervalo 0-7F, e um tipo que as pessoas tendem a não usar muito ou de jeito nenhum, o que é > 7F. Os dois tipos de espaços (um normal e outro chamado de espaço não separável, ascii code 160 \ uA0 que pode ser útil). Existem dois tipos de tubos 7C e A6 O A6 está apenas pedindo problemas, pois causa falhas na linha de comando. E dois tipos de hiphens, o segundo que você vê, também se comporta de maneira engraçada, já que os comentários do youtube às vezes o usam e o ocultam e não o exibem como um hiphen.

Outro personagem engraçado que eu vejo e que é usado pelo youtube nos comentários é \ uFEFF Você pode executar o notepad2 (baixá-lo), escolher file..encoding..UTF-8 e depois colar o texto, e procurar por \ uFEFF substituindo por nothing (marque a caixa que diz: inverta as barras invertidas).

Da mesma forma, você pode abrir o notepad2, procurar por \ u00AD (aquele engraçado hiphen) e substituí-lo por um hiphen regular. O Editpad Free pode ser capaz de fazê-lo, embora eu use a versão pro para o seu suporte a regex.

Eu notaria que o charmap não copia o hiphen engraçado corretamente. (Então, se você quiser experimentar e escolher copiar e colar em um software e exibir charma engraçado, mas copiar bem (como no personagem) do seu link no meu navegador (chrome). Melhor se o personagem não estava lá, é um incômodo! Mas você pode ver o código ascii dele no Ms Word, e você pode procurar e removê-lo no notepad2

Você vê no charmap que (\ u00AD) é chamado de "soft Hiphen" (estou feliz por eles não terem criado esse título!)

Na foto eu usei Ms Word e fiz ALT-x

    
por 07.08.2013 / 10:20
2

Olhando para o código fonte desta parte da página, vejo isto:

<p>gnu.org/distros/free-distros.h<wbr>­tml</p>

Parece que o Youtube inseriu automaticamente uma tag <wbr> . É uma oportunidade de quebra de palavras , que diz ao navegador que, se necessário, a palavra pode ser quebrado para inserir uma nova linha.

Em páginas codificadas em UTF-8, isso é exibido como ZERO-WIDTH SPACE , não mostrando nada, mas permitindo uma nova linha. Isso é o que causa seu problema de codificação.

Parece que o Youtube tem um algoritmo para inserir automaticamente <wbr> em palavras longas em bons lugares (não cortando uma syllabe em dois), mas como o http:// estava ausente no início da URL, o algoritmo não reconhecê-lo como tal e, portanto, assumiu que era uma palavra que poderia ser quebrada.

    
por 07.08.2013 / 09:28