Como funciona o captcha “Eu não sou um robô”?

3

É um gráfico, exigindo, portanto, OCR volumoso que a maioria dos bots não tem (aparentemente)? Mesmo assim, é um gráfico fixo e não exigiria realmente o OCR apenas para correspondência de padrões simples contra uma biblioteca de um item. Eu simplesmente não entendo como isso representa um obstáculo intransponível para frustrar os bots.

    
por gbambo 30.08.2017 / 02:57

2 respostas

3

O captcha monitora o comportamento do mouse. Embora seja fácil para um bot clicar em um botão em um formulário, é difícil simular o movimento errático de um mouse movido por um humano.

No entanto, não é impossível: link

    
por 30.08.2017 / 03:09
0

O texto no captcha não foi reconhecido pelo OCR. OCR usava regras padrão de qual texto é para reconhecer texto.

O Texto Adequado geralmente é distorcido, não é paralelo à execução em linhas retas paralelas; para o horizonte e contém lixo aleatório que o OCR não pode manipular.

ou seja, não cumprem as regras usuais de como o texto deve ser.

Com o Deep Learning se tornando mais comum, é só uma questão de tempo antes que o Captchas não funcione.

Existem muitos captchas diferentes, alguns requerem a escolha de vários gráficos que tenham um tema (por exemplo, que são partes de um sinal que podem ser posteriormente refinadas e adicionadas ao método de biblioteca abaixo assim que todo o sinal for montado e o gráfico de texto extraído pelo mesmo método) que um computador não será capaz de discernir. Com esse tipo, você sempre é solicitado a identificar um cenário conhecido e, geralmente, um desconhecido para adição à biblioteca de conhecidos, uma vez que respostas idênticas sejam recebidas.

As imagens de uso mais comuns de duas maneiras:

1
Uma única imagem aleatoriamente distorcida gerada a partir de uma palavra, em seguida, lixo extra adicionado para confundir OCR. Como "Salgar" uma lista de senhas, adicionando uma palavra de lixo "aleatória" para interromper um ataque de arco-íris.

2
Outra forma é usar fotos (geralmente de palavras) de algo que as pessoas tinham que decidir o que é porque a imagem é complexa demais para ser reconhecida automaticamente. Geralmente, está fora dos parâmetros de programação do computador o que define o texto (ou um sinal ou qualquer outro) e é frequentemente cercado por um ambiente aleatório.
Isso requer uma grande biblioteca de fotos com "texto" conhecido ou outros parâmetros como os que fazem parte de um sinal, etc.

Nota lateral:
A biblioteca do segundo método é aumentada fornecendo 2 imagens que os usuários tentam identificar corretamente.
1 imagem é conhecida e outra é desconhecida.
Corrigindo corretamente as provas conhecidas, você não é um robô.
Bastantes pessoas correspondendo / respondendo o desconhecido com a mesma resposta significa que agora é conhecido e pode ser adicionado à biblioteca conhecida.
É assim que o Google Maps identifica o que realmente são os sinais do nome da rua / local (e depois o texto que eles contêm) e os textos do Gutenberg que falharam no OCR foram corrigidos.

    
por 30.08.2017 / 03:25

Tags