Suspeita de atividade maliciosa por um dos usuários do meu site; alguma maneira de saber com certeza?

1

No decorrer de cerca de duas horas, um usuário conectado ao meu site acessou cerca de 1.600 páginas de maneira suspeita, semelhante a um bot. Estou preocupado porque os usuários devem comprar o acesso ao site para obter acesso total ao nosso conteúdo protegido; então tenho motivos para acreditar que essa pessoa estava raspando nosso conteúdo.

Sei que deveria ter implementado fatores de mitigação para impedir que esse tipo de atividade ocorra. Estou trabalhando nisso agora.

Com base nos registros de acesso e erro do Apache, tenho strongs evidências circunstanciais de que o usuário estava usando algum tipo de rastreador ou bot. Eu estou querendo saber se existe alguma maneira de obter evidências diretas, ou seja, com base no padrão de rastreamento, posso 100% dizer que é um script?

Veja uma amostra do log de acesso:

###.###.###.### - - [06/Apr/2016:19:32:59 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:00 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:04 -0500] "GET /article/id/wordmark-icon.png HTTP/1.1" 404 5026 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/60559332d74832ae81f6ea69f98e24cc.png HTTP/1.1" 404 5191 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/9e8d61bdd8acf3735a02ef90192eefa8.png HTTP/1.1" 404 5189 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/b75384c9aa61c22fa768cdfbafaf5351.png HTTP/1.1" 404 5190 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:06 -0500] "HEAD /article/id2/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:07 -0500] "HEAD /article/id3/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:08 -0500] "GET /article/id3/slug-slug-slug-slug HTTP/1.1" 200 9983 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"

... e assim por diante e assim por diante.

Aqui estão algumas observações que encontrei acima:

  1. Houve duas solicitações GET para o mesmo URL em cerca de um milissegundo. Eu não acredito que isso seja possível para um humano, mas posso estar errado.
  2. Não estou familiarizado com a exibição de solicitações HEAD na atividade típica do usuário. Isso é comum, ou evidência de um bot?
  3. Após as duas primeiras solicitações GET acima, há solicitações adicionais para OBTER as imagens encontradas no artigo. No entanto, na realidade, essas imagens estão localizadas em um CDN com um esquema de URL totalmente diferente. Esta pessoa / bot / qualquer coisa está usando o URI (/ article / id /) e adicionando o nome do arquivo de imagem real, resultando em um erro 404. Isso ocorreu em todas as instâncias.

É seguro dizer que isso é um bot, sem sombra de dúvida? Em caso afirmativo, existe alguma maneira possível de descobrir o roteiro específico, ou isso é um tiro longo? No mínimo, há sintomas de um certo tipo de bot, web scraper ou script?

Obrigado pela sua contribuição.

    
por Nick S. 07.04.2016 / 16:46

1 resposta

1

Is it safe to say this is a bot, beyond a shadow of a doubt?

Não. Pode-se ter várias abas de seu site abertas, travar o navegador, reabrir a janela do navegador com todas as abas e causar essa impressão digital semelhante a um ataque DOS.

If so, is there any possible way to find out the specific script, or is that a long shot?

Não vejo dados que permitam precisamente a impressão digital de um script desse tipo.

At the very least, are there symptoms of a certain type of bot, web scraper, or script?

Os pedidos de imagem quebrados fazem com que pareça suspeito. Então sim, sintomas de atividade automatizada, sim.

Em vez de tentar descobrir exatamente o que é isso, considere uma ferramenta de monitoramento comportamental / de reputação, como Repsheet . Isso permite primeiro registrar a atividade e determinar os padrões que você pode querer marcar como suspeitos. Em seguida, você pode decidir o que fazer com essa atividade suspeita.

Se você não pode ter certeza de que é um bot e não quer irritar o que poderia ser um usuário real, você pode simplesmente exibir um desafio, como um reCaptcha, ou fazer login novamente. Ou você pode redirecionar esse usuário para um servidor secundário para que o desempenho não seja prejudicado por pessoas confiáveis no servidor principal. Ou você pode até enviá-los para um honeypot e fazer o que quiser, mostrar dados falsos, mostrar dados em cache, etc.

    
por 07.04.2016 / 17:39