Mais de um milhão de 404?

3

Usando o Analog 6 para estatísticas da web, e estou surpreso em ver mais de um milhão de 404 em 54 dias. Eu estou olhando isso corretamente? Esta é uma proporção incomum de visualizações de página de 404 para "200 OK"? Não vejo nenhum 404 na lista de URLs reais; onde seria uma lista dos URLs quebrados? O site é uma combinação de páginas html, WordPress e asp no unix / apache, se isso for importante.

Requests       Status Codes
 6548392       200 OK
     807       206 Partial content
 1830136       301 Document moved permanently
   61795       302 Document found elsewhere
 3091342       304 Not modified since last retrieval
    3042       400 Bad request
   49012       403 Access forbidden
 1043694       404 Document not found
    2936       500 Internal server error
     411       503 Service temporarily unavailable

Estatísticas gerais:

Successful requests:                   9,640,541 
Average successful requests per day:     183,490 
Successful requests for pages:         1,620,543
Failed requests:                       1,099,095 (20,066) 
    
por markratledge 28.07.2010 / 23:58

3 respostas

5

A lista de URLs quebrados estaria nos arquivos de log reais. No momento, parece que 15% dos pedidos para o seu sistema são 404. Isso parece muito alto.

Se eu quisesse adivinhar, eu apostaria que seu modelo de página incluía um link para um arquivo de imagem, javascript ou css quebrado.

Um rápido grep dos arquivos de log provavelmente revelará a maioria dos detalhes.

    
por 29.07.2010 / 00:12
3

Concordo que é uma quantidade bastante alta de 404s, mas podem ser robôs automatizados tentando explorar buracos conhecidos no software.

Não é exatamente o mesmo, mas tenho dezenas de milhares de 404 por mês em nosso servidor web e, analisando a URL, parece que algum bot experimentando injeções SQL conhecidas para centenas de produtos diferentes (nenhum dos quais temos instalado).

É uma tarefa inicial gigantesca, mas exclui os URLs de exploração de sua maneira preferida de encontrar 404 genuínos e fica muito mais precisa.

    
por 29.07.2010 / 00:27
2

Se você não conseguir acessar os registros brutos conforme sugerido, considere executar um rastreamento sobre seu site para encontrar links quebrados. Consulte Verificador de links do W3C , especificando Verificar documentos vinculados recursivamente, profundidade de recursão como faz sentido.

    
por 29.07.2010 / 02:53