Processamos nossos registros do Apache para algumas estatísticas do Google Shopping e do Google AdWords. Há uma linha de comando que cut
s as linhas do log para pegar os IPs com coisas específicas na string de consulta como gclid
. Hoje o script parou de funcionar e, quando observamos os registros, encontramos entradas como esta:
208.115.113.93 - - [20/Jun/2016:15:03:47 +0100] "GET /some-section/ HTTP/1.1" 200 13379
"-" "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"
E-SearchBox&FORM=IENTTR&conversationid=" "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0)
like Gecko"
80.43.114.199 - - [20/Jun/2016:15:03:48 +0100] "GET
/some/page.php?action=setvalues%5B%5D=41&_=1466431513315
HTTP/1.1" 200 20 "http://www.website.co.uk/the-section/?gclid=COC5q9TAAs0CFdgaGwodLREAAA"
"Moz
Como você pode ver aqui, a segunda linha ( E-SearchBox...
) não é uma entrada adequada. Esse é um sistema com dois servidores da web de carga balanceada e todos os logs são enviados para o mesmo local montado, o que provavelmente descreveria a ordem incorreta (ou seja, essa linha não está relacionada à anterior).
O mais estranho é que isso só começou a acontecer no mês passado. No mês passado, o mesmo relatório funcionou perfeitamente, mas este mês há erros por causa do formato corrompido dos logs. E, executando exatamente o mesmo relatório para os meses anteriores agora mostra erros também onde não tenha anteriormente.
Alguém já viu esse comportamento antes? Aqui está um exemplo de como o log é configurado:
CustomLog "|/usr/sbin/rotatelogs -l /var/www/vhosts/ombrelle/logs/website.co.uk/%Y%m%d_web.log 86400" combined env=!image
Isso não mudou há alguns anos, mas o problema só apareceu este mês. Estou tentando descobrir o que aconteceu com os arquivos. Alguma sugestão?
Tags apache-2.2