Existe uma maneira de determinar o formato de log se for dado um arquivo “.log”?

3

Existe uma maneira de determinar o tipo de log (para que ele possa ser analisado corretamente) se eu não tiver informações anteriores sobre o tipo de log (por exemplo, syslog, log do apache, log do IIS)? Eu estou tentando escrever um filtro Grok para os logs, mas não tenho idéia do que os campos representam.

Estas são as primeiras linhas dos registros:

14;1074585600;147.33.10.112;89ccfad2c4bbc02c91ed66055a235fca;/ls/index.php?      &id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=40;hXXX://YYY.shop4.cz/ls/index.php?&id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=20

12;1074585600;57.66.66.138;17bff4c98f96413dbe748c9cd8822da9;/ct/?c=158;hXXX://YYY.shop3.cz

14;1074585600;194.196.100.86;e9455a109435408eb7b8e170d636d024;/klient/seznam.php;hXXX://YYY.shop4.cz/klient/zpravy.php

11;1074585600;66.77.73.176;88dc79e8eb5968d936a7d563af55bd08;/dt/?id=9354;

10;1074585601;158.196.177.79;cbf84093e4740423436abaf3c1a65ebc;/;
    
por shruti gupta 10.07.2014 / 23:25

1 resposta

6

Claro. Parece que é um registro das Conferências Européias sobre Aprendizado de Máquina e Conferências Européias sobre Princípios e Práticas de Descoberta de Conhecimento no Desafio de Descoberta de Bases de Dados de 2005 concorrência. Eles têm uma página descrevendo o formato de dados e um FAQ sobre os dados no site.

(Eu poderia dizer que esses foram alguns timestamps antigos unix apenas por vê-los ... 2004 vintage, aqueles são.)

Esse não é um formato de registro padrão (e, BTW, syslog é um protocolo, não um formato de log.)

Em termos de metodologia, comecei apenas olhando as linhas. Eu poderia dizer que o segundo campo era uma data de época Unix apenas vendo o tamanho dos números. Obviamente, o terceiro campo é um endereço IPv4. O quinto campo tem 32 dígitos hexadecimais, portanto é muito provável que seja uma soma MD5. O próximo campo se parece com a parte hierárquica de um URL e a consulta. O último campo parece um URL, e eu tenho a tendência de supor que é um referenciador.

Então, parece um log de servidor da web.

Pesquisei os hashes usando o Google porque estava curioso para ver se esses dados estavam em outro lugar. Com certeza, um dos hashes aparece nas páginas que eu criei acima.

    
por 11.07.2014 / 00:02