Use o pacote python NumPy que você poderá instalar facilmente usando yum install numpy
ou pip install numpy
:
import numpy
n = numpy.random.rand(100)
print 'min:', n.min()
print 'max:', n.max()
print 'mean:', n.mean()
print 'median:', numpy.median(n)
print '95th:', numpy.percentile(n, 95)
print 'stddev:', n.std()
Isso evitará que você implemente novamente as estatísticas básicas do zero. Em geral, o Python com NumPy e SciPy é uma alternativa rica em recursos para R que também tem melhor desempenho .
Além disso, em vez de escrever sua própria análise de arquivo de log com grep
e awk
, você pode usar algo como: pylogsparser que é "uma biblioteca de analisadores de log empacotada com um conjunto de analisadores prontos para uso (DHCPd, Squid, Apache, ...)".