ferramenta para fazer estatísticas na linha de comando do linux

3

diga que eu executo um comando que gera valores separados por espaço sobre linhas. Alguns dos quais são números. Existe um utilitário que eu possa usar para calcular a média, mediana e desvio padrão desses números? algo como "cortar", mas que gera essas estatísticas.

    
por IttayD 24.10.2013 / 14:11

3 respostas

1

Confira: link ou sta (recomendado): link

Do GitHub:

sta

Simple statistics from the command line interface (CLI), fast. Description

This is a lightweight, fast tool for calculating basic descriptive statistics from the command line. Inspired by https://github.com/nferraz/st, this project differs in that it is written in C++, allowing for faster computation of statistics given larger non-trivial data sets.

Additions include the choice of biased vs unbiased estimators and the option to use the compensated variant algorithm.

Given a file of 1,000,000 ascending numbers, a simple test on a 2.5GHz dual-core MacBook using Bash time showed sta takes less than a second to complete, compared to 14 seconds using st.

    
por 24.10.2013 / 15:33
1

Você também pode considerar o uso de clistats . É uma ferramenta de interface de linha de comando altamente configurável para calcular estatísticas para um fluxo de números de entrada delimitados.

Opções de E / S

  • Os dados de entrada podem ser de um arquivo, entrada padrão ou um canal
  • A saída pode ser gravada em um arquivo, saída padrão ou um canal
  • A saída usa cabeçalhos que começam com "#" para habilitar a canalização para o gnuplot

Opções de análise

  • Detecção baseada no sinal, fim de arquivo ou linha em branco para interromper o processamento
  • O caractere de comentário e delimitador pode ser definido
  • As colunas podem ser filtradas do processamento
  • As linhas podem ser filtradas do processamento com base na restrição numérica
  • As linhas podem ser filtradas do processamento com base na restrição de string
  • As linhas de cabeçalho iniciais podem ser ignoradas
  • Número fixo de linhas pode ser processado
  • Os delimitadores duplicados podem ser ignorados
  • As linhas podem ser reformuladas em colunas
  • Aplicar rigorosamente que apenas as linhas do mesmo tamanho são processadas
  • Uma linha contendo títulos de coluna pode ser usada para gerar estatísticas de saída de título

Opções de estatísticas

  • Estatísticas de resumo (Contagem, Mínimo, Média, Máximo, Desvio padrão)
  • Covariância
  • Correlação
  • Deslocamento de mínimos quadrados
  • Inclinação de mínimos quadrados
  • Histograma
  • Dados brutos após a filtragem

NOTA: eu sou o autor.

    
por 16.07.2014 / 04:24
1

A linguagem R seria perfeita para isso. Ele é executado no terminal, suas linguagens de estatísticas gratuitas e provavelmente as mais populares por aí. Então, tem toneladas de documentação sobre como fazer coisas legais, incluindo aquelas que você está pedindo.

    
por 04.06.2016 / 01:53

Tags