Script para detectar e corrigir dados do Excel classificados anormalmente como uma data

1

Genoma Biology resultados publicados recentemente mostram que o formatador de data automático do Excel causou erros em cerca de 20% dos artigos publicados sobre listas suplementares de genes.

For example, gene symbols such as SEPT2 (Septin 2) and MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase] are converted by default to ‘2-Sep’ and ‘1-Mar’, respectively. Furthermore, RIKEN identifiers were described to be automatically converted to floating point numbers (i.e. from accession ‘2310009E13’ to ‘2.31E+13’)

Eles fornecem scripts bash que identificam erros com base em nomes de genes sendo convertidos em datas.

Minha pergunta é: Existe uma maneira genérica de escrever um script desse tipo para analisar todos os meus arquivos do Excel e detectar dados formatados anormalmente? Um script pode reverter essas mudanças? Em ambos os casos, quais são algumas coisas que esse script deve procurar?

    
por Jedi 06.01.2017 / 19:30

1 resposta

1

Digamos que estamos importando dados para o Excel de algum arquivo externo. Há três coisas em questão:

  1. impede a conversão para Data de campos que devem ser texto
  2. para dados que já foram importados, detecte células que foram convertidas erroneamente em Datas
  3. para dados que já foram importados, corrija as células ruins

Os dois primeiros passos são diretos. Os detalhes do código dependem do esquema dos dados (quais colunas do Excel precisam ser processadas) .

O terceiro requer a construção de uma tabela de conversão que pode ser usada para converter datas em texto.

A tabela de tradução não é tão ruim quanto parece (pode haver apenas 365 entradas na tabela) .

    
por 06.01.2017 / 19:49