Compare três arquivos baseados em colunas usando Perl

2

Eu tenho três arquivos e preciso coincidir a primeira coluna do arquivo 1 com a primeira coluna do arquivo 2 e depois corresponder à segunda coluna do arquivo 1 com a primeira coluna do arquivo 3.

  • o arquivo 1 contém as seguintes linhas e muitas mais:

    • fji01dde  AIDJFMGKG  
      dlp02sle  VMCFIJGM
      cmr03lsp  CKEIFJ
      
  • o arquivo 2 contém as seguintes linhas e muitas outras:

    • fji01dde  25 30  
      dlp02sle  40 50  
      cmr03lsp  60 70  
      
  • o arquivo 3 contém:

    • AIDJFMGKG  
      CKEIFJ  
      
  • minha saída esperada é:

    • fji01dde AIDJFMGKG 25 30  
      cmr03lsp  CKEIFJ   60 70  
      
    • e assim por diante ...

  • Eu só quero linhas comuns em todos os três arquivos, mas quando eu corro ...

    • #!/usr/bin/env perl
      use strict;
      use warnings;
      my %data;
      
      while (<>) {  
          my ( $key, $value ) = split;  
          push( @{ $data{$key} }, $value );  
      }  
      
      foreach my $key ( sort keys %data ) {  
          if ( @{ $data{$key} } >= @ARGV ) {  
          print join( "\t", $key, @{ $data{$key} } ), "\n";  
          }    
      }
      
    • meus resultados são ...

    • AIDJFMGKG  
      CKEIFJ  
      fji01dde 25  
      dlp02sle 40  
      cmr03lsp 60
      

Alguma ideia? Obrigado antecipadamente!

    
por user140071 25.10.2015 / 05:24

2 respostas

2

O principal problema com o seu script foi que, quando o ciclo while(<>) terminou, @ARGV está vazio. Você precisa obter a contagem de arg antes do loop. E lembre-se que os arrays perl são baseados em zero, então você tem que subtrair 1 da contagem.

Aqui está uma versão fixa que produz a saída que você solicitou.

$ cat compare.pl 
#!/usr/bin/perl
use strict;
use warnings;

my $numargs=@ARGV-1;
my %data=();

while (<>) {  
    my ( $key, $value ) = split;  
    push( @{ $data{$key} }, $value );  

}  

foreach my $key ( sort keys %data ) {  
    if ( @{ $data{$key} } >= $numargs ) {  
    print join( "\t", $key, @{ $data{$key} } ), "\n";  
    }  
}

$ ./compare.pl file1 file2 file3
cmr03lsp    CKEIFJ  60
dlp02sle    VMCFIJGM    40
fji01dde    AIDJFMGKG   25
    
por 25.10.2015 / 07:46
0

Pergunta com postes cruzados, portanto, com uma resposta cruzada:

OK, olhando para ele - seu problema é com split - porque, por padrão, ele se divide em espaço em branco. Seu segundo arquivo tem 3 campos por esse critério, não dois.

Mas também - você não está cruzando as mesmas coisas, então o seu while ( <> ) { loop não vai funcionar.

  • No arquivo 1 - você deseja verificar o valor .
  • No arquivo2, você está verificando a chave (e anexando os valores).
  • No arquivo3, você não tem valor, apenas uma chave.

Então, com isso em mente:

#!/usr/bin/env perl
use strict;
use warnings;
use Data::Dumper;

#read file1 into a hash - but invert is it's value => key instead:
#          'CKEIFJ' => 'cmr03lsp',
# etc.  
open( my $file1, '<', "file1.txt" ) or die $!;
my %file1_content = map { reverse split } <$file1>;
close($file1);

print Dumper \%file1_content;

#read file 2 - read keys, store the values. 
#split _2_ fields, so we keep both numbers as a substring:
#e.g.:
#          'cmr03lsp' => '60 70
#',

open( my $file2, '<', "file2.txt" ) or die $!;
my %file2_content = map { split( " ", $_, 2 ) } <$file2>;
close($file2);

print Dumper \%file2_content;    

#then iterate file 3, checking if:
#file1 has a matching 'key' (but inverted - as a value) 
#file2 has a cross reference. 
open( my $file3, '<', "file3.txt" ) or die $!;
while ( my $line = <$file3> ) {
    chomp $line;
    if (    $file1_content{$line}
        and $file2_content{ $file1_content{$line} } )
    {
        print
            "$file1_content{$line} $line $file2_content{$file1_content{$line}}";
    }
}
close($file3);

Isto imprime (excluindo a saída "dumper"):

fji01dde AIDJFMGKG 25 30
cmr03lsp CKEIFJ 60 70
    
por 26.10.2015 / 17:39