Não há necessidade de processar o mesmo arquivo duas vezes, basta aplicar a seguinte lógica:
awk -F, '!a[$1,$2]++' blueprint_param_file.csv
-
!a[$1,$2]++
- garante que uma chave crucial (concatenação do primeiro e do segundo campo) ocorre somente uma vez na matriza
, excluindo assim duplicatas
A saída:
spark2-env,spark_thrift_cmd_opts,--driver-memory 15g --executor-cores 7
spark2-thrift-sparkconf,spark.memory.offHeap.enabled,true
mapred-site,yarn.app.mapreduce.am.command-opts,-Xmx5324m -Dhdp.version=${hdp.version}