如何使用Python Pandas通过共同的密钥合并许多TSV文件
对于数据分析来说,最重要的是数据,我们需要在使用它进行分析之前对其进行准备。有时,所需的数据可能分散在多个文件中,我们需要将它们合并。在这篇文章中,我们将用一个共同的键来合并多个TSV(Tab Separated Values)文件。这可以通过使用pandas Python库的合并方法来实现。这个方法允许我们通过使用一个共同的键来合并文件。
步骤:
- 导入pandas库
- 然后读取前两个tsv文件,使用pd.merge()函数合并它们,将’on’参数设置为两个文件中的共同列。然后将结果存储在一个名为 “Output_df “的新数据框架中。
- 将剩余的文件存储在一个列表中。
- 运行一个循环,对这些文件名进行迭代。逐一读取这些文件,并将其与 “Output_df “数据框合并。
- 在tsv文件中保存’Output_df’。
示例 1:
在这个例子中,我们将通过使用一个内联来合并tsv文件。我们为这个例子取了四个tsv文件,如下所示。
使用的文件: Customer.tsv , Account.tsv , Branch.tsv , Loan.tsv
输出:
输出.tsv
示例 2:
在这个例子中,我们将通过使用外层连接来合并tsv文件。我们为这个例子取了四个tsv文件,如下所示。
使用的文件: Course.tsv , Teacher.tsv , Credits.tsv , Marks.tsv
输出: