在Pandas中创建一个流水线
管道在转换和处理大量数据方面发挥了有益的作用。管道****,是一连串的数据处理机制。Pandas的管道功能允许我们把各种用户定义的Python函数串起来,以建立一个数据处理的管道。有两种方法可以在pandas中创建一个管道。通过调用.pipe()函数和通过导入pdpipe包。
通过pandas管道函数,即pipe()函数,我们可以在一行中同时调用一个以上的函数来进行数据处理。让我们来了解并通过使用pipe()函数创建一个管道。
下面是各种例子,描述了如何使用pandas创建一个管道。
示例 1:
输出:
现在,创建数据处理的函数。
现在,使用.pipe()函数创建一个管道。
输出:
现在,让我们了解并通过导入pdpipe包创建一个管道。
pdpipe Python软件包为构建具有预处理条件的pandas流水线提供了一个简洁的接口。pdpipe是一个用于Python的Pandas数据框架的预处理管道包。pdpipe的API有助于用几行代码轻松分解或组成复杂的Pandas处理管道。
我们可以通过简单的编写来安装这个包。
示例 2:
输出:
使用pdpipe从数据框架中删除一个列。
输出:
还有另一种方法可以通过pdpipe投放列。
输出:
在这里,该列分两步被删除。在第一步中,我们创建了一个管道,在第二步中,我们将其应用于数据框架。
示例 3:
现在我们使用pdpipe向数据框架添加一列。
输出:
现在,从数据框架中丢掉这些值。
输出:
包含’IT’值的行被删除。