pandas .str.split()方法详解|极客教程

pandas .str.split()方法详解

在数据处理和分析中，经常会遇到需要对字符串进行拆分的情况。而在Python的数据分析库pandas中，提供了.str.split()方法来实现字符串的拆分操作。本文将详细介绍这个方法的用法、参数含义以及示例代码。

一、`.str.split()`方法概述

.str.split()方法是pandas Series对象中的字符串方法（str accessor）之一，用于将字符串按照指定的分隔符进行拆分，并返回一个包含拆分后结果的新Series。该方法的基本语法如下：

Series.str.split(pat=None, n=-1, expand=False)

参数说明：

pat：指定的分隔符，默认为None，表示使用空格作为分隔符。
n：控制分割的次数，-1表示不限制次数。
expand：是否将拆分后的结果扩展为独立的列，True表示扩展为DataFrame，False表示保留为Series。

二、示例数据准备

为了更好地说明.str.split()的用法，我们先准备一个示例数据：

import pandas as pd

data = {
    'name': ['Alice Green', 'Bob White', 'Charlie Black'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
df['name'] = df['name'].str.lower()  # 先将姓名转换为小写
print(df)

运行以上代码，我们得到一个包含姓名、年龄和城市信息的DataFrame：

            name  age         city
0    alice green   25     New York
1       bob white   30  Los Angeles
2  charlie black   35      Chicago

三、使用示例

接下来我们将演示.str.split()方法的具体用法，包括如何按照空格进行拆分、限制拆分次数以及将拆分后的结果扩展为DataFrame。

1. 按照空格进行拆分

首先，我们使用默认的空格作为分隔符，将名字拆分为姓氏和名字两部分：

name_split = df['name'].str.split()
df['first_name'] = name_split.str[0]
df['last_name'] = name_split.str[1]
print(df[['first_name', 'last_name']])

运行结果如下：

  first_name last_name
0      alice     green
1        bob     white
2    charlie     black

2. 限制拆分次数

如果我们只想按照第一个空格进行拆分，可以通过n参数来限制拆分的次数：

name_split_limit = df['name'].str.split(n=1)
df['first_name'], df['last_name'] = name_split_limit.str[0], name_split_limit.str[1]
print(df[['first_name', 'last_name']])

运行结果如下：

  first_name last_name
0      alice     green
1        bob     white
2    charlie     black

3. 扩展为DataFrame

有时候我们希望将拆分后的结果扩展为新的DataFrame，可以通过expand=True实现：

name_split_expand = df['name'].str.split(expand=True)
df[['first_name', 'last_name']] = name_split_expand
print(df[['first_name', 'last_name']])

运行结果如下：

  first_name last_name
0      alice     green
1        bob     white
2    charlie     black

四、总结

通过本文的介绍，我们了解了.str.split()方法在pandas中的用法和参数含义，并通过示例代码演示了如何对字符串进行拆分操作。在实际数据处理和分析中，熟练掌握这个方法能够帮助我们更高效地处理数据，提高工作效率。

pandas .str.split()方法详解