Pandas中如何获取Series和DataFrames中的字符串

在本文中，我们将介绍如何在Pandas中获取Series和DataFrames中的字符串。Pandas是Python中非常流行的数据处理库，主要用于数据分析和数据可视化。在实际的数据处理过程中，我们经常需要操作字符串数据，因此对于如何获取和处理字符串数据是非常关键的。

阅读更多：Pandas 教程

获取Series中的字符串数据

在Pandas中，可以使用.str属性获取Series中的字符串数据。.str属性包含了许多字符串操作的函数，例如len用于获取字符串的长度、slice用于截取字符串、split用于按照指定的分隔符拆分字符串等等。下面是一些常用的字符串操作的示例：

示例一：获取字符串长度

import pandas as pd

# 创建一个Series对象
s = pd.Series(['apple', 'banana', 'orange'])

# 获取字符串长度
len_series = s.str.len()

print(len_series)  # 输出: 0    5
                  #        1    6
                  #        2    6
                  #        dtype: int64

可以看到，通过调用.str.len()方法，可以获取s中每个字符串的长度。

示例二：截取字符串

# 截取字符串
slice_series = s.str.slice(start=0, stop=3)

print(slice_series)  # 输出: 0    app
                    #        1    ban
                    #        2    ora
                    #        dtype: object

在示例中，.str.slice()方法可以截取每个字符串的前三个字符。

示例三：拆分字符串

# 按照'-'拆分字符串
split_series = pd.Series(['apple-banana-orange', 'peach-pear'])

split_result = split_series.str.split(pat='-')

print(split_result)  # 输出: 0    [apple, banana, orange]
                     #        1            [peach, pear]
                     #        dtype: object

在示例中，.str.split()方法按照’-‘分隔符拆分s中的每个字符串，返回一个包含拆分后的数组的列表。

获取DataFrame中的字符串数据

在Pandas中，可以使用.iloc属性来获取DataFrame中的元素，同时通过先获取某一列、再使用.str属性可以获取DataFrame中的字符串数据。下面是一些常见的字符串操作的示例：

示例一：获取指定行指定列的字符串数据

# 创建一个DataFrame
data = {'name': ['John', 'Marry', 'Peter'],
        'age': [25, 28, 30]}
df = pd.DataFrame(data)

# 获取第一行第一列的字符串数据
name = df.iloc[0, 0]

print(name)  # 输出: 'John'

在示例中，.iloc[0, 0]表示获取第一行第一列的元素，即获取name列中的第一个元素。

示例二：获取整列的字符串数据

# 获取name列的字符串数据
name_series = df['name']

print(name_series)  # 输出: 0     John
                    #        1    Marry
                    #        2    Peter
                    #        Name: name, dtype: object

在示例中，通过df[‘name’]可以获取整个name列的元素，即获取DataFrame中name列的所有字符串数据。

示例三：按照指定条件筛选出符合条件的元素

# 按照条件筛选元素
filter_series = df['name'][df['name'].str.contains('e')]

print(filter_series)  # 输出: 1    Marry
                      #        2    Peter
                      #        Name: name, dtype: object

在示例中，筛选出name列中包含字符’e’的字符串元素。首先，使用df[‘name’]获取整个name列的元素；接着使用.str.contains(‘e’)方法，返回一个数组，数组的每个元素表示该位置的字符串是否符合包含’e’的条件；最后通过索引运算符[]，选择符合条件的元素，生成一个新的Series对象。