pandas apply 示例|极客教程

pandas apply 示例

Pandas 是一个强大的 Python 数据处理库，它提供了许多功能来处理和分析数据。其中，apply 函数是一个非常灵活的工具，允许用户对 DataFrame 或 Series 中的数据应用一个函数。本文将详细介绍 apply 函数的使用方法，并通过多个示例展示其在数据处理中的应用。

1. `apply` 函数基础

apply 函数可以被用于 pandas 的 Series 和 DataFrame 对象。当用于 DataFrame 时，它默认作用于每一列，但也可以通过设置参数作用于每一行。当用于 Series 时，它将函数应用于每个元素。

示例代码 1：对 Series 应用函数

import pandas as pd

# 创建一个 Series 对象
s = pd.Series(['pandasdataframe.com', 'example', 'apply'])

# 定义一个简单的函数来转换字符串为大写
def to_upper(text):
    return text.upper()

# 使用 apply 应用函数
result = s.apply(to_upper)
print(result)

Output:

pandas apply 示例

示例代码 2：对 DataFrame 的每一列应用函数

import pandas as pd

# 创建一个 DataFrame 对象
df = pd.DataFrame({
    'A': ['foo', 'bar', 'baz'],
    'B': ['pandasdataframe.com', 'example', 'apply']
})

# 定义一个函数来计算字符串长度
def length(text):
    return len(text)

# 使用 apply 应用函数到每一列
result = df.applymap(length)
print(result)

2. 使用 `apply` 处理复杂数据

apply 函数非常适合处理需要对数据进行复杂转换的情况。例如，可以使用它来计算统计数据，或者从字符串中提取特定信息。

示例代码 3：计算每列的最大字符串长度

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': ['pandasdataframe.com', 'short', 'medium'],
    'B': ['longer', 'shortest', 'apply']
})

# 定义一个函数来找出最长的字符串长度
def max_length(column):
    return max(column, key=len)

# 应用函数到每一列
result = df.apply(max_length)
print(result)

Output:

pandas apply 示例

示例代码 4：从字符串中提取数字

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': ['1 pandasdataframe.com', '2 examples', '3 apply methods'],
    'B': ['4 tests', '5 pandas', '6 data']
})

# 定义一个函数来提取字符串中的数字
def extract_number(text):
    return ''.join(filter(str.isdigit, text))

# 应用函数到 DataFrame 的每个元素
result = df.applymap(extract_number)
print(result)

3. 使用 `apply` 进行条件逻辑处理

apply 函数也可以用来执行基于条件的逻辑操作。这在数据清洗和预处理中非常有用。

示例代码 5：根据条件修改数据

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [20, 30, 40],
    'C': ['pandasdataframe.com', 'example', 'apply']
})

# 定义一个函数，如果数字大于 25，则替换为 'High'
def replace_if_high(num):
    return 'High' if num > 25 else num

# 应用函数到 DataFrame 的选定列
df[['A', 'B']] = df[['A', 'B']].applymap(replace_if_high)
print(df)

示例代码 6：使用条件逻辑创建新列

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': ['pandasdataframe.com', 'example', 'apply']
})

# 定义一个函数，根据其他列的值计算新列的值
def calculate_new_column(row):
    return row['A'] * row['B']

# 使用 apply 函数沿着行应用函数
df['D'] = df.apply(calculate_new_column, axis=1)
print(df)

Output:

pandas apply 示例

4. 使用 `apply` 进行数据聚合

apply 函数不仅可以用于元素级或行列级的操作，还可以用于更复杂的数据聚合任务。

示例代码 7：对分组数据应用函数

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'Group': ['A', 'A', 'B', 'B'],
    'Data': [10, 15, 10, 20],
    'URL': ['pandasdataframe.com', 'example', 'apply', 'test']
})

# 定义一个函数来计算每个组的平均值
def average_data(group):
    return group.mean()

# 对分组数据应用函数
grouped = df.groupby('Group')['Data'].apply(average_data)
print(grouped)

Output:

pandas apply 示例

示例代码 8：使用自定义聚合函数

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'Group': ['A', 'A', 'B', 'B'],
    'Data': [1, 2, 3, 4],
    'URL': ['pandasdataframe.com', 'example', 'apply', 'test']
})

# 定义一个函数来计算数据的范围（最大值 - 最小值）
def data_range(data):
    return data.max() - data.min()

# 对分组数据应用函数
result = df.groupby('Group')['Data'].apply(data_range)
print(result)

Output:

pandas apply 示例

5. 性能优化

虽然 apply 函数非常灵活和强大，但在处理大规模数据时可能会遇到性能瓶颈。在这种情况下，可以考虑使用向量化操作或其他 pandas 内置函数来优化性能。

示例代码 9：使用向量化操作代替 `apply`

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [20, 30, 40],
    'C': ['pandasdataframe.com', 'example', 'apply']
})

# 使用向量化操作来替换大于 25 的数字为 'High'
df[['A', 'B']] = df[['A', 'B']].where(df[['A', 'B']] <= 25, 'High')
print(df)

Output:

pandas apply 示例

示例代码 10：使用内置函数优化性能

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': ['pandasdataframe.com', 'example', 'apply']
})

# 使用内置的 cumsum 函数来计算累计和，替代 apply
df['Cumulative Sum'] = df['A'].cumsum()
print(df)

Output:

pandas apply 示例

6. 处理文本数据

在处理包含文本的 DataFrame 时，apply 函数可以用来执行各种字符串操作，如格式化、清洗或信息提取。

示例代码 11：格式化字符串

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Website': ['pandasdataframe.com', 'example.com', 'apply.net']
})

# 定义一个函数来格式化网站URL，添加https协议
def format_url(url):
    return f"https://{url}"

# 应用函数到 Website 列
df['Website'] = df['Website'].apply(format_url)
print(df)

Output:

pandas apply 示例

示例代码 12：清洗字符串数据

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'Comments': [' great service!!! ', 'bad product ', ' an ok experience... '],
    'URL': ['pandasdataframe.com', 'example.com', 'apply.net']
})

# 定义一个函数来清洗评论文本
def clean_text(text):
    return text.strip().lower().replace(" ", "_")

# 应用函数到 Comments 列
df['Comments'] = df['Comments'].apply(clean_text)
print(df)

Output:

pandas apply 示例

7. 使用 `apply` 进行错误处理

在数据处理中，错误处理是一个重要的环节。apply 函数可以结合错误处理来确保代码的健壮性。

示例代码 13：处理转换过程中的错误

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'Values': ['100', '200', 'three', '400'],
    'URL': ['pandasdataframe.com', 'example.com', 'apply.net', 'test.com']
})

# 定义一个函数，尝试将字符串转换为整数，错误则返回 None
def safe_convert(value):
    try:
        return int(value)
    except ValueError:
        return None

# 应用函数到 Values 列
df['Values'] = df['Values'].apply(safe_convert)
print(df)

Output:

pandas apply 示例

8. 使用 `apply` 与其他 pandas 函数结合使用

apply 函数可以与 pandas 的其他功能强大的函数结合使用，以实现更复杂的数据处理逻辑。

示例代码 14：结合 `apply` 和 `groupby`

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'Group': ['A', 'A', 'B', 'B'],
    'Score': [88, 92, 85, 90],
    'URL': ['pandasdataframe.com', 'example.com', 'apply.net', 'test.com']
})

# 定义一个函数来计算每个组的平均分
def average_score(group):
    return group.mean()

# 对分组后的数据应用函数
grouped_scores = df.groupby('Group')['Score'].apply(average_score)
print(grouped_scores)

Output:

pandas apply 示例

示例代码 15：结合 `apply` 和 `merge`

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie'],
    'URL': ['pandasdataframe.com', 'example.com', 'apply.net']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Age': [25, 30, 35]
})

# 定义一个函数来合并两个 DataFrame 并添加年龄组
def add_age_group(row):
    if row['Age'] < 30:
        return 'Young'
    else:
        return 'Old'

# 合并 DataFrame
merged_df = pd.merge(df1, df2, on='ID', how='left')

# 应用函数到合并后的 DataFrame
merged_df['Age Group'] = merged_df.apply(add_age_group, axis=1)
print(merged_df)

Output:

pandas apply 示例