Python 复杂结构字典转dataframe|极客教程

Python 复杂结构字典转dataframe

在数据处理和分析中，经常会遇到复杂结构的字典数据，而这些数据往往需要转换成更适合进行分析的形式，比如转换成DataFrame。Python的pandas库提供了方便的功能来处理这种情况。本文将详细介绍如何将复杂结构的字典转换成DataFrame，并给出示例代码。

准备工作

在进行转换之前，我们先来了解一下什么是DataFrame。DataFrame是pandas库中的一个重要数据结构，类似于Excel表格或SQL中的表。它由多个列和行组成，每列可以是不同的数据类型。

在本文的示例中，我们将使用一个包含复杂结构的字典数据来演示如何转换成DataFrame。假设我们有以下字典数据：

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'details': {
        'address': ['123 Main St', '456 Park Ave', '789 Broadway'],
        'phone': ['555-1234', '555-5678', '555-9999']
    }
}

上面的字典包含了姓名、年龄和详情信息（地址和电话）三个字段。其中，详情信息又是一个嵌套字典。

转换成DataFrame

要将上述复杂结构的字典转换成DataFrame，我们可以使用pandas库中的DataFrame构造函数。首先，我们需要将字典转换成一个更方便处理的形式，通常是由列表构成的字典。具体步骤如下：

将嵌套在details中的信息提取出来，新建两个列address和phone。
将原始字典中的details键删除，避免和新建的列重复。
使用pandas的DataFrame构造函数将处理后的字典转换成DataFrame。

示例代码如下：

import pandas as pd

# 原始字典
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'details': {
        'address': ['123 Main St', '456 Park Ave', '789 Broadway'],
        'phone': ['555-1234', '555-5678', '555-9999']
    }
}

# 提取details中的信息，新建两个列
data['address'] = data['details']['address']
data['phone'] = data['details']['phone']

# 删除details键
data.pop('details')

# 转换成DataFrame
df = pd.DataFrame(data)
print(df)

运行上面的代码，将得到以下DataFrame：

      name  age      address    phone
0    Alice   25  123 Main St  555-1234
1      Bob   30  456 Park Ave 555-5678
2  Charlie   35  789 Broadway 555-9999

可以看到，我们成功地将复杂结构的字典转换成了DataFrame，并且每个字段都被正确地映射到了DataFrame的列中。

处理更复杂的情况

在实际情况中，数据可能会更加复杂，比如嵌套更深的字典结构或者包含列表的字典。为了处理这种情况，我们可以使用递归的方法来提取数据。下面是一个处理更复杂情况的示例代码：

import pandas as pd

# 更复杂的字典数据
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'details': {
        'address': ['123 Main St', '456 Park Ave', '789 Broadway'],
        'phone': ['555-1234', '555-5678', '555-9999'],
        'friends': {
            'name': ['David', 'Emma', 'Frank'],
            'age': [27, 28, 31]
        }
    }
}

def flatten_dict(d, parent_key='', sep='_'):
    items = []
    for k, v in d.items():
        new_key = parent_key + sep + k if parent_key else k
        if isinstance(v, dict):
            items.extend(flatten_dict(v, new_key, sep=sep).items())
        else:
            items.append((new_key, v))
    return dict(items)

flat_data = flatten_dict(data)
df = pd.DataFrame(flat_data)
print(df)

在上面的示例中，我们定义了一个flatten_dict函数，使用递归的方法将任意深度的字典展开成一级字典。最终将展开后的字典转换成DataFrame。运行上面的代码，将得到如下的DataFrame：

      name  age      details_address details_phone details_friends_name  details_friends_age
0    Alice   25  123 Main St         555-1234       David                         27
1      Bob   30  456 Park Ave         555-5678       Emma                          28
2  Charlie   35  789 Broadway         555-9999       Frank                         31

可以看到，我们成功地处理了更复杂的字典结构，并将其转换成了展开后的DataFrame。