使用 pandas 创建 DataFrame
Pandas 是一个强大的 Python 数据分析工具库,它提供了许多用于创建、处理和分析数据的功能。在这篇文章中,我们将详细介绍如何使用 pandas 创建 DataFrame。DataFrame 是 pandas 中最常用的数据结构,它是一个二维的、表格型的数据结构,可以存储不同类型的数据,并且可以进行高效的数据操作。
1. 从列表创建 DataFrame
可以通过将列表转换为 DataFrame 来创建一个简单的 DataFrame。这是最基本的创建方法之一。
import pandas as pd
data = [['Alex', 10], ['Bob', 12], ['Clarke', 13]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
Output:
2. 从字典创建 DataFrame
字典可以提供更多的灵活性,因为你可以直接为每列数据指定列名。
import pandas as pd
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'Age': [28, 34, 29, 42]}
df = pd.DataFrame(data)
print(df)
Output:
3. 从字典列表创建 DataFrame
当你有一个字典列表时,每个字典都可以转换成 DataFrame 的一行。
import pandas as pd
data = [{'Name': 'Tom', 'Age': 28},
{'Name': 'Jack', 'Age': 34},
{'Name': 'Steve', 'Age': 22}]
df = pd.DataFrame(data)
print(df)
Output:
4. 使用列指定器
如果你想在创建 DataFrame 时指定列的顺序,或者只选择字典中的某些键作为列,你可以使用 columns
参数。
import pandas as pd
data = [{'Name': 'Tom', 'Age': 28, 'Gender': 'Male'},
{'Name': 'Jack', 'Age': 34, 'Gender': 'Male'},
{'Name': 'Steve', 'Age': 22, 'Gender': 'Male'}]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
Output:
5. 从元组列表创建 DataFrame
元组列表也可以用来创建 DataFrame,类似于从列表列表创建。
import pandas as pd
data = [('Tom', 28), ('Jack', 34), ('Steve', 22)]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
Output:
6. 从 NumPy 数组创建 DataFrame
如果你在使用 NumPy 进行数据处理,可以直接将 NumPy 数组转换为 DataFrame。
import numpy as np
import pandas as pd
data = np.array([['Tom', 28], ['Jack', 34], ['Steve', 22]])
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
Output:
7. 使用多个字典创建具有层次化索引的 DataFrame
你可以创建一个具有多级索引的复杂 DataFrame。
import pandas as pd
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df)
Output:
8. 从 Series 对象创建 DataFrame
Series 是 pandas 中的一维数据结构,你可以从一个或多个 Series 对象创建 DataFrame。
import pandas as pd
s1 = pd.Series([1, 2, 3])
s2 = pd.Series(['a', 'b', 'c'])
df = pd.DataFrame({'col1': s1, 'col2': s2})
print(df)
Output:
9. 使用 zip
创建 DataFrame
通过 zip
函数可以将多个列表组合成一个元组列表,然后创建 DataFrame。
import pandas as pd
names = ['Tom', 'Jack', 'Steve']
ages = [28, 34, 22]
data = list(zip(names, ages))
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
Output:
10. 从 CSV 文件创建 DataFrame
读取 CSV 文件是创建 DataFrame 的常见方法,尤其是在处理大量数据时。
import pandas as pd
df = pd.read_csv('pandasdataframe.com_data.csv')
print(df)
以上是使用 pandas 创建 DataFrame 的一些基本方法。通过这些方法,你可以根据不同的数据来源和需求灵活地创建 DataFrame。在实际应用中,选择最适合你的数据和需求的方法是非常重要的。