如何使用Python Pandas的模板将新行附加到DataFrame中

如何使用Python Pandas的模板将新行附加到DataFrame中。

介绍

作为数据工程专家，我经常创建比行更多的派生列，因为创建并发送数据供其他数据库专家分析的角色应由其他人承担，但并非始终如此。

我们必须创建样本行，而不是等待数据专家团队向我们发送数据。在本主题中，我将展示创建行的巧妙技巧。

更多Pandas文章，请阅读：Pandas教程

如何实现

在这个示例中，我们将首先使用.loc属性向一个小数据集添加行，然后使用.append方法。

1.让我们首先创建一个数据框以后再添加行。

例如

import pandas as pd
import numpy as np

players_info = pd.DataFrame(data=[
{"players": "Roger Federer", "titles": 20},
{"players": "Rafael Nadal", "titles": 20},
{"players": "Novak Djokovic", "titles": 17},
{"players": "Andy Murray", "titles": 3}], columns=["players", "titles"])

输出

print(players_info.info())

例如

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 players 4 non-null object
1 titles 4 non-null int64
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes
None

1. 现在让我们使用.loc属性将新球员“Dominic Theim”添加到数据框中。

new_Player = ['Dominic Theim', 1]
players_info.loc[4] = new_Player

输出

print(players_info)

players titles
0 Roger Federer 20
1 Rafael Nadal 20
2 Novak Djokovic 17
3 Andy Murray 3
4 Dominic Theim 1

1. 使用相同的.loc属性，让我们将新行添加到数据框的末尾。这里我将展示如何将字典添加到数据框中。

new_player = {'players': 'Daniel Medvedev', 'titles': 0}
players_info.loc[len(players_info)] = new_player

输出

print(players_info)

players titles
0 Roger Federer 20
1 Rafael Nadal 20
2 Novak Djokovic 17
3 Andy Murray 3
4 Dominic Theim 1
5 Daniel Medvedev 0

1. 我们还可以将包含数据的pandas系列添加到数据框中。

players_info.loc[len(players_info)] = pd.Series({'players': 'Andy Zverev', 'titles': 0})

输出

print(players_info)

players titles
0 Roger Federer 20
1 Rafael Nadal 20
2 Novak Djokovic 17
3 Andy Murray 3
4 Dominic Theim 1
5 Daniel Medvedev 0
6 Andy Zverev 0

结论

我们使用.loc方法在上述4个步骤中添加了数据。 .loc属性会对数据框做出修改。

在接下来的几个步骤中，我们将看一下.append方法，它不会修改调用数据框，而是返回带有附加行的数据框的新副本。

.append的第一个参数必须是另一个数据框，序列，字典或列表。

例如

# 创建一个带有索引的数据框
players_info = pd.DataFrame(data=[
{"players": "Roger Federer", "titles": 20},
{"players": "Rafael Nadal", "titles": 20},
{"players": "Novak Djokovic", "titles": 17},
{"players": "Andy Murray", "titles": 3}], columns=["players", "titles"],
index=["roger", "nadal", "djokovic", "murray"])

# 使用.append方法将一个新行（字典）添加到数据框中。
players_info.append({'players': 'Daniel Medvedev', 'titles': 0})

---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
在
1 # Add a new row(dictionary) to DataFrame using .append method.
----> 2 players_info.append({'players': 'Daniel Medvedev', 'titles': 0})

~\anaconda3\lib\site-packages\pandas\core\frame.py in append(self, other, ignore_index, verify_integrity, sort)
7046 other = Series(other)
7047 if other.name is None and not ignore_index:
-> 7048 raise TypeError(
7049 "只有在 ignore_index=True 或 Series 有名称时才能添加 Series "
7050 "."

 TypeError 只有在 ignore_index=True 或 Series 有名称时才能添加 Series

当我尝试添加字典时，它引发了一个异常，要求我们使用参数 ignore_index=True。因此，请让我添加此建议的参数并查看它的作用。

new_df = players_info.append({'players': 'Daniel Medvedev', 'titles': 0}, ignore_index=True)

输出

print(f" *** 原始带索引 \n {players_info} \n\n\n *** 修改后的索引 \n {new_df}")

*** 原始带索引
players titles
roger Roger Federer 20
nadal Rafael Nadal 20
djokovic Novak Djokovic 17
murray Andy Murray 3

*** 修改后的索引
players titles
0 Roger Federer 20
1 Rafael Nadal 20
2 Novak Djokovic 17
3 Andy Murray 3
4 Daniel Medvedev 0

当我使用 ignore_index=True 参数后，你通过输出观察发现了什么？没错，当 ignore_index 设置为 True 时，旧索引将被完全删除并替换为从0到 n-1 的 RangeIndex。

.append 方法在您希望将许多行一次性添加到 DataFrame 中时非常有用。

player1 = pd.Series({'players': 'Andy Zverev', 'titles': 0}, name='zverev')
player2 = pd.Series({'players': 'Dominic Theim', 'titles': 1}, name='theim')
new_df_1 = players_info.append([player1, player2])

输出

print(new_df_1)

players titles
roger Roger Federer 20
nadal Rafael Nadal 20
djokovic Novak Djokovic 17
murray Andy Murray 3
zverev Andy Zverev 0
theim Dominic Theim 1

好的，现在您已经了解了如何添加行的基础知识，我们将深入研究如何在具有多列的数据框中添加行。

df = pd.read_csv("https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv")

输出

print(df.info())

示例

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 budget 4803 non-null int64
1 id 4803 non-null int64
2 original_language 4803 non-null object
3 original_title 4803 non-null object
4 popularity 4803 non-null float64
5 release_date 4802 non-null object
6 revenue 4803 non-null int64
7 runtime 4801 non-null float64
8 status 4803 non-null object
9 title 4803 non-null object
10 vote_average 4803 non-null float64
11 vote_count 4803 non-null int64
dtypes: float64(3), int64(4), object(5)
memory usage: 450.4+ KB
None

来自 Google 的数据集有12列，如果您手动输入新数据行，很容易发生将列名拼错或者完全遗漏某列的情况。那么我们如何避免这个问题呢？好的，有一种方法，就是创建一个列名的模板。

columns_dictionary = df.iloc[0].to_dict()

输出：

print(columns_dictionary)

{'budget': 237000000, 'id': 19995, 'original_language': 'en', 'original_title': 'Avatar', 'popularity': 150.437577, 'release_date': '10/12/2009', 'revenue': 2787965087, 'runtime': 162.0, 'status': 'Released', 'title': 'Avatar', 'vote_average': 7.2, 'vote_count': 11800}

因此，您现在可能明白，我们已经将第一行转换为一个字典。好的，我们已经得到了列和值，现在让我们用一个字典推导式清除旧的值，将任何以前的字符串值分配为空字符串，所有其他值都分配为缺失值。

这个字典现在可以作为任何您想要输入的新数据的模板。

示例

import datetime

new_data_dict = {}
for a, b in columns_dictionary.items():
if isinstance(b, str):
new_data_dict[a] = np.random.choice(list('abcde'))
elif isinstance(b, datetime.date):
new_data_dict[a] = np.nan
else:
new_data_dict[a] = np.nan

输出

print(new_data_dict)

{'budget': nan, 'id': nan, 'original_language': 'e', 'original_title': 'a', 'popularity': nan, 'release_date': 'b', 'revenue': nan, 'runtime': nan, 'status': 'e', 'title': 'c', 'vote_average': nan, 'vote_count': nan}