Python将HTML表格转换成excel
MS Excel是一个处理大量表格数据的强大工具。它对于排序、分析、执行复杂的计算和可视化数据特别有用。在这篇文章中,我们将讨论如何从网页中提取表格并以Excel格式存储。
第1步:转换为Pandas数据框架。
Pandas是一个用于管理表格的Python库。我们的第一步是将网页中的表存储到Pandas数据框中。函数read_html()返回一个数据帧的列表,每个元素代表网页中的一个表。在这里,我们假设网页包含一个单一的表。
# Importing pandas
import pandas as pd
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
# Print the dataframe
print(table)
输出
0 1 2 3 4
0 ROLL_NO NAME ADDRESS PHONE AGE
1 1 RAM DELHI 9455123451 18
2 2 RAMESH GURGAON 9652431543 18
3 3 SUJIT ROHTAK 9156253131 20
4 4 SURESH DELHI 9156768971 18
步骤2:将Pandas数据框架存储在一个excel文件中。
为此,我们使用Pandas的to_excel()函数,将文件名作为参数传递。
# Importing pandas
import pandas as pd
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
# Store the dataframe in Excel file
table.to_excel("data.xlsx")
输出:
如果网页上有多个表,我们可以将索引号从0改为所需表的索引。