Python将HTML表格转换成excel

Python将HTML表格转换成excel

MS Excel是一个处理大量表格数据的强大工具。它对于排序、分析、执行复杂的计算和可视化数据特别有用。在这篇文章中,我们将讨论如何从网页中提取表格并以Excel格式存储。

第1步:转换为Pandas数据框架
Pandas是一个用于管理表格的Python库。我们的第一步是将网页中的表存储到Pandas数据框中。函数read_html()返回一个数据帧的列表,每个元素代表网页中的一个表。在这里,我们假设网页包含一个单一的表。

# Importing pandas
import pandas as pd
  
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
  
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
  
# Print the dataframe
print(table)

输出

         0       1        2           3    4
0  ROLL_NO    NAME  ADDRESS       PHONE  AGE
1        1     RAM    DELHI  9455123451   18
2        2  RAMESH  GURGAON  9652431543   18
3        3   SUJIT   ROHTAK  9156253131   20
4        4  SURESH    DELHI  9156768971   18

步骤2:将Pandas数据框架存储在一个excel文件中
为此,我们使用Pandas的to_excel()函数,将文件名作为参数传递。

# Importing pandas
import pandas as pd
  
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
  
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
  
# Store the dataframe in Excel file
table.to_excel("data.xlsx")

输出:
Python将HTML表格转换成excel

如果网页上有多个表,我们可以将索引号从0改为所需表的索引。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程