我们现在有一份PDF数据,里面有三页,每页都有一样数据结构但数据不同的数据表,现在需要使用Python将它批量提取出来。
1import pdfplumber
2import pandas as pd
3
4# 创建一个空数据框
5df = pd.DataFrame()
6
7# 使用with语句打开pdf文件
8with pdfplumber.open("D:\\python\\cai\\5.pdf") as pdf:
9 # 使用for循环遍历每个pages
10 for page in pdf.pages:
11 # 取出当前页表格,结果为列表
12 d=page.extract_table()
13 # 将列表转为数据框
14 df1 = pd.DataFrame(d[1:], columns=d[0])
15 #添加至df数据框中
16 df = df.append(df1)
希望系统、快速学习Python数据分析知识,可以学习
数据分析专家@文彤老师的
《跟文彤老师学Python数据分析》系列视频课程
包含以下三门课程
Python数据分析--玩转Pandas
Python数据分析--玩转数据可视化
玩转Python统计分析
以上顺序也是学习的建议顺序
课程提供讲义(含代码)与数据供练习
学习过程有问题可加Q群与老师交流讨论
如还有其他问题也可添加课程助理微信号咨询,添加时请注明所咨询的课程
现参加课程学习,可享受6折优惠
购买课程直接点击文末“
阅读原文”进入即可