Python读取pdf里面的表格,并保存为xlsx
一、安装模块:pip install pdfplumber
二、示例代码如下
- import pdfplumber
- import pandas as pd
-
-
- def pdf_table(pdf_name,spage=0,epage=10):
- """
- :param pdf_name: PDF文件路径名称
- :param spage: 表格开始页(从0开始)
- :param epage: 表格结束页
- :return: table list
- """
- tables = []
- pdf = pdfplumber.open(pdf_name)
- for i in range(spage, epage+1):
- pt=pdf.pages[i]
- table=pt.extract_table()
- tables.extend(table)
- return tables
-
-
- if __name__ == '__main__':
- pdf_name = 'D:\\123.pdf'
- tables = pdf_table(pdf_name, 2, 22)
- df = pd.DataFrame(tables)
- df.to_excel('123.xlsx')