python如何提取PDF文本

发布时间：2020年11月23日 10:27:10 来源：环球青藤点击量：1883

【摘要】本文为你展示，如何用Python把许多PDF文件的文本内容批量提取出来首先，我们读入一些模块，以进行文件操作。（推荐学习：Python视频教程）

本文为你展示，如何用Python把许多PDF文件的文本内容批量提取出来.

首先，我们读入一些模块，以进行文件操作。（推荐学习：Python视频教程）

import glob
import os

演示目录下，有两个文件夹，分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob，一条命令就能完成这个功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

pdfs

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

经验证。准确无误。

下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content

用这个函数，我们尝试从 pdf 文件列表中的第一篇里，抽取内容，并且把文本保存在 content 变量里。

content = extract_pdf_content(pdfs[0])

显然，内容抽取并不完美，页眉页脚等信息都混了进来。不过，对于我们的许多文本分析用途来说，这无关紧要。

更多Python相关技术文章，请访问Python教程栏目进行学习！

以上就是小编分享的关于python如何提取PDF文本的详细内容希望对大家有所帮助，更多有关python教程请关注环球青藤其它相关文章！

分享到：编辑：wangmin

上一篇：怎么查看python版本? 下一篇：python分数怎么表示

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

Python编程相关文章推荐

Python编程最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

Python编程热点排行

python如何提取PDF文本

就业培训申请领取

Python编程相关文章推荐

Python编程最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

python如何提取PDF文本

就业培训申请领取

Python编程相关文章推荐

Python编程最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

欢迎登陆环球青藤