数据结构论坛

注册

 

发新话题 回复该主题

Python38安装pdfminer [复制链接]

1#
北京白癜风治疗方法 http://www.xxzywj.com/m/

我先说说如何正确安装这个模块!

pip3install--upgradesetuptools

pip3installpdfminer3k

这两个命令就可以了。

下方是安装的成功的截图,内容很多!分开截图!

Successfullyinstalledsetuptools-44.0.0

Successfullyinstalledatomicwrites-1.3.0attrs-19.3.0colorama-0.4.3more-itertools-8.0.2packaging-20.0pdfminer3k-1.3.1pluggy-0.13.1ply-3.11py-1.8.1pyparsing-2.4.6pytest-5.3.2six-1.13.0wcwidth-0.1.8

*************************************************************************

以下是一些错误的安装方法。

pip3installpdfminer

pip3installpdfminer3k

**************************************************************************现在导入相关模块,测试下

没有任何提示,成功!

------------------------------------------------------------------------------

PDF格式不是一种规范格式.尽管她被叫做PDF文档,但PDF并不像word或者html文档。PDF的表现更像一张图片。PDF更像是在一张纸的各个准确的位置上把内容都摆放出来。大部分情况下,没有逻辑结构,比如句子或段落,并且不能自适应页面大小的调整。PDFMiner尝试通过猜测它们的布局来重建它们的结构,但是不保证一定能工作。我知道这样很难看,但是,PDF确实不够规范。

由于PDF文件有如此大和复杂的结构,完整解析PDF文件很费时费力。好吧,大多数PDF工作中,很多模块是不需要加进来的。因此PDFMiner采用了一个懒惰分析的策略,就是只分析所需要的部分。解析的时候,至少需要2个核心类,PDFParser和PDFDocument。这两个模块配合其他模块来使用。

PDFParser从文件中获取数据

PDFDocument存储文档数据结构到内存中

PDFPageInterpreter解析page内容

PDFDevice把解析到的内容转化为你需要的东西

PDFResourceManager存储共享资源,例如字体或图片

下图显示了PDFMiner中各个类之间的关系。

分享 转发
TOP
发新话题 回复该主题