使用php读取pdf文件

我有一个大的 PDF 文件,这是一个建筑的楼层图,它有所有办公家具的图层,包括座位位置的文本框。

我有一个大的 PDF 文件,这是一个建筑的楼层图,它有所有办公家具的图层,包括座位位置的文本框。

我的目标是使用 PHP 读取此文件,在文档中搜索文本图层,获取文件中的内容和坐标。这样我就可以绘制出座位位置-x / y 坐标。

有没有办法通过 PHP 做到这一点?(甚至 Ruby 或 Python,如果这是必要的)

41

查看 FPDF(带 FPDI):

http://www.fpdf.org/ http://www.setasign.de/products/pdf-php-solutions/fpdi/

这些将让您打开一个 pdf 并在 PHP 中添加内容。我猜你也可以使用它们的功能来搜索现有的内容,你需要的值。

另一个可能的库是 TCPDF:https://tcpdf.org/

更新以添加更现代的库:PDF Pr

30

有一个 PHP 库(pdfpr),正是你想要的。

项目网站

http://www.pdfpr.org/ github https://github.com/smalot/pdfpr

演示页面 / api

http://www.pdfpr.org/demo

在项目中包含 pdfpr 后,您可以从mypdf.pdf中获取所有文本,如下所示:

<?php
$pr = new \installpath\PdfPr\Pr();
$pdf    = $pr->pFile('mypdf.pdf');  
$text = $pdf->getText();
echo $text;//all text from mypdf.pdf
?>

模拟您可以从 pdf 获取元数据,就像获取 pdf 对象(例如图像)一样。

5

不完全是 php,但你可以从 php 中执行一个程序将 pdf 转换为临时 html 文件,然后使用 php 解析结果文件。我已经为我的一个项目做了类似的事情,这是我使用的程序:

PdfToHtml

生成的 HTML 将文本元素包装在带有绝对位置坐标的 & lt;div & gt;标记中。

3

你最初的要求是“我有一个大的 PDF 文件,这是一个建筑的平面图”。

我不敢告诉你这可能比你想象的要难。

原因最后一个已知的 lib 每个人用来解析 pdf 是 smalot,并且这个已知遇到关于大文件的问题。

在这里,寻找一个真正的 php lib 来解析 pdf,没有任何内存峰值需要一个 php 配置来禁用内存限制,因为很多“开发人员”(我想这是不可取的)。

有关 smalot 性能的更多详细信息,请参阅此帖子:https://github.com/smalot/pdfpr/issues/163

本站系公益性非盈利分享网址,本文来自用户投稿,不代表码文网立场,如若转载,请注明出处

(831)
流浪-无平行标志的含义(vagrants meaning)
上一篇
python中是否有大于但小于函数
下一篇

相关推荐

  • php生成pdf电子合同:双方同意遵守本合同的约定,并保证履行本合同所载明的义务。

    使用php生成pdf电子合同,首先需要安装一个php pdf库,比如TCPDF。然后,可以使用以下代码来生成pdf电子合同:// Include the main TCPDF librarysearch for installation path).…

    2023-03-03 07:13:34
    0 63 48
  • python编程入门经典pdf从入门到精通

    Python编程入门经典pdf是一本由著名的编程作家Mark Lutz编写的Python编程入门书籍,书中介绍了Python语言的基础知识、技巧和应用。书中包含了大量的实例代码,可以帮助读者快速掌握Python的编程技能。…

    2023-02-15 10:10:24
    0 28 40
  • python 解析pdf:使用Python解析PDF文件的最佳实践

    Python 解析 PDF 是一种从 PDF 文档中提取数据的方法,它可以帮助我们更好地理解和分析 PDF 文档中包含的信息。使用 Python 解析 PDF 的最常用方法是使用 PyPDF2 库。PyPDF2 是一个开源库,提供了一系列用于处理 PDF 文档的函数和类。…

    2023-03-08 03:58:39
    0 29 95
  • python网络爬虫pdf深入理解网络数据采集技术

    Python网络爬虫PDF是一种使用Python语言来抓取网络上的PDF文件的技术。它可以帮助我们从网络上抓取大量的PDF文件,并将它们存储到本地硬盘中。下面是一个使用Python网络爬虫抓取PDF文件的示例代码:…

    2023-01-06 06:10:35
    0 67 61
  • windows核心编程pdf下载深入理解操作系统内核

    Windows核心编程PDF下载是指从网络上下载Windows核心编程的PDF文件。要实现这一目的,可以使用Python中的urllib库来实现,代码如下:…

    2023-02-08 12:33:15
    0 47 45
  • python编程第四版中文pdf从入门到精通

    Python编程第四版中文PDF是一本关于Python编程的图书,由国外著名出版社O'Reilly出版。该书由Mark Lutz主编,介绍Python的基本概念,如数据类型,运算符,控制流,函数,模块,面向对象编程,异常处理,标准库,网络编程,GUI编程,数据库编程等。…

    2023-03-02 01:54:38
    0 98 83
  • python 深度学习 pdf:深入浅出Python深度学习

    Python 深度学习 PDF 是一种用于深度学习的 Python 库,它能够帮助开发者们快速构建、训练和部署深度学习模型。它提供了一系列高级 API,使得开发者们可以更轻松地定义、训练和部署深度学习模型。…

    2023-03-05 15:23:21
    0 11 11
  • python极简讲义pdf从入门到精通

    Python极简讲义PDF是一本关于Python编程的书,旨在帮助初学者快速了解和掌握Python编程语言的基础知识。它涵盖了从Python基础知识到更高级的内容,包括变量、数据类型、流程控制、函数、类和模块等。此外,还介绍了如何使用Python来解决实际问题,以及如何使用Python库和框架来构建功能强大的应用程序。…

    2023-01-14 13:27:32
    0 49 49

发表评论

登录 后才能评论

评论列表(85条)