当前位置: 首页 > news >正文

天津网站建设座机号谷歌浏览器官网

天津网站建设座机号,谷歌浏览器官网,公司网站制作重庆,电子商务网站的建设的步骤最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片…

       最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片的简单转换工具,供大家参考,具体步骤和应用测试示例如下。

1.安装pdf2image包

需要先安装pdf2image包,安装命令:pip3 install pdf2image

2.安装poppler用于实现pdf2image

安装poppler-windows,下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v23.11.0-0

3.配置环境变量

将上述压缩包解压缩之后,将路径配置到环境变量path中,如path=:D:\tools\poppler-24.08.0\Library\bin

4.修改poppler_path指向的路径

修改pdf2image包的pdf2image.py文件,将poppler路径为上述路径,具体如下。

# pdf2image.py文件修改
def convert_from_path(pdf_path: Union[str, PurePath],output_file: Any = uuid_generator(),poppler_path=r'D:\tools\poppler-24.08.0\Library\bin',  # 需要修改为path中配置的poppler路径。grayscale: bool = False
) -> List[Image.Image]:...
5.测试示例代码
import fitz  # PyMuPDF  
from pdf2image import convert_from_path  
import os,sys
def extract_fullpage_images(filename,pdf_path,output_folder):  # 打开PDF文件  doc = fitz.open(pdf_path)  # output_folder = "extracted_content_pdf"  os.makedirs(output_folder, exist_ok=True)  os.makedirs(output_folder + "/png-full/", exist_ok=True)  # 遍历每一页  for page_num in range(len(doc)):  page = doc.load_page(page_num)        # 使用pdf2image将整个页面转换为图像  images = convert_from_path(pdf_path, first_page=page_num + 1, last_page=page_num + 1) for img_index, img in enumerate(images):  img.save(f"{output_folder}/png-full/page_{page_num + 1}_full_img_{img_index + 1}.png", 'PNG')  print(f"Processed page {page_num + 1}================================")  doc.close()# 示例: python pdfSplitAdapterPMI.py D:\xxx\report.pdf
if __name__ == '__main__':  # 检查参数个数  argc = len(sys.argv)  if (argc <= 1):  print('missing Parameter' % locals())  sys.exit()  filepath = sys.argv[1]  pdf_path = filepathfilename=filepath.split('\\')[-1][:-4]  output_folder = filepath[:filepath.rfind('\\')]+"\extracted_content2_"+filename  extract_fullpage_images(filename,pdf_path,output_folder)
6.转换结果对比

1.原始pdf文件

2.转换后每一页的图片文件列表

http://www.dt0577.cn/news/27549.html

相关文章:

  • 怎么建设小型网站八大营销方式有哪几种
  • 公司免费网站制作黑帽seo培训网
  • 制作网页的语言在线刷seo
  • wordpress 4.5 安装朝阳区搜索优化seosem
  • 电子政务系统网站建设的基本过程学大教育培训机构电话
  • 东莞外贸网站搭建制作如何做好线上推广和引流
  • 苏州吴中区建设局工程网站长沙网络推广外包
  • 网站建设实训报告2000字seo优化与推广招聘
  • 网站怎么做才可以做评价广告推广媒体
  • 做网站在哪里申请百度平台投诉人工电话
  • 广州市企业网站建设企业上海网站外包
  • 沂源做网站快刷网站
  • 深圳网站制作的公司有哪些百度总部客服电话
  • 自己做的网站怎么样把里面的内容下载下来网站制作工具有哪些
  • 做seo 教你如何选择网站关键词搜索引擎优化实训心得
  • 横沥仿做网站浏阳廖主任打人
  • 企业网站开发建设武汉网络推广seo
  • 网站微信建设运维经验分享推广文章的推广渠道
  • 深圳做手机的企业网站做个网站需要多少钱
  • 如何用wordpress建网站迅雷磁力链bt磁力天堂下载
  • 建设网站需要的步骤游戏代理怎么找渠道
  • 做网站有哪个软件好怎么做公司网站
  • 海尔集团网站的网络营销是什么东莞seo搜索
  • 网站建设基地企业网站优化价格
  • 建管家企业网站南宁百度seo软件
  • 祁东网站开发seo翻译
  • 紫鸟超级浏览器手机版seo网站有哪些
  • 网站炫酷首页seo主要做什么工作
  • 企业网站模板用哪个小程序开发制作
  • 创建一个网站 优帮云网络黄页推广软件哪个好