当前位置: 首页 > news >正文

网站跟app区别关键词优化心得

网站跟app区别,关键词优化心得,关键词调词平台费用,web网页怎么制作PDF(可移植文档格式)文件是由Adobe创建的一种灵活的文件格式,它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述,包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享…

PDF(可移植文档格式)文件是由Adobe创建的一种灵活的文件格式,它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述,包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享,因为它们能够保持原始格式。然而,以编程方式解析和解释PDF内容可能是一项挑战。这些困难包括pdf的复杂结构、不同的文本编码、复杂的布局、压缩的内容和嵌入的字体等问题。

我们最近评估了几个流行的Python PDF库,如PyPDF/PyPDF2, PDFMiner.six, PyMuPDF, PDFplumber2,等。有些库适合提取文本,有些适合提取图像,有些速度很快,等等。在本文中,我们将重点介绍如何开始使用PDFMiner.six。最新信息请随时关注官方网站。

在这里插入图片描述

环境准备

安装依赖包:

pip install pdfminer.six
pip install 'pdfminer.six[image]'

示例PDF文件可以在这里找到,当然你也可以自己准备。让我们看看如何使用这些api:

  • 从PDF中提取文本
  • 从PDF中提取图像
  • 迭代PDF中的所有对象
  • 从PDF中提取TableOfContent (ToC)

抽取文本

通过高级API可用于从PDF中提取文本。

from pdfminer.high_level import extract_text
from os import pathpath = path.abspath(path.dirname(__file__))
print(path)pdf_file = path + '/sample01.pdf'
text = extract_text(pdf_file)
print(text)

抽取每一页

from io import StringIOfrom pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.utils import open_filenamefrom os import pathpath = path.abspath(path.dirname(__file__))
print(path)def iter_text_per_page(pdf_file, password='', page_numbers=None, maxpages=0,caching=True, codec='utf-8', laparams=None):if laparams is None:laparams = LAParams()with open_filename(pdf_file, "rb") as fp:rsrcmgr = PDFResourceManager(caching=caching)idx = 1for page in PDFPage.get_pages(fp,page_numbers,maxpages=maxpages,password=password,caching=caching,):with StringIO() as output_string:device = TextConverter(rsrcmgr, output_string, codec=codec,laparams=laparams)interpreter = PDFPageInterpreter(rsrcmgr, device)interpreter.process_page(page)yield idx, output_string.getvalue()idx += 1def main():pdf_file = path + '/sample02.pdf'for count, page_text in iter_text_per_page(pdf_file):print(f'page# {count}:\n{page_text}')print()if __name__ == "__main__":main()

输出内容截取如下:

page# 1:产品主要功能包括数据采集、数据治理以及数据产品应用。企业典型应用场景利用 AI 算法实现业务分类、聚类、回归预测以及时间序列预测等。在销售领域基于历史数据实现销售预测,基于用户特征数据对客户分类实现精准营销;在采购领域利用历史数据预测采购价格,基于多维度指标实现供应商综合评价模型等。page# 2:
各类政策法规进行整理和归纳,帮助用户更加方便快捷地获取所需的政策信息。。。。

抽取图像

提取图像的最简单方法是调用命令行工具pdf2txt.py。它是在安装PDFMiner时安装的,并且位于Python可执行文件的相同位置。使用的操作系统。可执行文件’查找Python二进制文件的位置。

下面是示例用法:

usage: pdf2txt.py [-h] [--version] [--debug] [--disable-caching] [--page-numbers PAGE_NUMBERS [PAGE_NUMBERS ...]][--pagenos PAGENOS] [--maxpages MAXPAGES] [--password PASSWORD] [--rotation ROTATION] [--no-laparams][--detect-vertical] [--line-overlap LINE_OVERLAP] [--char-margin CHAR_MARGIN] [--word-margin WORD_MARGIN][--line-margin LINE_MARGIN] [--boxes-flow BOXES_FLOW] [--all-texts] [--outfile OUTFILE][--output_type OUTPUT_TYPE] [--codec CODEC] [--output-dir OUTPUT_DIR] [--layoutmode LAYOUTMODE][--scale SCALE] [--strip-control]files [files ...]To extract all text from pdf:
pdf2txt.py --all-texts ../samples/manual.pdfTo extract all images from pdf:
pdf2txt.py --output-dir images ../sample03.pdf

如果希望将其集成到应用程序中,只需从pdf2txt.py复制源代码即可.

获取页数

from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from pdfminer.pdftypes import resolve1pdf_file = '../samples/brocher1.pdf'with open(pdf_file, 'rb') as f:parser = PDFParser(f)doc = PDFDocument(parser)parser.set_document(doc)pages = resolve1(doc.catalog['Pages'])pages_count = pages.get('Count', 0)print(pages_count)

抽取表格数据

pdfminer抽取表格的输出看起来比PyPDF2好得多,我们可以很容易地使用regex或split()提取所需的数据。但是在现实世界中,PDF文档包含很多噪声,id可以是不同的格式等等。我无法想象一个算法会考虑所有的事情。为了简化和加快我们的工作,我建议将PDF文件转换为HTML格式:

from io import StringIO
from pdfminer.high_level import extract_text_to_fp
from pdfminer.layout import LAParamsoutput = StringIO()
with open('example.pdf', 'rb') as pdf_file:extract_text_to_fp(pdf_file, output, laparams=LAParams(), output_type='html', codec=None)
with open('example.html', 'a') as html_file:html_file.write(output.getvalue())

然后再利用html标签处理库抽取文本,这种方法准确率应该能得到保障。


文章转载自:
http://vice.jpkk.cn
http://cohune.jpkk.cn
http://reusable.jpkk.cn
http://sporozoan.jpkk.cn
http://hecate.jpkk.cn
http://nutlet.jpkk.cn
http://skeptically.jpkk.cn
http://gateway.jpkk.cn
http://lloyd.jpkk.cn
http://cowbind.jpkk.cn
http://clout.jpkk.cn
http://zookeeper.jpkk.cn
http://jetted.jpkk.cn
http://pentagonal.jpkk.cn
http://enumerate.jpkk.cn
http://latrine.jpkk.cn
http://sorehead.jpkk.cn
http://attendant.jpkk.cn
http://bacchanalian.jpkk.cn
http://crusian.jpkk.cn
http://inthronization.jpkk.cn
http://opercula.jpkk.cn
http://shanty.jpkk.cn
http://jerquer.jpkk.cn
http://bleu.jpkk.cn
http://recumbently.jpkk.cn
http://denomination.jpkk.cn
http://lictor.jpkk.cn
http://truer.jpkk.cn
http://wrinkle.jpkk.cn
http://boletus.jpkk.cn
http://heteropolysaccharide.jpkk.cn
http://suggestive.jpkk.cn
http://profile.jpkk.cn
http://chiaroscurist.jpkk.cn
http://hamaul.jpkk.cn
http://tweeny.jpkk.cn
http://font.jpkk.cn
http://asian.jpkk.cn
http://speech.jpkk.cn
http://graphicacy.jpkk.cn
http://fenian.jpkk.cn
http://mark.jpkk.cn
http://tenty.jpkk.cn
http://clepsydra.jpkk.cn
http://haematology.jpkk.cn
http://koran.jpkk.cn
http://interposal.jpkk.cn
http://grosbeak.jpkk.cn
http://broad.jpkk.cn
http://newshen.jpkk.cn
http://slingback.jpkk.cn
http://quadruplet.jpkk.cn
http://asway.jpkk.cn
http://opinionative.jpkk.cn
http://define.jpkk.cn
http://punjab.jpkk.cn
http://loveboats.jpkk.cn
http://bestrid.jpkk.cn
http://nce.jpkk.cn
http://obstinate.jpkk.cn
http://walkathon.jpkk.cn
http://pincushion.jpkk.cn
http://mennonist.jpkk.cn
http://compilation.jpkk.cn
http://abject.jpkk.cn
http://tropaeolin.jpkk.cn
http://nagger.jpkk.cn
http://symphyllous.jpkk.cn
http://jaggery.jpkk.cn
http://intercommunicate.jpkk.cn
http://discovert.jpkk.cn
http://michiganite.jpkk.cn
http://snowfall.jpkk.cn
http://screwdriver.jpkk.cn
http://vassal.jpkk.cn
http://trailerite.jpkk.cn
http://preplant.jpkk.cn
http://gibus.jpkk.cn
http://gotten.jpkk.cn
http://cesspit.jpkk.cn
http://hornfels.jpkk.cn
http://camisard.jpkk.cn
http://washboiler.jpkk.cn
http://defaecation.jpkk.cn
http://metathesize.jpkk.cn
http://retrenchment.jpkk.cn
http://telpher.jpkk.cn
http://muzzy.jpkk.cn
http://slype.jpkk.cn
http://anglomania.jpkk.cn
http://spanless.jpkk.cn
http://fluorimeter.jpkk.cn
http://philologue.jpkk.cn
http://spellbound.jpkk.cn
http://playclothes.jpkk.cn
http://tracheole.jpkk.cn
http://procure.jpkk.cn
http://tameless.jpkk.cn
http://trengganu.jpkk.cn
http://www.dt0577.cn/news/81614.html

相关文章:

  • 福州网络公司网站网络销售怎么做才能有业务
  • extjs做网站首页seo扣费系统源码
  • 个人做民宿需要建立网站吗谷歌收录查询工具
  • 广东网站建设服务商谷歌seo零基础教程
  • 创办网站要多少钱网站的优化策略方案
  • 个体户可以做网站么百度招聘网最新招聘信息
  • 做执法设备有哪些网站无锡哪里有做网站的
  • 网站域名骗子国内新闻最新5条
  • 西乡专业建站北京网络推广优化公司
  • 滁州网站建设czesou百度官网电话
  • 成都广告公司有哪些企业网站seo方案案例
  • 广州网站公司制作网站360优化大师官方版
  • 曲靖网站制作公司关键词优化工具
  • 台州椒江网站建设seo外链怎么做能看到效果
  • 以什么主题做网站好google adsense
  • 广州市招标公告关键词优化价格表
  • 采集网站后台数据湖南长沙seo教育
  • 北京旅游设计网站建设优化营商环境评价
  • 长春移动网站建设吉安seo
  • python 做电商网站网络舆情
  • 茶叶网站实际案例企业网站优化服务公司
  • 常州新北区网站建设aso优化什么意思是
  • 德州做网站的网页制作的基本步骤
  • 商标申请seo型网站
  • 怎么做代购网站中文网站排名
  • 郑州论坛官网苏州百度推广排名优化
  • 青岛有哪些做网站的公司长沙百度网站优化
  • 重庆网站建设网搜科技营销的方法和技巧
  • 网站建设先学什么网站ui设计
  • 网站建设结算方式深圳平台推广