当前位置: 首页 > news >正文

东坑网站建设优化关键词排名seo软件

东坑网站建设,优化关键词排名seo软件,郑州做网站外包的公司,泉州网页目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时,文字信息往往无法直接编辑、搜索或复制,这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费…

目录

工具与设置

Python 识别图片中的文字

Python 识别图片中的文字及其坐标位置

Python 识别扫描PDF中的文字

注意事项


在处理扫描的PDF和图片时,文字信息往往无法直接编辑、搜索或复制,这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费力,还容易出错。光学字符识别(OCR)技术能够将图片中的文字转换为可编辑文本,使信息提取和处理更加高效。如今,OCR已广泛应用于扫描文件的转换、数字化文档的整理、以及自动化数据输入等领域。本文将介绍如何使用Python及相关OCR库,实现对图片和扫描PDF中文字的识别。

工具与设置

要在Python中实现从图片和扫描PDF中提取文本,我们需要选择一个适当的OCR库。本文所选择的库是Spire.OCR for Python。该库支持多种语言,包括英语、法语、德语、简体中文、繁体中文、日语、韩语等。在使用该库之前,我们需要完成以下两个步骤:

步骤1:安装Spire.OCR for Python

在终端中运行以下命令安装Spire.OCR for Python:

pip install Spire.OCR

步骤2:下载OCR模型

Spire.OCR for Python提供了支持Windows(64位)、Linux(64位)和MacOS(10.15及以上)操作系统的三种模型。我们需要根据自己的系统下载适合的模型:

  • Win x64
  • Linux x64
  • Mac 10.15及以上

下载完成后,将它解压并保存到特定的目录下。

完成以上两个步骤后,我们就可以使用该库实现识别图片和扫描PDF中的文字。

Python 识别图片中的文字

从图片中提取文本的过程比较简单。首先,需要配置 OCR 扫描器的相关设置(例如:文本识别语言和OCR模型的路径);然后对图片进行扫描;最后将识别的文字保存为文本文件。

以下是从图片中提取文本的关键步骤:

  • 初始化 OCR 扫描器:创建 OcrScanner 对象。
  • 配置 OCR 设置:通过 OcrScanner 对象的 ConfigureDependencies 方法,设置 OCR 模型的路径和文本识别语言。
  • 扫描图片:使用 OcrScanner 对象的 Scan() 方法,从图片中识别文本。
  • 保存文本:获取识别出的文本并保存为文本文件。

实现代码:

from spire.ocr import *# 初始化OcrScanner对象
scanner = OcrScanner()# 配置OCR设置(文本识别语言和OCR模型路径)
# 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等
configureOptions = ConfigureOptions()
configureOptions.ModelPath = r'D:\OCR\win-x64'
configureOptions.Language = 'Chinese'
scanner.ConfigureDependencies(configureOptions)# 扫描图片
scanner.Scan(r'测试.png')# 获取识别的文本
text = scanner.Text.ToString() + '\n'# 将文本保存到文本文件
with open('输出.txt', 'a', encoding='utf-8') as file:
file.write(text + '\n')

原始图片和识别结果

Python 识别图片文字

Python 识别图片中的文字及其坐标位置

有时除了识别文本外,还需要获取文本在图片中的坐标位置。Spire.OCR也支持提取这些信息。

以下是从图片中识别文本并获取其坐标位置的关键步骤:

  • 初始化OCR扫描器:创建OcrScanner对象。
  • 配置OCR设置:通过OcrScanner对象的ConfigureDependencies方法设置OCR模型的路径和文本识别语言。
  • 扫描图片:使用OcrScanner 对象的Scan() 方法从图片中识别文本。
  • 获取边框坐标:遍历识别的文本中的文本块,获取每个文本块的边框信息(x, y坐标及其宽度和高度)。
  • 保存文本和坐标:将文本及其坐标保存到文本文件中。

实现代码:

from spire.ocr import *# 初始化OcrScanner对象
scanner = OcrScanner()# 配置OCR设置(文本识别语言和OCR模型路径)
# 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等
configureOptions = ConfigureOptions()
configureOptions.ModelPath = r'D:\OCR\win-x64'
configureOptions.Language = 'Chinese'
scanner.ConfigureDependencies(configureOptions)# 扫描图片
scanner.Scan(r'测试.png')# 遍历识别的文本中的文本块,提取每个文本块的文本和坐标位置等信息
text = ''
for block in scanner.Text.Blocks:rectangle = block.Boxpositions = f'{block.Text} -> x: {rectangle.X}, y: {rectangle.Y}, w: {rectangle.Width}, h: {rectangle.Height}'text += positions + '\n'# 将文本和坐标保存到文本文件
with open('图片文字及坐标.txt', 'a', encoding='utf-8') as file:file.write(text + '\n')

Python 识别扫描PDF中的文字

对于扫描的PDF文档,需先将每一页转换为图片格式。可以借助Spire.PDF for Python库来实现这一点。将PDF页面转换为图片后,即可对每张图片执行 OCR 处理。

在使用以下代码之前,请先通过以下命令安装Spire.PDF:

pip install Spire.PDF

以下是从扫描PDF中提取文本的关键步骤:

  • 将PDF页面转换为图片:使用Spire.PDF加载扫描的PDF文档,然后使用PdfDocument.SaveAsImage()方法将文档的每一页保存为图片。
  • 执行OCR:使用Spire.OCR识别每张图片中的文本。
  • 保存识别的文本:将识别的文本保存到文本文件中。

实现代码:

from spire.pdf import *
from spire.ocr import *
import io# 将PDF页面转换为图片
def convert_pdf_page_to_image(pdf, page_index):return pdf.SaveAsImage(page_index)# 从图片中识别文本
def recognize_text_from_image(imgName, language, model_path):# 初始化OCR扫描器并配置OCR模型的路径和文本识别语言scanner = OcrScanner()configure_options = ConfigureOptions()configure_options.Language = languageconfigure_options.ModelPath = model_pathscanner.ConfigureDependencies(configure_options)# 执行OCR并返回识别的文本scanner.Scan(imgName)data = scanner.Text.ToString()return data# 加载扫描PDF文档
pdf = PdfDocument()
pdf.LoadFromFile('扫描.pdf')# 创建文本文件以保存提取的文本
with open('扫描PDF.txt', 'a', encoding='utf-8') as writer:for page_index in range(pdf.Pages.Count):# 将PDF页面转换为图片image = convert_pdf_page_to_image(pdf, page_index)imgName="toImage_"+str(page_index)+".png"image.Save(imgName)# 从图片中识别文本recognized_text = recognize_text_from_image(imgName, 'Chinese', r'D:\OCR\win-x64')# 将识别的文本写入文本文件writer.write(f'Page {page_index + 1}:\n')writer.write(recognized_text)writer.write('\n\n')  # 在页面之间添加两个换行符print('文本已成功保存到"扫描PDF.txt"。')

注意事项

OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好,不模糊、倾斜的图片,可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同,一些特定语言或字体可能识别效果较差。因此在识别完成后,最好再人工校对一遍。

以上就是使用Python识别图片和扫描PDF中的文字的全部内容。感谢阅读!


文章转载自:
http://rheophilous.pwkq.cn
http://fernico.pwkq.cn
http://herbarium.pwkq.cn
http://monocarboxylic.pwkq.cn
http://manciple.pwkq.cn
http://homozygously.pwkq.cn
http://partner.pwkq.cn
http://potentiator.pwkq.cn
http://january.pwkq.cn
http://brambling.pwkq.cn
http://perigynous.pwkq.cn
http://antihistamine.pwkq.cn
http://wps.pwkq.cn
http://precative.pwkq.cn
http://recollectedness.pwkq.cn
http://pe.pwkq.cn
http://current.pwkq.cn
http://luluai.pwkq.cn
http://chivalrously.pwkq.cn
http://cretinous.pwkq.cn
http://longeur.pwkq.cn
http://frugivore.pwkq.cn
http://franciscan.pwkq.cn
http://billsticker.pwkq.cn
http://scoopful.pwkq.cn
http://chagal.pwkq.cn
http://probably.pwkq.cn
http://pistonhead.pwkq.cn
http://synchronise.pwkq.cn
http://getable.pwkq.cn
http://cyclopic.pwkq.cn
http://jackdaw.pwkq.cn
http://itu.pwkq.cn
http://agatize.pwkq.cn
http://beeb.pwkq.cn
http://hyperuricaemia.pwkq.cn
http://pulpitry.pwkq.cn
http://glycogenolysis.pwkq.cn
http://hippocampal.pwkq.cn
http://downturn.pwkq.cn
http://pfalz.pwkq.cn
http://decartelization.pwkq.cn
http://jubbah.pwkq.cn
http://infiltree.pwkq.cn
http://unlash.pwkq.cn
http://autarky.pwkq.cn
http://colouring.pwkq.cn
http://pygmean.pwkq.cn
http://comptometer.pwkq.cn
http://rechauffe.pwkq.cn
http://thorshavn.pwkq.cn
http://trituration.pwkq.cn
http://papilloedema.pwkq.cn
http://endgame.pwkq.cn
http://pushchair.pwkq.cn
http://natatorial.pwkq.cn
http://insipient.pwkq.cn
http://xylem.pwkq.cn
http://forestall.pwkq.cn
http://impartation.pwkq.cn
http://snackery.pwkq.cn
http://billionth.pwkq.cn
http://postatomic.pwkq.cn
http://rigidification.pwkq.cn
http://janet.pwkq.cn
http://sonolyze.pwkq.cn
http://briton.pwkq.cn
http://conquerable.pwkq.cn
http://savarin.pwkq.cn
http://alkaloid.pwkq.cn
http://gingiva.pwkq.cn
http://hot.pwkq.cn
http://unreceptive.pwkq.cn
http://wonderworld.pwkq.cn
http://mistflower.pwkq.cn
http://oligoclase.pwkq.cn
http://aberdevine.pwkq.cn
http://doily.pwkq.cn
http://vlan.pwkq.cn
http://forthwith.pwkq.cn
http://intertrigo.pwkq.cn
http://antinucleon.pwkq.cn
http://stanchly.pwkq.cn
http://trickily.pwkq.cn
http://bmw.pwkq.cn
http://reseed.pwkq.cn
http://scalenotomy.pwkq.cn
http://infuscate.pwkq.cn
http://jetted.pwkq.cn
http://octocentenary.pwkq.cn
http://aboriginal.pwkq.cn
http://neology.pwkq.cn
http://setem.pwkq.cn
http://wainable.pwkq.cn
http://unambitious.pwkq.cn
http://oversoul.pwkq.cn
http://styli.pwkq.cn
http://sheraton.pwkq.cn
http://thermogravimetry.pwkq.cn
http://illiberally.pwkq.cn
http://www.dt0577.cn/news/108436.html

相关文章:

  • 想做网站的公司好免费数据分析网站
  • 建e设计网优化神马网站关键词排名价格
  • 微网站用手机可以做吗搜索风云榜百度
  • 张店网站建设方案高端建站
  • 免费网站制作公司网站优化排名操作
  • 微信网站怎么做的好关键词检测工具
  • 做网站那个搜索引擎好做博客的seo技巧
  • 网站建设时怎么赚钱的实时排名软件
  • 物流公司网站 源码小说搜索风云榜排名
  • 手机设置管理网站推广关键词
  • 建设制作外贸网站公司今日新闻十大头条内容
  • 网站建设 数据上传 查询西安seo服务商
  • 为什么要做网站建设安卓优化大师官方版本下载
  • seo关键词如何设置东莞seo排名外包
  • 绍兴网站专业制作资源搜索引擎搜索神器网
  • 网站服务器崩溃个人网页制作
  • 公司网站开发哪家好商丘seo博客
  • 设计 日本 网站市场营销实务
  • 网页设计范文seo用什么工具
  • wordpress 插件 表河南企业站seo
  • 网站导航栏的设计与实现网络营销的发展前景
  • 松江建网站宁波seo快速优化课程
  • 毕设做网站什么主题比较好东莞公司seo优化
  • 惠州网站营销推广2024年阳性最新症状
  • windows删除wordpress包头seo
  • 做知识产权服务的网站北京网站seo哪家公司好
  • 长沙做网站推荐怎样把个人介绍放到百度
  • 建设购物网站优化教程网站推广排名
  • 如何制作免费网站windows优化大师收费吗
  • wordpress运行慢深圳seo网络推广