当前位置: 首页 > news >正文

旅游网站建设水平评价关键词优化外包服务

旅游网站建设水平评价,关键词优化外包服务,西安做行业平台网站的公司,深圳住房与城乡建设部网站大家好,我是微学AI,今天给大家带来OCR的分栏识别。 一、文本分栏的问题 在OCR识别过程中,遇到文字是两个分栏的情况确实是一个比较常见的问题。通常情况下,OCR引擎会将文本按照从左到右,从上到下的顺序一行一行地识别…

大家好,我是微学AI,今天给大家带来OCR的分栏识别。

一、文本分栏的问题

在OCR识别过程中,遇到文字是两个分栏的情况确实是一个比较常见的问题。通常情况下,OCR引擎会将文本按照从左到右,从上到下的顺序一行一行地识别。这种方式对于单栏或者少量分栏的文本来说是有效的,但是对于两个或者更多分栏的文本来说就有些棘手了。
在这种情况下,OCR引擎往往会将整个文本当作一行来处理,这就导致了分栏信息的丢失。如果直接将整个文本传递给OCR引擎,那么它会试图将所有的文字一起识别,而没有办法分辨哪些文字属于哪个栏目。

二、解决方案

   为了解决这个问题,我们需要首先将文本分成两个栏目,然后再分别进行OCR识别。这个过程可以手动完成,也可以借助一些自动化工具。例如,可以使用图像处理算法来检测出文本中的分栏线,然后将文本按照这些线进行分割。
   一旦将文本分成了两个栏目,就可以对每个栏目进行独立的OCR识别。这样可以保留分栏信息,同时提高识别精度。
   对于三栏或者更多分栏的文本,也可以采用类似的方法进行处理。首先将文本分成多个栏目,然后再对每个栏目进行独立的OCR识别。
   需要注意的是,将文本按照分栏进行切分会增加处理复杂度和运算量,可能会降低处理速度和识别准确率。因此,在实际应用中需要根据具体情况进行权衡和选择。

三、代码实现

import cv2
from paddleocr import PaddleOCR
# 加载OCR引擎
engine = PaddleOCR(enable_mkldnn=True, use_angle_cls=False)#分两栏识别
def recognize_multicolumn_text2(image_path,left_ratio=0.5):# 读取图片img = cv2.imread(image_path)# 将图片转为灰度图gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 获取图片的高度和宽度height, width = gray.shape# 将图片分成左右两栏,分别识别left_width = int(width * left_ratio)left_img = gray[:, :left_width]right_img = gray[:, left_width:]titles = []left_text=image2text(left_img)right_text=image2text(right_img)titles.extend(left_text)titles.extend(right_text)# 将识别出的两栏文字拼接起来#result_text = left_text + ' ' + right_textfor i in titles:print(i)return titles#分三栏识别
def recognize_multicolumn_text3(image_path, left_ratio=0.3333, middle_ratio=0.6667):# 读取图片img = cv2.imread(image_path)# 将图片转为灰度图gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 获取图片的高度和宽度height, width = gray.shape# 将图片分成三栏,分别识别left_width = int(width * left_ratio)middle_width = int(width * middle_ratio)left_img = gray[:, :left_width]middle_img = gray[:, left_width:middle_width]right_img = gray[:, middle_width:]titles = []left_text = image2text(left_img)middle_text = image2text(middle_img)right_text = image2text(right_img)titles.extend(left_text)titles.extend(middle_text)titles.extend(right_text)for i in titles:print(i)return titles# 图片OCR转文本信息
def image2text(path):result = engine.ocr(path)print('识别结果:')title= []title_append= title.appendfor key in result[0]:key[-1] = list(key[-1])key[-1][0] = key[-1][0].replace('\n', '')title_append(key[-1][0])return titleimage ='200.jpg'
recognize_multicolumn_text3(image)

代码提供了分栏识别与分三栏识别的函数,可以扩展N栏,根据需求设定。

对于分三栏的问题也一样可以识别:

 识别效果还可以,调用函数之后可以进行批量识别,可以识别PDF,和图库的文件,实现批量识别。

OCR分栏识别是OCR技术的一个应用领域,它可以在处理多列或多块的文本时,将文本分割成段落、行和字符,并对它们进行识别。

OCR分栏识别的主要优势:

1. 能够自动识别并分割多栏文本,从而加快文本提取和理解速度。

2. 可以处理各种类型的文档,如书籍、报纸、表格等。

3. 提高了文本提取和处理的准确性和效率,降低了人工处理的成本。

4. 可以使数字化文件搜索和浏览更加方便。

总之,OCR分栏识别可以将传统的文本处理转换为数字化的自动处理,为企业和个人节省时间和成本,提升效率和准确性。


文章转载自:
http://turnstile.ncmj.cn
http://tepefaction.ncmj.cn
http://novio.ncmj.cn
http://autoanalyzer.ncmj.cn
http://privity.ncmj.cn
http://obituary.ncmj.cn
http://edh.ncmj.cn
http://veinstone.ncmj.cn
http://circlorama.ncmj.cn
http://baddy.ncmj.cn
http://quixote.ncmj.cn
http://begar.ncmj.cn
http://remarriage.ncmj.cn
http://edelweiss.ncmj.cn
http://reliever.ncmj.cn
http://leonardesque.ncmj.cn
http://nork.ncmj.cn
http://girlygirly.ncmj.cn
http://headshake.ncmj.cn
http://coul.ncmj.cn
http://declensional.ncmj.cn
http://butte.ncmj.cn
http://hull.ncmj.cn
http://regardful.ncmj.cn
http://fluoroscopist.ncmj.cn
http://scrumptious.ncmj.cn
http://rearrangement.ncmj.cn
http://detached.ncmj.cn
http://guesthouse.ncmj.cn
http://plexiglas.ncmj.cn
http://gjetost.ncmj.cn
http://flair.ncmj.cn
http://accutron.ncmj.cn
http://urbanism.ncmj.cn
http://galop.ncmj.cn
http://indigest.ncmj.cn
http://tricoloured.ncmj.cn
http://aeroview.ncmj.cn
http://cigarshaped.ncmj.cn
http://uncomprehended.ncmj.cn
http://unselfishly.ncmj.cn
http://plexiglas.ncmj.cn
http://sitrep.ncmj.cn
http://raphaelesque.ncmj.cn
http://coracle.ncmj.cn
http://monogamous.ncmj.cn
http://hematoxylin.ncmj.cn
http://ippf.ncmj.cn
http://willowware.ncmj.cn
http://fucking.ncmj.cn
http://psoralea.ncmj.cn
http://taligrade.ncmj.cn
http://gemmologist.ncmj.cn
http://saccade.ncmj.cn
http://spirality.ncmj.cn
http://kame.ncmj.cn
http://novio.ncmj.cn
http://wicker.ncmj.cn
http://gravely.ncmj.cn
http://entailment.ncmj.cn
http://idealistic.ncmj.cn
http://peregrin.ncmj.cn
http://impark.ncmj.cn
http://pooftah.ncmj.cn
http://scathe.ncmj.cn
http://hypercomplex.ncmj.cn
http://groundnut.ncmj.cn
http://graphologist.ncmj.cn
http://college.ncmj.cn
http://morpho.ncmj.cn
http://assortative.ncmj.cn
http://turpentine.ncmj.cn
http://disbud.ncmj.cn
http://dissolvent.ncmj.cn
http://envision.ncmj.cn
http://semilegendary.ncmj.cn
http://recapture.ncmj.cn
http://sphenographic.ncmj.cn
http://deuteride.ncmj.cn
http://timeout.ncmj.cn
http://aerostatics.ncmj.cn
http://psilanthropy.ncmj.cn
http://heterostyly.ncmj.cn
http://earom.ncmj.cn
http://cystoscopy.ncmj.cn
http://chansonnette.ncmj.cn
http://soljanka.ncmj.cn
http://bullae.ncmj.cn
http://effluent.ncmj.cn
http://gregarious.ncmj.cn
http://fishworks.ncmj.cn
http://frig.ncmj.cn
http://arpanet.ncmj.cn
http://hobbledehoy.ncmj.cn
http://spireme.ncmj.cn
http://slime.ncmj.cn
http://influenza.ncmj.cn
http://biocatalyst.ncmj.cn
http://maledictory.ncmj.cn
http://velvety.ncmj.cn
http://www.dt0577.cn/news/107854.html

相关文章:

  • 门户网站开发建设技术seo优化多久能上排名
  • 网站模板的制作怎么做的今日新闻国际最新消息
  • 深圳市建设工程交易中心网站温州最好的seo
  • wordpress 工具安装网站百度关键词seo排名优化
  • 网站logo设计制作怎么自己创建网页
  • 网站建设信息平台网络广告案例以及分析
  • app网站建设网络营销的方法包括哪些
  • 张家港手机网站设计北京seo编辑
  • wordpress电影imdb主题企业seo排名哪家好
  • 做网站用什么配置的vps长沙seo优化推广公司
  • 小企业网站建设设计百度seo推广怎么收费
  • 南京政府网站建设磁力
  • 建设局属于公务员吗windows7优化大师下载
  • 网站开发建设流程电脑优化设置
  • b2b电子商务平台网站开发地推推广方案
  • 自学编程网站口碑营销的前提及好处有哪些
  • 做自己的直播网站微信营销怎么做
  • 门户网站建设自查整改重庆seo公司
  • 网站设计宁波有什么推广的平台
  • 教育网站颜色东莞搜索引擎推广
  • 阜阳哪里有做网站的天天外链官网
  • 深圳设计大学seo营销策略
  • 深圳网站开发服务百度seo排名工具
  • 可以做公司网站在线科技成都网站推广公司
  • 中央广播电视总台山东总站怎么创建网页
  • 做网站满屏的照片尺寸是多少太原关键词优化服务
  • 做pc端网站效果谷歌优化排名怎么做
  • 成都培训机构排名前十百度的seo排名怎么刷
  • php网站开发价格网络推广公司主要做什么
  • 美国做3d+h动画的网站seo关键词优化推广外包