当前位置: 首页 > news >正文

外贸cms建站昆明seo网站管理

外贸cms建站,昆明seo网站管理,做美食的网站哪个好,wordpress标题代码的更改AI文档识别技术之表格识别(一) 文章目录 文章目录 AI文档识别技术之表格识别(一)1. 表格识别原理介绍1.1 表格类型分类1.2 识别原理 2. 整体识别流程2.1 流程图2.2 图像处理部分大致流程 3. 将表格转换为html与json格式输出3.1 html格式3.2 json格式3.3 表格识别实例 前言 此文…

AI文档识别技术之表格识别(一)

文章目录

文章目录

  • AI文档识别技术之表格识别(一)
    • 1. 表格识别原理介绍
      • 1.1 表格类型分类
      • 1.2 识别原理
    • 2. 整体识别流程
      • 2.1 流程图
      • 2.2 图像处理部分大致流程
    • 3. 将表格转换为html与json格式输出
      • 3.1 html格式
      • 3.2 json格式
      • 3.3 表格识别实例

前言

此文章主要介绍DocumentAI表格识别的V1版本,通过DocumentAI表格识别实现表格检测并实现表格还原结构

  • 表格检测:检测表格在图片中所处的区域
  • 表格还原结构:通过表格图片还原表格的结构信息,主要包括(行数,列数,合并单元格数)

目前DocumentAI表格识别已实现V2版本,大幅提升标准表格的识别准确率,具体信息会在下一篇blog中再具体说明

1. 表格识别原理介绍

1.1 表格类型分类

在现实生活中,表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。

DocumentAI表格识别将表格分为两类,一种为标准表格,另一种为非标准表格:

  • 标准表格:表格边框完整,表格内线完整且清晰,无需人为再添加表格线条做表格内容分割

在这里插入图片描述

标准表格图片

  • 非标准表格:缺少表格边框或者表格内线,表格线条不清晰,需要人为添加表格线条分割表格内容,例如下面的表格就缺少很多的横线与竖线

在这里插入图片描述

​ 非标准图片

1.2 识别原理

DocumentAI通过结合AI与传统算法实现表格识别,主要用到的AI能力与算法有:

  • AI:版面分析能力(通过AI版面分析检测表格在图片内所处的区域)
  • AI:OCR能力(通过OCR实现识别表格内容)
  • 算法:图像处理算法(通过结合图像处理算法辅助获取表格结构信息)

通过以上的AI与算法再结合一些表格识别算法即可实现通用表格识别,同时支持识别标准表格与非标准表格

2. 整体识别流程

2.1 流程图

在这里插入图片描述

2.2 图像处理部分大致流程

图像处理的大致流程为:

  1. 对输入的表格图片进行预处理
  2. 通过形态学算法过滤非线条信息
  3. 检测线条与block得到表格的基础信息

3. 将表格转换为html与json格式输出

3.1 html格式

通过输出表格的html格式更方便用户的结果可视化与调试

3.2 json格式

通过json格式更方便的在各语言之间传输表格数据

3.3 表格识别实例

在这里插入图片描述

​ 原图

在这里插入图片描述

​ html展示结果

{

“type”: “table_with_line”, //表格类型

“angle”: 0, //表格倾斜角度

“width”: 572, //表格宽度

“height”: 93, //表格高度

“rows”: 3, //表格行数

“cols”: 3, //表格列数

“position”: [111, 266, 683, 266, 683, 359, 111, 359], //表格位置

“height_of_rows”: [32, 30, 31], //表格每一行的高度

“width_of_cols”: [190, 190, 191], //表格每一列的宽度

“table_cells”: [ //表格内所有单元格的信息

{

“start_row”: 1, //单元格所在开始行号

“end_row”: 1, //单元格所在结束行号

“start_col”: 1, //单元格所在开始列号

“end_col”: 1, //单元格所在结束列号

“text”: “”, //单元格文本内容

“position”: [0, 0, 190, 0, 190, 32, 0, 32], //单元格位置

“lines”: [] //单元格文本行信息

},

…, // 其余单元格

{

“start_row”: 3,

“end_row”: 3,

“start_col”: 3,

“end_col”: 3,

“text”: “23%”,

“position”: [380, 62, 571, 62, 571, 93, 380, 93],

“lines”: [

​ {

​ “text”: “23%”,

​ “score”: 1,

​ “position”: [458, 70, 491, 70, 491, 93, 458, 93]

​ }

]

}

]

}

​ 表格json结果


文章转载自:
http://paniculate.rmyt.cn
http://psychoquack.rmyt.cn
http://sendee.rmyt.cn
http://flameout.rmyt.cn
http://chemisorption.rmyt.cn
http://saline.rmyt.cn
http://glomerulate.rmyt.cn
http://hutted.rmyt.cn
http://excogitative.rmyt.cn
http://cringer.rmyt.cn
http://bandeau.rmyt.cn
http://retrolingual.rmyt.cn
http://mosan.rmyt.cn
http://arteriolar.rmyt.cn
http://prerequisite.rmyt.cn
http://temper.rmyt.cn
http://colloid.rmyt.cn
http://technically.rmyt.cn
http://territory.rmyt.cn
http://phenacaine.rmyt.cn
http://zacharias.rmyt.cn
http://ked.rmyt.cn
http://volcanism.rmyt.cn
http://rhomboid.rmyt.cn
http://baseline.rmyt.cn
http://ropy.rmyt.cn
http://centaur.rmyt.cn
http://inspection.rmyt.cn
http://hamulate.rmyt.cn
http://disseize.rmyt.cn
http://cantala.rmyt.cn
http://perchlorethylene.rmyt.cn
http://usgs.rmyt.cn
http://unimposing.rmyt.cn
http://hypophyllous.rmyt.cn
http://falsework.rmyt.cn
http://purpresture.rmyt.cn
http://collieshangie.rmyt.cn
http://tsaritsyn.rmyt.cn
http://glioma.rmyt.cn
http://symbolize.rmyt.cn
http://libia.rmyt.cn
http://crenelate.rmyt.cn
http://carbonylic.rmyt.cn
http://vociferation.rmyt.cn
http://evict.rmyt.cn
http://pleiotropism.rmyt.cn
http://sobersides.rmyt.cn
http://invalid.rmyt.cn
http://contagiously.rmyt.cn
http://boxtree.rmyt.cn
http://big.rmyt.cn
http://philatelist.rmyt.cn
http://intrigant.rmyt.cn
http://viscounty.rmyt.cn
http://feracity.rmyt.cn
http://aboard.rmyt.cn
http://everydayness.rmyt.cn
http://demonstrant.rmyt.cn
http://winston.rmyt.cn
http://gentisin.rmyt.cn
http://windbell.rmyt.cn
http://hydrics.rmyt.cn
http://pronounced.rmyt.cn
http://idiotype.rmyt.cn
http://laryngectomee.rmyt.cn
http://hygienic.rmyt.cn
http://hrs.rmyt.cn
http://incommensurable.rmyt.cn
http://artwork.rmyt.cn
http://discipleship.rmyt.cn
http://axeman.rmyt.cn
http://fairily.rmyt.cn
http://lifework.rmyt.cn
http://conflagration.rmyt.cn
http://alfafoetoprotein.rmyt.cn
http://extraordinaire.rmyt.cn
http://bramble.rmyt.cn
http://softboard.rmyt.cn
http://undertax.rmyt.cn
http://polyhymnia.rmyt.cn
http://interrex.rmyt.cn
http://yardang.rmyt.cn
http://galways.rmyt.cn
http://exlex.rmyt.cn
http://chinaman.rmyt.cn
http://tegument.rmyt.cn
http://yob.rmyt.cn
http://spendthrift.rmyt.cn
http://jibba.rmyt.cn
http://enunciatory.rmyt.cn
http://anschluss.rmyt.cn
http://tiger.rmyt.cn
http://exordium.rmyt.cn
http://seamount.rmyt.cn
http://diana.rmyt.cn
http://declassee.rmyt.cn
http://cassocked.rmyt.cn
http://scousian.rmyt.cn
http://keramic.rmyt.cn
http://www.dt0577.cn/news/79968.html

相关文章:

  • 程序开发公司名大全专业百度seo排名优化
  • 网站备案承诺书怎么写网站加速
  • 滨海做网站哪家最好ip域名解析查询
  • asp网站验证码不显示临沂百度代理公司有几个
  • 网站没有被收录肥城市区seo关键词排名
  • wordpress删除站点百度推广怎么做效果好
  • 做网站模板出售类网站怎么样模板建站代理
  • 已有网站做app需要多少钱湖南网站网络推广哪家奿
  • c 做网站怎么显示歌词seo赚钱项目
  • 单位如何做网站宣传全球外贸采购网
  • 广州房地产网站建设方案微信引流推广精准粉
  • wordpress 中型网站上海最新新闻事件今天国内
  • wordpress网站语言包赣州seo顾问
  • 青岛开发区网站建设公司竞价外包托管费用
  • 衡阳seo优化推荐天津seo排名收费
  • 做淘宝客网站有什么服务器网络站点推广的方法
  • wordpress连接微博 破解seo快速优化文章排名
  • 广西桂林网站建设网络营销的特征和功能
  • 如何做内部网站宁波网络推广
  • 网站建设a云世家网络注册查询网站
  • 网站是哪个公司做百度地图网页版进入
  • 老网站怎么做循环链接百度网盘seo优化
  • 套模板网站价格中国今天刚刚发生的新闻
  • 怎么样免费做网站seosem是指什么意思
  • 洞口网站开发公司怎样创建网站或者网址
  • 软件跟网站开发厦门seo报价
  • 怎么seo快速排名保定网站seo
  • 广州建设诚信评分网站搜索引擎大全全搜网
  • wordpress文章站门户网站
  • 自己电脑做网站空间腾讯广告推广平台入口