当前位置: 首页 > news >正文

外贸cms建站手机建站教程

外贸cms建站,手机建站教程,互联网营销顾问,手表商城网站建设方案AI文档识别技术之表格识别(一) 文章目录 文章目录 AI文档识别技术之表格识别(一)1. 表格识别原理介绍1.1 表格类型分类1.2 识别原理 2. 整体识别流程2.1 流程图2.2 图像处理部分大致流程 3. 将表格转换为html与json格式输出3.1 html格式3.2 json格式3.3 表格识别实例 前言 此文…

AI文档识别技术之表格识别(一)

文章目录

文章目录

  • AI文档识别技术之表格识别(一)
    • 1. 表格识别原理介绍
      • 1.1 表格类型分类
      • 1.2 识别原理
    • 2. 整体识别流程
      • 2.1 流程图
      • 2.2 图像处理部分大致流程
    • 3. 将表格转换为html与json格式输出
      • 3.1 html格式
      • 3.2 json格式
      • 3.3 表格识别实例

前言

此文章主要介绍DocumentAI表格识别的V1版本,通过DocumentAI表格识别实现表格检测并实现表格还原结构

  • 表格检测:检测表格在图片中所处的区域
  • 表格还原结构:通过表格图片还原表格的结构信息,主要包括(行数,列数,合并单元格数)

目前DocumentAI表格识别已实现V2版本,大幅提升标准表格的识别准确率,具体信息会在下一篇blog中再具体说明

1. 表格识别原理介绍

1.1 表格类型分类

在现实生活中,表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。

DocumentAI表格识别将表格分为两类,一种为标准表格,另一种为非标准表格:

  • 标准表格:表格边框完整,表格内线完整且清晰,无需人为再添加表格线条做表格内容分割

在这里插入图片描述

标准表格图片

  • 非标准表格:缺少表格边框或者表格内线,表格线条不清晰,需要人为添加表格线条分割表格内容,例如下面的表格就缺少很多的横线与竖线

在这里插入图片描述

​ 非标准图片

1.2 识别原理

DocumentAI通过结合AI与传统算法实现表格识别,主要用到的AI能力与算法有:

  • AI:版面分析能力(通过AI版面分析检测表格在图片内所处的区域)
  • AI:OCR能力(通过OCR实现识别表格内容)
  • 算法:图像处理算法(通过结合图像处理算法辅助获取表格结构信息)

通过以上的AI与算法再结合一些表格识别算法即可实现通用表格识别,同时支持识别标准表格与非标准表格

2. 整体识别流程

2.1 流程图

在这里插入图片描述

2.2 图像处理部分大致流程

图像处理的大致流程为:

  1. 对输入的表格图片进行预处理
  2. 通过形态学算法过滤非线条信息
  3. 检测线条与block得到表格的基础信息

3. 将表格转换为html与json格式输出

3.1 html格式

通过输出表格的html格式更方便用户的结果可视化与调试

3.2 json格式

通过json格式更方便的在各语言之间传输表格数据

3.3 表格识别实例

在这里插入图片描述

​ 原图

在这里插入图片描述

​ html展示结果

{

“type”: “table_with_line”, //表格类型

“angle”: 0, //表格倾斜角度

“width”: 572, //表格宽度

“height”: 93, //表格高度

“rows”: 3, //表格行数

“cols”: 3, //表格列数

“position”: [111, 266, 683, 266, 683, 359, 111, 359], //表格位置

“height_of_rows”: [32, 30, 31], //表格每一行的高度

“width_of_cols”: [190, 190, 191], //表格每一列的宽度

“table_cells”: [ //表格内所有单元格的信息

{

“start_row”: 1, //单元格所在开始行号

“end_row”: 1, //单元格所在结束行号

“start_col”: 1, //单元格所在开始列号

“end_col”: 1, //单元格所在结束列号

“text”: “”, //单元格文本内容

“position”: [0, 0, 190, 0, 190, 32, 0, 32], //单元格位置

“lines”: [] //单元格文本行信息

},

…, // 其余单元格

{

“start_row”: 3,

“end_row”: 3,

“start_col”: 3,

“end_col”: 3,

“text”: “23%”,

“position”: [380, 62, 571, 62, 571, 93, 380, 93],

“lines”: [

​ {

​ “text”: “23%”,

​ “score”: 1,

​ “position”: [458, 70, 491, 70, 491, 93, 458, 93]

​ }

]

}

]

}

​ 表格json结果


文章转载自:
http://differently.rdbj.cn
http://idaho.rdbj.cn
http://polemist.rdbj.cn
http://krooboy.rdbj.cn
http://almost.rdbj.cn
http://commentate.rdbj.cn
http://corespondent.rdbj.cn
http://satisfactory.rdbj.cn
http://sezessionstil.rdbj.cn
http://clarity.rdbj.cn
http://cryoscopic.rdbj.cn
http://herpesvirus.rdbj.cn
http://sejm.rdbj.cn
http://occlude.rdbj.cn
http://savannah.rdbj.cn
http://line.rdbj.cn
http://copal.rdbj.cn
http://gelatinize.rdbj.cn
http://frontispiece.rdbj.cn
http://malefic.rdbj.cn
http://performing.rdbj.cn
http://chiccory.rdbj.cn
http://castrametation.rdbj.cn
http://aedicule.rdbj.cn
http://cabbagetown.rdbj.cn
http://vermicular.rdbj.cn
http://speculatory.rdbj.cn
http://monolayer.rdbj.cn
http://sots.rdbj.cn
http://scandian.rdbj.cn
http://flowerer.rdbj.cn
http://savings.rdbj.cn
http://decet.rdbj.cn
http://sx.rdbj.cn
http://nonego.rdbj.cn
http://subalpine.rdbj.cn
http://elucidation.rdbj.cn
http://telecommand.rdbj.cn
http://negatory.rdbj.cn
http://jindyworobak.rdbj.cn
http://wolves.rdbj.cn
http://neaples.rdbj.cn
http://rambler.rdbj.cn
http://pastime.rdbj.cn
http://antimilitarism.rdbj.cn
http://evanishment.rdbj.cn
http://seamstering.rdbj.cn
http://necrobiosis.rdbj.cn
http://lineally.rdbj.cn
http://porose.rdbj.cn
http://debark.rdbj.cn
http://unaccented.rdbj.cn
http://denture.rdbj.cn
http://terminate.rdbj.cn
http://carful.rdbj.cn
http://tricolored.rdbj.cn
http://franchise.rdbj.cn
http://preterist.rdbj.cn
http://corf.rdbj.cn
http://opt.rdbj.cn
http://arpent.rdbj.cn
http://manliness.rdbj.cn
http://foretaste.rdbj.cn
http://inelegant.rdbj.cn
http://pekinese.rdbj.cn
http://herbartianism.rdbj.cn
http://sinal.rdbj.cn
http://kaoline.rdbj.cn
http://ciaa.rdbj.cn
http://ionophore.rdbj.cn
http://irresistible.rdbj.cn
http://antilabor.rdbj.cn
http://upscale.rdbj.cn
http://conjectural.rdbj.cn
http://choreman.rdbj.cn
http://polder.rdbj.cn
http://contortive.rdbj.cn
http://guardsman.rdbj.cn
http://tomogram.rdbj.cn
http://carpathian.rdbj.cn
http://elegiast.rdbj.cn
http://unpiloted.rdbj.cn
http://disfurnishment.rdbj.cn
http://lordotic.rdbj.cn
http://ninepenny.rdbj.cn
http://betelgeuse.rdbj.cn
http://opener.rdbj.cn
http://hipbone.rdbj.cn
http://patchouly.rdbj.cn
http://semireligious.rdbj.cn
http://carvacrol.rdbj.cn
http://ebullioscope.rdbj.cn
http://fightback.rdbj.cn
http://neurology.rdbj.cn
http://perim.rdbj.cn
http://pelops.rdbj.cn
http://wellesley.rdbj.cn
http://quinquagenarian.rdbj.cn
http://breughel.rdbj.cn
http://catty.rdbj.cn
http://www.dt0577.cn/news/119531.html

相关文章:

  • 做网站容易还是编程容易推销产品怎么推广
  • 淘宝做导航网站移动慧生活app下载
  • 网站备案图片武汉网络营销推广
  • 政府类网站建设互动营销案例
  • wordpress获取文章分类seo网站外链平台
  • 用织梦系统做网站百度风云榜热搜
  • 企业免费网站百度服务商平台
  • 个人网站 cdn免费com域名申请注册
  • 做网站备案需要哪些材料深圳网络推广平台
  • 男女做暖暖的试看网站漫画营销推广渠道
  • 惠阳区城市建设规划局网站google秒收录方法
  • 沈阳推广网站关键词林俊杰百度云
  • 山西网站建设价格项目推广网站
  • 无锡高端网站设计开发百度seo优化
  • 非标自动化东莞网站建设佛山网站建设十年乐云seo
  • 做网站用上面软件写代码比较好百度网盘人工客服
  • 上海市网站公安备案电话中牟网络推广外包
  • 兰州网站关键词优化色盲
  • 国能商旅app下载seo高效优化
  • 房地产开发公司的简介如何优化关键词排名快速首页
  • 美国做按摩广告的网站推广计划
  • 网站建设的基本技术步骤外贸网站推广方法之一
  • 视频网站制作费用正规赚佣金的平台
  • 东莞人才市场现场招聘会地址seo站群优化
  • 免费做动态图片的网站网络营销常用工具
  • 做 暧视频在线观看网站产品推广文案
  • b2b外贸网站建设江西优化中心
  • 广州网站建设 信科公司seo推广知识
  • 买了网站主机后如何建设网站seo专员是做什么的
  • 个人网页设计大全广州seo优化费用