0


表格识别技术综述

表格结构识别综述

【声明】此文章供本人学习使用,内容来自公众号、知乎、博客等网站的摘录,如有侵权请联系删除!

ICDAR2019

  1. A Genetic-based Search for Adaptive Table Recognition in Spreadsheets作者对电子表格进行结构识别。首先,作者将电子表格中的单元格分类为不同标签,包括Header、Data和Metadata(忽略),然后相邻单元格根据标签异同组成不同的区域,这些区域根据相邻关系则构成了一个标签区域图。作者正是在这个图的基础上进行表格结构识别任务的,这时,表格结构识别任务仅剩下将图划分为不同的表格区域这一个部分了,变成了子图分割任务,如图8所示。作者定义了10个衡量方法来衡量某一种分割的好坏,并将它们进行加权求和。之后对于每一种分割,使用序列二次规划的方法来自动调节权重,以达到最优。在这里,作者使用了遗传算法来查找边数较多的图的最优分割方案,作者将每一条边视为一个布尔值,真表示这条边存在,假表示不存在,从而得到遗传算法中的个体向量。作者还通过一些启发式方法预先找出一些种子个体向量添加到遗传算法的输入中,将它视为一个比较好的候选解,并参与到迭代过程中,从而减少了迭代代数。对于边数较少的图,作者直接使用穷举搜索来查找。作者最终在从ENRON语料中生成的数据集上进行测试,训练数据集中包含一部分随意选择性标错的噪声数据项,以此保证算法的鲁棒性。作者将预测结果与Ground Truth的IoU超过0.9的表格视为成功识别出的表格,并计算最终的准确率,达到了89.6%的准确率,并验证了遗传算法、预设种子以及故意制造噪声训练数据对性能提升的有效性。在这里插入图片描述
  2. Table Row Segmentation作者对电子表格进行结构识别。首先,作者将电子表格中的单元格分类为不同标签,包括Header、Data和Metadata(忽略),然后相邻单元格根据标签异同组成不同的区域,这些区域根据相邻关系则构成了一个标签区域图。作者正是在这个图的基础上进行表格结构识别任务的,这时,表格结构识别任务仅剩下将图划分为不同的表格区域这一个部分了,变成了子图分割任务,如图8所示。作者定义了10个衡量方法来衡量某一种分割的好坏,并将它们进行加权求和。之后对于每一种分割,使用序列二次规划的方法来自动调节权重,以达到最优。在这里,作者使用了遗传算法来查找边数较多的图的最优分割方案,作者将每一条边视为一个布尔值,真表示这条边存在,假表示不存在,从而得到遗传算法中的个体向量。作者还通过一些启发式方法预先找出一些种子个体向量添加到遗传算法的输入中,将它视为一个比较好的候选解,并参与到迭代过程中,从而减少了迭代代数。对于边数较少的图,作者直接使用穷举搜索来查找。作者最终在从ENRON语料中生成的数据集上进行测试,训练数据集中包含一部分随意选择性标错的噪声数据项,以此保证算法的鲁棒性。作者将预测结果与Ground Truth的IoU超过0.9的表格视为成功识别出的表格,并计算最终的准确率,达到了89.6%的准确率,并验证了遗传算法、预设种子以及故意制造噪声训练数据对性能提升的有效性。在这里插入图片描述 黑细线是表格真实的单元格边界。蓝色框为文本区域,被B、I、O标注。绿实线为候选行分隔符,被圆圈中的S、I、O标注。虚线为它们之间的边。
  3. Deep Splitting and Merging for Table Structure Decomposition在这里插入图片描述一文中,作者提出了一种先自顶向下、再自底向上的两阶段表格结构识别方法SPLERGE,分为Split和Merge两个部分,整体架构如图10所示。Split部分先把整个表格区域分割成表格所具有的网格状结构,该部分由图11所示的深度学习模块组成两个独立的模型,分别预测表格区域的行分割和列分割情况。在这里插入图片描述 每个模块中,除了常规的多尺度特征提取部分,作者还提出了投影池化(Projection Pooling)操作,它的输出实际上就是求取每一行或列的平均特征值,用于将每一行或列的整体特征整合到原先的局部特征上。最终,模型预测每一行或列像素是否属于单元格间的分隔符区域。而Merge部分则是对Split的结果中的每对邻接网格对进行预测,判断它们是否应该合并。这里作者尝试了深度学习方法和启发式的方法,发现两者在不同的数据集上各有千秋。该模型最终在ICDAR2013表格竞赛表格结构识别子任务的数据集上取得了State-of-the-art的效果,预测的单元格对与Ground truth匹配的F1值达到95.26%,并在作者准备的非公开数据集上也达到95.92%的效果,远远超过复现的已有方法和商业软件的性能。
  4. DeepTabStr:Deep Learning based Table Structure Recognition在这里插入图片描述 一文中,作者首先提出,文档图片中表格的位置和大小不同,导致表格特征可能在特征的任意区域以任意大小出现,传统的卷积网络在处理时,会遇到问题。因此,作者将变形卷积的概念引入,用来解决表格的检测问题。由于基于FCN的语义分割类方法,最终结果严重依赖于后处理的方案,因此作者舍弃此类方案,将表格结构检测视为一个对象检测问题,将表格的行和列当做是要检测的对象。变形卷积网络加入了各个像素的偏移向量Offset来训练卷积窗口的形状。传统的ROI-pooling层将ROI转换为k*k的固定大小,可变形的ROI-pooling层也引入了额外的偏移量,使得ROI-pooling层也具有了变形的属性,以适应不同区域的对象检测。本文表格结构识别方法的整体结构如图12所示。此外,为了弥补表格结构识别数据的不足,本文提出了一个基于ICDAR2017的表格行列结构数据集TabStructDB。作者分别用Faster R-CNN、FPN、RFCN进行了实验,并在ICDAR2013和TabStructDB上进行了训练和测试,在ICDAR2013数据集上可以达到F1-Score为93%的效果。
  5. ReS2TIM: Reconstruct SyntacticStructures from Table Images一文则是重点关注了单元格检测定位后的表格重建工作。作者先将各个单元格之间定义为上下、左右相邻的关系,使用一个单元格关系判别网络来判断任意两个单元格的相邻关系。给定带有单元格边界框的表格图像,关系判别网络将单元格深度数据特征和空间特征进行了连接,作为关系对的联合特征,再判断单元格之间的关系。网络整体结构如图13。而对于一个表格来说,具有相邻关系的单元格占比极少,这会极大地影响网络的效果,因此作者又提出了基于距离的损失权重。在设计损失函数时,按照单元格的距离来设定对应损失权重,距离越远,损失权重越小。在判断完单元格之间的关系之后,根据相邻关系构建出对应的图模型。再根据图模型,按照单元格的上下相邻关系,使用Dijkstra算法确定原表格的行和列的最大数量。之后确定表格内每个单元格的起始的行和列以及跨行跨列的数量。作者在CMDD数据集和ICDAR2017数据集上进行了实验,在CMDD数据集单元格关系的判定任务上,F1-score达到了99.8%的效果。在这里插入图片描述
  6. Rethinking Semantic Segmentationfor Table Structure Recognition in Documents 一文将表格结构的识别定义为语义分割问题,使用FCN网络框架,对表格的行和列分别进行预测。同时基于表格的一致性假设,介绍了一种对预测结果进行切片的方法,降低了表格识别的复杂度。作者使用了FCN的Encoder和Decoder的结构模型,并加载了在ImageNet预训练好的模型。图片经过模型生成了与原图大小相同的特征,切片过程将特征按照行和列进行平均,将HWC(高Channel)的特征合并成了HC和WC大小特征,对这些特征进行卷积后,再进行复制,扩展为HWC的大小,再通过卷积层得到每个像素点的标签。最后进行后处理得到最终的结果。整体的框架如图14所示。文章在ICDAR2013数据集上进行了实验,在IoU为0.5的情况下,取得了F1-score为93.42%的效果。然而本文假设表格中所有的单元格不存在跨行跨列,每行每列都从表格的最左侧和最上端开始,到最右侧和最下端结束,因此本方法还存在局限。在这里插入图片描述
  7. Rethinking Table Recognitionusing Graph Neural Networks Paper: https://arxiv.org/pdf/1905.13391.pdf Code:https://github.com/shahrukhqasim/TIES-2.0 一文则是将GNN应用到了表格结构识别任务中,把视觉特征、位置特征和图中的结构特征进行有效融合。作者使用基于表格区域的建图方法,以OCR识别出的单词区域作为顶点。之后,作者先根据建好的图,从表格图像中提取各个顶点的图像位置特征和CNN提取的视觉特征等特征,然后使用GNN进行特征的交互融合,得到每个顶点的表征特征。作者尝试了两种GNN模型,分别是动态图卷积神经网络DGCNN(Dynamic Graph Convolutional Neural Networks)和GravNet,并且把应用了常规CNN的DenseNet作为基线模型以进行性能对比。训练时随机对顶点对采样,使用DenseNet分别进行是否同行、同列、同单元格的结构关系分类,而在测试时,则对图中每一个顶点对都进行三种分类,得到测试结果。模型整体架构如图15所示。作者将模型在他们自己生成的约有50万个表格的数据集上进行测试,表格被分为4种类别:全线表、无线表、少线表和错切表,其中最后一种是为了模拟由相机等设备获取到的有形变的表格数据而准备的。作者使用完美匹配率来衡量识别效果,模型预测的三种结构关系分类全部正确的表格视为完美匹配表格。最终在4种表格数据上测试最好结果依次为96.9%、94.7%、52.9%和68.5%,均为使用DGCNN得到的结果,可见GNN的确可以产生更好的效果,然而少线表和错切表仍然是难点。在这里插入图片描述 由特征提取,特征交互整合,结构关系分类三个部分组成
  8. TableStructure Extraction with Bi-directional Gated Recurrent Unit Networks 针对单元格在行列上具有重复性的序列特征这个特点,提出使用循环神经网络来进行表格结构识别任务。该文作者同样是使用两个独立的模型来进行行列分割,整体架构如图16所示。针对不同的分割任务,首先使用类似的预处理操作使得表格区域变为一种对于深度学习网络来说更容易处理的形式,包括去除非文本前景对象、二值化和水平或竖直的膨胀操作,膨胀操作是为了使得图像中的行或列特征更明显。然后,将预处理结果按像素行或列放入独立的两个两层双向循环神经网络,以同时将某个像素行或列的相邻两个邻居考虑进去。接着将循环神经网络的输出行列特征分类为是否属于行列分隔符区域,最终把预测分隔区域的中点作为最终的行列分割结果。作者尝试了LSTM和GRU这两个经典循环神经网络模型,发现GRU在实验效果上更有优势。最后,作者在UNLV和ICDAR2013表格竞赛表格结构识别子任务的数据集上进行测试,都超过了之前方法中的最好结果,其中在ICDAR2013数据集上单元格关系匹配F1值达到93.39%。在这里插入图片描述 整体架构,分为行分割(左)和列分割(右)两个独立的部分
  9. TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images作者则使用深度学习模型同时解决表格检测和表格结构识别两个任务。作者提出了一种端到端的、多任务的、基于编解码器的图像语义分割模型TableNet,整体架构类似于U-Net在这里插入图片描述 编码器阶段使用了ImageNet上预训练的VGG-19模型来提取特征,而解码器阶段则分成两个分支,分别上采样恢复到原图大小并最终得到表格和表格区域中列分割的mask图。下采样中对应大小的特征图被添加到上采样对应层的特征图中,以恢复最终图像中的位置信息。最终,再使用基于规则的方法将列分割结果处理为最终的表格单元格邻接关系结果,得到表格真正的逻辑结构。多任务模型有利于融合表格分割和表格列分割任务中涉及到的信息或特征,以产生相互促进性能提升的效果。此外,作者还尝试将OCR识别出的文本区域的数据类型这种语义特征添加到输入中,采用的做法是使用正则表达式简单对文本区域进行数据类型匹配分类,然后对于不同数据类型的文本区域添加上不同的、独有的颜色高亮背景。作者在Marmot和ICDAR2013表格竞赛数据集上训练,然后在ICDAR2013表格竞赛数据集上进行测试,实验结果也达到了非常好的水平,表格检测和结构识别任务上最好的F1值分别达到96.62%和91.51%,证明了模型的有效性,同时也通过对比实验证明了语义信息和在目标数据集上进一步微调对性能有提升作用。作者最后提出之后可以将行分割任务也结合进来,或者使用更多的其他语义信息。

ICDAR2021 竞赛

比赛论文:ICDAR 2021 Competition on Scientific Literature Parsing
在这里插入图片描述

  1. Davar-Lab-OCR,海康威视研究所 论文:LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment 代码:https://github.com/hikopensource/DAVAR-Lab-OCR/tree/main/demo/table_recognition/lgpma 表识别框架包含两个主要过程:单元格生成和结构推断 (1)基于Mask-RCNN检测模型构建表格单元格生成。训练模型学习文本内容区域的行/列对齐的单元格级边界框及其对应的掩码。还引入了金字塔掩码监督,并采用大型骨干网络 HRNet-W48 Cascade Mask RCNN 来获得可靠的 bounding box。使用单行文本检测模型和一个基于注意的文本识别模型来提供OCR信息。这可以通过选择只包含单行文本的实例来实现。还采用了多尺度集成策略上对单元格和单行文本检测模型进一步提高性能。 (2)在结构推断阶段,根据单元格的对齐重叠程度,将单元格的包围盒进行水平/垂直连接。然后通过Maximum Clique Search过程生成行/列信息,在此过程中可以轻松定位空单元格。 为了处理一些特殊情况,还训练了另一个表检测模型来过滤不属于该表格的文本。
  2. VCGroup, 平安 所用方法论文: PingAn-VCGroup’s Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML PingAn-VCGroup’s Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex. MASTER: Multi-aspect non-local network for scene text recognition 将表格内容识别任务分为4个子任务:表格结构识别、文本行检测、文本行识别和文本框分配。表结构识别算法和文本识别算法都是基于文本识别算法MASTER的。文本检测使用的是 PSENet。最后,在框分配阶段,我们将PSENet检测到的文本框与通过表结构预测重构的结构项相关联,并将文本行识别的内容填充到对应项中。
  3. PaodingAI,庖丁 官网:https://www.paodingai.com/ 表格识别用的方法是 SPLERGE 主要分为三个部分:文本块检测、文本块识别和表结构识别。文本检测采用的是 MMDetection 提供的 Detectors cascade rcnn r50 2x 模型,文本识别使用的是 SAR_TF 模型。表结构识别是对SPLERGE 中提出的模型的实现。除了上面的模型,还使用规则和一个简单的分类模型来处理 <thead><b>,和空白字符。不是端到端的模型,也没有使用集成的方法
  4. TAL,好未来 TAL系统由两种方案组成: 1.通过表头检测、行检测、列检测、单元格检测和文本行检测5个检测模型重建表结构。都是基于 Mask R-CNN,只是针对不同的检测任务进行有针对性的优化。在识别部分,将单元格检测和文本行检测的结果输入到CRNN模型中,得到每个单元格对应的识别结果。 2.表结构的恢复被当作一个img2seq问题。为了缩短解码长度,我们将每个单元格内容替换为不同的数字。数字由文本行检测结果得到。然后我们使用CNN对图像进行编码,使用transformer对表的结构进行解码。然后利用CRNN模型得到相应的文本行内容。 利用上述两种方案可以得到完整的表结构和内容识别结果。我们有一套选择规则,结合两种方案的优点,输出一个最好的最终结果。

中国图象图形学报

表格识别技术研究进展【2021年度发展报告】

PRCV 2021

PRCV 2021和好未来AI研究院联合举办的2021年好未来表格识别技术挑战赛
竞赛地址
PRCV 2021表格识别技术挑战赛–分阶段表格识别方案

腾讯

https://cloud.tencent.com/developer/article/1452973
https://zhuanlan.zhihu.com/p/69793742
github地址:https://github.com/tommyMessi/tableImageParser_tx
复现腾讯表格识别解析| 鹅厂技术
在这里插入图片描述

小米

小米表格识别技术揭秘
技术框架
在这里插入图片描述

2021论文

ICCV2021

  1. TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition 代码地址:https://github.com/xuewenyuan/TGRNet![在这里插入图片描述](https://img-blog.csdnimg.cn/e1e290b02d6f4e61b792beb0a4a99e07.png#pic_center) 将表结构识别问题重新表述为表图重构问题。 使用 ResNet50+FPN 提取特征图,分别送到两个分支进行处理,一个单元格检测分支和一个单元格逻辑定位分支,共同预测不同单元格的空间位置和逻辑定位。 对于单元格位置定位,首先使用基于分割的方法来生成单元格分割图,来检测单元格的位置。 对于单元格逻辑定位,用图卷积网络(GCN)来学习表格的图表示,并将其作为有序节点分类问题来解决。并使用损失函数 focal loss 来解决不平衡问题。 最后预测结果包含每个单元格的空间位置以及每个单元格的起始行列。
  2. Alibaba-Group: Parsing Table Structures in the Wild 论文提出的数据集地址:https://github.com/wangwen-whu/WTW-Dataset 与现有研究主要集中于从扫描的PDF文档中解析具有简单布局的排列良好的表格图像不同,该论文目标是建立一个实用的表格结构解析系统,用于实际场景,其中表格输入图像被获取或扫描时存在严重的变形、弯曲或遮挡。 模型名称叫 Cycle-CenterNet,是在 CenterNet 顶部加上一个新的循环配对模块,同时检测单元格并组成结构化的表格。并且在循环配对模块中,使用了一种新的配对损失函数来训练。在这里插入图片描述 具体流程:该模型同时检测表格单元格的顶点和中心点,并通过学习公共顶点将单元格分组到表格中。一个单元格的中心点和顶点之间存在一种相互指向的关系,这种关系可以利用相邻单元格的交点上的公共顶点来将单元格分组成表格。在此基础上,论文提出了一种配对损失函数来对训练阶段的单元格进行端到端分组。获得表的结构后,使用一个简单的后处理算法来检索已解析的表的行和列信息。 Cycle-Pairing Module:定位单元格并且学习单元格之间的拼接信息。包含两个分支:中心顶点分支和顶点中心分支。在中心顶点分支中,回归表格单元中心到其顶点的偏移量,经过Center-Net的后处理,可以得到表格单元的多边形表示;在顶点中心分支中,学习公共顶点与其周围单元格中心之间的偏移量。最后,在解析处理中推导出表格的拼接信息。 Pairing Loss for Cycle-Pairing Module:通过计算表格中同一个单元的成对的中心和角点的损失函数

ACM MM 2021

  1. Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator 本文设计了一种灵活的上下文聚合器(FLAG),它以自适应的方式将 Transformer 和基于图的上下文聚合器结合在一起。基于FLAG,提出了端到端网络 FLAG-Net,不需要额外元数据或OCR信息,可以灵活地调节表元素关系推理中密集上下文和稀疏上下文的聚合。在这里插入图片描述 整个模型包含三个部分:表格元素检测、灵活的上下文聚合器和表格结构预测。 首先,使用使用类似于 Faster-RCNN 的结构得到表格元素。采用单词边界框而不是单元格作为表格元素,以避免单元格边界歧义问题。在 NMS 之后,获取到表格元素。把N个特征图(d维)和相对坐标(4维)拼接起来,映射为 Nxd 维的特征作为上下文聚合器的输入。在这里插入图片描述 然后,将上个模块的输出作为 FLAGs 的输入,FLAGs 由一组堆叠的 FLAG (灵活的上下文聚合器)组成的,可以进行灵活的上下文聚合。 FLAG 包括两部分:基于 Transformer 的密集上下文聚合器(DCA)和基于图的稀疏上下文聚合器(SCA),具有较少归纳偏差的基于 Transformer 的聚合器负责从全局范围内的表元素的密集上下文中学习关系,而基于图的聚合器接收构建的表元素的图并以局部方式维护稀疏上下文。文中改进了普通的 MHA(Muti-head attention),为每个头设置了一个独立的门,以结合来自基于图聚合器的稀疏上下文信息,用稀疏上下文对稠密上下文进行增强,并实现稀疏上下文之间的自适应调制。 最后,将具有灵活上下文的输出表格元素向量配对,从单元格、行和列的角度来预测它们之间的关系。

ICDAR 2021

  1. Adaptive Scaling for Archival Table Structure Recognition

2022 论文

ACM Multimedia 2022

  1. TSRFormer: Table Structure Recognition with Transformers微软研究院在这里插入图片描述论文阅读:https://blog.csdn.net/m0_38007695/article/details/127820081TSRFormer,可以从各种表格图像中稳健地识别具有几何变形的复杂表格的结构,可以处理几何扭曲甚至弯曲的表格,有边框和无边框的表格。 此方法是把表格分隔线预测当作线回归问题而不是图像分割问题,并提出了一种新的基于 DETR 的分隔线预测方法,称为 Separator REgression TRansformer (SepRETR),直接从表格图像中预测分割线。在分割线预测之后,使用基于简单关系网络的单元合并模块来恢复合并单元。在这里插入图片描述

CVPR 2022

  1. PubTables-1M: Towards comprehensive table extraction from unstructured documents
  2. TableFormer: Table Structure Understanding with Transformers提出了一个合成数据集 SynthTabNet在这里插入图片描述 TableFormer包含三部分:- CNN Backbone- 结构解码器- 单元格边框解码器在这里插入图片描述在这里插入图片描述
  3. Neural Collaborative Graph Machines for Table Structure Recognition腾讯优图 在这里插入图片描述 论文阅读:https://blog.csdn.net/m0_38007695/article/details/127844641![在这里插入图片描述](https://img-blog.csdnimg.cn/09dc830a95604c36a45ba4557dcff7eb.png#pic_center)

参考文章

  1. 原创综述 | ICDAR 2019表格识别论文与竞赛综述(上)
  2. ICDAR 2021表格解析方案汇总
  3. PRCV 2021表格识别技术挑战赛–分阶段表格识别方案
  4. 复现腾讯表格识别解析| 鹅厂技术
  5. 小米表格识别技术揭秘

标签: 人工智能

本文转载自: https://blog.csdn.net/m0_38007695/article/details/126720912
版权归原作者 CharlesWu123 所有, 如有侵权,请联系我们删除。

“表格识别技术综述”的评论:

还没有评论