融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法.pdf
《融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法.pdf》由会员分享,可在线阅读,更多相关《融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法.pdf(17页珍藏版)》请在咨信网上搜索。
1、地质表格信息提取是地质报告从信息转换到知识阶段的重要任务之一,对将非结构化的数据转化为结构化的地学知识具有重要意义,同时还为文本与表格的知识关联提供了技术支撑。然而现有的表格解析方法在地学领域存在局限性,在单元格提取中,地质表格中大量的合并单元格造成了不同单元格间大小差异大,大量小面积单元格无法被提取;在表格解析方面地质表格包含了大量的被斜线分割的特殊表头,难以自动化解析。为解决上述问题,本文提出了一种基于注意力机制的 Mask RCNN 单元格提取模型及基于 OpenCV 框架的表格结构解析方法。主要包括两个步骤:1)上下文注意模块(CAM)学习上下文特征以识别不同大小单元格;2)一种标准容
2、错机制的复杂表头解析方法,解析含斜线分割的复杂表头单元格。在构建的地质表格数据集上进行模型性能评估,该方法对于多数地质表格的解析准确率达到95%以上;相比其他单元格识别和表格结构解析方法,该方法解析效果更优。关键词地质报告地质表格结构解析Mask RCNN容错机制注意力机制中图分类号:P628+.4,TP391文献标识码:A文章编号:0563-5020(2023)03-1147-17将积累在地球科学领域内大量多源异构数据转化为地质知识正成为促进认知智能发展的热门研究课题(Wang et al.,2021;Yu et al.,2022)。地质多源异构数据主要以地质报告和地质图的形式存在,通过挖掘
3、地质信息获取地质知识能满足自然资源管理、生态文明建设、可持续发展等知识服务需求(翟明国等,2018;吴冲龙等,2020)。文本信息主要在地质报告中以自然文本和表格的形式展示(Qiu et al.,2019)。目前大多数研究者往往只注重了对地质文本的抽取、理解与信息挖掘(张雪英等,2018;谢雪景等,2021;L et al.,2022;邱芹军等,2022;Qiu et al.,2022),然而,在地质报告中*国家重点研发计划项目(编号:2022YFF0711601)、国家自然科学基金原创探索计划项目(编号:42050101)、湖北省自然科学基金项目(编号:2022CFB640)和自然资源部城市
4、国土资源监测与仿真重点实验室开放基金资助课题项目(编号:KF202207014)资助。董家慧子,女,2000年生,硕士研究生,软件工程专业。Email:邱芹军,男,1988年生,博士,副研究员,测绘科学与技术专业。本文通讯作者。Email:2022-12-01收稿,2023-02-08改回。21董家慧子地质科学2023年1148除文本外,表格也同样包含了丰富的地质信息。由于单元格之间的联系非常紧密,表格信息比文本段落要更密集和规则。更准确地说,表由多个行和列组成,这些行和列包含的信息比在文档中占据相同区域的段落多得多,因此地质报告中表格信息的提取十分重要。在通用表格研究领域中,由于表格样式多变
5、常导致表格本身框线不完整和诸多合并单元格的存在,是表格结构解析工作中面临的主要问题。在地质表格中表格整体呈现的特点为框线较为完整,但含较多合并单元格和由斜线分割的复杂表头。因此基于地质表格本身的特点,现有的通用领域的表格解析方法并不适用于地质表格,对地质表格结构解析方法的研究十分有必要。早期的研究者大多使用基于启发式的方法来提取表格信息。如通过字符特定距离(Tupaj et al.,1996),表格特有的标题、线条特点,表格特有的对齐格式来从文本中提取表格(Itonori et al.,1993;Hirayama et al.,1995;Kieninger,1998)。随着各类算法的发展,基于
6、统计的表结构理解算法(Wang et al.,2004)也被提出。基于启发式的方法虽然可以解决基本的表格识别问题,但他们大多依赖人工设计的表格特征,在面临庞大类型的表格样式时制作表格特征模板过于耗费人力,这种方法对布局变化多样的表格不具有鲁棒性,无法扩展到大量复杂表格解析中。近年来,随着深度学习技术的发展(黄健等,2020;南晓虎等,2020;李柯泉等,2022),许多学者开始利用深度学习神经网络模型来进行表格识别工作。Gilani et al.(2017)提出了使用 FasterRCNN模型来进行表格检测,通过 RPN和全连接神经网络检测文档图像中的表格区域。随着目标检测算法在表格识别上的逐
7、步应用。Mask RCNN(He et al.,2017)作为 Faster RCNN 的进阶,以 MaskRCNN 为基础。Prasad et al.(2020)提出了一种端到端基于深度学习的方法 CascadeTabNet,结合迭代迁移学习技术,使用Cascade RCNN 模型用于表格检测与结构识别。Raja et al.(2020)提出了 TabStructNet模型检测表格单元和结构识别问题,通过使用 Mask RCNN 检测表格中的单元格,利用LSTM 增强了结构识别的视觉特征表示,以 XML的形式输出每个单元格的坐标和内容信息,但对复杂多单元格表格依旧识别困难。Riba et a
8、l.(2019)提出了基于 GNN 的方法检测发票文档中的表格,加入 CNN 到 GNN 中形成可扩展到有监督学习,并公开了RVICDIP 发票数据。Li et al.(2021)提出使用统一编码器解码器架构用于分割行和列,通过序列标记和 BiLSTM 来检测行列分隔符,并增加了模型的泛化能力,但难以处理合并单元格较多的表格。另外,还有部分研究者提出了基于图神经网络的方法对表格进行解析。GraphTSR(Chi et al.,2019)使用图神经网络以表单元格为输入,通过预测单元格之间的水平、垂直或不相关 3种关系来识别表结构。Qasim et al.(2019)同样引入图神经网络来表示单元格
9、内容之间的关系。此外,FLAG Net(Liu et al.,2021)利用了表元素的可灵活调节密集上下文和稀疏上下文的聚合,用于表元素的关系推理。然而,上述基于图的工作主要是以单元格输入为基础,通过表元素之间交互而实现的,没有考虑复杂地质单元表头的解析。深度学习方法主要是将表格作为图像,使用图像分割的方式利用深度学习方法对表格进行解析,但由于表格的形态多样性和结构复杂性,对于不同领域文本中的表格114821董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1149解析差别较大,适用于地质领域的表格解析方法还有待考究。目前地质表格提取相对于通用
10、类表格仍存在一些挑战:1)含多条分割线的复杂表头单元格;2)不同表格中单元格大小差异较大;3)部分地质表格缺失边框。为解决上述问题,本文提出了一种AttentionMask RCNN 模型对表格进行单元格提取和基于 OpenCV 的表格结构解析方法,能准确有效地识别不同大小的各类单元格和解决由复杂表头引起的表格解析问题。1地质表格特点与数据集1.1地质表格特点与分类地质表格往往有单元格密集且合并单元格多的特点。在本研究中将地质表格分为3 类:1)左右框线不齐全的表格,如图 1a 中所示;2)框线齐全但单元格数量密集,常含有被一条或多条斜线分割的表头单元格,如图 1b所示;3)框线齐全,常规地质
11、表格。由于被分割单元格中往往是属于表头所在单元格,现对表头做出如下说明。在忽略误差的情况下,取左上角坐标最小,右下角坐标位置最大的单元格的纵坐标范围作为表格中表头单元格的纵坐标范围,满足条件的单元格如图 1a中蓝色部分所示。其中蓝色部分表头对应的单元格内容如图 1a中黑色箭头指示。当含被直线分割单元格表头时,表头单元格中各部分对应的内容使用了相同颜色标出,如图 1b所示。1.2数据集地质报告种类繁多,其中在矿产地质报告中表格呈现了矿床中的矿石储量、矿物成分信息等;在水文地质报告中矿区含水层水质分析数据、坑道排水量数据以表格的形式表现;在工程地质报告中表格主要以矿石物理力学性能实验结果的形式展现
12、;在环境地质报告中存在大量的灾害情况表。为达到尽可能全面覆盖所有地质表格类型,通过统计分析不同类型地质报告表格数量最终选取了 10篇矿产地质报告、10篇工程地质报告、8篇水文地质报告和 6篇环境地质报告以及 6篇其他类型地质报告,以及来自中国国家地质资料馆(http:/)地球科学学科类的 40 篇地质报告,通过图 1不同地质表格中被分割单元格的不同情况示例Fig.1Examples of different cases of segmented cells in different geological tablesab114921董家慧子地质科学2023年1150裁剪得到 2 000个地质表
13、格作为基本数据集,使用 LabelMe对每个表格中的每个单元格进行位置标记,导出为 JSON 格式。最后以所标记表格总数的 80%作为训练集,其余20%作为测试集进行表信息提取的模型训练。表格信息提取分为 3 个部分,分别为使用深度学习的单元格位置识别,使用 OCR技术的单元格内容识别以及根据单元格位置对表格结构进行解析。在深度学习算法中,大量的数据集更有利于模型的训练,在提高模型精度的同时还能有效防止过拟合。为此,在原始训练图像上应用图像增强技术,以增加数据集大小。由于表格本身的对称性,使用常用的裁剪和旋转变换并不是一种有效的策略。使用膨胀变换技术来对原始数据集进行增强,并将增强变换后的数据
14、集添加到原始数据集中实现数据集扩展。其具体实现过程为:首先将原始图像转换为二值图,在对表格图像进行二值化处理后,继而对二值图像应用一次迭代的 33 核均值滤波器来生成转换图像,从而达到将二值化中为 1的部分像素膨胀扩大的效果。图 2a表示原始图像,图 2b是膨胀变换后的图像,经过膨胀处理后将表格数据集扩展至 4 000张,用于单元格识别模型训练。2基于 AttentionMask RCNN 的表格解析模型本文设计的基于改进 Mask RCNN 模型的表格结构解析过程如图 3 所示。从图中可以看出,根据需求选择并收集了地质表格的图像,并使用 LabelMe注释工具标记表格中的单元格以生成数据集。
15、数据被发送到 Mask RCNN 进行特征提取、分类预测和分割掩蔽,并输出表格中单元格检测结果。Mask RCNN 是 Faster RCNN 扩展的实例分割模型。它分为两个阶段:第一阶段扫描图像并生成建议,第二阶段对建议进行分类并生成边界图,具体模块介绍如下。(1)特征金字塔网络(FPN):将图像输入预训练的 FPN 网络模型中,得到相应的特征图。(2)区域建议网络(RPN):在特征图通过 RPN得到大量感兴趣区域(ROI)后,利用softmax分类器对前景和背景进行二元分类,通过双线性插值和非极大值抑制的局部感兴趣区域滤波获得更准确的候选帧位置信息。图 2原始图像(a)和膨胀变化后的图像(
16、b)Fig.2Original image(a)and the image after the expansion changes(b)ab115021董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1151(3)感兴趣区域推荐(ROIAlign):过滤后的 ROI进入 ROIAlign层,每个 ROI生成一个固定大小的特征映射。(4)3个分支:最后,该流程经过 3个分支,一个分支进入全连接层(FCN)进行掩码,其他分支进入 FCN进行对象分类并生成边界。在进行单元格提取时,虽然 FPN 层的特征金字塔模型能对输入的图片进行特征提取,但并非所
17、有的特征都有助于提高目标检测的性能,由于边界框的区域建议可能因为被冗余信息误导而导致精度降低。为了消除这些影响,进一步增强特征图的特征,提出了一种注意力机制模块 CAM,它能捕获具有强语义信息和增加上下文依赖,给定感兴趣区域之间的语义关系。AttentionMask RCNN 网络框架模型如图 4所示。2.1单元格提取在单元格提取时,使用了 Mask RCNN 作为基础模型并对其进行改进,为主动捕获图 3地质表格解析流程Fig.3Geological table analysis process图 4AttentionMask RCNN 网络框架模型Fig.4The network frame
18、work model of AttentionMask RCNN115121董家慧子地质科学2023年1152感兴趣区域之间的语义关系,在 FPN 层后引入了一个基于注意力机制的上下文注意模块记为 CAM 模块(Cao et al.,2020),其具体结构及实现过程如下。如图 5 所示给出了判别特征图F KC H W,分别使用 Wp 和 Ws 对他们进行维度转化,转化后的特征图计算公式(1)P=WTPFS=WTSF(1)其中P,S KC H W,然后将 P和 S维度转化为KC D,其中D=H W,为了捕获每个感兴趣区域之间的关系,其计算相关矩阵:K=PTS(2)其中 K KD D,接着维度转化
19、为K KD H W,在使用平均池对 K 进行归一化后,得到注意力矩阵K K1 H W。同时,使用卷积层 WL将特征图 F转化为 L,具体计算公式如下,其中V KC H W。L=WTLF(3)最后对特征 K 和 L进行特征相乘,从而获得注意力表征 N,计算过程如下,其中 Ni指第 i个特征图。Ni=K Li(4)将 FPN生成的特征输入 CAM 模块,由 CAM 输出经处理后的特征进入候选区域生成网络 RPN,基于这些信息特征,CAM 自适应的更加关注感兴趣区域之间的关系,能使输出的特征建立在上下文内容依赖之上,解决了小面积数据单元格无法识别和大面积合并单元格难以完整识别的问题。图 5CAM 模
20、块结构图Fig.5The module structure diagram of CAM115221董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法11532.2表格结构解析由于地质表格的特殊性,绝大多数表述信息的表格都为框线齐全或只缺左右两框线的表格,如 1.1 所介绍,本研究所选取的表格均为满足以上特征的表格。通过AttentionMaskRCNN 模型对表格中每个单元格位置进行识别,输入为 1.1小节数据集中的表格图像,输出为所识别到的每个单元格左上角坐标(x1,y1)和右下角坐标(x2,y2)由左上角坐标通过表格结构解析算法可计算得出
21、单元格的起始行列记为 SC、SR,右下角坐标可以得出单元格的结束行列记为 EC、ER,行列位置判断示意图如图 6中所示。当识别到含分割线的 s_cell单元格时,利用 OpenCV 将原始单元格的图像提取饱和度,将图像转为二值图,同时识别单元格中线段端点坐标(x0,y0),(xk,yk)如图 7a 所图 6单元格坐标信息表示示意图Fig.6Diagram of cell coordinate information图 7对含分割线单元格的处理过程Fig.7The processing of cells containing dividersacb(x1,y1)(x0,y0)x1x2y1y211
22、5321董家慧子地质科学2023年1154示,当线段端点落在矩形单元格的长上时,关注 yk所属的行坐标区间,当线段端点落在矩形单元格的宽上时,关注 xk所属的行坐标区间,判断得到单元格 s_cellk,为后续单元格位置解析提供基础。基于表格本身的特性,当单元格属于同一列时,其左(右)上角横坐标 x相等,当单元格属于同一行时,单元格左(右)下角纵坐标 y相等。在 2.1中的模型方法得到了每个单元格的左上角坐标(x1,y1)和右下角坐标(x2,y2),通过对所有表格左上角横坐标 x1的不完全排序分组可以得到每列单元格的最小左上角横坐标 xmin,通过对所有表格右下角纵坐标 y2的不完全排序分组可以
23、得到每行单元格的最小右下角纵坐标 ymin。最后根据每个单元格 x1到 x2距离范围确定每个单元格的起点和终点列,根据每个单元格 y1到 y2距离范围确定每个单元格的起点和终点行,由此解决合并单元格位置问题。但由于 Mask RCNN 模型本身无法对每个单元格进行统一精准的像素级坐标识别,这里引入了容错阈值来判断各单元格是否属于同一列,设置纵坐标容错阈值 ky来判断各单元格是否属于同一行。这里将每个单元格看做一个拥有长宽的矩形,通过调试计算设置所有单元格中长边最短的三分之一为横坐标容错阈值 kx,同理设置所有单元格中宽边最短的二分之一为纵坐标容错阈值 ky,具体公式如下所示。kx=min(x2
24、-x1)2ky=min(y2-y1)2(5)经过容错阈值校正后的坐标信息,以及表格特有的行列垂直关系,通过对所识别到的单元格坐标关系的计算得到每个单元格所跨行(SR,ER)和跨列(SC,EC)情况信息。在含分割线的单元格中,通过 OpenCV 定位分割线段的端点坐标,当单元格 C的左上角坐标为(ax,ay),右下角坐标为(bx,by)起始于第 m 行,结束于 m+q行,起始于第 n列,结束于 n+q列时,坐标关系应满足式(6)。SR=m (ym-ky ay ym+ky)SC=n (xn-kx ax xn+kx)ER=m+q (ym+q-ky by ym+q+ky)SC=n+q (xn+q-kx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法 融合 容错 机制 基于 Attention Mask RCNN 地质 表格 信息 抽取 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。