一种基于语义处理的表格片段链接复原方法及系统与流程

文档序号:24618959发布日期:2021-04-09 20:23阅读:74来源:国知局
一种基于语义处理的表格片段链接复原方法及系统与流程

本发明属于表格文本处理技术领域,具体来说是一种基于语义处理的表格片段链接复原方法及系统。



背景技术:

近年来,深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。

在自然语言处理领域,深度学习技术通过在高维空间中编码文本文字,能够捕获深层次的语法和语义信息,从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。

在文本信息处理中,存在大量不同样式的表格。当前技术对于表格信息的提取仍存在许多问题。如当出现换页换行的时候,单纯通过分隔线或简单的规则难以判断出换行或非换行的情况。对于无表格线的情况,计算机难以对相邻两行是否输出同一单元格做出准确判断。



技术实现要素:

1.发明要解决的技术问题

本发明的目的在于解决现有的表格处理方法难以准确的判断相邻的单元格是否可以进行合并的问题。

2.技术方案

为达到上述目的,本发明提供的技术方案为:

本发明的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:

s100、对表格进行结构化抽取得到表格片段;

s200、对步骤s100抽取的表格片段进行预处理;

s300、采用lstm深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;

s400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。

优选的,所述步骤s100具体为根据表格结构将表格中的表格片段进行抽取。

优选的,所述步骤s200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取,将提取并合并后的单元格序列转化成文本,以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。

优选的,所述步骤s300具体包括如下步骤:

s310、获取上下文词向量,对每个表格片段的上下文利用word2vec学习获取对应的向量;

s320、获取表格内文本词向量,对每个表格片段的表格内文本利用word2vec学习获取对应的向量;

s330、词向量拼接,对上下文词向量和表格内文本词向量进行拼接;

s340、模型处理,通过lstm深度学习模型对文本进行双向的lstm处理,学习文本的语义信息,获取表格片段的语义特征;

s350、复原判断,通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。

优选的,所述步骤s400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验,针对模型预测错误的结果进行规则校正。

优选的,所述对文字进行清洗除去表格片段的上下文和表格内的无效内容中,对文字清洗具体为删除无意义的标点符号。

优选的,所述步骤s350的复原判断具体为将经过预处理和转化后的表格信息(向量化)作为输入,通过线性分类器判断两个表格之间的关系如下:

先判断是否为同一个表格,当判断为不是同一个表格时不进行链接复原;

当判断为同一个表格时,判断前一个表格的最后一行和后一个表格的第一行是否为同一行,当不是同一行是直接进行拼接;当是同一行时,保留前一个表格的最后一行,将后一个表格的第一行文本合并入前一个表格的最后一行。

一种基于语义处理的表格片段链接复原系统,所述系统用于执行上述所述的方法,所述系统包括

表格抽取模块,所述表格抽取模块用于对表格进行结构化抽取得到表格片段;

预处理模块,所述预处理模块用于对抽取的表格片段进行预处理;

模型处理模块,所述模型处理模块用于根据表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;

校验及复原模块,所述校验及复原模块用于对模型处理结果进行规则校验,并对需要进行链接的表格片段进行复原。

优选的,所述模型处理模块包括上下文词向量获取单元、表格文本词向量获取单元、词向量拼接单元、处理单元和判断单元。

优选的,所述上下文词向量获取单元用于对每个表格片段的上下文利用word2vec学习获取对应的上下文词向量;所述表格文本词向量获取单元用于对每个表格片段的表格内文本利用word2vec学习获取对应的表格文本词向量。

优选的,所述词向量拼接单元用于对上下文词向量和表格内文本词向量进行拼接;所述处理单元用于通过lstm深度学习模型对文本进行双向的lstm处理,学习文本的语义信息,获取表格片段的语义特征;所述判断单元用于通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。

3.有益效果

采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:

本发明的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:s100、对表格进行结构化抽取得到表格片段;s200、对步骤s100抽取的表格片段进行预处理;s300、采用lstm深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;s400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。本实施例的方法利用lstm深度学习模型进行表示学习,自动化挖掘表格上下文和表格内数据中所蕴含的语义信息,实现对pdf文档中的换行换页场景下的表格片段是否应该进行链接复原的智能化识别,并对该组表格片段进行链接复原。

附图说明

图1为本发明的一种基于语义处理的表格片段链接复原方法的流程图;

图2为本发明的一种基于语义处理的表格片段链接复原系统的结构示意图。

示意图中的标号说明:

100、表格抽取模块;

200、预处理模块;

300、模型处理模块;310、上下文词向量获取单元;320、表格文本词向量获取单元;330、词向量拼接单元;340、处理单元;350、判断单元;

400、校验及复原模块。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

参照附图1-附图2,本实施例的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:

s100、对表格进行结构化抽取得到表格片段;

s200、对步骤s100抽取的表格片段进行预处理;

s300、采用lstm深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;

s400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。

具体的,所述步骤s100具体为根据表格结构将表格中的表格片段进行抽取。

具体的,所述步骤s200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取,将提取并合并后的单元格序列转化成文本,以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。

具体的,所述步骤s300具体包括如下步骤:

s310、获取上下文词向量,对每个表格片段的上下文利用word2vec学习获取对应的向量;

s320、获取表格内文本词向量,对每个表格片段的表格内文本利用word2vec学习获取对应的向量;

s330、词向量拼接,对上下文词向量和表格内文本词向量进行拼接;

s340、模型处理,通过lstm深度学习模型对文本进行双向的lstm处理,学习文本的语义信息,获取表格片段的语义特征;

s350、复原判断,通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。

具体的,所述步骤s400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验,针对模型预测错误的结果进行规则校正。

对文字进行清洗除去表格片段的上下文和表格内的无效内容中,对文字清洗具体为删除无意义的标点符号。

步骤s350的复原判断具体为将经过预处理和转化后的表格信息(向量化)作为输入,通过线性分类器判断两个表格之间的关系如下:

先判断是否为同一个表格,当判断为不是同一个表格时不进行链接复原;

当判断为同一个表格时,判断前一个表格的最后一行和后一个表格的第一行是否为同一行,当不是同一行是直接进行拼接;当是同一行时,保留前一个表格的最后一行,将后一个表格的第一行文本合并入前一个表格的最后一行。

本实施例的方法利用lstm深度学习模型进行表示学习,自动化挖掘表格上下文和表格内数据中所蕴含的语义信息,实现对pdf文档中的换行换页场景下的表格片段是否应该进行链接复原的智能化识别,并对该组表格片段进行链接复原。

一种基于语义处理的表格片段链接复原系统,所述系统用于执行上述所述的方法,所述系统包括

表格抽取模块100,所述表格抽取模块100用于对表格进行结构化抽取得到表格片段;

预处理模块200,所述预处理模块200用于对抽取的表格片段进行预处理;

模型处理模块300,所述模型处理模块300用于根据表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;

校验及复原模块400,所述校验及复原模块400用于对模型处理结果进行规则校验,并对需要进行链接的表格片段进行复原。

具体的,所述模型处理模块300包括上下文词向量获取单元310、表格文本词向量获取单元320、词向量拼接单元330、处理单元340和判断单元350。

具体的,所述上下文词向量获取单元310用于对每个表格片段的上下文利用word2vec学习获取对应的上下文词向量;所述表格文本词向量获取单元320用于对每个表格片段的表格内文本利用word2vec学习获取对应的表格文本词向量。

具体的,所述词向量拼接单元330用于对上下文词向量和表格内文本词向量进行拼接;所述处理单元340用于通过lstm深度学习模型对文本进行双向的lstm处理,学习文本的语义信息,获取表格片段的语义特征;所述判断单元350用于通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。

以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1