文档结构化方法、系统、终端及介质与流程

文档序号:24529998发布日期:2021-04-02 10:08阅读:118来源:国知局
文档结构化方法、系统、终端及介质与流程
本发明涉及文档处理自动化
技术领域
,具体地,涉及一种文档结构化方法、系统、终端及介质。
背景技术
:文档处理自动化利用人工智能技术可以帮助人们利用机器处理电子文档,其中一项关键的任务就是自动文档分析与识别技术。面对大量无标注电子文档,例如采购收据、保险单文件、海关申报单等,如果完全由人工处理提取关键的信息会耗费大量的人力物力。因此,如何有效的使用人工智能从文档中提取获得关键的感兴趣的信息非常重要。现有的文档内容结构化的方法包括传统的基于字符串匹配的规则方法、基于命名实体识别和基于目标检测的方法等。基于字符串匹配的规则方法通常需要设计一套正则表达式,通过正则匹配的方式去获得其需要得到的关键信息。这种方法通过人工设计特征匹配的方式,基于字符串匹配的算法优势于不要大量的训练数据,但是要求提取的信息有很强的字符特征并且符合预先设计的规则,否则不能准确获取关键信息。当文档结构变化大以及需要识别和获取的信息增多,这种方案的设计难度就会很大而且准确度很低。因此采用字符串匹配的方案在泛化性和适用性上有明显的缺陷。基于命名实体识别方法(namedentityrecognition,简称ner),是将文档内容结构化任务转化为序列标注问题。命名实体识别又称专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。对于文档内容,基于命名实体识别的方法将文档中的文字内容串联成一段序列,并通过一些方法(比如深度学习)的方式去对这个序列进行序列标注。近年来基于预训练模型的命名实体识别模型的准确率得到很大提高。但是基于命名实体识别的模型也有很大的缺陷:1)将整个文档文字内容串联成序列来处理丢失了文档内容的大量空间信息;2)命名实体识别的方法处理具有多行内容的字段的性能较差。基于图像目标检测的方法,将文档中关键字段的内容作为图像中的目标进行检测和识别,需要利用固定的文档模板的数据训练目标检测模型,并且只能应用到相应的固定文档模板的业务,具有较大的局限性。经过检索发现:公开号为cn109086756a,公开日为2018.12.25的中国发明专利申请《一种基于深度神经网络的文本检测分析方法、装置及设备》,包括:进行模板标注,生成标注模板信息;利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类,生成带类别的文字区域信息;根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配,生成结构化信息数据。该方法仍然存在如下问题:该方法完全依赖于文档的模版,需要将检测的文字区域进行检测分类然后和模版的文字区域信息进行匹配,此处理将很大程度上限制该方法的应用范围,不能处理新业务的文档。公开号为cn109816118a,公开日为2019.05.28的中国发明专利申请《一种基于深度学习模型的创建结构化文档的方法及终端》,通过预设训练样本集;所述训练样本集中的每一样本包括文档图片和与所述文档图片对应的标注文档;所述标注文档记录所述文档图片中每一关键字段的位置信息和类别信息;使用所述训练样本集训练预设的第一深度学习模型,得到第二深度学习模型;所述第二深度学习模型分析第一文档图片,得到所述第一文档图片中每一关键字段的位置信息和类别信息;根据所述第一文档图片中每一关键字段的位置信息和类别信息创建与所述第一文档图片对应的结构化文档。该方法仍然存在如下问题:该方法在训练过程中所用的样本集中的文档需要具有相对稳定的版式,而且所处理的文档的版式应该已经在训练样本集中出现过,因此该方法的应用范围受到一定的限制。公开号为cn110969056a,公开日为2020.04.07的中国发明专利申请《文档图像的文档版面分析方法、装置及存储介质》,获取文档图像中待分析的文档版面,由于提取了该文档版面中的至少一个文字区块,并对该至少一个文字区块进行文字识别,得到至少一个文字区块对应的文字信息,因此,可以根据该至少一个文字区块对应的文字信息,确定该至少一个文字区块对应的至少一个主题信息,进而根据该至少一个主题信息,确定该文档版面的描述信息。该方法仍然存在如下问题:该方法主要是通过文档中一定数目的文字区块的文字内容,确定文字区块的主题信息以及文档版面的描述信息。但是该方法并未定位文档中关键字段的位置和内容,不能完成本发明针对的提前文档中关键字段信息的文档结构化任务。目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。技术实现要素:本发明针对现有技术中存在的上述不足,提供了一种文档结构化方法、系统、终端及介质。根据本发明的一个方面,提供了一种文档结构化方法,包括:获取文档的文字区块以及文字字段;其中,所述文字区块包括位置框,所述文字字段包括位置框和文本内容;基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;基于所述文本内容的排列结果,进行结构化信息提取;根据提取的结构化信息,建立结构化文档。优选地,所述文档包括图片文档和电子文档。优选地,所述获取文档的文字字段,包括:所述图片文档通过图像识别方法进行文字定位与识别,获取文字字段的文本内容和位置框;所述电子文档根据文件类型读取文件,获取文本内容和文本边界框;或,通过将电子文档转换为图片文档,再通过图像识别方法获取文字字段的文本内容和位置框。优选地,所述图像识别方法,包括:检测文档中的文字字段,获得位置框的顶点的坐标和位置框的旋转角度;在得到位置框的顶点的坐标和旋转角度后,调整得到水平的文字字段,从图像中截取出水平的文字字段部分图片,输入到用于识别文字的深度学习模型,得到文字字段中的文本内容。优选地,所述获取文档的文字区块,包括:将所述电子文档转换为图片文档;采用预训练的目标检测模型,以图片文档作为输入,输出文字区块的位置框。优选地,所述预训练的过程,包括:利用训练样本集和测试样本集训练用于文字区块目标检测的深度学习网络模型;计算深度学习网络模型检测文字区块的误差,根据误差反向输入到深度学习网络模型,调整深度学习网络模型的参数;利用训练样本集和测试样本集继续训练调整后的深度学习网络模型,直到深度学习网络模型的检测误差降低到设定程度,即完成对目标检测模型的训练。优选地,所述训练样本集和测试样本集中作为样本的文档均包括若干文字区块,并按照要求进行标注;其中,所述标注的文件中包括:每个文字区块在文档中的位置。优选地,所述基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列,包括:基于所述文字区块的位置框和文字字段的位置框,对所述文字区块和文字字段进行联合优化,得到改进的文字区块;将所述改进的文字区块内文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列。优选地,所述对文字区块和文字字段进行联合优化,包括:基于所述文字区块的位置框和文字字段的位置框,将所述文字字段和所述文字区块进行交叉覆盖,获得未被文字区块完全覆盖的文字字段,并根据得到的结果,对未被完全覆盖的文字字段新建文字区块,重复联合优化过程,和/或,扩大文字区块的位置框将未被完全覆盖的文字字段覆盖住。优选地,所述未被文字区块完全覆盖的文字字段,包括:获得的文字字段完全未被获得的文字区块覆盖,或,获得的文字字段未被获得的文字区块完全覆盖;其中:对于完全未被获得的文字区块覆盖的文字字段,新建文字区块,重复联合优化过程;对于未被获得的文字区块完全覆盖的文字字段,扩大文字区块的位置框将未被完全覆盖的文字字段覆盖住。优选地,所述将所述文字区块内的文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列,包括:以改进的文字区块为单位,分别对文字区块进行行化处理,将文字区块中所包含的文字字段的文字内容按照从左到右然后从上到下的顺序做行化,将文字区块内的文字内容排列成一串文字,获得每个文字字段所对应的文字串。优选地,所述基于所述文本内容的排列结果,进行结构化信息提取,包括:将所有文字区块所对应的文字串进行联合行化,生成整个文档所对应的长文字串;采用语言文本的实体信息抽取的方法,将长文字串作为输入,输出关键类别的实体的信息,即为提取的结构化信息。优选地,所述文字字段包括:同属于一行或者一列的紧密相连的文字的文本内容和位置框;所述文字区块为:覆盖同属于一个物理区块的紧密相连的文字的文本位置框,其中,所述物理区块包含至少一行的文字。根据本发明的第二个方面,提供了一种文档结构化系统,包括:文字字段获取模块,该模块用于获取文档的文字字段,其中,所述文字字段包括文本内容和位置框;文字区块获取模块,该模块用于获取文档的文字区块,其中,所述文字区块包括位置框;文字排列模块,该模块基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;结构化文档构建模块,该模块基于所述文本内容的排列结果,进行结构化信息提取,并根据提取的结构化信息,建立结构化文档。根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法。根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法。由于采用了上述技术方案,本发明与现有技术相比,具有如下任意一项的有益效果:1、本发明提供的文档结构化方法、系统、终端及介质,是一种结合基于图像目标检测和基于文字检测识别的文档结构化方法,能够突破基于图像目标检测必须使用固定文档模板的局限性,并提高文字检测识别方法的准确性。2、本发明提供的文档结构化方法、系统、终端及介质,利用图像目标检测技术检测出文档中的文字区块,这些文字区块可能由线条或者空白区域分开,无需指向特定的关键字段,可以对应通用的文字字段。3、本发明提供的文档结构化方法、系统、终端及介质,基于文字检测识别技术,先对文字区块的文字做行化,而非直接对整个文档的文字做行化,从而能够避免命名实体识别中不同字段的文字串联到一起造成干扰以及多行内容提取困难的问题。4、本发明提供的文档结构化方法、系统、终端及介质,通过结合图像目标检测和文字检测识别技术,能够在提高文档结构化通用性(即不需要如图像目标检测技术那样严格依赖文档的模板),同时提高命名实体识别的准确性。5、本发明提供的文档结构化方法、系统、终端及介质,其整个提取过程不依赖于特定的文档结构,通用性好,可以处理具有和训练过程中使用过的文档结构不同的结构的文档,同时提取关键字段内容的准确度高。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为本发明一实施例中文档结构化方法的流程图;图2为本发明一优选实施例中文档结构化方法的流程图;图3为本发明一优选实施例中输入的图片文档示意图;图4为本发明一优选实施例中对输入文档进行图5为本发明一优选实施例中图6为本发明一实施例中文档结构化系统的组成模块示意图。具体实施方式下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。图1为本发明一实施例中文档结构化方法的流程图。如图1所示,该实施例提供的文档结构化方法,可以包括以下步骤:s100,获取文档的文字区块以及文字字段;其中,所述文字区块包括位置框,所述文字字段包括位置框和文本内容;s200,基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;s300,基于所述文本内容的排列结果,进行结构化信息提取;s400,根据提取的结构化信息,建立结构化文档。该实施例的s100中,作为一优选实施例,所述文档可以包括图片文档和电子文档。该实施例的s100中,作为一优选实施例,所述获取文档的文字字段,可以包括:当文档为图片文档时,通过图像识别方法进行文字定位与识别,获取文字字段的文本内容和位置框;当文档为电子文档时,根据文件类型读取文件,获取文本内容和文本边界框;或,通过将电子文档转换为图片文档,再通过图像识别方法获取文字字段的文本内容和位置框。作为一优选实施例,所述图像识别方法,可以包括以下步骤:步骤s1,检测文档中的文字字段,获得位置框的顶点的坐标和位置框的旋转角度;步骤s2,在得到位置框的顶点的坐标和旋转角度后,调整得到水平的文字字段,从图像中截取出水平的文字字段部分图片,输入到用于识别文字的深度学习模型,得到文字字段中的文本内容。该实施例的s100中,作为一优选实施例,所述获取文档的文字区块,可以包括以下步骤:s101,当文档为电子文档时,将所述电子文档转换为图片文档;当文档为图片文档时,直接采用图片文档;s102,采用预训练的目标检测模型,以图片文档作为输入,输出文字区块的位置框。作为一优选实施例,s102中,所述预训练的过程,可以包括以下步骤:s102a,利用训练样本集和测试样本集训练用于文字区块目标检测的深度学习网络模型;s102b,计算深度学习网络模型检测文字区块的误差,根据误差反向输入到深度学习网络模型,调整深度学习网络模型的参数;s102c,利用训练样本集和测试样本集继续训练调整后的深度学习网络模型,直到深度学习网络模型的检测误差降低到设定程度,即完成对目标检测模型的训练。作为一优选实施例,所述训练样本集和测试样本集中作为样本的文档均可以包括若干文字区块,并按照要求进行标注;其中,所述标注的文件中可以包括:每个文字区块在文档中的位置。该实施例的s200中,作为一优选实施例,所述基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列,可以包括如下步骤:s201,基于所述文字区块的位置框和文字字段的位置框,对所述文字区块和文字字段进行联合优化,得到改进的文字区块;s202,将所述改进的文字区块内文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列。作为一优选实施例,s201中,所述对文字区块和文字字段进行联合优化,可以包括如下步骤:基于所述文字区块的位置框和文字字段的位置框,将所述文字字段和所述文字区块进行交叉覆盖,获得未被文字区块完全覆盖的文字字段,并根据得到的结果,对未被完全覆盖的文字字段新建文字区块,重复联合优化过程,和/或,扩大文字区块的位置框将未被完全覆盖的文字字段覆盖住。作为一优选实施例,所述未被文字区块完全覆盖的文字字段,可以包括:获得的文字字段完全未被获得的文字区块覆盖,或,获得的文字字段未被获得的文字区块完全覆盖;其中:对于完全未被获得的文字区块覆盖的文字字段,新建文字区块,重复联合优化过程;对于未被获得的文字区块完全覆盖的文字字段,扩大文字区块的位置框将未被完全覆盖的文字字段覆盖住。作为一优选实施例,s202中,所述将所述文字区块内的文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列,可以包括如下步骤:以改进的文字区块为单位,分别对文字区块进行行化处理,将文字区块中所包含的文字字段的文字内容按照从左到右然后从上到下的顺序做行化,将文字区块内的文字内容排列成一串文字,获得每个文字字段所对应的文字串。该实施例的s300中,作为一优选实施例,所述基于所述文本内容的排列结果,进行结构化信息提取,可以包括如下步骤:s301,将所有文字区块所对应的文字串进行联合行化,生成整个文档所对应的长文字串;s302,采用语言文本的实体信息抽取的方法,将长文字串作为输入,输出关键类别的实体的信息,即为提取的结构化信息。该实施例中,作为一优选实施例,文字字段可以包括:同属于一行或者一列的紧密相连的文字的文本内容和位置框;所述文字区块为:覆盖同属于一个物理区块的紧密相连的文字的文本位置框。作为一优选实施例,所述物理区块包含至少一行的文字。图2为本发明一优选实施例提供的文档结构化方法的流程图。如图2所示,该优选实施例提供的文档结构化方法,可以包括以下步骤:步骤一、输入图片文档或者电子文档,通过文本检测识别获取文档的文字字段,该文字字段包括:文本内容和文本位置框。作为一优选实施例,如果输入为图片文档,则通过图像识别方法进行文字定位与识别;在一具体应用实例中,其中的图像识别方法可以是传统方法,也可以是深度学习方法(比如east文字检测)。作为一优选实施例,如果输入电子文档,可以根据文件类型读取文件获取文本内容和位置,也可以通过将电子文档转换为文档图片,再通过图像识别方法获取文字的内容和位置。步骤二、输入图片文档或者电子文档,用预训练的目标检测模型检测文档的文字区块。作为一优选实施例,目标检测模型的输入为图片文档,如果文档为电子文档,则将电子文档转换为图片文档;目标检测模型的输出为文字区块的位置框;在一具体应用实例中,位置框可以采用水平的矩形或者其它形状表示。作为一优选实施例,目标检测模型可以采用流行的fasterrcnn,也可以采用maskrcnn等。步骤一和步骤二的操作顺序可以调换。步骤三、基于所述文字区块的位置框和文字字段的位置框,对所述文字区块和文字字段进行联合优化,得到改进的文字区块。作为一优选实施例,对步骤一和步骤二的处理结果进行联合优化(也是一种交叉验证的过程),对被步骤一文字定位识别检测到的文字但是未被目标检测模型检测到或者未被检测到的文字区块完全覆盖的文字,根据情况为未被步骤二检测到的文字字段增加额外的文字区块,或者将未被检测到或者未被完全覆盖的文字并入到已有的步骤二检测到的文字区块中。步骤四、将所述改进的文字区块内文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列。作为一优选实施例,以步骤三得到的改进的文字区块为单位,分别对文字区块内进行行化处理,将包含的步骤一检测识别的文字内容按从左到右然后从上到下的顺序做行化,将文字区块内的文字排列成一串文字。步骤五、基于所述文本内容的排列结果,进行结构化信息提取。作为一优选实施例,对文档中所有行化后的文字区块进行处理,提取感兴趣的关键字段的信息,可以采用如下方法:将所有文字区块的文字进行联合行化,生成一个对应整个文档的一个长文字串。对于文档行化后的文字串,采用命名实体识别的方法,输出感兴趣的关键类别的实体的内容,完成文档结构化信息提取任务。步骤六、根据提取的结构化信息,建立结构化文档。通过步骤一~步骤六,最终实现输入为电子文档或文档图像,输出为文档中所有待提取信息的文字字段的文字内容的文档结构化技术。下面结合附图以及一具体应用实例,对本发明上述实施例提供的技术方案进一步描述如下。在步骤一中,以图片文档作为输入为例,确定和识别文字字段的位置框和文本内容的方法,可以采用深度学习模型,比如east模型用于文字检测和cprn模型用于文本检测识别。检测表格中文字字段,有多种深度学习模型,包括east(efficientandaccuracyscenetextdetectionpipeline)模型、ctpn模型、旋转区域候选网络(rrpn)模型、ftsn(fusedtextsegmentationnetworks)模型。以east模型为例,它首先使用全卷积网络(fcn)生成多尺度融合的特征图,然后在此基础上直接进行像素级的文本块预测。east模型中,支持旋转矩形框、任意四边形两种文本区域标注和检测模式。对于表格中文字字段检测,采用旋转矩形框检测模式,模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角,输出检测到的文字字段矩形框的四个顶点的坐标和矩形框的旋转角度。在得到文字字段的坐标和旋转角度后,可以调整得到水平的文字字段,从图片中截取出水平的文字字段部分图片,输入到识别文字的深度学习模型,可以得到文字字段中的文字内容。识别文字的深度学习模型,主要有基于crnn+ctc的模型和基于注意力机制的模型。本实例采用的是crnn+ctc的模型,该模型中包括cnn、rnn和ctc三个主要模块,其中cnn(convolutionalneuralnetwork)为卷积神经网络用于提取图片特征,rnn(recurrentneuralnetwork)为循环神经网络用于在卷积特征上提取文字序列特征,ctc(connectionisttemporalclassification)是一种解决训练时字符不便对齐问题的损失函数。如图3所示,为输入的图像文档,通过文本检测识别模型进行图像识别得到的文字字段如图4所示,图4中仅给出文字字段的位置框,文本内容未标示,但是不影响对识别结果的理解。在步骤二中,目标检测模型可以采用流行的fasterrcnn或者maskrcnn等。本实施实例中采用fasterrcnn。模型的输入为文档图片,输出为文字区块的边界框(可以用水平的矩形或者其它形状表示)。应用fasterrcnn模型之前,需要对模型进行训练。训练的过程包括如下步骤:步骤a,收集一定数量的文档(比如1000张),经过处理后作为样本,一部分样本作为训练样本,一部分作为测试样本。每个文档包括一定数目的文字区块,按照要求进行标注。标注文件里面,记载每个文字区块在文档图像中的位置。图例xxx所示为一份文档样本样例。用作训练和测试的样本,可不断补充。步骤b,利用训练和测试样本集训练用于文字区块检测的深度学习网络模型fasterrcnn。计算深度学习网络检测文字区块的误差,根据误差反向输入到深度学习网络,调整深度学习网络的参数,然后继续学习,直到深度学习网络检测误差降低到一定程度具有了较好的检测能力之后停止训练。通过目标检测模型得到的文字区块,如图5所示。文字区块大多包含多个文字字段,但是也有些文字区块和文字字段指向相同的文字内容,比如“备案号”。文字区块对应文字框;文字字段包括位置框和里面的文字的内容。两者之间没有直接的上下级关系。通常文字区块的位置框比文字字段的位置框大(一个文字区块里面可能有多个文字字段);但是有些文字字段也可能没有被任何文字区块覆盖。在步骤三中,对步骤一和步骤二得到的结果进行联合优化,该联合优化是一种交叉验证的过程。对被步骤一文字定位识别检测到的文字但是未被目标检测模型检测到或者未被检测到的文字区块完全覆盖的文字,根据情况为未被步骤二检测到的文字字段增加额外的文字区块,或者将未被检测到或者未被完全覆盖的文字并入到已有的步骤二检测到的文字区块中。例如,在图4和图5所示中,文本检测识别模型输出的文字字段有些只被目标检测模型输出的文字字段部分覆盖,比如合同协议号的最后三个字母“fra”没有被目标检测模型输出的文字字段覆盖住。通过比较相应的文字区块和文字字段,可以确定遗漏的文字部分“fra”应该被包括到文字区块里面。在步骤四中,以步骤三得到的改进的文字区块为单位,分别对文字区块内进行行化处理,将包含的步骤一检测识别的文字内容按从左到右然后从上到下的顺序做行化,将文字区块内的文字排列成一串文字)。以图5标注的目标检测模型输出的文字区块集合为例,首先将文字区块做行化处理(从上到下,从左到右排列文字区块),依次得到如下的文字区块排序:“importmentofdocument”对应的文字区块+“进口口岸”对应的文字区块+“备案号”文字区块+“进口日期”文字区块+“申报日期”文字区块+“经营单位”文字区块+…在步骤五中,对文档中所有行化后的文字区块进行处理,提取关键字段的文字内容。进一步地,采用基于语言文本的实体信息抽取方法。具体步骤包括:步骤1,将所有文字区块的文字进行联合行化,生成一个对应整个文档的一个长文字串。步骤2,对于文档行化后的文字串,采用语言文本的实体信息抽取的方法,输出关键类别的实体的内容。针对图3所示的示意图得到的整个文字串如下所示:“importmentofdocument+预录人编号:++海关编号+进口口岸2248++备案号++进口日期+2012-05-12++申报日期+2012-06-01++经营单位成都高新综保区+…”需要说明的是,文字串中的“++”符号表示文字区块分割,“+”符号表示同一文字区块里面的不同文字字段。语言文本的实体信息抽取方法,一般采取类似命名实体识别任务那样标注序列的形式。给定一个序列,给序列中的每一个元素打上一个标签,常用的标签形式为“bioes”,分别表示“begin”、“intermediate”、“end”、“single”和“other”,表示当前元素是所需要的实体内容的开始、中间、结尾元素、单个元素即组成所需要实体或无关的元素“other”。实体信息抽取方法有多种广泛应用的模型。本实施实例采用bi-lstm(双向长短期记忆)+crf(条件随机场)的架构来作为语言文本实体信息抽取方法的模型。双向长短期记忆的lstm网络,从一句话的正向和反向分别执行相同的操作,最后将获得的输出相拼接,从而获得更加全面的语言文本信息。在获得bi-lstm的特征输出后,再输入crf层进行标签打分对实体进行分类,最终得到对于每一个单字的序列标注结果,从而便可以提取出所需要的实体的信息(关键字段的文字内容)。在获得文字字段的文本内容之后,输出所有文字字段的内容,建立结构化文档并保存(结构化内容可以以表格展示)。下述表格为采用本发明对图3所示的示意图进行内容结构化处理得到的目标关键字段的结果。字段字段名字段值字段字段名字段值进口日期2012-05-12申报日期2012-06-01提运单号nyks5140409540起运国法国(305)合同协议号prodiffu-201203fra集装箱号nyku8040272本发明另一实施例,提供了一种文档结构化系统,如图6所示,可以包括如下模块:文字字段获取模块、文字区块获取模块、文字排列模块和结构化文档构建模块。其中:文字字段获取模块,该模块用于获取文档的文字字段,其中,所述文字字段包括文本内容和位置框;文字区块获取模块,该模块用于获取文档的文字区块,其中,所述文字区块包括位置框;文字排列模块,该模块基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;结构化文档构建模块,该模块基于所述文本内容的排列结果,进行结构化信息提取,并根据提取的结构化信息,建立结构化文档。本发明第三个实施例,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行本发明上述实施例中任一项所述的方法。可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram),如静态随机存取存储器(英文:staticrandom-accessmemory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:doubledataratesynchronousdynamicrandomaccessmemory,缩写:ddrsdram)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。本发明第四个实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项所述的方法。本发明上述实施例提供的文档结构化方法、系统、终端及介质,是一种结合基于图像目标检测和基于文字检测识别的文档结构化方法,能够突破基于图像目标检测必须使用固定文档模板的局限性,并提高文字检测识别方法的准确性;利用图像目标检测技术检测出文档中的文字区块,这些文字区块可能由线条或者空白区域分开,无需指向特定的关键字段,可以对应通用的文字字段;基于文字检测识别技术,先对文字区块的文字做行化,而非直接对整个文档的文字做行化,从而能够避免命名实体识别中不同字段的文字串联到一起造成干扰以及多行内容提取困难的问题;通过结合图像目标检测和文字检测识别技术,能够在提高文档结构化通用性(即不需要如图像目标检测技术那样严格依赖文档的模板),同时提高命名实体识别的准确性;本发明上述实施例的整个提取过程不依赖于特定的文档结构,通用性好,可以处理具有和训练过程中使用过的文档结构不同的结构的文档,同时提取关键字段内容的准确度高。需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1