文档结构识别方法、文档结构识别的模型训练方法和装置与流程

文档序号:22678529发布日期:2020-10-28 12:36阅读:108来源:国知局
文档结构识别方法、文档结构识别的模型训练方法和装置与流程

本申请涉及计算机技术领域,具体地,涉及自然语言处理和深度学习技术领域。



背景技术:

现实生活中,为了便于对纸质文档的保存,通常会将纸质文档转化为图片形式的电子文档,电子文档在传输和保存方面有着明显的优势。

将文档转化为图像后,对文档布局进行分析,即对文档结构进行识别,是理解文档内容不可或缺的一步,众多后续任务,例如信息抽取、文本分类等都需要建立在精准的文档结构类型识别的基础之上。



技术实现要素:

本申请提供了一种文档结构识别方法、文档结构识别的模型训练方法和装置,本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构类型判断的准确性。

本申请的第一方面,提供了一种文档结构识别方法,该方法包括:

获取文档图像;

从所述文档图像中选取候选区域;

对所述候选区域进行图像特征提取,得到图像特征;

对所述候选区域中包含的字符进行语义识别,得到语义特征;

根据所述图像特征和所述语义特征进行分类,以确定所述候选区域所属的文档结构类型。

本申请的第二方面,提供了一种用于文档结构识别的模型训练方法,所述方法包括:

获取训练样本集;

采用所述训练样本集,对目标检测模型进行训练,其中,所述目标检测模型,用于从文档图像中选取候选区域,对所述候选区域进行图像特征提取,得到图像特征,对所述候选区域包含的字符进行语义识别,得到语义特征,以及根据所述图像特征和所述语义特征进行目标检测,以确定所述候选区域所属的文档结构类型。

本申请的第三方面,提供了一种文档结构识别装置,所述装置包括:

图像获取模块,用于获取文档图像;

选取模块,用于从所述文档图像中选取候选区域;

提取模块,用于对所述候选区域进行图像特征提取,得到图像特征;

识别模块,用于对所述候选区域中包含的字符进行语义识别,得到语义特征;

检测模块,用于根据所述图像特征和所述语义特征进行目标检测,以确定所述候选区域所属的文档结构类型。

本申请的第四方面,提供了一种用于文档结构识别的模型训练装置,所述装置包括:

样本获取模块,用于获取训练样本集;

训练模块,用于采用所述训练样本集,对目标检测模型进行训练,其中,所述目标检测模型,用于从文档图像中选取候选区域,对所述候选区域进行图像特征提取,得到图像特征,对所述候选区域包含的字符进行语义识别,得到语义特征,以及根据所述图像特征和所述语义特征进行目标检测,以确定所述候选区域所属的文档结构类型。

本申请的第五方面,提供了一种电子设备,其特征在于,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的文档结构识别方法,或者,第二方面所述的文档结构识别的模型训练方法。

本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面所述的文档结构识别方法,或者,第二方面所述的文档结构识别的模型训练方法。

本申请实施例提供的技术方案包含如下的有益效果:

获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构类型判断的准确性。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请实施例提供的一种文档结构识别方法的流程示意图;

图2为本申请实施例提供的另一种文档结构识别方法的流程示意图;

图3为本申请实施例提供的又一种文档结构识别方法的流程示意图;

图4为本申请实施例提供的再一种文档结构识别方法的流程示意图;

图5为本实施例的候选区域闭运算的示意图之一;

图6为本实施例的候选区域闭运算的示意图之二;

图7为本申请实施例提供的再一种文档结构识别方法的流程示意图;

图8为本申请实施例提供的一种文档结构识别的模型训练方法的流程示意图;

图9为本申请一个训练样本中文本内容标注的示意图;

图10为本申请实施例提供的一种文档结构识别装置的结构示意图;

图11为本申请实施例提供的一种用于文档结构识别的模型训练装置的结构示意图;

图12为本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的文档结构识别方法、文档结构识别的模型训练方法和装置。

图1为本申请实施例提供的一种文档结构识别方法的流程示意图。

如图1所示,该方法包括以下步骤:

步骤101,获取文档图像。

本实施例的执行主体为处理器,处理器中运行了训练好的文档结构识别的模型,可利用训练好的文档结构识别的模型实现本申请的文档结构识别方法。

其中,文档图像是指需要用于进行文档结构识别的文档的图像,例如,扫描得到的图像格式的文档,例如图像格式的简历、图像格式的说明书等。

步骤102,从文档图像中选取候选区域。

其中,候选区域是指可能包含各种文档结构类型的区域。文档结构类型包含表格、文本、图像、段落、标题和脚注(用于对文本进行补充说明)等,本实施例中不一一列举。

作为第一种可能的实现方式,利用快速目标检测模型fasterr-cnn识别出图像中的各对象的区域,将各对象的区域作为候选区域。

作为第二种可能的实现方式,利用候选区域算法,例如,选择性搜索(selectivesearch),从文档图像中选取候选区域。

作为第三种可能的实现方式,采用滑动检测框从文档图像中选取多个候选区域,具体地,根据预设的滑动检测框,在文档图像中,按照预设的步长从左至右,从上至下顺序移动,将滑动检测框每次移动所框住的区域作为候选区域,得到多个候选区域。

步骤103,对候选区域进行图像特征提取,得到图像特征。

其中,图像特征,包含图像的颜色特征、纹理特征、形状特征和空间关系特征,候选区域中文本的粒度特征等,其中,空间关系特征还包含候选区域中不同区域所属的前景区域或背景区域,文本粒度包含字,句或段落中的至少一个。

作为一种可能的实现方式,利用神经网络模型,对候选区域进行图像特征提取,以得到图像特征。

步骤104,对候选区域中包含的字符进行语义识别,得到语义特征。

在一个实施例中,对候选区域中包含的各个字符转化为对应的字符向量,将各个字符向量进行拼接,得到拼接向量,对拼接向量进行语义识别,得到对应的语义特征。

例如,某候选区域是简历中关于教育经历的区域,则对该候选区域中包含的字符进行语义识别后,可以得到对应教育经历的语义特征。又例如,某候选区域是简历中关于工作经历的区域,则对该候选区域中包含的字符进行语义识别后,可以得到对应工作经历的语义特征。

步骤105,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。

其中,文档结构类型,包含文本、表格、标题、段落、脚注和图像等。

本申请中,根据图像特征和语义特征进行分类,其中,可根据图像特征中包含的形状特征、纹理特征和内容密度等,对候选区域进行识别,以确定候选区域是表格、文本或图像等,而不同的文档结构类型对应的候选区域中包含的语义信息是不同的,不同的语义信息又可以指示对应的文档结构类型,例如,表格中包含的字符识别到的语义信息和文本中包含的字符识别到的语义信息是不同的,而不同的文本段落中,包含的语义信息也是不同的,例如,简历中包含较多的文本区域,不同的文本区域语义信息不同,有对应教育经历的文本区域,有对应工作经历的文本区域,还有对应个人信息的文本区域,从而根据提取到的候选区域的语义特征结合图像特征进行文档结构类型的识别,可以提高候选区域文档结构识别的准确性。

本申请实施例的文档结构识别方法中,获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构类型判断的准确性。

基于上述实施例,本申请实施例提供了另一种文档结构识别方法,图2为本申请实施例提供的另一种文档结构识别方法的流程示意图,如图2所示,该方法包含以下步骤:

步骤201,获取文档图像。

步骤202,从文档图像中选取候选区域。

具体地,可参照上一实施例中的步骤101-102,原理相同,此处不再赘述。

步骤203,对候选区域中每一像素单元识别内容属性特征。

其中,内容属性特征指示了每一像素单元包含的属性相关的特征,例如像素单元是属于前景或是背景,像素单元对应的目标文本粒度,其中,目标文本粒度,包含字,句子和段落中的一个或多个。

步骤204,根据候选区域中的每一像素的像素值和内容属性特征,生成输入图像。

在一个实施例中,重新生成的输入图像中的各像素点均具有多个通道,每一通道用于指示候选区域中对应像素的像素值或内容属性特征,增加了输入图像中各像素点包含的特征信息。

其中,每个像素点包含的特征信息可表示为[像素值,内容属性特征]

步骤205,对输入图像进行图像特征提取,以得到图像特征。

具体地,可参照上一实施例中的步骤103,原理相同,此处不再赘述。

本实施例中重新生成的输入图像中包含了像素值和内容属性特征,相比于现有技术中仅包含像素值信息,增加了提取到的图像特征中的信息量,从而后续基于图像特征进行文档结构类型识别时,可以识别得到更细粒度的文档结构类型,例如可以识别出该候选区域的文本是句子还是段落。

步骤206,获取文档图像对应的文档内容。

作为一种可能的实现方式,可通过光学字符识别(opticalcharacterrecognition,ocr)识别技术,识别文档图像对应的文档内容。

作为另一种可能的实现方式,获取文档图像对应的源文档,以从源文档中获取对应的文档内容。

步骤207,根据候选区域在文档图像中的相对位置,查询文档内容中的相对位置,以得到候选区域中包含的字符。

作为一种可能的实现方式,识别文档图像中各像素点在图像中的坐标,确定候选区域的边框对应的像素点,根据边框对应的像素点的坐标,确定候选区域在文档图像中的相对位置关系。由于文档图像和对应的文档内容在位置和内容上具有一一对应的关系,因此,根据该相对位置,查询文档内容中的相对位置,将文档内容中对应候选区域的相对位置包含的字符,作为候选区域中包含的字符。

步骤208,对候选区域中包含的字符进行语义识别,得到语义特征。

进而,对候选区域中包含的字符进行语义识别,以得到语义特征,由于各字符是从文档图像对应的文档内容中获取到的,提高了候选区域中包含的字符的准确性,进而提高了识别到的语义特征的准确性。

步骤209,将候选区域的图像特征与候选区域的语义特征拼接,得到候选区域的合成特征。

步骤210,根据候选区域的合成特征进行分类,以确定候选区域所属的文档结构类型。

在本申请的一个实施例中,将候选区域的图像特征与候选区域的语义特征拼接,得到候选区域的合成特征,增加了候选区域中的合成特征包含的信息,以使得在语义信息的监督下,通过分类模型,得到候选区域所属的文档结构类型,可以提高候选区域文档结构识别的准确性,相比于现有技术中,仅通过图像特征进行分类,以确定候选区域所属的文档结构类型,提高了文档结构类型确定的准确性。

本申请实施例的文档结构识别方法中,获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构类型判断的准确性。

上述实施例中说明了内容属性特征可以包含相应像素单元是属于前景或是背景,或者还包含像素单元对应的目标文本粒度,下面通过实施例分别进行说明。

基于上述实施例,本实施例说明了像素单元包含的内容属性特征包含相应像素单元是属于前景或是背景。图3为本申请实施例提供的又一种文档结构识别方法的流程示意图,如图3所示,作为一种可能的实现方式,上述的步骤203可以包含以下步骤:

步骤301,对候选区域进行二值化,以从候选区域中确定前景部分和背景部分。

在本申请的一个实施例中,对候选区域先进行灰度处理,得到灰度图像,再对灰度图像进行二值化处理。其中,灰度图像即通过使色彩的三种颜色分量红r、绿g、蓝b的值相同,由于颜色值的取值范围是[0,255],所以灰度的级别有256种,也就是说灰度图像能表现256种灰度颜色。本申请中可通过以下三种方式生成灰度图。

作为第一种可能的实现方式,最大值法,即r=b=g=max(r,g,b),这种方法处理后灰度图像的亮度偏高。

作为第二种可能的实现方式,平均值法:r=b=g=(r+g+b)/3,这种方法处理后灰度图像颜色较柔和。

作为第三种可能的实现方式,加权平均值法:r=g=b=r*权重1+g*权重2+b*权重3,其中,权重1,权重2和权重3分别为r,g,b的权重。当权重取值不同时,能够形成不同灰度的灰度图像。

在上述将候选区域转化为灰度图像后,对候选区域进行二值化处理,例如,采用自适应阈值的二值化算法,将候选区域对应的图像中的前景部分的像素单元的灰度值设置为255,将背景部分的像素单元的灰度值设置为0,也就是说二值化后的候选区域呈现的即为前景部分是白色,背景部分是黑色的视觉效果,以实现从候选区域中确定前景部分和背景部分。

步骤302,根据各像素单元属于前景部分或背景部分,生成各像素单元的内容属性特征。

其中,内容属性特征对应多个维度,每个维度对应每一像素单元的像素值,和属于前景或是背景的特征。

在本实施例中,识别出属于前景部分的各像素单元,以及属于背景部分的各像素单元,从而生成各像素单元的内容属性特征,也就是说在将像素单元是属于前景还是背景的特征添加至内容属性特征中,提高了各像素单元内容属性特征包含的特征信息。

本申请的文档结构识别方法中,对候选区域进行二值化,以从候选区域中确定前景部分和背景部分,根据各像素单元属于前景部分或背景部分,生成各像素单元的内容属性特征,实现了增加各像素单元的内容属性特征包含的信息。

上一实施例中,说明了内容属性特征包含前景或背景,实际应用中还可以进一步扩展内容属性特征,即本实施例中内容属性特征还包含像素单元所属的目标文本的粒度,以增加内容属性特征中包含的信息。为此,本实施例还提供了一种文档结构识别方法,图4为本申请实施例提供的再一种文档结构识别方法的流程示意图,如图4所示,作为另一种可能的实现方式,上述的步骤203可以包含以下步骤:

步骤401,对候选区域进行二值化,以从候选区域中确定前景部分和背景部分。

具体地,可参照上一实施例中的步骤301,原理相同,此处不再赘述。

步骤402,采用目标文本粒度对应的结构元尺寸,对二值化的候选区域进行闭运算,以扩展前景部分。

其中,目标文本粒度包括字、句子和段落中的至少一个。结构元尺寸,和目标文本粒度对应,结构元尺寸可用矩阵表示,为可覆盖对应文本粒度的尺寸。

在一个实施例中,由于目标文本粒度不同,不同的目标文本粒度对应不同的空间尺度,即结构元尺寸,结构元尺寸过大或过小都无法准确确定目标文本粒度,因此本实施例中根据不同的目标文本粒度,对应了不同的结构元尺寸,也就是说字粒度,具有对应的字的结构元尺寸,句子粒度,具有对应的句子的结构元尺寸,段落,具有对应的段落的结构元尺寸。采用目标文本粒度对应的结构元尺寸,对二值化的候选区域进行闭运算,其中,闭运算包含膨胀操作和腐蚀操作,具体来说,先采用对应的结构元尺寸,对二值化的候选区域中前景部分的目标文本粒度,采用膨胀操作进行处理,以扩展前景中对应的目标文本粒度,再采用腐蚀操作,以消除扩展得到的前景中的噪音,实现了扩展前景部分的同时,降低了前景部分的噪点。

例如,以目标文本粒度为句子进行说明。

图5中示出了对二值化的一个候选区域,采用句子粒度对应的结构元尺寸,例如为5*5的矩阵,进行第一次闭运算后的结果,候选区域中的句子因膨胀使得句子对应的前景部分的区域扩张,进而,采用腐蚀操作,使得黑色的背景部分扩张,以消除部分噪点。为了增强句子间的连通效果,可以多次进行闭运算,以增强前景部分的扩张效果。图6为经过第二次闭运算后得到的扩张后的前景部分,实现了句子间的充分连通,以提高后续进行轮廓检测的效果。

需要说明的是,结构元尺寸,可以根据具体的文本粒度和精度进行调整,本实施例中不进行限定。

步骤403,对前景部分进行轮廓检测,以得到目标文本粒度的包围框。

在申请实施例中,采用轮廓检测算法,对前景部分进行轮廓检测,以得到目标文本粒度的包围框。以句子粒度为例,对图6中连通的句子部分进行轮廓检测,可以确定各句子的包围框,例如图6中的包围框1,其中,图6中的每个句子都可以确定一个包围框,图6中未一一标识,本实施例中也不一一列举,本实施例中未一一列举。

步骤404,将处于包围框内的像素单元确定为属于目标文本粒度,将未处于包围框内的像素单元确定为未属于目标文本粒度。

如图6所示,图中每一个白色区域对应的包围框即为目标文本粒度的包围框,从而将处于包围框内的像素单元确定为属于目标文本粒度,将未处于包围框内的像素单元确定为未属于目标文本粒度。例如,包围框1内的句子为句子1,在白色包围框1内的各像素单元则属于句子1,而包围框1周围的黑色区域,由于不处于包围框1,因此确定为不属于句子1。

步骤405,根据各像素单元属于的目标文本粒度,生成各像素单元的内容属性特征。

其中,内容属性特征对应多个维度,每个维度对应每一像素单元对应的是前景或是背景,以及是字,句子或者还是段落的属性特征中的一个。也就是说,每个像素点包含的特征信息可表示为[像素值,前景/背景,目标文本粒度]

本实施例中,根据确定的各像素单元属于的目标文本粒度,生成各像素单元的内容属性特征,即识别各像素单元的内容属性特征,增加了内容属性特征包含的信息量,从而可以增加后续提取得到的图像特征包含的信息量,以提高文档结构类型确定的准确性。

本实施例的文档结构识别方法中,在对候选区域进行二值化处理后,采用目标文本粒度对应的结构元尺寸,对二值化的候选区域进行闭运算,以扩展前景部分,并通过对前景部分进行轮廓检测,以得到目标文本粒度的包围框,并将处于包围框内的像素单元确定为属于目标文本粒度,将未处于包围框内的像素单元确定为未属于目标文本粒度,根据各像素单元属于的目标文本粒度,生成各像素单元的内容属性特征,提高了各像素单元内容属性特征包含的信息量。

基于上述实施例,本实施例还提供了一种文档结构识别方法,在从文档图像中选取候选区域时,还可以采用滑动检测框的方式,图7为本申请实施例提供的再一种文档结构识别方法的流程示意图,如图7所示,该方法包含以下步骤:

步骤701,获取文档图像。

步骤702,采用滑动检测框从文档图像中选取多个候选区域。

在一个实施例中,根据预设的滑动检测框,在文档图像中,按照预设的步长从左至右,从上至下顺序移动,将滑动检测框每次移动所框住的区域作为候选区域,得到多个候选区域。本实施例中,为了提高候选区域获取的精度,滑动检测框移动的步长设置较小,从而相邻的候选区域之间具有重合的部分。

步骤703,对候选区域中每一像素单元识别内容属性特征。

步骤704,根据候选区域中的每一像素的像素值和内容属性特征,生成输入图像。

其中,输入图像中的各像素点均具有多个通道,每一通道用于指示候选区域中对应像素的像素值或内容特征。

步骤705,对输入图像进行图像特征提取,以得到图像特征。

步骤706,获取文档图像对应的文档内容。

步骤707,根据候选区域在文档图像中的相对位置,查询文档内容中的相对位置,以得到候选区域中包含的字符。

步骤708,对候选区域中包含的字符进行语义识别,得到语义特征。

步骤709,将候选区域的图像特征与候选区域的语义特征拼接,得到候选区域的合成特征。

步骤710,根据候选区域的合成特征进行分类,以确定候选区域所属的文档结构类型。

其中,步骤703-步骤710,具体可以参照上述实施例中相关的解释说明,本实施例中不再赘述。

步骤711,若在文档图像中连续分布的至少两候选区域属于同一文档结构类型,则对至少两候选区域合并,得到合并区域,以及合并区域的文档结构类型。

具体地,通过滑动检测框确定的候选区域中若存在连续分布的重叠的候选区域,也就是说连续分布的多个候选区域由于包含相同的内容,被分类识别为属于同一文档结构类型,为了降低属于同一文档结构类型的候选区域的数量,可采用将至少两候选区域进行合并,并将至少两候选区域对应的文档结构类型,作为合并区域的文档结构类型,以降低模型输出信息的冗杂。

本申请实施例的文档结构识别方法中,采用滑动检测框从文档图像中选取多个候选区域,并在根据候选区域的合成特征进行分类,以确定候选区域所属的文档结构类型后,若在文档图像中连续分布的至少两候选区域属于同一文档结构类型,则对至少两候选区域合并,得到合并区域,以及合并区域的文档结构类型,以降低模型输出信息的冗杂。

上述实施例中是采用训练好的文档结构识别的模型对文本结构进行识别,为了实现上述实施例,本申请还提供了一种文档结构识别的模型训练方法,图8为本申请实施例提供的一种文档结构识别的模型训练方法的流程示意图,如图8所示,该方法包含以下步骤:

步骤801,获取训练样本集。

在本申请实施例的一种可能的实现方式中,获取页面,例如,采用爬虫技术,爬取大量网页文档,提取页面中的文本内容,对页面的文档结构树进行解析,以得到各文档结构类型对应的文本区域,根据各文档结构类型对应的文本区域,对文本内容进行标注,其中,标注包含对表格区域标注文档结构类型为表格,对图像区域标注文档结构类型为图像,对标题区域标注标注文档结构类型为标题,对段落区域标注标注文档结构类型为段落,以及对脚注区域标注标注文档结构类型为脚注,以得到训练样本集中的训练样本,实现了可基于现有的页面数据,生成大规模的训练样本集,提高了生成的效率。

例如,如图9所示,以一个简历文本为例,进行说明,对简历文本进行文本内容提取,并对简历页面的文档结构树进行解析,得到表格的文档结构类型对应的文本区域91、图片的文档结构类型对应的文本区域93、标题的文档结构类型对应的文本区域92和文本的文档结构类型对应的文本区域94,进而,对简历文本中各文本区域对应的文本内容进行标注,即区域92标注标题,区域93标注图像、区域91标注表格和区域94标注文本。

在本申请实施例的另一种可能的实现方式中,随机生成布局信息,根据布局信息,生成训练文档,根据布局信息,在训练文档中标注各文档结构类型对应的文本区域,以得到训练样本集中的训练样本,实现了可基于需求,预设相应的布局信息,满足了不同场景下的样本生成需求。

例如,根据预设的布局信息和填充内容随机生成布局信息,例如布局信息中包含图片、文字和标题等,进而根据布局信息填充对应的内容后生成训练文档,由于训练文档中各文本区域的文档结构类型和内容是已知的,从而可以对各文本区域包含的内容进行标注,以生成训练样本集中的训练样本,实现了可生成大规模的训练样本集。

在本申请实施例的又一种可能的实现方式中,可将现有已生成的大规模的英文版本的训练样本集,除保留对应的英文版本的训练样本,还通过文本翻译替换得到对应的中文版本,以生成大规模的训练样本集。

步骤802,采用训练样本集,对目标检测模型进行训练,其中,目标检测模型,用于从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域包含的字符进行语义识别,得到语义特征,以及根据图像特征和语义特征进行目标检测,以确定候选区域所属的文档结构类型。

在本申请的一个实施例中,采用训练样本集,对目标检测模型进行训练,具体可以通过深度学习的方式对目标检测模型进行训练,相对于其他深度学习方法,深度学习在大数据集上的表现更好,可提高目标检测模型的训练效果。对目标检测模型训练优化的目标是最小化目标函数,即分类得到的训练样本中各文本区域的文档结构类型与标注的各文本区域的文档结构类型的误差最小,则目标检测模型训练完成,以使训练完成的目标检测模型,用于从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域包含的字符进行语义识别,得到语义特征,以及根据图像特征和语义特征进行目标检测,以确定候选区域所属的文档结构类型。

需要说明的是,利用训练完成的目标检测模型进行文档结构类型识别的方法,可参照图1-图7对应实施例中的说明,本实施例中不再赘述。

本申请实施例的文档结构识别的模型训练方法中,通过构建大规模的训练语料对目标检测模型进行训练,以使得训练得到的目标检测模型可用于获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构识别的模型进行文档结构类型判断的准确性。

为了实现上述实施例,本申请还提出一种文档结构识别装置。

图10为本申请实施例提供的一种文档结构识别装置的结构示意图。

如图10所示,该装置包括:图像获取模块101、选取模块102、提取模块103、识别模块104和检测模块105。

图像获取模块101,用于获取文档图像。

选取模块102,用于从文档图像中选取候选区域。

提取模块103,用于对候选区域进行图像特征提取,得到图像特征。

识别模块104,用于对候选区域中包含的字符进行语义识别,得到语义特征。

检测模块105,用于根据图像特征和语义特征进行目标检测,以确定候选区域所属的文档结构类型。

在本申请实施例的一种可能的实现方式中,该装置,还包括

获取模块,用于获取所述文档图像对应的文档内容。

查询模块,用于根据所述候选区域在所述文档图像中的相对位置,查询所述文档内容中的所述相对位置,以得到所述候选区域中包含的字符。

作为一种可能的实现方式,上述检测模块105,具体用于:

将所述候选区域的所述图像特征与所述候选区域的所述语义特征拼接,得到所述候选区域的合成特征,根据所述候选区域的合成特征进行分类,以确定所述候选区域所属的文档结构类型。

在本申请实施例的一种可能的实现方式中,上述提取模块103,包括:

识别单元,用于对所述候选区域中每一像素单元识别内容属性特征;

生成单元,用于根据所述候选区域中的每一像素的像素值和所述内容属性特征,生成输入图像,其中,所述输入图像中的各像素点均具有多个通道,每一通道用于指示所述候选区域中对应像素的所述像素值或所述内容特征;

提取单元,用于对所述输入图像进行图像特征提取,以得到所述图像特征。

作为一种可能的实现方式,上述识别单元,具体用于:

对所述候选区域进行二值化,以从所述候选区域中确定前景部分和背景部分;根据各像素单元属于所述前景部分或所述背景部分,生成各像素单元的所述内容属性特征。

作为另一种可能的实现方式,上述识别单元,具体还用于:

对所述候选区域进行二值化,以从所述候选区域中确定前景部分和背景部分;采用目标文本粒度对应的结构元尺寸,对二值化的候选区域进行闭运算,以扩展所述前景部分;其中,所述目标文本粒度包括字、句子和段落中的至少一个;对所述前景部分进行轮廓检测,以得到所述目标文本粒度的包围框;将处于所述包围框内的像素单元确定为属于所述目标文本粒度,将未处于所述包围框内的像素单元确定为未属于所述目标文本粒度;根据各像素单元属于的目标文本粒度,生成各像素单元的所述内容属性特征。

在本申请实施例的一种可能的实现方式中,上述选取模块102,具体用于:

采用滑动检测框从所述文档图像中选取多个所述候选区域;

对应地,该装置,还包括:

合并模块,用于若在所述文档图像中连续分布的至少两所述候选区域属于同一所述文档结构类型,则对所述至少两候选区域合并,得到合并区域,以及所述合并区域的文档结构类型。

需要说明的是,前述对文档结构识别方法实施例的解释说明也适用于该实施例的文档结构识别装置,原理相同,此处不再赘述。

本申请实施例的文档结构识别方法中,获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构类型判断的准确性。

为了实现上述实施例,本申请还提出一种用于文档结构识别的模型训练装置。

图11为本申请实施例提供的一种用于文档结构识别的模型训练装置的结构示意图。

如图11所示,该装置包含:样本获取模块111和训练模块112。

样本获取模块111,用于获取训练样本集。

训练模块112,用于采用训练样本集,对目标检测模型进行训练,其中,目标检测模型,用于从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,候选区域包含的字符进行语义识别,得到语义特征,以及根据图像特征和语义特征进行目标检测,以确定候选区域所属的文档结构类型。

在本申请实施例的一种可能的实现方式中,上述样本获取模块111,包括:

获取单元,用于获取页面。

提取模块,用于提取所述页面中的文本内容。

解析单元,用于对所述页面的文档结构树进行解析,以得到各文档结构类型对应的文本区域。

标注单元,用于根据各所述文档结构类型对应的文本区域,对所述文本内容进行标注,以得到所述训练样本集中的训练样本。

在本申请实施例的另一种可能的实现方式中,上述样本获取模块111,还包括:

生成单元,用于随机生成布局信息,根据所述布局信息,生成训练文档。

上述标注单元,用于根据所述布局信息,在所述训练文档中标注各文档结构类型对应的文本区域,以得到所述训练样本集中的训练样本。

需要说明的是,前述对文档结构识别的模型训练方法实施例的解释说明也适用于该实施例的文档结构识别的模型训练装置,原理相同,此处不再赘述。

本申请实施例的文档结构识别的模型训练装置中,通过构建大规模的训练语料对目标检测模型进行训练,以使得训练得到的目标检测模型可用于获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构识别的模型进行文档结构类型判断的准确性。

为了实现上述实施例,本申请实施例还提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法实施例中所述的文档结构识别方法或前述方法实施例中所述的文档结构识别的模型训练方法。

为了实现上述实施例,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前述方法实施例所述的文档结构识别方法或前述方法实施例中所述的文档结构识别的模型训练方法。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图12所示,是根据本申请实施例的文档结构识别方法或文档结构识别的模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。

存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文档结构识别方法,或执行文档结构识别的模型训练方法的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文档结构识别方法,或者执行文档结构识别的模型训练方法。

存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文档结构识别方法对应的程序指令/模块(例如,附图10所示的图像获取模块101、选取模块102、提取模块103、识别模块104和检测模块105)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文档结构识别方法。同理,可实现上述方法实施例中的文档结构识别的模型训练方法,原理相同,此处不再赘述。

存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文档结构识别方法或文档结构识别的模型训练方法的电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至文档结构识别方法或文档结构识别的模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文档结构识别方法或文档结构识别的模型训练方法的电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。

输入装置1203可接收输入的数字或字符信息,以及产生与文档结构识别方法或文档结构识别的模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置y04可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,涉及自然语言处理和深度学习技术领域,获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候选区域中包含的字符进行语义识别,得到语义特征,根据图像特征和语义特征进行分类,以确定候选区域所属的文档结构类型。本申请中在进行文档结构类型识别时,在图像特征的基础上增加了语义特征,充分考虑了文档结构识别时语义信息的重要性,提高了文档结构类型判断的准确性。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1