文档处理方法和装置、电子设备和计算机可读存储介质与流程

文档序号:31116901发布日期:2022-08-12 22:13阅读:60来源:国知局
文档处理方法和装置、电子设备和计算机可读存储介质与流程

1.本技术涉及文档处理技术领域,尤其涉及一种文档处理方法和装置、电子设备和计算机可读存储介质。


背景技术:

2.随着数字技术的发展,越来越多的文档都采用数字形式进行存储,从而用户可以在生活和工作中使用这样的数字形式的电子文档,而无需再使用纸质文档来进行文字和/或图像的记录,并且用户还可以基于这样的电子文档进行编辑、添加批注、添加电子签名等传统的纸质文件无法实现的便捷功能。例如,现有技术中已经提出了ofd(open fixed layout document,开放版式文档)是我国自主研发,独立于软件、硬件、操作系统、输出设备的版式文档格式,将文字、图像、图形等多种数字内容对象按照一定规则进行版面固化呈现的一种格式。
3.当前对ofd文档可以进行阅读、编辑书签、文档批注、编辑附件、加盖电子签名、电子印章等功能。但是由于文档格式限制及阅读器交互较弱等因素的影响,目前阅读器只能对文字信息进行搜索,在图像没有注释内容标签的情况下,往往不能搜索。
4.在国产化大潮下,ofd版式文档在运营商无纸化业务单据的应用也日益增加,为了保证电信业务的真实有效性,在运营商生产环境中,必须对业务的电子单据进行稽核,除了需要搜索提取文字外,还需要对业务单据上的电子签名、盖章等图像信息进行搜索,所以需要一种能够便捷地对这样的版式文档中进行搜索的技术方案。


技术实现要素:

5.本技术实施例提供一种文档处理方法和装置、电子设备和计算机可读存储介质,以解决现有技术中包含图像的文档中缺少图像的文字信息的缺陷。
6.为达到上述目的,本技术实施例提供了一种文档处理方法,包括:
7.获取目标文档,其中,所述目标文档包含有至少一个图像数据;
8.对所述图像数据进行识别,以获得所述图像数据的图像信息;
9.根据所述图像信息生成所述图像数据的标签数据;
10.将所述标签数据添加到所述目标文档中以生成标注文档,其中,在所述标注文档中所述标签数据与所述图像数据关联。
11.本技术实施例还提供了一种文档处理装置,包括:
12.获取模块,用于获取目标文档,其中,所述目标文档包含有至少一个图像数据;
13.识别模块,用于对所述图像数据进行识别,以获得所述图像数据的图像信息;
14.生成模块,用于根据所述图像信息生成所述图像数据的标签数据;
15.标注模块,用于将所述标签数据添加到所述目标文档中以生成标注文档,其中,在所述标注文档中所述标签数据与所述图像数据关联。
16.本技术实施例还提供了一种电子设备,包括:
17.存储器,用于存储程序;
18.处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行本技术实施例提供的文档处理方法。
19.本技术实施例还提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现如本技术实施例提供的文档处理方法。
20.本技术实施例提供的文档处理方法和装置、电子设备和计算机可读存储介质,通过从目标文档中提取图像数据,对图像数据进行识别以获取图像信息,将获取到的图像信息作为该图像的标签信息添加到目标文档中,从而这样处理后的目标文档中可以包含有图像的信息,从而当之后用户对这样处理过的目标文档进行内容搜索时,就可以通过目标文档中包含的图像的标签信息而实现低于其中包含的图像的搜索,大大地提高了这样的目标文档的使用效率。
21.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
22.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
23.图1是本技术实施例的文档处理方案的应用场景示意图;
24.图2为本技术提供的文档处理方法一个实施例的流程图;
25.图3为本技术提供的文档处理装置的一个实施例的结构示意图;
26.图4为本技术提供的电子设备实施例的结构示意图。
具体实施方式
27.下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本技术,并且能够将本技术的范围完整的传达给本领域的技术人员。
28.实施例一
29.本技术实施例提供的方案可应用于任何具有文档处理能力的系统,例如文档处理系统等等。图1为本技术实施例提供的文档处理方案的应用场景示意图,图1所示的场景仅仅是本技术的技术方案所能够应用的场景的示例之一。
30.随着数字技术的发展,越来越多的文档都采用数字形式进行存储,从而用户可以在生活和工作中使用这样的数字形式的电子文档,而无需再使用纸质文档来进行文字和/或图像的记录,并且用户还可以基于这样的电子文档进行编辑、添加批注、添加电子签名等传统的纸质文件无法实现的便捷功能。例如,现有技术中已经提出了ofd(open fixed layout document,开放版式文档)是我国自主研发,独立于软件、硬件、操作系统、输出设备的版式文档格式,将文字、图像、图形等多种数字内容对象按照一定规则进行版面固化呈现
的一种格式。
31.当前对ofd文档可以进行阅读、编辑书签、文档批注、编辑附件、加盖电子签名、电子印章等功能。但是由于文档格式限制及阅读器交互较弱等因素的影响,目前阅读器只能对文字信息进行搜索,在图像没有注释内容标签的情况下,往往不能搜索。
32.在国产化大潮下,ofd版式文档在运营商无纸化业务单据的应用也日益增加,为了保证电信业务的真实有效性,在运营商生产环境中,必须对业务的电子单据进行稽核,除了需要搜索提取文字外,还需要对业务单据上的电子签名、盖章等图像信息进行搜索,所以需要一种能够便捷地对这样的版式文档中进行搜索的技术方案。
33.目前在现有技术中已经对于ofd版式文件中搜索提出了按关键字搜索文字的方法,但是该方案只能够对文字进行搜索。此外还提出了基于图像注释来间接搜索图像的方案,即,可以通过输入的关键字在ofd版式文件中搜索预先对图像标注的图像注释内容来定位对应的图像。
34.但是,在现有技术中还没有能够直接对ofd版式文件中的图像进行搜索的技术方案,尤其是对于没有预先对图像进行了相关标注的ofd版式文件,就无法对其中的图像进行搜索,这为ofd文件的使用带来了非常大的不变,并且也大大劣化了使用ofd文件的工作效率。
35.例如,在如图1中所示的搜索场景中,用户可以根据从互联网或其他数据源获取到的文档内容进行搜索。该文档中可以包含有文字部分和图像部分。因此,在用户使用例如关键字对该文档执行搜索时,对于该文档中包含的文字部分可以直接依据该关键字检索出结果。例如,如果文字部分中有与关键字匹配的文字,则可以直接作为检索结果输出给用户,而对于目标文档中的图像部分,则由于用户使用的关键字无法与图像直接匹配而实际上无法输出有效的检索结果。对此,本技术实施例中,可以对目标文档进行图像提取,并且对于提取的图像使用各种算法进行识别。例如,当图像包含有签名时,可以通过签名识别模型来识别出图像中包含的签名信息,或者当图像包含有印章时,还可以使用印章识别模型来识别出图像中包含的印章信息,从而可以将识别出的这些信息作为图像的标签信息来添加到文档中并且与图像建立关联,从而生成了带有图像标注的标注文档,之后用户在同样使用关键字对该标注文档进行搜索时,就可以基于该关键字在标注文档中的图像信息中进行关键字的匹配。
36.例如,在本技术实施例中,当目标文档中包含的图像为印章图像时,还可以执行印章位置,并且可以使用印章检测模型来执行该检测。例如,可以首先对从各种图像数据源获取的图像数据集进行标注,即标注印章位置。然后对可以对获取到的印章图片数据进行预处理,进行归一化操作。之后可以使用进行了标注的图像数据集对模型进行训练。之后还可以根据模型训练的精确度,调整网络模型参数,优化印章位置检测网络模型,进一步训练网络模型,最后得到印章位置检测网络模型。
37.之后可以使用该印章位置检测模型来检测目标文档中印章图像的印章的位置,并根据该位置来对印章中的文字内容进行检测及识别。例如可以使用中文文字字符识别模型来进行该文字识别。类似地,还可以对于该文字字符识别模型进行训练。首先,对中文文字单个字符图像数据集进行标注,按照一定比例将中文文字单个字符图像分为训练集和测试集。然后对数据集中的单个文字字符图像进行预处理,归一化处理、灰度处理及二值化处理
等。之后,可以使用该训练数据对文字字符识别模型进行训练,并对网络模型中涉及到的参数信息进行调整优化。最后,当网络模型的损失值及正确率达到收敛状态之后,说明训练的模型识别效果达到优化效果。之后就可以使用该文字字符识别模型对于目标文档中的图像中包含的文字进行识别,并将识别结果作为图像的图像信息来添加到目标文档中。
38.例如,在本技术实施例中,可以首先对目标文档中的图像中的文字进行位置检测。即,对图像中的文字进行位置检测,可以采用ctpn文字检(nh)
×w×
256
→n×
256
×h×
w算法,对图像中的文字进行检测。但是,ctpn算法仅能够检测横向排列的文字。因此,可以先采用vgg网络模型,对文字进行特征提取,获得大小为n*c*h*w的特征向量v1。然后,对提取到的特征向量v1进行3*3滑动窗口操作,即每个点都结合周围3*3区域特征获得一个长度为3*3*c的特征向量。输出n*9c*h*w的特征向量v2,该特征为通过卷积神经网络cnn学习到的空间特征。将特征向量v2进行大小调整,如公式(1)所示。
39.n
×
9c
×h×w→
(nh)
×w×
9c
ꢀꢀꢀꢀꢀꢀꢀ
(1)
40.再次,以batch=nh且最大时间长度t
max
=w的数据数据流输入lstm,学习每一行的序列特征。双向lstm输出(nh)*w*256,再经过特征大小维度调整恢复形状,如公式(2)所示。该特征包含空间特征,也包含lstm学习到的序列特征。
41.(nh)
×w×
256
→n×
256
×h×wꢀꢀꢀꢀꢀꢀꢀ
(2)
42.再次,经过“fc”卷积层,变为n*512*h*w的特征。最后,最后经过类似faster r-cnn的rpn网络,获得文字位置。最终根据该位置还可以进一步对识别到的文字内容进行行切割及字切割操作,得到单个文字图像。调用上述训练好的文字字符识别模型来对单个文字进行识别,并且可以将识别出的文字作为图像的图像信息添加到目标文档中,从而在之后用户使用关键字对该目标文档进行搜索时就可以依据这样添加的图像信息而实现对于图像内容的搜索。
43.因此,本技术实施例提供的文档处理方案,通过从目标文档中提取图像数据,对图像数据进行识别以获取图像信息,将获取到的图像信息作为该图像的标签信息添加到目标文档中,从而这样处理后的目标文档中可以包含有图像的信息,从而当之后用户对这样处理过的目标文档进行内容搜索时,就可以通过目标文档中包含的图像的标签信息而实现低于其中包含的图像的搜索,大大地提高了这样的目标文档的使用效率。
44.上述实施例是对本技术实施例的技术原理和示例性的应用框架的说明,下面通过多个实施例来进一步对本技术实施例具体技术方案进行详细描述。
45.实施例二
46.图2为本技术提供的文档处理方法的一个实施例的流程图。该方法的执行主体可以为具有文档处理能力的终端或系统,也可以为集成在这些设备上的装置或芯片。如图2所示,该文档处理方法包括如下步骤:
47.s201,获取目标文档。
48.在本技术实施例中,可以首先在步骤s201中获取目标文档,在该步骤中,可以从例如各种数据源获取目标文档,也可以由用户自己上传目标文档。在本技术实施例中,目标文档可以包含有至少一个图像数据。
49.此外,在本技术实施例中,在获取到了目标文档之后,还可以进一步对目标文档进行解析,例如当目标文档为ofd格式的文档时,可以对该文档进行解析以获得xml格式的文
档作为待处理文档。
50.s202,对图像数据进行识别,以获得图像数据的图像信息。
51.在步骤s202中,可以对于步骤s201中获取到的目标文档进行图像数据识别。例如,在图1中所示的场景中,当文档包含有图像数据时,传统的关键字搜索方法无法直接对图像数据进行关键字的匹配处理,因此实际上无法对文档中的图像进行搜索。在本技术实施例中,可以在步骤s202中对于目标文档中的图像数据使用各种算法进行识别。
52.在步骤s202中,还可以进一步根据图像数据的类型来确定所要使用的算法或模型的类型。例如,当图像数据包含有签名时,可以通过签名识别模型来识别出图像中包含的签名信息,或者当图像包含有印章时,还可以使用印章识别模型来识别出图像中包含的印章信息,从而可以将识别出的这些信息作为图像的标签信息来添加到文档中并且与图像建立关联,从而生成了带有图像标注的标注文档,之后用户在同样使用关键字对该标注文档进行搜索时,就可以基于该关键字在标注文档中的图像信息中进行关键字的匹配。
53.例如,在本技术实施例中,当目标文档中包含的图像为印章图像时,还可以执行印章位置,并且可以使用印章检测模型来执行该检测。例如,可以首先对从各种图像数据源获取的图像数据集进行标注,即标注印章位置。然后对可以对获取到的印章图片数据进行预处理,进行归一化操作。之后可以使用进行了标注的图像数据集对模型进行训练。之后还可以根据模型训练的精确度,调整网络模型参数,优化印章位置检测网络模型,进一步训练网络模型,最后得到印章位置检测网络模型。
54.之后可以使用该印章位置检测模型来检测目标文档中印章图像的印章的位置,并根据该位置来对印章中的文字内容进行检测及识别。例如可以使用中文文字字符识别模型来进行该文字识别。类似地,还可以对于该文字字符识别模型进行训练。首先,对中文文字单个字符图像数据集进行标注,按照一定比例将中文文字单个字符图像分为训练集和测试集。然后对数据集中的单个文字字符图像进行预处理,归一化处理、灰度处理及二值化处理等。之后,可以使用该训练数据对文字字符识别模型进行训练,并对网络模型中涉及到的参数信息进行调整优化。最后,当网络模型的损失值及正确率达到收敛状态之后,说明训练的模型识别效果达到优化效果。之后就可以使用该文字字符识别模型对于目标文档中的图像中包含的文字进行识别,并将识别结果作为图像的图像信息来添加到目标文档中。
55.s203,根据图像信息生成图像数据的标签数据。
56.在步骤s203中可以根据步骤s202中识别获得的图像信息来生成图像数据的标签数据。例如当步骤s202中识别出图像数据为印章图像时,通过印章识别算法或模型识别出印章的文字后将该文字作为标签数据,或者当步骤s202中识别出图像数据为手写签名图像时,可以通过文字识别算法或模型来识别出签名的文字并将该文字作为标签数据。
57.s204,将标签数据添加到目标文档中以生成标注文档。
58.最终在步骤s204中可以将步骤s203中生成的标签数据添加到目标文档中,并特别地将该标签数据与目标文档中的图像数据关联,从而生成最终的标注文档。在标注文档中标签数据与图像数据关联。
59.因此,在步骤s204中通过将识别出的文字作为图像的图像信息添加到目标文档中,从而在之后用户使用关键字对该目标文档进行搜索时就可以依据这样添加的图像信息而实现对于图像内容的搜索。
60.因此,本技术实施例提供的文档处理方案,通过从目标文档中提取图像数据,对图像数据进行识别以获取图像信息,将获取到的图像信息作为该图像的标签信息添加到目标文档中,从而这样处理后的目标文档中可以包含有图像的信息,从而当之后用户对这样处理过的目标文档进行内容搜索时,就可以通过目标文档中包含的图像的标签信息而实现低于其中包含的图像的搜索,大大地提高了这样的目标文档的使用效率。
61.实施例三
62.图3为本技术提供的文档处理装置的一个实施例的结构示意图图。如图3所示,该文档处理装置包括:获取模块31、识别模块32、生成模块33和标注模块34。
63.获取模块31可以用于获取目标文档。
64.在本技术实施例中,可以首先通过获取模块31获取目标文档,可以从例如各种数据源获取目标文档,也可以由用户自己上传目标文档。在本技术实施例中,目标文档可以包含有至少一个图像数据。
65.此外,在本技术实施例中,在获取到了目标文档之后,还可以进一步对目标文档进行解析,例如当目标文档为ofd格式的文档时,可以对该文档进行解析以获得xml格式的文档作为待处理文档。
66.识别模块32可以用于对图像数据进行识别,以获得图像数据的图像信息。
67.识别模块32可以对于获取模块31获取到的目标文档进行图像数据识别。例如,在图1中所示的场景中,当文档包含有图像数据时,传统的关键字搜索方法无法直接对图像数据进行关键字的匹配处理,因此实际上无法对文档中的图像进行搜索。在本技术实施例中,识别模块32可以对于目标文档中的图像数据使用各种算法进行识别。
68.识别模块32还可以进一步根据图像数据的类型来确定所要使用的算法或模型的类型。例如,当图像数据包含有签名时,可以通过签名识别模型来识别出图像中包含的签名信息,或者当图像包含有印章时,还可以使用印章识别模型来识别出图像中包含的印章信息,从而可以将识别出的这些信息作为图像的标签信息来添加到文档中并且与图像建立关联,从而生成了带有图像标注的标注文档,之后用户在同样使用关键字对该标注文档进行搜索时,就可以基于该关键字在标注文档中的图像信息中进行关键字的匹配。
69.例如,在本技术实施例中,当目标文档中包含的图像为印章图像时,还可以执行印章位置,并且可以使用印章检测模型来执行该检测。例如,可以首先对从各种图像数据源获取的图像数据集进行标注,即标注印章位置。然后对可以对获取到的印章图片数据进行预处理,进行归一化操作。之后可以使用进行了标注的图像数据集对模型进行训练。之后还可以根据模型训练的精确度,调整网络模型参数,优化印章位置检测网络模型,进一步训练网络模型,最后得到印章位置检测网络模型。
70.之后可以使用该印章位置检测模型来检测目标文档中印章图像的印章的位置,并根据该位置来对印章中的文字内容进行检测及识别。例如可以使用中文文字字符识别模型来进行该文字识别。类似地,还可以对于该文字字符识别模型进行训练。首先,对中文文字单个字符图像数据集进行标注,按照一定比例将中文文字单个字符图像分为训练集和测试集。然后对数据集中的单个文字字符图像进行预处理,归一化处理、灰度处理及二值化处理等。之后,可以使用该训练数据对文字字符识别模型进行训练,并对网络模型中涉及到的参数信息进行调整优化。最后,当网络模型的损失值及正确率达到收敛状态之后,说明训练的
模型识别效果达到优化效果。之后就可以使用该文字字符识别模型对于目标文档中的图像中包含的文字进行识别,并将识别结果作为图像的图像信息来添加到目标文档中。
71.生成模块33可以用于根据图像信息生成图像数据的标签数据。
72.生成模块33可以根据识别模块32识别获得的图像信息来生成图像数据的标签数据。例如当识别模块32识别出图像数据为印章图像时,通过印章识别算法或模型识别出印章的文字后将该文字作为标签数据,或者当识别模块32识别出图像数据为手写签名图像时,可以通过文字识别算法或模型来识别出签名的文字并将该文字作为标签数据。
73.标注模块34可以用于将标签数据添加到目标文档中以生成标注文档。
74.最终标注模块34可以将生成模块33生成的标签数据添加到目标文档中,并特别地将该标签数据与目标文档中的图像数据关联,从而生成最终的标注文档。在标注文档中标签数据与图像数据关联。
75.因此,标注模块34通过将识别出的文字作为图像的图像信息添加到目标文档中,从而在之后用户使用关键字对该目标文档进行搜索时就可以依据这样添加的图像信息而实现对于图像内容的搜索。
76.因此,本技术实施例提供的文档处理装置,通过从目标文档中提取图像数据,对图像数据进行识别以获取图像信息,将获取到的图像信息作为该图像的标签信息添加到目标文档中,从而这样处理后的目标文档中可以包含有图像的信息,从而当之后用户对这样处理过的目标文档进行内容搜索时,就可以通过目标文档中包含的图像的标签信息而实现低于其中包含的图像的搜索,大大地提高了这样的目标文档的使用效率。
77.实施例四
78.以上描述了文档处理装置的内部功能和结构,该系统可实现为一种电子设备。图4为本技术提供的电子设备实施例的结构示意图。如图4所示,该电子设备包括存储器41和处理器42。
79.存储器41,用于存储程序。除上述程序之外,存储器41还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
80.存储器41可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
81.处理器42,不仅仅局限于中央处理器(cpu),还可能为图形处理器(gpu)、现场可编辑门阵列(fpga)、嵌入式神经网络处理器(npu)或人工智能(ai)芯片等处理芯片。处理器42,与存储器41耦合,执行存储器41所存储的程序,该程序运行时执行上述实施例二的文档处理方法。
82.进一步,如图4所示,电子设备还可以包括:通信组件43、电源组件44、音频组件45、显示器46等其它组件。图4中仅示意性给出部分组件,并不意味着电子设备只包括图4所示组件。
83.通信组件43被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如wifi、3g、4g或5g,或它们的组合。在一个示例性
实施例中,通信组件43经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件43还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
84.电源组件44,为电子设备的各种组件提供电力。电源组件44可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
85.音频组件45被配置为输出和/或输入音频信号。例如,音频组件45包括一个麦克风(mic),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器41或经由通信组件43发送。在一些实施例中,音频组件45还包括一个扬声器,用于输出音频信号。
86.显示器46包括屏幕,其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅检测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
87.本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
88.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1