信息清单的对齐方法、装置、存储介质和电子设备与流程

文档序号:27491087发布日期:2021-11-22 14:29阅读:70来源:国知局
信息清单的对齐方法、装置、存储介质和电子设备与流程

1.本公开涉及计算机技术领域,更具体地,涉及一种信息清单的对齐方法、信息清单的对齐装置、计算机存储介质和电子设备。


背景技术:

2.随着计算机技术领域的发展,许多行业已经逐渐由计算机替代人工来处理业务,实现高效的自动化业务处理流程。在很多场景下,计算机也可辅助人工来完成工作,例如通过ocr(optical character recognition,文字识别)进行图像文字识别,信息清单明细是业务处理必不可少的参考资料,能否从信息清单明细中准确识别所需数据又影响整个业务处理的处理效率。
3.相关技术中,在对各类图像资料进行ocr识别的过程中,由于图像资料质量较差(例如存在图像扭曲、歪斜或模糊等),导致计算机无法准确识别图像中各项目,造成图像中信息清单明细项目之间难以对齐,例如因项目名称存在多行打印情况导致的项目名称和对应的属性信息错行对不齐,而信息清单明细中往往又包括众多文字信息,明细之间对不齐极大影响了信息提取效率,进而降低了工作效率。
4.需要说明的是,在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

5.本公开的目的在于提供一种信息清单的对齐方法及装置、计算机存储介质和电子设备,进而至少在一定程度上避免了因图像质量差而导致的信息清单明细难以对齐等问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
7.根据本公开的一个方面,提供一种信息清单的对齐方法,包括:对信息清单进行文字信息提取处理,确定所述信息清单中的基准对象文本框和对应的检测对象文本框,其中所述检测对象文本框的行数大于所述基准对象文本框的行数;在所述基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框;将所述待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象文本框的行数相同并进行对齐。
8.在本公开的一种示例性实施例中,所述在所述基准对象文本框和对应的检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框,包括:在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心及各所述基准对象文本框所属第一聚类中心的类别,所述第一聚类中心对应不同的行数;在所
述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心及各所述检测对象所属的第二聚类中心的类别,所述第二聚类中心对应漏检与未漏检;根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框。
9.在本公开的一种示例性实施例中,所述在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心,包括:在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到多个候选第一聚类中心,分别与预设的行数对应;依次计算每两个候选第一聚类中心之间的第一中心距离,并将第一中心距离小于第一距离阈值所对应的两个候选第一聚类中心进行合并,得到所述第一聚类中心。
10.在本公开的一种示例性实施例中,所述在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心,包括:在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到两个候选第二聚类中心;计算两个候选第二聚类中心之间的第二中心距离,并在第二中心距离小于第二距离阈值时将所述两个候选第二聚类中心进行合并,得到所述第二聚类中心。
11.在本公开的一种示例性实施例中,所述根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框,包括:遍历各所述基准对象文本框,确定各所述基准对象文本框所属的第一聚类中心的类别;从所述基准对象文本框中筛选出具有目标类别的目标基准文本框,所述目标类别的行数至少为2;获取与所述目标基准文本框对应的候选检测对象文本框,并确定所述候选检测对象文本框所属的第二聚类中心的类别;根据所述候选检测对象文本框所属的第二聚类中心的类别,从所述候选检测对象文本框中确定待对齐文本框。
12.在本公开的一种示例性实施例中,所述根据所述候选检测对象文本框所属的第二中心的类别,从所述候选检测对象文本框中确定待对齐文本框,包括:若所述候选检测对象文本框所属的第二聚类中心的类别为未漏检,则所述候选检测对象文本框为待对齐文本框。
13.在本公开的一种示例性实施例中,所述根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框,包括:遍历各所述基准对象文本框,确定各所述基准对象文本框所属的第一聚类中心的类别;从所述基准对象文本框中筛选出具有目标类别的目标基准文本框,所述目标类别的行数至少为2;将所述目标基准文本框对应的多个检测对象文本框确定为候选检测对象文本框,各所述候选检测对象文本框位于同一列;获取最末位与次末位候选检测对象文本框中检测对象字符长度的差值;若存在所述差值小于长度阈值的,则将各所述候选检测对象文本框确定为待对齐文本框。
14.根据本公开的一个方面,提供一种信息清单的对齐装置,所述装置包括:
15.信息提取模块,用于对信息清单进行文字信息提取处理,确定所述信息清单中的基准对象文本框和对应的检测对象文本框,其中所述检测对象文本框的行数大于所述基准对象文本框的行数;聚类处理模块,用于在所述基准对象文本框和检测对象文本框中,分别
计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框;合并模块,用于将所述待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象的行数相同并进行对齐。
16.根据本公开的一个方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的信息清单的对齐方法。
17.根据本公开的一个方面,提供一种电子设备,包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任一项所述的信息清单的对齐方法。
18.本公开的示例性实施例中的信息清单的对齐方法,通过提取信息清单中的基准对象文本框和检测对象文本框,采用行间距聚类算法,对相邻文本框之间的距离值进行聚类处理,根据聚类处理结果从检测对象文本框中筛选出待对齐文本框,以将待对齐文本框中的检测对象进行合并处理,从而使检测对象文本框与对应的基准对象文本框具有相同的行数进行对齐。采用行间距聚类算法分别对基准对象文本框和检测对象文本框进行聚类处理,以基准对象文本框为参考对象,基于聚类处理结果从检测对象中确定待对齐文本框,过程中不会被图像拍摄质量低影响,解决了低拍摄质量下信息清单中项目明细难以对齐的问题;将具有多行打印的检测对象合并处理,并与对应的基准对象按照行进行对齐,输出结构化信息清单,方便后续通过ocr技术识别信息清单或者人工从信息清单中提取信息,极大减轻人的工作量,提高业务的处理效率,有利于实现业务处理流程的自动化。
19.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
20.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
21.图1示出了根据本公开示例性实施例的信息清单的对齐方法的流程图;
22.图2示出了根据本公开示例性实施例的信息清单文本框检测结果示意图;
23.图3示出了根据本公开示例性实施例的采用行间距聚类算法对基准对象文本框和检测对象文本框进行聚类处理,并根据聚类处理结果确定待对齐文本框的流程图;
24.图4示出了根据本公开示例性实施例的根据本公开示例性实施例的文本框行间距示意图;
25.图5示出了根据本公开示例性实施例的根据基准对象文本框所属的第一聚类中心的类别和检测对象所述的第二聚类中心的类别确定待对齐文本框的流程图;
26.图6示出了根据本公开示例性实施例的检测对象存在漏检情况的示意图;
27.图7示出了根据本公开示例性实施例的信息清单的对齐装置的结构示意图;
28.图8示出了根据本公开示例性实施例的存储介质的示意图;以及
29.图9示出了根据本公开示例性实施例的电子设备的框图。
30.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
31.现在将参考附图更全面地描述示例性实施方式。然而,示例性实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例性实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
32.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免模糊本公开的各方面。
33.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
34.很多行业,例如银行、证券公司、保险公司、信托投资公司和基金管理公司等,在业务处理工作中往往涉及很多信息清单,并且需要从信息清单中核实或获取相关数据,以保险行业为例,费用清单是理赔作业流程中必不可少的一项资料,该资料中包括众多文字信息,理赔作业人员在进行理赔作业时需要将费用清单上所有有关医疗项目名称及对应的属性项进行全量精准录入,而客户拍摄的费用清单往往质量较差,例如存在图像扭曲、歪斜、项目名称多行打印、文字模糊漏检等情况,从而导致费用清单明细之间难以很好对齐,影响对这些信息清单的ocr识别准确性或信息提取效率,这极大影响了理赔作业的处理时效,降低用户体验。
35.基于此,在本公开示例性实施例中,首先提供了一种信息清单的对齐方法。参考图1所示,该信息清单的对齐方法包括以下步骤:
36.步骤s110:对信息清单进行文字信息提取处理,确定所述信息清单中的基准对象文本框和对应的检测对象文本框;
37.步骤s120:在所述基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框;
38.步骤s130:将所述待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象文本框的行数相同并进行对齐。
39.根据本示例实施例中的信息清单的对齐方法,采用行间距聚类算法分别对基准对象文本框和检测对象文本框进行聚类处理,以基准对象文本框为参考对象,基于聚类处理结果从检测对象中确定待对齐文本框,过程中不会被图像拍摄质量低影响,解决了低拍摄质量下信息清单中项目明细难以对齐的问题;将具有多行打印的检测对象合并处理,并与对应的基准对象按照行进行对齐,输出结构化信息清单,方便后续通过ocr技术识别信息清单或者人工从信息清单中提取信息,极大减轻人的工作量,提高业务的处理效率,有利于实现业务处理流程的自动化。
40.下面结合图1对本公开示例性实施例中的信息清单的对齐方法进行说明。
41.在步骤s110中,对信息清单进行文字信息提取处理,确定信息清单中的基准对象文本框和对应的检测对象文本框。
42.在本公开的示例性实施例中,信息清单中通常存在具有多行打印的对象,例如费用清单中的项目名称,相应的,在信息清单中往往也存在不会出现多行打印的对象,例如费用清单中的金额、数量/单位等,本公开将不会出现多行打印的对象作为基准对象,需要进行多行合并处理的对象作为检测对象,以基准对象为参考对检测对象具有多行打印情况进行识别并进行合并处理,因此,本公开中检测对象文本框的行数大于基准对象文本框的行数。对信息清单进行文字信息提取处理的过程如下:
43.首先,通过文字检测模型,如ctpn(connectionist text proposal network,基于连接预选框网络的文字检测)、east(an efficient and accurate scene text detector,文本检测网络)和实例分割网络pa

net、db

net等,从信息清单图像中确定信息清单中的文本框(包括基准对象文本框和检测对象文本框)的位置;然后,基于文字识别模型(如crnn(convolutional recurrent neural network,一种卷积神经网络)等)获取文本框中的文字信息(包括基准对象和检测对象),从而得到信息清单的文字条;然后,采用训练好的knn(k

nearest neighbors,最邻近结点算法)模型对得到的每个文本框进行分类,使每个基准对象和检测对象与对应的文本框匹配,也就是从得到的文字条中识别基准对象文本框和检测对象文本框的过程。其中,训练knn模型是通过输入没有标签的数据特征,提取新数据特征并与测试集中的每个数据特征进行比较,然后从测试集中提取其他k个最邻近的数据特征标签,统计这k个最邻近数据中出现次数最多的分类,将其作为新的数据类别,本公开通过选取文本条中的特征及类别(包括检测对象和基准对象)形成测试集,对knn模型进行训练。
44.图2示出了根据本公开示例性实施例的信息清单文本框检测结果示意图,如图2所示,通过对信息清单进行文字信息提取处理,得到基准对象文本框和检测对象文本框,且由于检测对象文本框存在多行打印情况,检测对象文本框的行数大于基准对象文本框的行数。
45.在步骤s120中,在基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从检测对象文本框中筛选出待对齐文本框。
46.在本公开的示例性实施例中,采用行间距聚类算法,分别对基准对象文本框和检测对象文本框进行聚类处理;其中,聚类算法属于无监督学习方法,根据样本之间的距离或亲疏性,把越相似、差异越小的样本聚成一簇,最后形成多个簇,使同一簇内部的样本相似度高,不同簇之间差异性高。本公开中待对齐文本框为检测对象文本框中存在多行打印情况的文本框,通过将待对齐文本框中具有多行打印的检测对象进行合并处理,使检测对象文本框的行数与对应的基准对象文本框的行数相同,例如使检测对象“婴幼儿医用一次性口罩”与对应的基准对象“0.1元/个”的文本框的行数相同且对应。
47.图3示出了根据本公开示例性实施例的采用行间距聚类算法对基准对象文本框和检测对象文本框进行聚类处理,并根据聚类处理结果确定待对齐文本框的流程图,如图3所示,该过包括如下步骤:
48.在步骤s310中,在基准对象文本框中,计算相邻文本框之间的第一距离,并对第一
距离进行聚类处理,得到第一聚类中心及各基准对象所属的第一聚类中心的类别。
49.在本公开的示例性实施例中,第一聚类中心分别对应不同的行数(如1行、2行、3行等),最终得到的第一聚类中心的数量和类别是由基准对象文本框的聚类处理结果决定的,本公开相邻文本框之间距离为相邻文本框中心点之间的距离,参见图4示出了根据本公开示例性实施例的文本框行间距示意图,相邻文本框中心点之间的距离如图4中的h1、h2、h3等。
50.具体的,首先在基准对象文本框中,计算相邻文本框之间的第一距离,并对第一距离进行聚类处理,得到多个候选第一聚类中心,相应的,也得到各基准对象文本框属于哪个聚类中心;其次,依次计算每两个候选第一聚类中心之间的第一中心距离,并将第一中心距离大于第一距离阈值所对应的两个候选第一聚类中心进行合并,得到具有第一目标数量的第一聚类中心。其中,第一中心距离可以为两个候选第一聚类中心之间的欧式距离、曼哈顿距离、余弦距离或切比雪夫距离等,本公开包括但不限于上述第一中心距离的计算方式;第一距离阈值可以根据实际情况设定,包括但不限于8、10、12,等等,本公开对此不做特殊限定。
51.举例而言,以基准对象为金额,检测对象为项目名称对基准对象文本框的聚类处理过程进行详述:
52.首先,逐行计算金额类文本框中心之间的距离,得到第一距离列表[h1,h2,...,h
n
],如图4所示;然后对该距离列表中的距离值进行聚类处理,根据需求将第一聚类中心的数量设置为3,分别对应单行打印、两行打印和三行打印,得到候选第一聚类中心列表centroids以及距离列表中每个元素归属哪个候选第一聚类中心;其次,依次计算每两个候选第一聚类中心centroids之间的第一中心距离,并将第一中心距离值小于第一距离阈值8的进行合并处理,得到最终的第一聚类中心。
[0053]
例如,候选第一聚类中心列表centroids=[10,13,14],分别对应三行打印,两行打印和单行打印,由于13

10=3<8,需合并两个候选第一聚类中心,14

13=1<8,需合并两个候选第一聚类中心,合并后的第一聚类中心centroids=[14],说明该信息清单中金额只存在单行打印的情况。
[0054]
又如,候选第一聚类中心列表centroids=[10,13,28],分别对应三行打印,两行打印和单行打印,由于13

10=3<8,需合并两个候选第一聚类中心,而28

13=15>8,则保留两个候选第一聚类中心,合并后的第一聚类中心centroids=[13,28],分别对应两行、单行打印的情况,即信息清单中金额存在两行、单行打印的情况。
[0055]
再如,候选第一聚类中心列表centroids=[13,28,55],分别对应单行、两行和三行打印,由于28

13=15>8,需保留两个候选第一聚类中心,55

28=27>8,需保留两个候选第一聚类中心,最终的第一聚类中心centroids=[13,28,55],分别对应单行、两行、三行打印的情况,即信息清单中金额存在单行、两行、三行打印的情况。
[0056]
在步骤s320中,在检测对象文本框中,计算相邻文本框之间的第二距离,并对第二距离进行聚类处理,得到第二聚类中心及各检测对象文本框所属的第二聚类中心的类别。
[0057]
在本公开的示例性实施例中,根据实际需求设置第二聚类中心的初始数量为2,分别对应漏检与未漏检。具体的,首先在检测对象文本框中,计算相邻文本框之间的第二距离,并对第二距离进行聚类处理,得到两个候选第二聚类中心;计算两个候选第二聚类中心
之间的第二中心距离,并在第二中心距离小于第二距离阈值时将两个候选第二聚类中心进行合并,得到第二聚类中心,其中第二中心距离也可以为候选第二聚类中心之间的欧式距离、曼哈顿距离、余弦距离或切比雪夫距离等,本公开包括但不限于上述第二中心距离的计算方式,第二距离阈值也可根据实际需求设定,本公开对此也不做特殊限定。
[0058]
需要说明的是,基于第二中心距离对候选第二聚类中心进行合并的处理过程参见上述对候选第一聚类中心进行合并的示例,本公开对此不再赘述。
[0059]
在步骤s330中,根据各基准对象文本框所属第一聚类中心的类别和/或各检测对象文本框所属第二聚类中心的类别,从检测对象文本框中筛选出待对齐文本框。
[0060]
在本公开的示例性实施例中,基准对象在信息清单中通常不会存在多行打印的情况,而在对基准对象文本框进行聚类处理后,得到基准对象文本框多行的情况,则说明该基准对象文本框对应的检测对象存在多行打印。例如由于金额在信息清单打印时并不会存在多行打印情况,而在对金额对应的文本框聚类处理后,得了金额多行的情况,则说明该金额文本框对应的项目名称具有多行打印的情况,例如参见图4,基准对象“0.1元/个”文本框所对应的检测对象“婴幼儿医院一次性口罩”文本框为两行打印情况。
[0061]
图5示出了根据本公开示例性实施例的根据基准对象文本框所属的第一聚类中心的类别和检测对象所属的第二聚类中心的类别确定待对齐文本框的流程图,如图5所示,该过程包括如下步骤:
[0062]
在步骤s510中,遍历各基准对象文本框,确定各基准对象文本框所属的第一聚类中心的类别;在步骤s520中,从基准对象文本框中筛选出具有目标类别的目标基准文本框,为了以基准对象为参考筛选出具有多行打印的检测对象,基础对象文本框所属第一聚类中心的目标类别的行数至少为2,即从基础对象文本框中确定出具有多行打印的文本框(例如2行,3行,4行打印的);在步骤s530中,获取与目标基准文本框对应的候选检测对象文本框,并确定候选检测对象文本框所属的第二聚类中心的类别,该过程是在具有多行打印的基础对象文本框所对应的候选检测对象文本框中,再次判断各候选检测对象文本框的类别;在步骤s540中,若候选检测对象对应的第二聚类中心的类别为未漏检,则该候选检测对象文本框为待对齐文本框。
[0063]
需要说明的是,当候选检测对象文本框中存在漏检的情况时,通常对应的基准对象文本框之间会存在较大间距,但此时并不能将候选待检测对象文本框中的检测对象按照多行的情况进行合并,参见图6所示,在基准对象文本框“12元/个”为两行打印时,对应的候选检测对象文本框存在漏检情况,若此时不考虑漏检的存在,则将候选检测对象文本框“一次性使用面罩”和候选检测对象文本框“微纤维止血胶原”进行合并,事实上应该合并的是候选检测对象文本框“一次性使用面罩”和漏检的“瑞京科技国产”,因此,只有在候选检测对象对应的第二聚类中心的类别为未漏检时,才将该候选检测对象文本框作为待对齐文本框。
[0064]
在步骤s130中,将待对齐文本框中的检测对象进行合并处理,使检测对象文本框的行数与对应的基准对象文本框的行数相同并进行对齐。
[0065]
在本公开的示例性实施例中,通过将待对齐文本框中的检测对象进行合并,使得检测对象文本框的行数等于对应的基准对象文本框的行数,参见图6,若检测对象文本框“瑞京科技国产”为未漏检,则检测对象文本框“一次性使用面罩”和“瑞京科技国产”为待对
齐文本框,那么将“一次性使用面罩”与“瑞京科技国产”进行合并,得到的检测对象文本框“一次性使用面罩瑞京科技国产”,此时就与对应的基准对象文本框“12元/个”行数相同且对应;最后将检测对象文本框与基准对象文本框进行行对齐。
[0066]
此外,由于检测对象文本框的行数大于基准对象文本框的行数,因此可能存在最后一个与基准对象文本框对应的检测对象文本框下,还存在检测对象文本框(参见图6中检测对象文本框“海绵”“国产”),这类检测对象文本框是否为待对齐文本框,也可以根据各基准对象文本框所属第一聚类中心的类别和/或各检测对象文本框所属第二聚类中心的类别进行筛选,具体可以通过如下步骤实现:
[0067]
首先,遍历各基准对象文本框,确定各基准对象文本框所属的第一聚类中心的类别;其次,从基准对象文本框中筛选出具有目标类别的目标基准文本框,目标类别的行数至少为2;接着,将目标基准文本框对应的多个检测对象文本框确定为候选检测对象文本框,各候选检测对象文本框位于同一列;然后,获取最末位与次末位候选文本框中检测对象字符长度的差值,若存在差值小于长度阈值(根据实际情况设定)的,则将各候选检测对象文本框确定为待对齐文本框,通过该过程能判断处于最末位的检测对象文本框是否存在多行打印的情况,避免检测对象文本框中多行打印情况的遗漏,继续参见图6,可以将检测对象文本框“(海绵)”“国产”与检测对象文本框“微纤维止血胶原”合并,得到“微纤维止血胶原(海绵)国产”并与位于最末位的基准对象文本框对齐。
[0068]
根据本示例实施例中的信息清单的对齐方法,采用行间距聚类算法分别对基准对象文本框和检测对象文本框进行聚类处理,以基准对象文本框为参考对象,基于聚类处理结果从检测对象中确定待对齐文本框,过程中不会被图像拍摄质量低影响,解决了低拍摄质量下信息清单中项目明细难以对齐的问题;将具有多行打印的检测对象合并处理,并与对应的基准对象按照行进行对齐,输出结构化信息清单,方便后续通过ocr技术识别信息清单或者人工从信息清单中提取信息,极大减轻人的工作量,提高业务的处理效率,有利于实现业务处理流程的自动化。
[0069]
此外,在本公开的示例性实施例中,还提供了一种信息清单的对齐装置。参考图7所示,该信息清单的对齐装置700可以包括信息提取模块710、聚类处理模块720以及合并模块730。具体地,
[0070]
信息提取模块710,用于对信息清单进行文字信息提取处理,确定信息清单中的基准对象文本框和对应的检测对象文本框,其中检测对象文本框的行数大于基准对象文本框的行数;
[0071]
聚类处理模块720,用于在基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从检测对象文本框中筛选出待对齐文本框;
[0072]
合并模块730,用于将待对齐文本框中的检测对象进行合并处理,使检测对象文本框的行数与对应的基准对象的行数相同并进行对齐。
[0073]
在本公开的一示例性实施例中,聚类处理模块620还可以包括:
[0074]
第一聚类处理单元,用于在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心及各所述基准对象文本框所属第一聚类中心的类别,所述第一聚类中心对应不同的行数;
[0075]
第二聚类处理单元,用于在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心及各所述检测对象文本框所属第二聚类中心的类别,所述第二聚类中心对应漏检与未漏检;
[0076]
筛选单元,用于根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框。
[0077]
在本公开的一示例性实施例中,聚类处理模块620还可以包括:
[0078]
第一距离计算单元,用于在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到多个候选第一聚类中心,分别与预设的行数对应;
[0079]
第一合并单元,用于依次计算每两个候选第一聚类中心之间的第一中心距离,并将第一中心距离小于第一距离阈值所对应的两个候选第一聚类中心进行合并,得到所述第一聚类中心。
[0080]
在本公开的一示例性实施例中,聚类处理模块620还可以包括:
[0081]
第二距离计算单元,用于在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到两个候选第二聚类中心;
[0082]
第二合并单元,用于计算两个候选第二聚类中心之间的第二中心距离,并在第二中心距离小于第二距离阈值时将所述两个候选第二聚类中心进行合并,得到所述第二聚类中心。
[0083]
在在本公开的一示例性实施例中,合并模块630还可以包括:
[0084]
第一类别确定单元,用于遍历各所述基准对象文本框,确定各所述基准对象文本框所属的第一聚类中心的类别;
[0085]
目标基准文本框筛选单元,用于从所述基准对象文本框中筛选出具有目标类别的目标基准文本框,所述目标类别的行数至少为2;
[0086]
第二类别确定单元,用于获取与所述目标基准文本框对应的候选检测对象文本框,并确定所述候选检测对象文本框所属的第二聚类中心的类别;
[0087]
待对齐文本框确定单元,用于根据所述候选检测对象文本框所属的第二聚类中心的类别,从所述候选检测对象文本框中确定待对齐文本框。
[0088]
在在本公开的一示例性实施例中,若所述候选检测对象文本框所属的第二聚类中心的类别为未漏检,则所述候选检测对象文本框为待对齐文本框。
[0089]
在在本公开的一示例性实施例中,合并模块630还可以包括:
[0090]
合并单元,用于将所述待对齐文本框中除了最末位之外的待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象文本框的行数相同;
[0091]
对齐单元,用于将所述检测对象文本框与所述基准对象文本框进行行对齐。
[0092]
在本公开的一示例性实施例中,聚类处理模块620还可以包括:
[0093]
第一类别确定单元,用于遍历各所述基准对象文本框,确定各所述基准对象文本框所属的第一聚类中心的类别;
[0094]
筛选单元,用于从所述基准对象文本框中筛选出具有目标类别的目标基准文本框,所述目标类别的行数至少为2;
[0095]
候选检测对象确定单元,用于将所述目标基准文本框对应的多个检测对象文本框确定为候选检测对象文本框,各所述候选检测对象文本框位于同一列;
[0096]
差值获取单元,用于获取最末位与次末位候选检测对象文本框中检测对象字符长度的差值;若存在所述差值小于长度阈值的,则将各所述候选检测对象文本框确定为待对齐文本框。
[0097]
在本公开的一示例性实施例中,信息提取单元还可以包括:
[0098]
文字条提取单元,用于从信息清单图像中提取所述信息清单的文字条;
[0099]
文本框识别单元,用于从所述文字条中识别所述基准对象文本框和检测对象文本框。
[0100]
由于本公开的示例性实施例的信息清单的对齐装置的各个功能模块与上述信息清单的对齐方法的发明实施例中相同,因此在此不再赘述。
[0101]
应当注意,尽管在上文详细描述中提及了信息清单的对齐装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0102]
此外,在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
[0103]
参考图8所示,描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd

rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0104]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0105]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0106]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0107]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序
代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0108]
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
[0109]
下面参照图9来描述根据本公开的这种实施例的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0110]
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。
[0111]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
[0112]
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(rom)9203。
[0113]
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0114]
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0115]
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0116]
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施
例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
[0117]
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0118]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0119]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1