图像校正方法、装置和服务器与流程

文档序号：27007515发布日期：2021-10-19 22:56阅读：108来源：国知局

1.本说明书属于人工智能技术领域，尤其涉及图像校正方法、装置和服务器。

背景技术：

2.在一些业务办理场景中，客户往往需要填写相关的文本文件(例如，开户申请文件等)，并提供给业务办理人员。业务办理人员会先拍摄包含有文本文件的图像，再对该图像进行图像识别(例如，ocr光学字符识别)，以提取出相关的文本信息，进行数据录入。但是，受拍摄方式、拍摄设备、拍摄环境等因素的影响，业务办理人员拍摄得到的用于后续ocr识别的图像往往还会存在线性畸变，影响后续ocr识别的精度。
3.基于现有的图像校正方法，通常需要先确定出图像中文本轮廓的边缘角点，再依赖文本轮廓的边缘角点进行线性畸变的校正。
4.但是，上述方法在具体实施时要求图像中文本轮廓必须是完整的。而在许多线性畸变场景中，文本轮廓的边缘也可能存在遗失，导致基于现有的图像校正方法无法精准、有效地实现针对线性畸变的校正处理。
5.针对上述问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本说明书提供了一种图像校正方法、装置和服务器，可以有效地适用于多种不同类型的线性畸变场景，能够精准、高效地消除目标图像中的线性畸变，得到效果较好的校正后的目标图像。
7.本说明书实施例提供的一种图像校正方法，包括：
8.获取包含有目标文本的目标图像；
9.对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；
10.根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；
11.根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
12.在一些实施例中，所述目标文本包括以下至少之一：合同文本、开户申请书文本、收据文本。
13.在一些实施例中，对所述目标图像进行预设的特征处理，以得到目标特征集，包括：
14.根据所述目标图像，建立关于目标图像的高斯金字塔；
15.确定并根据所述高斯金字塔中相邻层图像之间的像素值的变化数据，生成相应的差分图像，以构建对应的高斯差分金字塔；
16.根据所述高斯差分金字塔，筛选出不同差分图像之间的相同特征，作为稳定特征，以建立所述目标特征集。
17.在一些实施例中，根据所述目标图像，建立关于目标图像的高斯金字塔，包括：
18.利用基于高斯金字塔尺度空间模型的sifi算法对目标图像进行特征提取，并通过进行降阶采样，以得到多个不同尺度的图像；
19.调用预设的高斯核函数，对所述多个不同尺度的图像进行滤波处理，以得到关于目标图像的高斯金字塔。
20.在一些实施例中，根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集，包括：
21.调用预设的搜索算法处理所述目标特征集和参照特征集，从所述目标特征集和参照特征集中分别搜索出相似度符合要求的目标特征和参照特征组合成对应的匹配特征对，以得到所述匹配特征集。
22.在一些实施例中，所述预设的搜索算法包括：快速最近邻搜索算法。
23.在一些实施例中，根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集，包括：
24.调用预设的搜索算法处理所述目标特征集和参照特征集，从所述参照特征集中搜索出与目标特征集中的目标特征相似度最高的两个参照特征进行组合，得到多个初始匹配特征对；其中，所述初始匹配特征对包括一个目标特征和两个参照特征；
25.计算初始匹配特征对中的两个参照特征与目标特征之间的相似度距离；
26.根据所述初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，建立相应的有效匹配特征对，以得到所述匹配特征集。
27.在一些实施例中，根据所述初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，建立相应的有效匹配特征对，包括：
28.按照以下方式根据当前初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，建立当前有效匹配特征对：
29.根据当前初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，计算相似度距离的比值；
30.检测所述相似度距离的比值是否大于预设的第一阈值，或小于预设的第二阈值；其中，预设的第一阈值大于预设的第二阈值；
31.在确定所述相似度距离的比值大于预设的第一阈值，或小于预设的第二阈值的情况下，从两个参照特征中筛选出与目标特征之间的相似度距离小的参照特征，与目标特征组合，作为对应的有效匹配特征对。
32.在一些实施例中，在检测所述相似度距离的比值是否大于预设的第一阈值，或小于预设的第二阈值之后，所述方法还包括：
33.在确定所述相似度距离的比值小于等于预设的第一阈值，且大于等于预设的第二阈值的情况下，剔除当前初始匹配特征对。
34.在一些实施例中，根据所述匹配特征集，对所述目标图像进行图像校正处理，包括：
35.根据所述匹配特征集，通过数据拟合得到由目标图像映射到参照图像的单应性矩
阵；
36.利用所述单应性矩阵，对所述目标图像进行线性变换处理。
37.在一些实施例中，在根据所述匹配特征集，对所述目标图像进行图像校正之后，所述方法还包括：
38.根据与目标文本匹配的目标版式规则，对所述校正后的目标图像进行切片，得到多个切片图像；
39.对所述多个切片图像分别进行图像识别，以获取目标文本信息。
40.本说明书实施例还提供了一种图像校正装置，包括：
41.获取模块，用于获取包含有目标文本的目标图像；
42.处理模块，用于对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；
43.匹配模块，用于根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；
44.校正模块，用于根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
45.本说明书实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：获取包含有目标文本的目标图像；对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
46.本说明书实施例还提供了一种计算机存储介质，其上存储有计算机指令，所述指令被执行时实现：获取包含有目标文本的目标图像；对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
47.本说明书提供的一种图像校正方法、装置和服务器，具体实施前，可以预先根据包含有参照文本的标准的参照图像，通过进行预设的特征处理，构建得到对应的参照特征集；具体实施时，可以先对包含有目标文本的待处理的目标图像进行预设的特征处理，提取出对于线性变换具有较好的稳定性的稳定特征，以构建得到相应的目标特征集；再根据目标特征集和参照特征集，通过特征匹配，得到包含有多个匹配特征对的匹配特征集；并利用上述匹配特征集对目标图像进行图像校正处理。从而可以有效适用于多种不同类型的线性畸变场景(包括文本轮廓的边缘不完整的场景)，精准、高效地消除目标图像中的线性畸变，得到效果较好的校正后的目标图像；进而后续可以基于上述校正后的目标图像，更加准确地进行ocr识别，提高ocr识别精度，得到误差相对较小的目标文本信息。
附图说明
48.为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
49.图1是应用本说明书实施例提供的图像校正方法的系统的结构组成的一个实施例的示意图；
50.图2是在一个场景示例中，应用本说明书实施例提供的图像校正方法的一种实施例的示意图；
51.图3是在一个场景示例中，应用本说明书实施例提供的图像校正方法的一种实施例的示意图；
52.图4是本说明书的一个实施例提供的图像校正方法的流程示意图；
53.图5是本说明书的一个实施例提供的服务器的结构组成示意图；
54.图6是本说明书的一个实施例提供的图像校正装置的结构组成示意图；
55.图7是在一个场景示例中，应用本说明书实施例提供的图像校正方法的一种实施例的示意图。
具体实施方式
56.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。
57.本说明书实施例提供一种图像校正方法，所述图像校正方法具体可以应用于包含有服务器和终端设备的系统中。具体可以参阅图1所示。其中，服务器和终端设备可以通过有线或无线的方式相连，以进行具体的数据交互。
58.在本实施例中，所述服务器具体可以包括一种应用于网络平台一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述服务器所包含的服务器数量。所述服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。
59.在本实施例中，所述终端设备具体可以包括一种应用于用户一侧，内置或外连接有摄像头，能够实现数据采集、数据传输等功能的前端电子设备。具体的，所述终端设备例如可以为智能手机、监控器、连接有摄像头的电脑等。或者，所述终端设备也可以为能够运行于上述电子设备中的软件应用。例如，可以是在智能手机上运行的某监控app等。
60.在本实施例中，针对银行业务办理场景，上述终端设备具体可以是布设于银行业务办理大厅的柜面附近的监控摄像头，上述服务器具体可以是该银行数据中心网络平台的云端服务器。当前客户准备在该银行办理开户业务。
61.具体的，当前该客户可以在银行工作人员的引导下，填写完具体的开户申请书，并
将该开户申请书的纸质文本提供给银行工作人员。
62.相应的，银行工作人员在接收到该客户提供的开户申请书之后，可以先利用监控摄像头拍摄该开户申请书，得到包含有该开户申请书文本(作为目标文本)的目标图像。
63.监控摄像头可以通过有线或无线的方式将上述目标图像发送至云端服务器，以便云端服务器后续可以对该目标图像进行针对性的ocr识别，提取出开户申请书中银行所关注的目标文本信息，进行电子存档。
64.可以参阅图2所示。由于监控摄像头拍摄角度、开户申请书的摆放位置等因素的影响，导致监控摄像头直接拍摄得到的目标图像中的开户申请书文本出现了一定程度的旋转，导致存在线性畸变。而这类线性畸变又会对后续的ocr识别的识别精度造较大成影响。
65.因此，为了能够提高后续的ocr识别精度，云端服务器在接收到监控摄像头所发送的目标图像之后，可以先对该目标图像进行图像校正，以消除目标图像中的线性畸变。
66.具体进行图像校正时，云端服务器可以对目标图像进行预设的特征处理，以得到对应的目标特征集。
67.具体的，云端服务器首先可以利用基于高斯金字塔尺度空间模型的sifi算法对目标图像进行特征提取，并通过进行降阶采样，以得到多个不同尺度的图像；并调用预设的高斯核函数，对所述多个不同尺度的图像进行滤波处理，以得到关于目标图像的高斯金字塔。其中，上述预设的高斯核函数具体可以是指一种平滑系数(方差)逐渐变大的，具有尺度不变特性的高斯核函数。
68.接着，云端服务器可以计算并根据上述高斯金字塔中相邻层图像之间的像素值的变化数据，逐层生成对应的差分图像，以构建得到相应的高斯差分金字塔。其中，上述高斯差分金字塔中的每一个差分图像包含有目标图像开户申请书文本的较为全面、丰富的边缘特征。
69.然后，云端服务器可以根据该高斯差分金子塔，筛选出多个(例如，4个)不同差分图像之间的相同特征(例如，共性特征)，作为能够在不同尺度下保持稳定性的稳定特征；并组合上述多个稳定特征，得到相应的目标特征集。
70.在得到目标特征集之后，云端服务器可以根据所述目标特征集、参照特征集，通过特征匹配，得到相应的匹配特征集。
71.具体的，云端服务器可以先检测并确定出目标图像中所包含的目标文本为开户申请书文本；再找到与开户申请书文本匹配的参照特征集。其中，上述参照特征集为预先基于包含有参照文本的参照图像通过预设的特征处理所得到的特征集；上述参照文本具体可以是开户申请书文本；上述参照图像具体可以是包含有开户申请书文本的，且不存在线性畸变的图像；上述参照特征集具体可以包含有基于参照图像所得到的多个稳定特征。
72.接着，云端服务器可以调用预设的搜索算法(例如，快速最近邻搜索算法)，搜索所述参照特征集，以从参照特征集中找出与目标特征集中所包含的各个稳定特征(可以记为目标特征：ri)相似度最高的两个特征作为参照特征，分别记为：fi_t1、fi_t2。其中，fi_t1与ri的相似度高于fi_t2与ri的相似度。并将目标特征ri与对应的两个参照特征fi_t1、fi_t2组合，得到一个初始匹配特征对，可以表示为：(fi_t1
‑
ri
‑
fi_t2)。这样，云端服务器可以通过调用预设的搜索算法处理参照特征集和目标特征集，得到多个初始匹配特征对。
73.考虑到上述多个初始匹配特征对中往往还会存在一些无效的、误差比较大的伪匹
配特征对，因此，云端服务器可以分别处理上述多个初始匹配特征对，以进一步基于上述初始匹配特征对得到相应的误差较小的有效匹配特征对，构建对应的匹配特征集。
74.以处理多个初始匹配特征对中的任意一个当前初始匹配特征对(fi_t1
‑
ri
‑
fi_t2)为例。云端服务器可以分别计算出当前初始匹配特征对中的目标特征ri，与两个参照特征(fi_t1和fi_t2)之间的相似度距离，分别记为：di_1、di_2。其中，di_1表示ri与fi_t1之间的相似度距离，di_2表示ri与fi_t2之间的相似度距离。云端服务器可以计算出上述两个相似度距离之间的相似度距离的比值为di_1/di_2；并将该相似度距离的比值与预设的第二阈值(例如，ratio_threshold)进行比较。其中，上述预设的第二阈值的数值具体可以是一个大于等于0.6且小于等于0.7的数值。
75.在通过比较，确定相似度距离的比值小于预设的第二阈值的情况下，可以判断在统计意义上，当前初始匹配特征对中两个参照特征与目标特征之间的相似度距离的差异较大，不符合伪匹配的情形。进一步，可以判断两个相似度距离中数值较小的相似度距离di_1的数值是否足够小，例如，小于预设的距离阈值。
76.在确定di_1小于预设的距离阈值的情况下，可以确定：基于当前初始匹配特征对，可以进一步提取的得到对应的有效匹配特征对。
77.具体的，可以从当前初始特征匹配对中提取出di_1所对应的参照特征fi_t1，与目标特征ri进行组合，得到对应的有效匹配特征对，记为(fi_t1
‑
ri)。
78.从而，完成对当前初始匹配特征对的处理，得到对应的有效匹配特征对；再获取并处理下一个初始匹配特征对。
79.相反，在通过比较，确定相似度距离的比值大于等于预设的第二阈值的情况下，可以判断在统计意义上，当前初始匹配特征对中两个参照特征与目标特征之间的相似度距离的差异较小，符合伪匹配的情形，可以确定：基于当前初始匹配特征对，无法进一步提取的得到对应的有效匹配特征对。
80.因此，可以从多个初始匹配特征对中剔除当前初始匹配特征对；再获取并处理下一个初始匹配特征对。
81.按照上述方式，通过处理多个初始匹配特征对，可以得到相应的多个有效匹配特征对；并组合多个有效匹配特征对，得到对应匹配特征集。
82.在得到上述匹配特征集之后，云端服务器可以根据匹配特征集，有效地利用相对更加多样、丰富的稳定特征，而不是仅依赖轮廓的边缘角点这种单一特征，对目标图像进行相应的图像校正处理。
83.具体的，云端服务器可以先根据匹配特征集，通过数据拟合，得到由目标图像映射到参照图像的单应性矩阵，可以记为h。其中，上述单应性矩阵的逆矩阵h’可以视为存在线性畸变的目标图像相对于不存在线性畸变的标准的参照图像的畸变模型。
84.此外，在进行拟合的过程中，云端服务器还可以利用ransac算法进行筛掉存在误差的干扰数据，以保证拟合的鲁棒性，提高所得到的单应性矩阵的准确度。
85.接着，云端服务器可以利用上述单应性矩阵，通过对目标图像进行线性变换处理，以消除原本目标图像中存在的线性畸变，完成对目标图像的图像校正处理，得到消除了线性畸变的校正后的目标图像。具体可以参阅图3所示。相对于原目标图像，校正后的目标图像明显已经消除了拍摄角度旋转所引入的线性畸变。
86.进一步，云端服务器可以找到与开户申请书文本匹配的预设的版式规则，作为目标版式规则。再根据目标板式规则，对校正后的目标图像进行切片，得到多个切片图像。进而云端服务器可以对上述多个切片图像分别进行针对性的ocr识别，以提取出开户申请书文本中银行所关注的与该客户相关的目标文本信息。
87.最后，云端服务器可以在该银行的客户数据库中对上述目标文本信息进行电子存档。从而完成针对该客户的完整的开户申请业务办理。
88.参阅图4所示，本说明书实施例提供了一种图像校正方法方法。其中，该方法具体应用于服务器一侧。具体实施时，该方法可以包括以下内容：
89.s401：获取包含有目标文本的目标图像；
90.s402：对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；
91.s403：根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；
92.s404：根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
93.通过上述实施例，先对目标图像进行预设的特征处理，得到包含有目标图像中关于目标文本的稳定特征的目标特征集；再利用目标特征集，和基于标准的参照图像得到的参照特征集，匹配得到包含有多个匹配特征对的匹配特征集；进而可以根据匹配特征集，有效地利用相对较为多样、丰富的稳定特征对目标图像进行校正处理。从而能够有效适用于多种不同类型的线性畸变场景(包括文本轮廓的边缘角点不全或存在遗失的场景)，精准、高效地消除目标图像中的线性畸变，得到效果较好的校正后的目标图像。
94.在一些实施例中，上述目标图像具体可以理解为一种包含有目标文本的图像数据。具体获取目标图像时，可以通过内置或外联有摄像头的设备拍摄目标文本的照片，作为目标图像。也可以通过从视频数据中截取包含有目标文本的截图，作为目标图像等。当然，上述所列举的目标图像的获取方式只是一种示意性说明。具体实施时，根据具体的应用场景，还可以采用其他合适的获取方式来获取目标图像。
95.在一些实施例中，上述目标图像具体可以是一种包含有目标文本，且存在线性畸变，待进行校正处理的图像数据。其中，上述线性畸变具体可以理解为一种经由图像采集方式所引入的图像误差。上述线性畸变会对后续目标图像的图像识别、文本信息的提取造成干扰，影响文本信息的提取的精度。
96.在一些实施例中，不同的图像采集方式所引入的线性畸变往往会存在较大的差异。具体的，上述线性畸变可以包括：在使用扫描仪、高拍仪等固定采集设备采集目标图像时，由于目标文本的摆放位置差异，所引入的表现为2d位移、2d旋转等的线性畸变；上述线性畸变还可以包括：在使用诸如手机、相机等手持采集设备采集目标图像时，由于手持采集设备的拍摄面相对于正视面的角度差异，所引入的表现为3d透视偏转的线性畸变等。
97.在一些线性畸变场景中，有时还会出现图像中文本轮廓不完整，或者文本轮廓的边缘角点存在缺失等情况。而现有方法往往需要提取并依赖图像中文本轮廓的边缘角点，来构建相应的畸变模型，对图像进行校正。针对上述线性畸变场景，现有方法显然是无法适
用的。此外，基于现有方法，针对不同的线性畸变，往往还需要分别构建不同的畸变模型来进行具体校正。即，基于现有方法，也无法构建并使用统一的畸变模型来对多种不同的线性畸变进行校正。而本说明书实施例所提供的图像校正方法可以通过有效地利用相对较为多样、丰富的稳定特征，而不是单一地依赖文本轮廓的边缘角点较好地解决上述问题。后续将具体说明。
98.在一些实施例中，上述目标文本具体可以是指一种基于套打模式的文本。具体的，所述目标文本可以包括以下至少之一：合同文本、开户申请书文本、收据文本等等。当然，需要说明的是，上述所列举的目标文本只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述目标文本还可以包含有其他类型的文本，例如，财务报表文本、简历文本、档案文本等等。对此，本说明书不作限定。
99.通过上述实施例，可以应用本说明所提供的图像校正方法有效地处理多种包含有不同目标文本的目标图像，以消除多种目标图像中的线性畸变。
100.在一些实施例中，上述目标文本进一步还可以包括：包含有文本字符的证件。具体的，可以是基于半套打模式的证件，例如，行驶证、房产证等；也可以是基于非套打模式的一次铸型的证件，例如，身份证、社保证等等。
101.在一些实施例中，上述目标特征集具体可以理解为包含有从目标图像中提取出的多个稳定特征的特征集合。其中，上述稳定特征也可以称为锚定特征，具体可以理解为对于线性变换具有较好的稳定不变性的特征。
102.具体的，对于包含有目标文本的目标图像而言，上述稳定特征可以是套打的字符或图案。可以参阅图2所示，上述稳定特征具体可以是套打的表头、套打表格中的字符、套打的标识图案(例如，相关的logo)等。
103.在一些实施例中，上述对所述目标图像进行预设的特征处理，以得到目标特征集，具体实施时，可以包括以下内容：
104.s1：根据所述目标图像，建立关于目标图像的高斯金字塔；
105.s2：确定并根据所述高斯金字塔中相邻层图像之间的像素值的变化数据，生成相应的差分图像，以构建对应的高斯差分金字塔；
106.s3：根据所述高斯差分金字塔，筛选出不同差分图像之间的相同特征，作为稳定特征，以建立所述目标特征集。
107.通过上述实施例，可以高效、准确地从目标图像中提取出对于线性变换具有较好的稳定性的稳定特征，以建立得到对应的目标特征集。
108.在一些实施例中，上述根据所述目标图像，建立关于目标图像的高斯金字塔，具体实施时，可以包括以下内容：利用基于高斯金字塔尺度空间模型的sifi算法对目标图像进行特征提取，并通过进行降阶采样，以得到多个不同尺度的图像；调用预设的高斯核函数，对所述多个不同尺度的图像进行滤波处理，以得到关于目标图像的高斯金字塔。
109.通过上述实施例，可以基于目标图像，高效、准确地构建得到包含有多个尺度图像的关于目标图像的高斯金字塔。
110.在一些实施例中，上述预设的高斯核函数具体可以是指一种平滑系数(方差)逐渐变大的，具有尺度不变特性的高斯核函数。
111.上述sifi(scale
‑
invariant feature transform，尺度不变特征变换)算法具体
可以是指一种基于尺度不变特征变换的，具有尺度不变性，可在图像中检测出关键点的局部特征描述算子。具体的，利用上述sifi算法处理图像，可以从图像中找出对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性的局部特征。
112.在一些实施例中，上述根据所述高斯差分金字塔，筛选出不同差分图像之间的相同特征，作为稳定特征，具体实施时，可以包括：根据高斯差分金字塔，可以筛选出至少预设个数个差分图像所共同包含的相同特征，作为稳定特征。其中，上述预设个数的取值具体可以是2，也可以是3，或者其他大于1的整数。
113.在一些实施例中，上述参照特征集具体可以理解为包含有从参照图像中提取出的多个稳定特征的特征集合。其中，上述参照图像具体可以是包含有参照文本，且不存在线性畸变的，可以用作参照基准的图像。上述参照文本具体可以是与目标文本具有相同的套打版式的文本。具体的，例如，在目标图像为包含有开户申请书文本的图像的情况下，上述参照图像可以为包含有开户申请书文本，且不存在线性畸变的基准图像。
114.在一些实施例中，具体实施前，可以获取包含有参照文本，且不存在线性畸变的图像作为参照图像；对所述参照图像进行预设的特征处理，以得到所述参照特征集。其中，对参照图像进行预设的特征处理的过程，可以参阅上述对目标图像进行预设的特征处理的实施例。对此，本说明书不作赘述。
115.在一些实施例中，上述根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集，具体实施时，可以包括以下内容：调用预设的搜索算法处理所述目标特征集和参照特征集，从所述目标特征集和参照特征集中分别搜索出相似度符合要求的目标特征和参照特征组合成对应的匹配特征对，以得到所述匹配特征集。
116.通过上述实施例，可以综合利用目标特征集和参照特征集，建立得到包含有目标图像和参照图像所共有的稳定特征的匹配特征集。
117.在一些实施例中，上述匹配特征集具体可以包括多个匹配特征对。其中，每一个匹配特征对包括：目标特征集中的一个稳定特征(记为目标特征)，以及参照特征集中的与该目标特征匹配的一个稳定特征(记为参照特征)。
118.在一些实施例中，上述预设的搜索算法具体可以包括：快速最近邻搜索算法。
119.通过上述实施例，利用快速最近邻搜索算法，可以相对更加高效地基于目标特征集和参照特征集搜索出相应的匹配特征对，以构建得到匹配特征集。
120.在一些实施例中，上述根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集，具体实施时，可以包括以下内容：
121.s1：调用预设的搜索算法处理所述目标特征集和参照特征集，从所述参照特征集中搜索出与目标特征集中的目标特征相似度最高的两个参照特征进行组合，得到多个初始匹配特征对；其中，所述初始匹配特征对包括一个目标特征和两个参照特征；
122.s2：计算初始匹配特征对中的两个参照特征与目标特征之间的相似度距离；
123.s3：根据所述初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，建立相应的有效匹配特征对，以得到所述匹配特征集。
124.通过上述实施例，可以先构建出初始匹配特征对，再通过计算并根据参照特征与目标特征之间的相似度距离，识别并剔除存在伪匹配的初始匹配特征对，并建立得到较为
精准、误差较小的有效匹配特征对；进而可以基于上述有效匹配特征对，构建得到精度相对更高、效果相对更好的匹配特征集。
125.在一些实施例中，上述根据所述初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，建立相应的有效匹配特征对，具体实施时，可以包括以下内容：按照以下方式根据当前初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，建立当前有效匹配特征对：
126.s1：根据当前初始匹配特征对中的两个参照特征与目标特征之间的相似度距离，计算相似度距离的比值；
127.s2：检测所述相似度距离的比值是否大于预设的第一阈值，或小于预设的第二阈值；
128.s3：在确定所述相似度距离的比值大于预设的第一阈值，或小于预设的第二阈值的情况下，从两个参照特征中筛选出与目标特征之间的相似度距离小的参照特征，与目标特征组合，作为对应的有效匹配特征对。
129.通过上述实施例，可以较为有效地利用统计特性，从多个初始匹配特征对中识别并剔除伪匹配特征对；再基于剔除后的初始匹配特征对，构建得到精度较高、误差较少的有效匹配特征对。
130.在一些实施例中，上述预设的第一阈值、预设的第二阈值具体可以是不为1的数值。具体的，上述预设的第二阈值具体可以是一个大于等于0.6且小于等于0.7的数值。上述预设的第一阈值具体可以是一个大于等于1.2且小于等于1.5的数值。当然，上述所列举的预设的第一阈值、预设的第二阈值只是一种示意性说明。具体实施时，可以根据具体情况和精度要求，灵活设置上述预设的第一阈值和预设的第二阈值。
131.在一些实施例中，在检测所述相似度距离的比值是否大于预设的第一阈值，或小于预设的第二阈值之后，所述方法具体实施时，还可以包括以下内容：在确定所述相似度距离的比值小于等于预设的第一阈值，且大于等于预设的第二阈值的情况下，剔除当前初始匹配特征对。
132.通过上述实施例，可以利用统计特性，准确地检测出伪匹配特征对，并进行剔除，以避免由于使用伪匹配特征对所引入的误差。
133.在一些实施例中，上述根据所述匹配特征集，对所述目标图像进行图像校正处理，具体实施时，可以包括以下内容：
134.s1：根据所述匹配特征集，通过数据拟合得到由目标图像映射到参照图像的单应性矩阵；
135.s2：利用所述单应性矩阵，对所述目标图像进行线性变换处理。
136.通过上述实施例，可以有效地利用匹配特征集所包含的多样且丰富的稳定特征的特性，通过对目标图像进行相应的线性变换处理来消除原目标图像中存在的线性畸变，实现对目标图像的校正，得到效果更好、精度更高的校正后的目标图像。
137.在一些实施例中，在根据所述匹配特征集，对所述目标图像进行图像校正之后，所述方法具体实施时，还可以包括以下内容：
138.s1：根据与目标文本匹配的目标版式规则，对所述校正后的目标图像进行切片，得到多个切片图像；
139.s2：对所述多个切片图像分别进行图像识别，以获取目标文本信息。
140.通过上述实施例，可以充分利用校正后的目标图像，进行较为精准的切片处理，得到多个切片图像；再通过对切片图像进行针对性的图像识别(例如，ocr识别)，可以较为准确地从目标图像中提取出所关注的目标文本信息。
141.在一些实施例中，具体实施时，可以预先根据多种不同类型的文本的排版格式，配置好与多种不同类型的文本分别对应的预设的版式规则。具体实施时，可以根据目标文本的文本类型，从多个预设的版式规则中找出相匹配的预设的版式规则，作为目标版式规则。
142.进而可以根据目标版式规则，对校正后的目标图像进行精准的切片处理，得到对应多个不同内容标识的切片图像。例如，针对开户申请文本书，根据目标版式规则进行切片后，可以得到以下多个切片图像：对应内容标识“客户基本信息”的第一切片图像、对应内容标识“开户行信息”的第二切片图像，以及对应内容标识“开户要求”的第三切片图像等。
143.在一些实施例中，在通过切片处理，得到多个切片图像之后，具体实施时，还可以包括：根据业务需求，确定出所关注的文本字符所在切片图像的内容标识，记为目标内容标识；根据目标内容标识，检索多个切片图像的内容标识，以找到与目标内容标识相匹配的切片图像，作为目标切片图像；进而可以只针对目标切片图像进行针对性的图像识别处理，以提取出所需要的目标文本信息。从而可以避免对所有的切片图像都进行图像识别处理，减少了数据处理量，提高了数据处理效率。
144.在一些实施例中，具体实施前，还可以针对多个内容标识的切片图像分别训练好对应的多个ocr识别模型。进而在得到多个切片图像之后，可以有针对性地调用多个cor识别模型分别处理各自所对应的切片图像，从而可以较为精准地分别从各个切片图像中识别提取出相应的文本信息，以得到关于目标文本的目标文本信息。
145.在一些实施例中，在获取目标图像之后，所述方法还可以包括：检测目标图像中的目标文本是否存在线性畸变。在确定目标图像中的目标文本存在线性畸变的情况下，可以触发采用本说明书所提高的方法针对目标图像进行相应的图像校正。相反，在确定目标图像中的目标文本不存在线性畸变的情况下，可以根据与目标文本匹配的目标版式规则，对所述校正后的目标图像进行切片，得到对应的多个切片图像；再对上述多个切片图像分别进行针对性的图像识别，以提取出目标文本信息。
146.在一些实施例中，在通过检测确定目标图像中的目标文本存在线性畸变之后，所述方法具体实施时，还可以包括：根据与目标文本匹配的目标版式规则和业务需求，确定出目标文本中不需要关注的文本字符；再根据所述目标版式规则，对目标图像中的目标文本上的不需要关注的文本字符进行屏蔽处理，得到屏蔽处理后的目标图像，以用于后续的图像校正处理。这样可以在进行图像校正处理之前，先屏蔽滤除目标图像中的目标文本上的不需要关注的文本字符，避免这类文本字符所引入的干扰。
147.由上可见，基于本说明书实施例提供的图像校正方法，针对包含有基于套打模式的目标文本且存在线性畸变的目标图像，具体实施前，可以预先根据包含有参照文本的标准的参照图像，通过预设的特征处理构建对应的参照特征集；具体实施时，可以先对包含有目标文本的待校正的目标图像进行预设的特征处理，提取出对于线性变换稳定不变的稳定特征，以构建相应的目标特征集；再根据目标特征集和参照特征集，通过特征匹配，得到包含有多个匹配特征对的匹配特征集；根据匹配特征集对目标图像进行图像校正处理。从而
能够有效适用于多种不同类型的线性畸变场景，精准、高效地消除目标图像中的线性畸变，得到效果较好的校正后的目标图像；进而后续可以基于上述校正后的目标图像更加准确地进行ocr识别，提高ocr识别精度，得到精度较高的目标文本信息。
148.本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取包含有目标文本的目标图像；对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
149.为了能够更加准确地完成上述指令，参阅图5所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口501、处理器502以及存储器503，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。
150.其中，所述网络通信端口501，具体可以用于获取包含有目标文本的目标图像。
151.所述处理器502，具体可以用于对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
152.所述存储器503，具体可以用于存储相应的指令程序。
153.在本实施例中，所述网络通信端口501可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行ftp数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如gsm、cdma等；其还可以为wifi芯片；其还可以为蓝牙芯片。
154.在本实施例中，所述处理器502可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
155.在本实施例中，所述存储器503可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如ram、fifo等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、tf卡等。
156.本说明书实施例还提供了一种基于上述图像校正方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取包含有目标文本的目标图像；对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的
特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
157.在本实施例中，上述存储介质包括但不限于随机存取存储器(random access memory,ram)、只读存储器(read
‑
only memory,rom)、缓存(cache)、硬盘(hard disk drive,hdd)或者存储卡(memory card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。
158.在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。
159.参阅图6所示，在软件层面上，本说明书实施例还提供了一种图像校正装置，该装置具体可以包括以下的结构模块：
160.获取模块601，具体可以用于获取包含有目标文本的目标图像；
161.处理模块602，具体可以用于对所述目标图像进行预设的特征处理，以得到目标特征集；其中，所述目标特征集包含有多个稳定特征；
162.匹配模块603，具体可以用于根据所述目标特征集、参照特征集，通过特征匹配，得到匹配特征集；其中，所述参照特征集为基于包含有参照文本的参照图像，通过进行预设的特征处理所得到的特征集；所述匹配特征集包含有多个匹配特征对；
163.校正模块604，具体可以用于根据所述匹配特征集，对所述目标图像进行图像校正处理，以消除目标图像中的线性畸变。
164.需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
165.由上可见，基于本说明书实施例提供的图像校正装置，能够有效适用于多种不同类型的线性畸变场景，精准、高效地消除目标图像中的线性畸变，得到效果较好的校正后的目标图像。
166.在一个具体的场景示例中，参阅图7所示，可以应用本说明书实施例所提供的图像校正方法编写相应的算法程序，以对银行柜面所采集的开户申请书图像自动进行图像校正，以消除图像中的线性畸变。
167.其中，上述算法程序具体可以包括以下几部分：
168.1)初始化部分：用于获取并利用参考开户申请书图像r_img(例如，参照图像)，以构建得到对应的特征向量集f_r(例如，参照特征集)。
169.2)输入部分：用于输入并处理待处理的原始开户申请书图像i_img(例如，目标图像)。
170.3)输出部分：用于输出处理后的校正图像o_img(例如，校正后的目标图像)。
171.利用上述算法程序对输入的原始开户申请书图像进行具体处理时，在初始化阶段，可以通过利用图像库的sift特征算法接口(进行预设的特征处理)，提取出参考开户申请书图象r_img中对于线性变换保持稳定的特征向量集f_r。
172.进而可以参阅图7所示，处理原始开户申请书图像，具体可以包括以下内容：
173.步骤1：通过调用图像库sift特征算法接口(进行预设的特征处理)，提取输入原始开户申请书图片i_img特征集f_i(例如，目标特征集)。
174.步骤2：通过调用图像库knn算法，获取参考开户申请书图像r_img特征集f_r中每个特征ri(例如，目标特征)的2个最近邻fi_t1与fi_t2(例如，两个参照特征)。其中，di_1<di_2。
175.步骤3：计算特征ri与fi_t1欧式距离(例如，相似度距离)di_1，及ri与fi_t2欧式距离di_2。
176.步骤4：根据公式：di_1/di_2<ratio_threshold(例如，预设的第二阈值)，判定匹配特征对的有效性。若di_1/di_2<ratio_threshold成立，则判定ri与fi_t1为有效特征匹配对(例如，有效匹配特征对)，可以将ri与fi_t1添加进有效特征匹配对集合f_m(例如，匹配特征集)。
177.在该步骤中，通过验证发现：ratio_threshold在设置为0.6～0.7时能取得较为不错的效果。
178.步骤5：通过调用图像库单应性矩阵拟合接口，根据f_m拟合出待处理影像映射到参考影像的单应性矩阵h。并且在拟合过程中，还可以借助ransac算法筛掉干扰点，保证拟合的鲁棒性。
179.步骤6：对待处理开户申请书图像i_img施加线性变换h(以进行线性变换处理)，得到输出o_img即为校正图像(例如，校正后的目标图像)。
180.通过上述场景示例，基于上述算法程序，可以实现对包含有开户申请书的图片中诸如旋转、位移、缩放、三维角度偏转在内的多种线性畸变干扰情况进行自动校正处理，并且能够有效地自动兼容各种平面畸变和三维透视畸变，提供了统一通用校正处理方式。不同于以往的根据轮廓边缘角点进行校正的方法，本算法程序即使在面对开户申请书影像因严重畸变而导致丢失轮廓信息的情况下，依然有效。此外，本算法程序能够有效处理包括手机拍摄、扫描件等多种采集方式获取的开户申请书图像。且算法设计思路简单，使用方便，具有较好的泛用性、鲁棒性。
181.进一步，上述算法程序具体可以采用opencv作为底层图像库，提供了封装良好的调用方式。具体实施及使用过程可以包括：(1)初始化构建接口，传入参考开户申请书图片文件存放路径。并设置超参ratio_threshold，其中，经验证发现，在开户申请书场景下ratio_threshold设置为0.6～0.7均能取得不错效果；(2)调用校正处理接口，传入待处理开户申请书图片文件存放路径即可，返回输出图片即为校正图像。因此，利用上述算法程序可以高效地对图像进行校正处理，以得到消除了线性畸变的校正结果。
182.虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程
处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。
183.本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
184.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
185.通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
186.本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
187.虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李兆佳;许明;杨晓诚;郭振宇
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

上一篇：有机茶叶一体化施肥装置的制作方法
上一篇：一种八字形斜支撑焊接工装的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。