基于局部梯度分布的拍摄图像优选方法及装置与流程

文档序号：15933612发布日期：2018-11-14 02:02阅读：170来源：国知局

本发明属于模式识别领域，具体涉及一种基于局部梯度分布的拍摄图像优选方法及装置。

背景技术

随着人工智能的热潮日渐高涨，相关的技术如图像处理、模式识别、计算机视觉等也得到了迅速的发展。图像中的文字能表达高层语义信息，因此对图像中的文字进行自动检测和识别的需求越来越大，文字识别技术能够实现文字信息的高速、自动地输入，节约了大量的人力资源，而文档图像广泛存在于交通、金融、物流、税务、行政管理等各个领域中，文档识别技术具有极大的经济效益和广泛的社会价值。而随着智能终端快速普及，手机相机逐渐成为采集图像的重要方式，使得基于拍照的文档自动识别技术得到快速的发展。然而，拍照图像容易受到复杂背景、不均匀光照、低分辨率、抖动等各种因素的影响，给拍照文档的识别造成了困难，因此，如何获取高质量的文档图像，成为影响识别性能的重要环节，为此，本发明提出了一种基于局部梯度分布的拍摄图像优选方法及装置，能够从获取的多张文档图像中，快速准确地选择出最清晰的一张，用于后期的识别，对于文档图像识别性能的提高有着重要的意义。

技术实现要素：

为了解决现有技术中的上述问题，即为了解决如何在获取的多张目标文档的图像中快速准确地选择出最清晰的一张图像的问题。为此目的，本发明的第一方面，提供了一种基于局部梯度分布的拍摄图像优选方法，包括：

获取目标文档的多张尺寸一致的拍摄图像；

基于所述拍摄图像的尺寸信息，设置多个大小一致的第一候选框；

基于任一所述拍摄图像，利用设定的第一边缘检测阈值，计算每个第一候选框内图像的第一边缘信息强度，根据所述第一边缘信息强度的降序选取设定数量的第一候选框，并定义为第二候选框；

对所述目标文档的每张所述拍摄图像，基于设定的第二边缘检测阈值和第三边缘检测阈值分别计算每个所述第二候选框内图像的第二边缘信息强度和第三边缘信息强度，并通过加权平均的方法得到每张所述拍摄图像的第一评估值和第二评估值，选取第一评估值最高的图像和第二评估值最高的图像；

从所述第一评估值最高的图像和所述第二评估值最高的图像中选取满足预设条件的图像，并作为优选拍摄图像。

进一步地，本发明提供的一个优选技术方案为：

所述方法还包括：

对拍摄图像进行灰度化处理；

将所述灰度处理化后的拍摄图像中目标候选框内的图像尺寸调整至预设的目标尺寸；

利用预设的像素图像检测算法，计算调整至所述目标尺寸的图像的梯度幅值并对所计算的梯度幅值进行归一化处理；

根据所述归一化处理后的梯度幅值和预设的目标阈值，获取所述目标候选框内图像的边缘信息强度；

其中，当所述目标候选框是第一候选框时，所述目标阈值是第一边缘检测阈值且所述边缘信息强度是第一边缘信息强度；当所述目标候选框是第二候选框时，所述目标阈值是第二边缘检测阈值和第三边缘检测阈值且所述边缘信息强度是第二边缘信息强度和第三边缘信息强度。

进一步地，本发明提供的一个优选技术方案为：

“通过加权平均的方法得到每张所述拍摄图像的第一评估值和第二评估值”的步骤包括：

按照下式所示的方法计算所述第一评估值和第二评估值：

其中，所述value_1为第一评估值，所述value_2为第二评估值，所述q为第二候选框的编号且q＝1～n，所述value1q为第二边缘信息强度且所述value2q为第三边缘信息强度且所述s1是第二边缘检测阈值，所述s2是第三边缘检测阈值，s1≠s2，所述wp为预设的加权系数；

所述加权系数wp的计算公式为：

其中，所述p为第一候选框的编号，所述valuep为第p个第一候选框内图像的第一边缘信息强度，所述s3是第一边缘检测阈值，s3≥0，所述为第一候选框内图像的梯度幅值为k的个数。

进一步地，本发明提供的一个优选技术方案为：

所述像素图像检测算法是基于sobel算子或roberts算子或prewitt算子的像素图像检测算法。

进一步地，本发明提供的一个优选技术方案为：

“从所述第一评估值最高的图像和所述第二评估值最高的图像中选取满足预设条件的图像，并作为优选拍摄图像”的步骤包括：

根据设定的阈值t1和阈值t2，并利用下式从所述第一评估值最高的图像和所述第二评估值最高的图像中选取优选拍摄图像：

其中，所述k表示优选拍摄图像，所述k1表示第一评估值最高的图像，所述k2表示第二评估值最高的图像，所述value_1(k1)为图像k1的第一评估值，所述value_2(k2)为图像k2的第二评估值，所述null表示未选取出优选拍摄图像。

进一步地，本发明提供的一个优选技术方案为：

“将所述灰度处理化后的拍摄图像中目标候选框内的图像尺寸调整至预设的目标尺寸”的步骤包括：

利用双线性插值算法，对所述灰度处理化后的拍摄图像进行插值处理来将目标候选框内的图像尺寸调整至预设的目标尺寸。

进一步地，本发明提供的一个优选技术方案为：

“设置多个大小一致的第一候选框”的步骤包括：

基于所述拍摄图像尺寸信息均匀设置多个尺寸一致的第一候选框，或者在所述拍摄图像内随机生成多个尺寸一致的第一候选框。

进一步地，本发明提供的一个优选技术方案为：

通过具有连拍功能的图像采集装置以连拍的方式获取所述目标文档的多张尺寸一致的拍摄图像。

本发明的第二方面，还提供了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于局部梯度分布的拍摄图像优选方法。

本发明的第三方面，还提供了一种控制装置，包括：

处理器，适于执行各条程序；

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现上述的基于局部梯度分布的拍摄图像优选方法。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明的技术方案中，根据图像的边缘信息强度，能够快速准确地从多张目标文档的拍摄图像中选择出最清晰的一张，提高文档图像的识别性能。

附图说明

图1为本发明实施例中一种基于局部梯度分布的拍摄图像优选方法的主要步骤示意图；

图2为本发明实施例中一张出租车发票的拍摄图片示意图；

图3为本发明实施例中一种选取的第一候选框的位置示意图；

图4为本发明实施例中一种包含文字区域的图片及该图片对应的梯度直方图示意图；

图5为本发明实施例中一种非文字区域的图片及该图片对应的梯度直方图示意图；

图6为本发明实施例中一种选取的第二候选框的位置示意图；

图7为本发明实施例中一种包含清晰文字区域的图像及该图像对应的梯度直方图示意图；

图8为本发明实施例中一种包含模糊文字区域的图像及该图像对应的梯度直方图示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明实施例提供了一种基于局部梯度分布的拍摄图像优选方法，能够在获取的多张目标文档的拍摄图中，快速准确地选择出最清晰的一张图像，该方法适用于多种类型的文档图像，有利于提高文档图像识别性能。

下面结合附图，对本发明提供的基于梯度分布的拍摄图像优选方法进行说明。

参阅附图1，图1示例性示出了本实施例中一种基于梯度分布的拍摄图像优选方法的主要步骤，如图1所示，本实施例中的基于梯度分布的拍摄图像优选方法可以包括下述内容：

步骤s101：获取目标文档的多张尺寸一致的拍摄图像。

具体地，可以通过具有连拍功能的图像采集装置以连拍的方式获取目标文档的多张尺寸一致的拍摄图像。目标文档的拍摄图像可以是应用于交通、金融、物流、税务、行政管理等各个领域中的文档资料的图像。本实施是以出租车发票为例，通过手机连拍获取三张尺寸一致的出租车发票的图像，

参阅附图2，图2示例性示出了本实施例中的一张出租车发票图像。如图2所示，该出租车发票图像包含单位编号、电话、车号、日期、时间、单价和里程等信息。

步骤s102：基于拍摄图像的尺寸信息，设置多个大小一致的第一候选框。

具体地，可以基于拍摄图像尺寸信息均匀设置多个尺寸一致的第一候选框，也可以是在拍摄图像内随机生成多个尺寸一致的第一候选框。需要说明的是，在选取的第一候选框中应当包含文字信息，且考虑计算的效率，第一候选框的面积不宜过大。

本实施例中采用出租车发票的拍摄图像，在出租车发票的拍摄图像上均匀的选取12个第一候选框。

参阅附图3，图3示例性示出了本实施例中选取的第一候选框的位置，如图3所示，拍摄图像的长边分辨率约为2000，且每个第一候选框的大小均为150×125，其中，第i个第一候选框的起始坐标定义为(roi_c[i]×w,roi_r[i]×h),w、h分别为拍摄图像的宽和高。本实施例中的12个第一候选框的roi_c[i]的集合和roi_r[i]的集合，如下式(1)、(2)所示：

roi_c[12]＝{0.2,0.2,0.2,0.2,0.45,0.45,0.45,0.45,0.6,0.6,0.6,0.6}(1)

roi_r[12]＝{0.25,0.45,0.65,0.8,0.25,0.45,0.65,0.8,0.25,0.45,0.65,0.8}

(2)

基于表达式(1)、(2)可以得到每个第一候选框的起始坐标，例如：第1个第一候选框的起始坐标为(0.2×w，0.25×h)，第3个第一候选框的起始坐标为(0.2×w，0.65×h)。

步骤s103：基于任一拍摄图像，利用设定的第一边缘检测阈值，计算每个第一候选框内图像的第一边缘信息强度，根据第一边缘信息强度的降序选取设定数量的第一候选框，并定义为第二候选框。

具体地，从获取的多张目标文档的拍摄图像中，选取其中一张拍摄图像；对所选的拍摄图像进行灰度化处理；将灰度处理化后的拍摄图像中第一候选框内图像的尺寸调整至预设的目标尺寸；利用预设的像素图像检测算法，计算调整至目标尺寸的图像的梯度幅值并对所计算的梯度幅值进行归一化处理；根据归一化处理后的梯度幅值和预设的第一边缘检测阈值，获取每个第一候选框内图像的第一边缘信息强度；根据第一边缘信息强度的降序选取设定数量的第一候选框，并定义为第二候选框。需要说明的是，预设的像素图像检测算法即边缘检测算法，可以是基于sobel算子或roberts算子或prewitt算子的边缘检测算法，其优选方案为基于sobel算子的边缘检测算法；预设的第一边缘检测阈值是选取边缘点的阈值，边缘点是指某一像素点两边像素的灰度值有显著不同，当图像中像素点的梯度幅值大于该阈值时，则该像素点为边缘点，统计边缘点的个数得到图像的边缘信息强度。

第一边缘信息强度的计算公式如公式(3)所示：

其中，p为第一候选框的编号，valuep为第p个第一候选框内图像的第一边缘信息强度，s3是第一边缘检测阈值，s3≥0，为第一候选框内图像的梯度幅值为k的个数。

图像最基本的特征是边缘，所谓边缘是指其周围像素灰度有阶跃变化的像素的集合。文字区域具有很强的边缘信息，第一候选框内图像的边缘信息强度越强，表明第一候选框内图像包含的文字信息越多；反之，第一候选框内的图像的边缘信息强度越弱，表明第一候选框内的图像包含的文字信息越少。

参阅附图4，图4示例性示出了本实施例中包含文字区域的图片及该图片对应的梯度直方图，如图4所示，可以看出包含文字信息的图像的边缘特征响应强烈。

继续参阅附图5，图5示例性示出了本实施例中非文字区域的图片及该图片对应的梯度直方图，如图5所示，可以看出不包含文字区域的图像的边缘特征响应很弱。基于此，通过计算第一候选框内图像的边缘信息强度可以快速准确地判断出第一候选框内图像包含文字信息量的多少。

本实施例中选取的是第一张出租车发票的拍摄图像，灰度化处理所选的拍摄图像；采用双线性插值算法将灰度化处理后的拍摄图像中第一候选框内图像的尺寸调整至300×250；采用sobel算子卷积调整尺寸后的第一候选框内图像，求得第一候选框内图像的水平和竖直方向的梯度gx，gy。其中，gx＝sx*i，gy＝sy*i；i为调整尺寸后的第一候选框内图像；sx、sy为sobel卷积模板，且sx、sy的表达式如下式(5)、(6)所示：

本实施中，基于公式(7)、(8)所示的公式，计算第一候选框内图像所有位置的水平和竖直方向的梯度：

其中，gx(i,j)表示遍历图像所有位置的水平方向梯度幅值，gy(i,j)表示遍历图像所有位置的竖直方向梯度幅值，(i,j)为图像的位置坐标，sx(m,n)、sy(m,n)为sobel卷积模板，(m,n)为卷积模板的位置。

基于计算得到的第一候选框内图像所有位置的水平和竖直方向的梯度，按公式(9)计算第一候选框内图像的总的梯度：

g(i,j)＝|gx(i,j)|+|gy(i,j)|(9)

将计算得到第一候选框内图像的总的梯度幅值归一化至0-255，并按公式(3)、(4)计算每个第一候选框内图像的第一边缘信息强度，需要说明的是，本实施中第一边缘检测阈值的为15。

根据第一边缘信息强度的降序选取5个的第一候选框，并定义为第二候选框。

参阅附图6，图6示例性示出了本实施例中选取的第二候选框的位置，如图6所示，可以看出基于本发明的方法可以准确识别出包含文字信息相对较多的图像区域。

步骤s104：对目标文档的每张拍摄图像，基于设定的第二边缘检测阈值和第三边缘检测阈值分别计算每个第二候选框内图像的第二边缘信息强度和第三边缘信息强度。

具体地，从获取的每张目标文档的拍摄图像进行灰度化处理；将灰度处理化后的拍摄图像中第二候选框内图像的尺寸调整至预设的目标尺寸；利用预设的像素图像检测算法，计算调整至目标尺寸的图像的梯度幅值并对所计算的梯度幅值进行归一化处理；根据归一化处理后的梯度幅值和预设的第二边缘检测阈值，获取每个第二候选框内图像的第二边缘信息强度；根据归一化处理后的梯度幅值和预设的第三边缘检测阈值，获取每个第二候选框内图像的第三边缘信息强度。

本实施例中，预设的目标尺寸为300×250；预设的像素图像检测算法为基于sobel算子的像素图像检测算法；预设的第二边缘检测阈值为200，预设的第三边缘检测阈值为80。需要说明的是，预设的像素图像检测算法即边缘检测算法，可以是基于sobel算子或roberts算子或prewitt算子的边缘检测算法，其优选方案为基于sobel算子的边缘检测算法。本发明的目的是从多张目标文档的拍摄图像中选出最清晰的一张图像，所以设置的第二边缘检测阈值和第三边缘检测阈值，需要能够尽可能清晰地提取图像的边缘信息。

参阅附图7，图7示例性示出了本实施例中包含清晰文字区域的图像及该图像对应的梯度直方图，如图7所示，可以看出包含清晰文字区域的图像，其具有很强的边缘信息强度。

继续参阅附图8，图8示例性示出了本实施例中包含模糊文字区域的图像及该图像对应的梯度直方图，如图8所示，可以看出与图7相比，包含模糊文字区域的图像其边缘信息强度较弱。

步骤s105：通过加权平均的方法得到每张拍摄图像的第一评估值和第二评估值，选取第一评估值最高的图像和第二评估值最高的图像。

具体地，按照公式(10)所示的方法计算第一评估值和第二评估值：

其中，value_1为第一评估值，value_2为第二评估值，q为第二候选框的编号且q＝1～n，value1q为第二边缘信息强度且value2q为第三边缘信息强度且s1是第二边缘检测阈值，s2是第三边缘检测阈值，s1≠s2，wp为预设的加权系数。

加权系数wp的计算公式如公式(11)所示：

步骤106：从第一评估值最高的图像和第二评估值最高的图像中选取满足预设条件的图像，并作为优选拍摄图像。

具体地，根据设定的阈值t1和阈值t2，并利用公式(14)从第一评估值最高的图像和第二评估值最高的图像中选取优选拍摄图像：

其中，k表示优选拍摄图像，k1表示第一评估值最高的图像，

k2表示第二评估值最高的图像，value_1(k1)为图像k1的第一评估值，value_2(k2)为图像k2的第二评估值，null表示未选取出优选拍摄图像。在本实施例中，设定的阈值t1＝250，阈值t2＝1100

进一步地，基于上述基于局部梯度分布的拍摄图像优选方法实施例，本发明还提供了一种存储装置，该存储装置中可以存储有多条程序，程序适于由处理器加载并执行如上述的基于局部梯度分布的拍摄图像优选方法。

再进一步地，基于上述基于局部梯度分布的拍摄图像优选方法实施例，本发明还提供了一种处理装置，该处理装置可以包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；程序适于由处理器加载并执行如上述的基于局部梯度分布的拍摄图像优选方法。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的装置的具体工作过程以及相关说明，可以参考前述实施例方法中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤及装置，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史存召;王淼;王春恒
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：智能血压预警方法与流程
上一篇：一种基于云平台的智能监护系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。