一种针对光字符识别的码率设置方法、设备及存储介质与流程

文档序号:21183464发布日期:2020-06-20 17:57阅读:213来源:国知局
一种针对光字符识别的码率设置方法、设备及存储介质与流程

本发明涉及视频编码技术和深度学习技术领域,特别涉及一种针对光字符识别的码率设置方法、设备及存储介质。



背景技术:

随着人工智能技术的不断发展进步,基于移动端采集数据并进行简单的处理,然后传达运动进行智能分析已经普及。其中人脸识别、光学字符识别已经得到广泛应用。大量图像的传输会耗费大量带宽,为了节省数据网络带宽,需要对图像数据进行码率(rate)设置,图片的码率最小(从而消耗的带宽最少)且图片质量影响最小,使得光字符识别(即ocr)效果较好。另外,即使是不需要网络传输,直接在云端或本地服务器进行ocr的应用场景中,数以亿计的图片也会占用大量存储空间。为了降低图片存储空间而减少成本,也有必要通过图片快速编码的方式对图片大小进行控制,尽量采用小的码率(即图片的体积尽量小)使得不影响光字符识别效果。

传统常用的图像编码方法有jpeg,jpeg2000等。近些年,视频编码标准的帧内编码方法也可用于图像编码,取得了比jpeg等传统方法更好的编码效率。其中,h.264、hevc、vvc、avs2、avs3、av1等一系列标准采用了混合编码架构,主要针对视频编码,但是它们的帧内编码也逐渐被应用在图像编码上。目前,在众多编码标准中如何保证光字符识别的准确率的前提下,尽量降低图片码率也是仍待解决的问题。



技术实现要素:

本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种针对光字符识别的码率设置方法、设备及存储介质。

根据本发明的实施例,提供了一种针对光字符识别的码率设置方法,包括以下步骤:

设置原始图片的rate区间,对所述原始图片进行下采样,得到下采样图片;

在所述rate区间内求取所述下采样图片的最优rate值,所述最优rate值为所述rate区间内满足以下条件的最小值:基于所述最优rate值对所述下采样图片进行编码,并在解码后能被正确识别;

将所述下采样图片输入至置信度神经网络中,并进行置信度预测,得到码率增加量m;

将所述最优rate值加上n个所述码率增加量m设置为所述原始图片的最优编码值,所述n的取值满足以下条件:基于所述最优rate值加上n个所述码率增加量m对所述原始图片进行编码,并在解码后能被正确识别、以及基于所述最优rate值加上n+1个所述码率增加量m对所述原始图片进行编码,并在解码后不能被正确识别。

本发明实施例提供的一种针对光字符识别的码率设置方法,至少具有以下有益效果:

(1)本方法首先对图片进行下采样,其次对下采样图片进行多次编码求取使得下采样图片能够被正确识别的最优rate值(最低的码率值),然后根据置信度神经网络求取码率增加量m,最后根据最优rate值和码率增加量m快速找到针对该原始图片的最优编码值,该最优编码值是使得原始图片的光字符识别精度不受影响的最低码率值。相较于现有技术,本方法降低了编码的时间消耗。

(2)本方法不仅可以减少网络传输带宽,而且针对大量数以亿计的图片也可以减少存储空间的占用而减少成本。

(3)本方法涵盖了主流的混合编码架构的应用场景,可以采用任意一种图像编码标准或者视频编码标准的帧内编码方式,应用广泛。

根据本发明实施例所述的一种针对光字符识别的码率设置方法,基于二分法求取所述下采样图片的最优rate值。

根据本发明实施例所述的一种针对光字符识别的码率设置方法,所述设置原始图片的rate区间,包括:

根据待选用的编码标准设置所述原始图片的rate区间,或者根据所述原始图片的大小或带宽设置所述原始图片的rate区间。

根据本发明实施例所述的一种针对光字符识别的码率设置方法,所述原始图片进行下采样的倍数为0.25倍。

根据本发明的实施例,提供了一种针对光字符识别的码率设置方法,包括以下步骤:

设置原始图片的qp区间,对所述原始图片进行下采样,得到下采样图片;

在所述qp区间内求取所述下采样图片的最优qp值,所述最优qp值为所述qp区间内所有值中满足以下条件的最小值:基于所述最优qp值对所述下采样图片进行编码,并在解码后能被正确识别;

将所述下采样图片输入至置信度神经网络中,并进行置信度预测,得到量化系数增加量n;

将所述最优qp值加上n个所述量化系数增加量n设置为所述原始图片的最优编码值,所述n的取值满足以下条件:基于所述最优qp值加上n个所述量化系数增加量n对所述原始图片进行编码,并在解码后能被正确识别、以及基于所述最优qp值加上n+1个所述量化系数增加量n对所述原始图片进行编码,并在解码后不能被正确识别。

本发明实施例提供的一种针对光字符识别的码率设置方法,至少具有以下有益效果:

(1)本方法首先对图片进行下采样,其次对下采样图片进行多次编码求取使得下采样图片能够被正确识别的最优qp值(最低的量化系数值),然后根据置信度神经网络求取量化系数增加量n,最后根据最优qp值和量化系数增加量n快速找到针对该原始图片的最优编码值,该最优编码值是使得原始图片的光字符识别精度不受影响的最低量化系数值。相较于现有技术,本方法降低了编码的时间消耗。

(2)本方法不仅可以减少网络传输带宽,而且针对大量数以亿计的图片也可以减少存储空间的占用而减少成本。

(3)本方法涵盖了主流的混合编码架构的应用场景,可以采用任意一种图像编码标准或者视频编码标准的帧内编码方式,应用广泛。

根据本发明实施例所述的一种针对光字符识别的码率设置方法,基于二分法求取所述下采样图片的最优qp值。

根据本发明实施例所述的一种针对光字符识别的码率设置方法,所述设置原始图片的qp区间,包括:

根据待选用的编码标准设置所述原始图片的qp区间,或者根据所述原始图片的大小或带宽设置所述原始图片的qp区间。

根据本发明实施例所述的一种针对光字符识别的码率设置方法,所述原始图片进行下采样的倍数为0.25倍。

根据本发明的实施例,提供了一种针对光字符识别的码率设置设备,包括:至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述的一种针对光字符识别的码率设置方法。

根据本发明的实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的一种针对光字符识别的码率设置方法。

附图说明

下面结合附图和实施例对本发明进一步地说明;

图1为本发明第一实施例提供的一种针对光字符识别的码率设置方法的流程示意图;

图2为图1中步骤s102的具体流程示意图;

图3为本发明第二实施例提供的一种针对光字符识别的码率设置方法的流程示意图;

图4为图2中步骤s202的具体流程示意图;

图5为本发明第五实施例提供的一种针对光字符识别的码率设置设备的结构示意图。

具体实施方式

下面将结合附图,对本公开实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。需要说明的是,在不冲突的情况下,本公开实施例及实施例中的特征可以相互组合。另外,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案,但其不能理解为对本公开保护范围的限制。

参照图1和图2,本发明的第一实施例,提供了一种针对光字符识别的码率设置方法,包括以下步骤:

s101、设置原始图片的rate(码率)区间,对原始图片进行下采样,得到下采样图片;

作为一种可选的实施方式,这里可根据待选用的编码标准设置原始图片的rate区间,或者可根据原始图片的大小或带宽设置原始图片的rate区间,具体可根据实际情况进行调整。例如:以h.264编码标准软件jm对图片进行编码,则rate区间范围设置为[100,5000]之间。

作为一种可选的实施方式,原始图片进行下采样的倍数为0.25倍。相较于0.1倍下采样、0.5倍下采样等,采用0.25倍下采样,在较大程度上缩小了图片的尺寸,又能够避免图片模糊,因此优选0.25倍下采样。

s102、基于二分法求取下采样图片的最优rate值,最优rate值为rate区间内满足以下条件的最小值:基于最优rate值对下采样图片进行编码,并在解码后能被正确识别;

需要说明的是,这里也可以通过逐次编码的方式求取下采样图片的最优rate值,本实施例优选基于二分法求取该最优rate值,能够较为快速的求取最优rate值,特别是当rate区间较大时,使用二分法的效率能够得到极大的提升。

基于二分法求取下采样图片的最优rate值的具体步骤如下:

s1021、将下采样图片基于rate区间的中间值进行编码;

s1022、将编码后的下采样图片解码后进行光字符识别(在移动端可以基于光字符识别模型进行识别);

s1023、若能取得正确的识别结果,则将rate区间的中间值作为更新的右端点,更新rate区间;若不能取得正确的识别结果,则将rate区间的中间值作为更新的左端点,更新rate区间;

s1024、若更新后的rate区间左右端点对应的rate值之差大于1,则跳转至步骤s1021;若更新后的rate区间左右端点对应的rate值之差小于或等于1,则进入步骤s1025;

s1025、若rate区间的右端点能取得正确的识别结果,则采用右端点的rate值作为最优rate值;若rate区间的右端点不能取得正确的识别结果,则采用左端点的rate值作为最优rate值;

s103、将下采样图片输入至置信度神经网络中,并进行置信度预测,得到码率增加量m;

在本步骤中,将下采样图片输入至深度学习的置信度神经网络中,可以得到该下采样图片能够正确识别的置信度值,然后进行置信度预测,得到一个码率增加量m。需要说明的是,这里的置信度预测是通过一个函数计算公式,置信度值为输入,码率增加量m为输出,例如:当置信度的值为90时,根据函数计算公式求出m为5;当置信度的值为80时,根据函数计算公式求出m为4;可以理解的是,这个函数计算公式可以根据实际情况进行设置。

s104、将最优rate值加上n个码率增加量m设置为原始图片的最优编码值,n的取值满足以下条件:基于最优rate值加上n个码率增加量m对原始图片进行编码,并在解码后能被正确识别、以及基于最优rate值加上n+1个码率增加量m对原始图片进行编码,并在解码后不能被正确识别。

本实施例提供的方法,首先对原图片进行图片下采样;其次基于二分法对下采样图片进行rate值搜索,快速得到最优rate值;然后通过得到的最优rate值来继续搜索原图片以得到的最优编码值,该最优编码值是使得该原图片能够满足光字符识别的精确度的最低码率值;本方法不仅可以减少网络传输带宽,而且针对大量数以亿计的图片也可以减少存储空间的占用而减少成本;本方法还可以应用在目前任意一种图像编码标准或者视频编码标准的帧内编码方式中,应用广泛。

参照图3和图4,本发明的第二实施例,提供了一种针对光字符识别的码率设置方法,包括以下步骤:

s201、设置原始图片的qp(量化系数)区间,对原始图片进行下采样,得到下采样图片;

作为一种可选的实施方式,这里可根据待选用的编码标准设置原始图片的qp区间,或者可根据原始图片的大小或带宽设置原始图片的qp区间,可根据实际情况进行调整。例如:以h.264编码标准软件jm对图片进行编码,则qp区间范围设置为[10,40]之间。

作为一种可选的实施方式,原始图片进行下采样的倍数为0.25倍。相较于0.1倍下采样、0.5倍下采样等,采用0.25倍下采样,在较大程度上缩小了图片的尺寸,又能够避免图片模糊,因此优选0.25倍下采样。

s202、基于二分法求取下采样图片的最优qp值,最优qp值为qp区间内所有值中满足以下条件的最小值:基于最优qp值对下采样图片进行编码,并在解码后能被正确识别;

需要说明的是,这里也可以通过逐次编码的方式求取下采样图片的最优qp值,本实施例优选基于二分法求取该最优qp值,能够较为快速的求取最优qp值,特别是当qp区间较大时,使用二分法的效率能够得到极大的提升。

基于二分法求取下采样图片的最优qp值的具体步骤如下:

s2021、将下采样图片基于qp区间的中间值进行编码;

s2022、将编码后的下采样图片解码后进行光字符识别(在移动端可以基于光字符识别模型进行识别);

s2023、若能取得正确的识别结果,则将qp区间的中间值作为更新的右端点,更新qp区间;若不能取得正确的识别结果,则将qp区间的中间值作为更新的左端点,更新qp区间;

s2024、若更新后的qp区间左右端点对应的qp值之差大于1,则跳转至步骤s2021;若更新后的qp区间左右端点对应的qp值之差小于或等于1,则进入步骤s2025;

s2025、若qp区间的右端点能取得正确的识别结果,则采用右端点的qp值作为最优qp值;若qp区间的右端点不能取得正确的识别结果,则采用左端点的qp值作为最优qp值;

s203、将下采样图片输入至置信度神经网络中,并进行置信度预测,得到量化系数增加量n;

在本步骤中,将下采样图片输入至深度学习的置信度神经网络中,可以得到该下采样图片能够正确识别的置信度值,然后进行置信度预测,得到一个量化系数增加量n。需要说明的是,这里的置信度预测是通过一个函数计算公式,该函数计算公式可以根据实际情况进行设置,设置的原理同第一实施例相同,此处不再细述。

s204、将最优qp值加上n个量化系数增加量n设置为原始图片的最优编码值,n的取值满足以下条件:基于最优qp值加上n个量化系数增加量n对原始图片进行编码,并在解码后能被正确识别、以及基于最优qp值加上n+1个量化系数增加量n对原始图片进行编码,并在解码后不能被正确识别。

本实施例提供的方法,首先对原图片进行图片下采样;其次基于二分法对下采样图片进行qp值搜索,快速得到最优qp值;然后通过得到的最优qp值来继续搜索原图片以得到的最优编码值,该最优编码值是使得该原图片能够满足光字符识别的精确度的最低量化系数值;本方法不仅可以减少网络传输带宽,而且针对大量数以亿计的图片也可以减少存储空间的占用而减少成本;本方法还可以应用在目前任意一种图像编码标准或者视频编码标准的帧内编码方式中,应用广泛。

需要说明的是,由于在本领域中,qp值与rate值是可以相互转换的,因此,第二实施例与第一实施例是基于相同的发明构思。

本发明的第三实施例,提供了一种针对光字符识别的码率设置方法,采用h.264编码标准软件jm对图片进行编码进行举例说明,具体步骤如下:

(1)根据需求自动设置图片编码rate的区间,例如:要求rate大于100且小于5000等,也可以根据图片大小或带宽等条件设置区间;

(2)将原图片进行1/4倍的下采样;

(3)基于被下采样图片码率区间的中间值进行编码;

(4)下采样图片解码后进行光字符识别(在移动端可以基于光字符识别模型进行识别);

(5)如果在rate中间值的情况下还能取得正确的识别结果,则将其作为更新的右端点,重新计算中间值为新区间的中间值;否则,将其作为更新的左端点;

(6)重复第(3),(4),(5)步,直到不再可分(左右端点对应的rate值之差小于等于1),结束搜索过程;如果右端点的rate可以取得正确的识别结果,则采用右端点的rate编码;否则采用左端点的rate进行编码;

(7)将下采样图片后输入深度学习的置信度神经网络,得到该图片能够正确识别的置信度值,根据置信度的值的大小得到一个码率增加量m;

(8)将第(6)步最终得到下采样图片的rate值,作为原始图片的初始rate值;

(9)原始图片的初始rate值继续加码率增加量m,作为新的rate值;

(10)原始图片按照新的rate值进行编码,解码后进行光字符识别(在移动端可以基于光字符识别模型进行识别)。

(11)如果原始图片在当前rate值的情况下还能取得正确的识别结果,则重复(9),(10)步;否则rate值不变,结束rate值更新;

(12)采用此时的rate值减去固定值,作为rate值对原始图片编码。

本实施例提供的方法不仅可以减少网络传输带宽,而且针对大量数以亿计的图片也可以减少存储空间的占用而减少成本。需要说明的是,本实施例采用h.264编码标准进行举例,但本发明可适用于任意编码标准和方法。

本发明的第四实施例,提供了一种针对光字符识别的码率设置方法,采用h.264编码标准软件jm对图片进行编码进行举例说明,具体步骤如下:

(1)根据需求自动设置图片编码的qp区间;例如:要求qp大于10且小于40等,也可以根据图片大小或带宽等条件设置区间。

(2)将原图片进行1/4倍的下采样。

(3)基于被下采样图片qp区间的中间值进行编码。

(4)下采样图片解码后进行光字符识别(在移动端可以基于光字符识别模型进行识别)。

(5)如果在qp中间值的情况下还能取得正确的识别结果,则将其作为更新的右端点,重新计算中间值为新区间的中间值;否则,将其作为更新的左端点。

(6)重复第(3),(4),(5)步,直到不再可分(左右端点对应的qp值之差小于等于1),结束搜索过程;如果右端点的qp/rate可以取得正确的识别结果,则采用右端点的qp/rate编码;否则采用左端点的qp/rate进行编码。

(7)将下采样图片后输入深度学习的置信度神经网络,得到该图片能够正确识别的置信度值。根据置信度的值的大小得到一个量化系数增加量n。

(8)将第(6)步最终得到下采样图片qp值,作为原始图片新的初始qp值。

(9)原始图片qp值继续加量化系数增加量n,作为新的qp值。

(10)原始图片按照新的qp值进行编码,解码后进行光字符识别(在移动端可以基于光字符识别模型进行识别)。

(11)如果原始图片在当前qp值的情况下还能取得正确的识别结果,则重复(9),(10)步;否则qp值不变,结束qp值更新。

(12)采用此时的qp值减去固定值,作为qp值对原始图片编码。

本实施例提供的方法不仅可以减少网络传输带宽,而且针对大量数以亿计的图片也可以减少存储空间的占用而减少成本。需要说明的是,本实施例采用h.264编码标准进行举例,但本发明可适用于任意编码标准和方法。

参照图5,本发明的第五实施例,还提供了一种针对光字符识别的码率设置设备,该针对光字符识别的码率设置设备可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。

具体地,该针对光字符识别的码率设置设备包括:一个或多个控制处理器和存储器,图5中以一个控制处理器为例。控制处理器和存储器可以通过总线或者其他方式连接,图5中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的针对光字符识别的码率设置设备对应的程序指令/模块,控制处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而实现上述实施例所述的一种针对光字符识别的码率设置方法。

存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储产生的数据。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该针对光字符识别的码率设置设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个控制处理器执行时,执行上述方法实施例中的一种针对光字符识别的码率设置方法,例如,执行以上描述的图1中的方法步骤s101至s104,或者图3中的方法步骤s201至s204。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被图5中的一个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的针对光字符识别的码率设置方法,例如,执行以上描述的图1中的方法步骤s101至s104,或者图3中的方法步骤s201至s204。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(readonlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1