图像清晰度检测方法、装置、设备及存储介质与流程

文档序号:25725469发布日期:2021-07-02 21:11阅读:80来源:国知局
图像清晰度检测方法、装置、设备及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种图像清晰度检测方法、装置、设备及存储介质。



背景技术:

随着互联网技术的发展,用户在线上即可办理相关业务。其中资产证明图像是客户提交给银行的一种个人资产证明,银行生产环境在线上对其进行光学字符识别,获取相关的资产信息,给用户和银行工作人员提供了极大地便利。

但是在实际情况中,客户上传的资产证明图像数据各式各样,质量参差不齐,其中不乏含有模糊的资产证明图像,这给资产证明光学字符识别带来了困难和资源浪费。在现有技术中,对图像清晰度计算的方法仍存在图像拍摄环境多种多样的不利因素,容易导致清晰度评价误判,鲁棒性不好的情况。如何实现准确地对复杂多样的图像进行清晰度计算成为一个问题。



技术实现要素:

本发明的主要目的在于解决图像清晰度检测准确度不高的问题。

本发明第一方面提供了一种图像清晰度检测方法,包括:

获取待检测的图像;

采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框;

从所述图像中裁取所述各文字区域框对应的文字区域;

基于无参考离散余弦变换域,对所述文字区域对应的空域进行变换,得到所述文字区域对应的频域图像;

根据所述频域图像,采用预置文本清晰度计算公式,计算所述各文字区域的清晰度;

根据所述各文字区域的清晰度,计算所述图像的综合清晰度。

可选的,在本发明第一方面的第一种实现方式中,所述场景文本检测模型依次包括:pvanet网络、特征合并层、网络输出层,所述采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框包括包括:

在所述pvanet网络中,将所述图像输入所述pvanet网络进行特征提取,得到不同尺寸的多个第一特征图;

在所述特征合并层的多个第一反卷积层中,使用多个第一反卷积核,对所述不同尺寸的各第一特征图进行上采样并向下合并,得到对应的多个第二特征图;

在所述网络输出层的第一池化层中,使用第一池化卷积核,对所述各第二特征图进行线性变换计算,得到对应的多个文字区域框。

可选的,在本发明第一方面的第二种实现方式中,所述pvanet网络依次包括:激活层、inception网络、hypernet网络,所述将所述图像输入所述pvanet网络进行特征提取,得到不同尺寸的多个第一特征图包括:

在所述激活层的第一卷积层中,使用c.relu激活函数及第一卷积核,对所述图像进行非线性映射计算及卷积操作,得到对应的多个第一卷积特征图;

在所述inception网络的多个第二卷积层中,使用大小不同的多个第二卷积核,对所述各第一卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第二卷积特征图;

在所述hypernet网络的多个第三卷积层中,使用第三卷积核,对所述不同尺寸的各第二卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个第一特征图。

可选的,在本发明第一方面的第三种实现方式中,在所述获取待检测的图像之前,还包括:

获取具有不同清晰度的多张图像样本;

将所述各图像样本输入预置全卷积网络模型,在所述全卷积网络模型的激活层的第四卷积层中,使用c.relu激活函数及第四卷积核,对所述各图像样本进行非线性映射计算及卷积操作,得到对应的多个第三卷积特征图;

在所述全卷积网络模型的inception网络的多个第五卷积层中,使用大小不同的多个第五卷积核,对所述各第三卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第四卷积特征图;

在所述全卷积网络模型的hypernet网络的多个第六卷积层中,使用多个第六卷积核,对所述不同尺寸的各第四卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个预测特征图;

在所述全卷积网络模型的特征合并层的多个第二反卷积层中,使用多个第二反卷积核,对所述各预测特征图进行上采样并向下合并,得到对应的多个第三特征图;`

在所述全卷积网络模型的网络输出层的多个第二池化层中,使用多个第二池化卷积核,对所述各第三特征图进行线性变换计算,得到对应的多个预测文字区域框;

根据所述各预测文字框区域,调用预置损失函数采用梯度更新方法对所述全卷积网络模型进行参数优化,直至所述全卷积网络模型收敛,得到场景文本检测模型。

可选的,在本发明第一方面的第四种实现方式中,所述基于无参考离散余弦变换域,对所述文字区域对应的空域进行变换,得到所述文字区域对应的频域图像包括:

基于无参考离散余弦变换域,采用离散余弦函数,对所述文字区域对应的像素数据进行计算,得到离散余弦变换系数;

基于所述离散余弦变换系数,对所述文字区域对应的空域进行正交变换,得到所述文字区域对应的频域图像。

可选的,在本发明第一方面的第五种实现方式中,所述文本清晰度计算公式如下:

其中,q表示文本清晰度值,tn表示log(|c(x,y)|)大于阈值t的个数,log(|c(x,y)|)表示频域图像上每个像素值的绝对值的对数,m为所述频域图像的高,n为所述频域图像的宽。

可选的,在本发明第一方面的第六种实现方式中,所述根据所述各文字区域的清晰度,计算所述图像的综合清晰度包括:

根据所述各文字区域的清晰度,采用预置综合清晰度计算公式,计算所述图像的综合清晰度;

其中,所述综合清晰度计算公式如下:

其中,s表示图像的综合清晰度,u表示所述文字区域的数量总和,qi表示第i个文字区域对应的文本清晰度值。

本发明第二方面提供了一种图像清晰度检测装置,包括:

获取模块,用于获取待检测的图像;

定位模块,用于采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框;

裁剪模块,用于从所述图像中采取所述各文字区域框对应的文字区域;

变换模块,用于基于无参考离散余弦变换域,对所述文字区域对应的空域进行变换,得到所述文字区域对应的频域图像;

清晰度计算模块,用于根据所述频域图像,采用预置文本清晰度计算公式,计算所述各文字区域的清晰度;

综合清晰度计算模块,用于根据所述各文字区域的清晰度,计算所述图像的综合清晰度。

可选的,本发明第二方面的第一种实现方式中,所述场景文本检测模型依次包括:pvanet网络、特征合并层、网络输出层,所述定位模块具体用于:

在所述pvanet网络中,将所述图像输入所述pvanet网络进行特征提取,得到不同尺寸的多个第一特征图;

在所述特征合并层的多个第一反卷积层中,使用多个第一反卷积核,对所述不同尺寸的各第一特征图进行上采样并向下合并,得到对应的多个第二特征图;

在所述网络输出层的第一池化层中,使用第一池化卷积核,对所述各第二特征图进行线性变换计算,得到对应的多个文字区域框。

可选的,在本发明第二方面的第二种实现方式中,所述pvanet网络依次包括:激活层、inception网络、hypernet网络,所述图像清晰度检测装置还包括特征提取模块,所述特征提取模块具体用于:

在所述激活层的第一卷积层中,使用c.relu激活函数及第一卷积核,对所述图像进行非线性映射计算及卷积操作,得到对应的多个第一卷积特征图;

在所述inception网络的多个第二卷积层中,使用大小不同的多个第二卷积核,对所述各第一卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第二卷积特征图;

在所述hypernet网络的多个第三卷积层中,使用第三卷积核,对所述不同尺寸的各第二卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个第一特征图。

可选的,在本发明第二方面的第三种实现方式中,所述图像清晰度检测装置还包括模型训练模块,所述模型训练模块具体用于:

获取具有不同清晰度的多张图像样本;

将所述各图像样本输入预置全卷积网络模型,在所述全卷积网络模型的激活层的第四卷积层中,使用c.relu激活函数及第四卷积核,对所述各图像样本进行非线性映射计算及卷积操作,得到对应的多个第三卷积特征图;

在所述全卷积网络模型的inception网络的多个第五卷积层中,使用大小不同的多个第五卷积核,对所述各第三卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第四卷积特征图;

在所述全卷积网络模型的hypernet网络的多个第六卷积层中,使用多个第六卷积核,对所述不同尺寸的各第四卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个预测特征图;

在所述全卷积网络模型的特征合并层的多个第二反卷积层中,使用多个第二反卷积核,对所述各预测特征图进行上采样并向下合并,得到对应的多个第三特征图;

在所述全卷积网络模型的网络输出层的多个第二池化层中,使用多个第二池化卷积核,对所述各第三特征图进行线性变换计算,得到对应的多个预测文字区域框;

根据所述各预测文字框区域,调用预置损失函数采用梯度更新方法对所述全卷积网络模型进行参数优化,直至所述全卷积网络模型收敛,得到场景文本检测模型。

可选的,在本发明第二方面的第四种实现方式中,所述变换模块还包括:

计算单元,用于基于无参考离散余弦变换域,采用离散余弦函数,对所述文字区域对应的像素数据进行计算,得到离散余弦变换系数;

正交变换单元,用于基于所述离散余弦变换系数,对所述文字区域对应的空域进行正交变换,得到所述文字区域对应的频域图像。

可选的,在本发明第二方面的第五种实现方式中,所述清晰度计算模块用于根据所述频域图像,采用预置文本清晰度计算公式,计算所述各文字区域的清晰度,所述文本清晰度计算公式如下:

其中,q表示文本清晰度值,tn表示log(|c(x,y)|)大于阈值t的个数,log(|c(x,y)|)表示频域图像上每个像素值的绝对值的对数,m为所述频域图像的高,n为所述频域图像的宽。

可选的,在本发明第二方面的第六种实现方式中,所述综合清晰度计算模块具体用于:

根据所述各文字区域的清晰度,采用预置综合清晰度计算公式,计算所述图像的综合清晰度;

其中,所述综合清晰度计算公式如下:

其中,s表示图像的综合清晰度,u表示所述文字区域的数量总和,qi表示第i个文字区域对应的文本清晰度值。

本发明第三方面提供了一种图像清晰度检测设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述图像清晰度检测设备执行上述的图像清晰度检测方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的图像清晰度检测方法。

本发明提供的技术方案中,首先获取用户上传的待检测的图像,然后采用预置场景文本检测模型对所述图像进行文字区域定位,在得到所述图像中各文字所在区域对应的文字区域框之后,从所述图像中裁取所述各文字区域框对应的文字区域,得到对应的文字区域之后,能够精准的对文字区域部分进行清晰度检测,然后基于无参考离散余弦变换域,分别计算所述各文字区域的清晰度,最后根据所述各文字区域的清晰度,计算所述图像的综合清晰度。本发明能够有效针对用户上传图像的文字部分进行检测及清晰度计算。

附图说明

图1为本发明实施例中图像清晰度检测方法的一个实施例示意图;

图2为本发明实施例中图像清晰度检测方法的另一个实施例示意图;

图3为本发明实施例中图像清晰度检测装置的一个实施例示意图;

图4为本发明实施例中图像清晰度检测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种图像清晰度检测方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中图像清晰度检测方法的一个实施例包括:

101、获取待检测的图像;

可以理解的是,本发明的执行主体可以为图像清晰度检测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中,待检测的图像是指用户上传的图像,在获取待检测的图像之后,对所述待检测的图像进行检测,如果检测到所述待检测的图像清晰度较差,对用户此次上传进行拒绝,并提示用户重新上传,能有效降低后续对于资产证明影像中光学字符识别的难度,并提升资产证明影像光学字符识别效率。

102、采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框;

本实施例中,所述预置场景文本检测模型是一种是一种基于两阶段的文本检测方法,检测过程包括:图像经过全卷积网络输出检测几何形状并经过非极大值抑制来对生成的几何进行过滤,从而得到所述各文字所在区域对应的文字区域框。

可选的,在一实施例中,所述场景文本检测模型依次包括:pvanet网络、特征合并层、网络输出层,所述采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框包括:

在所述pvanet网络中,将所述图像输入所述pvanet网络进行特征提取,得到不同尺寸的多个第一特征图;

本可选实施例中,pvanet网络指的是performancevsaccuracy,意思是加速模型性能,同时不丢失精度的一种轻量级的网络,主要在于使用了高效的自定义基础网络,pvanet网络使用了c.relu、inception、hypernet以及residual模块等技巧,对特征提取的效率有了极大的提升。通过将所述图像输入到pvanet网络中,对所述图像进行一系列的卷积操作及特征融合,得到不同尺寸的所述各第一特征图。

在所述特征合并层的多个第一反卷积层中,使用多个第一反卷积核,对所述不同尺寸的各第一特征图进行上采样并向下合并,得到对应的多个第二特征图;

本可选实施例中,特征合并层采用逐层合并的方式进行特征合并,逐层合并的步骤如下:

其中,在特征提取阶段提取四个级别的第一特征图,其大小分别输入图像大小的1/32、1/16、1/8和1/4,在每个合并阶段,首先,将来自在每个合并阶段,首先,将来自上一个阶段的特征图首先被输入到一个上采样层来扩大其大小;然后,与当前层特征图进行合并;最后,通过conv1×1减少通道数量和计算量;conv3×3计算主要用于将局部信息融合以最终产生该合并阶段的输出。在最后一个合并阶段之后,conv3×3层会生成合并分支的最终特征图并将其送到输出层。

在所述网络输出层的第一池化层中,使用第一池化卷积核,对所述各第二特征图进行线性变换计算,得到对应的多个文字区域框。

本可选实施例中,网络输出层中包括多个conv1×1操作,以将32个通道的特征图投影到1个通道的分数特征图和一个多通道几何图形特征图。几何形状输出可以是四边形或者是旋转四边形中的一种,本实施例中输出的是对应的多个文本区域框。

可选的,在一实施例中,所述将所述图像输入所述pvanet网络进行特征提取,得到不同尺寸的多个第一特征图包括:

在所述激活层的第一卷积层中,使用c.relu激活函数及第一卷积核,对所述图像进行非线性映射计算及卷积操作,得到对应的多个第一卷积特征图;

本可选实施例中,c.relu激活函数是基于relu激活函数基础上改进的一种激活函数,relu函数是分段线性函数,作用是把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。c.relu激活函数在relu激活函数基础上,增加输出维度,从而使得c.relu激活函数能够减小输出特征图个数为原始一半,另一半直接取相反数得到,再将两部分特征图连接,从而减少了卷积核数目。在本可选实施例中,通过使用c.relu激活函数及所述第一卷积核,对所述图像进行卷积操作及c.relu激活函数进行的单侧抑制计算,从而得到对应的多个第一卷积特征图。

在所述inception网络的多个第二卷积层中,使用大小不同的多个第二卷积核,对所述各第一卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第二卷积特征图;

本可选实施例中,inception网络又叫做googlenet,是克里斯蒂安·塞格迪提出的一种全新的深度学习结构,该网络通过增加网络的宽度来提高网络性能,在每个inception模块中,使用了不同大小的卷积核,可以理解成不同的感受野,可以得到不同尺度的特征,用1×1的卷积核起到降维作用并大大减少了运算量,然后将其集中起来,丰富了每层的信息,加速了网络的收敛速度。在本可选实施例中,对所述各第一卷积特征图用大小不同的所述各卷积核进行卷积操作,最后得到不同尺寸的所述各第二卷积特征图。

在所述hypernet网络的多个第三卷积层中,使用第三卷积核,对所述不同尺寸的各第二卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个第一特征图。

本可选实施例中,hypernet网络是faster-rcnn的变种,hypernet主要改进在于集合了多层的特征图,得到多尺度的超特征(hyperfeature),所以该网络简称为hypernet网络,相比与faster-rcnn,hypernet更擅长处理小物体,其应用的跳层特征在处理小物体检测中已经多次被用到,成为了一种常用的有效手段。在本实施例中,hypernet网络将所述待检测的图像1/8特征图、所述待检测的图像1/16特征图、所述待检测的图像1/32特征图连接来增加最终特征图中多尺度信息,同时将所述各第二卷积特征图被线性插值上采样,得到不同尺寸的所述各第一特征图。

103、从所述图像中裁取所述各文字区域框对应的文字区域;

本实施例中,根据得到的所述文字区域框,从所述待检测的图像中裁取得到对应的文字区域,便于后续对所述待检测的图像清晰度的检测。

104、基于无参考离散余弦变换域,对所述文字区域对应的空域进行变换,得到所述文字区域对应的频域图像;

本实施例中,无参考离散余弦变换是对实信号定义的一种变换,变换后在频域中得到的也是一个实信号,相比传统的离散傅里叶变换而言,离散余弦变换可以减少一半以上的计算。离散余弦变换还有一个很重要的能量集中特性:大多书自然信号,例如声音、图像的能量都集中在离散余弦变换后的低频部分,因而离散余弦变换在声音、图像数据压缩中得到了广泛的使用。由于离散余弦变换是从离散傅里叶变换推导出来的另一种变换,因此许多离散傅里叶变换的属性在离散余弦变换中仍然是保留下来的。通过离散余弦变换,将图像从空域变换到频域,频域的高频信息对应着图像的边缘和细节,而频域的低频信息对着图像的轮廓。从频域角度看,当一幅图像的高频分量不足时,通常表现为模糊,能够有效的对所述待检测的图像的清晰度进行分析。

105、根据所述频域图像,采用预置文本清晰度计算公式,计算所述各文字区域的清晰度;

本实施例中,所述预置文本清晰度计算公式具体如下:

其中,计算每个频域图像上每个像素值c(x,y)(离散余弦变换系数)的绝对值的对数,即log(|c(x,y)|),然后统计log(|c(x,y)|)大于阈值t的个数tn,其中t取值为-0.2,最后计算所述文本清晰度q。

106、根据所述各文字区域的清晰度,计算所述图像的综合清晰度。

本实施例中,通过之前得到的所述各文字区域的清晰度,通过预置的综合清晰度计算公式,对所述待检测的图像的综合清晰度进行计算评分,从而得到所述待检测的图像的清晰度结果,并根据清晰度结果对用户上传的图像进行拒绝或接收的操作。

本发明实施例中,采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框,场景文本检测模型能够有效的检测到待检测的图像中的文本区域部分,其中,采用pvanet网络进行特征提取也提高了提取效率,对于后续便于进行图像清晰度计算提供了准确度基础。

请参阅图2,本发明实施例中图像清晰度检测方法的另一个实施例包括:

201、获取待检测的图像;

202、采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框;

203、从所述图像中裁取所述各文字区域框对应的文字区域;

204、基于无参考离散余弦变换域,采用离散余弦函数,对所述文字区域对应的像素数据进行计算,得到离散余弦变换系数;

本实施例中,采用离散余弦函数,对所述文字区域对应的像素数据进行计算,得到离散余弦变换系数,所述离散余弦变换公式具体如下:

其中,i(x,y)是大小为m*n的灰度图像的像素点,c(u,v)为离散余弦变换后的系数。不同模糊程度的文本图像离散余弦变换后对应着不同的频域信息,(x,y)是像素点在平面直角坐标系中的坐标,(u,v)是离散余弦变换之后的图像像素点的笛卡尔坐标。

205、基于所述离散余弦变换系数,对所述文字区域对应的空域进行正交变换,得到所述文字区域对应的频域图像;

本实施例中,对所述文字区域对应的空域进行灰度变换,得到所述文字区域对应的灰度图,根据所述离散余弦变换系数,对所述文字区域对应的灰度图进行正交变换,得到所述文字区域对应的频域图像。

206、根据所述频域图像,采用预置文本清晰度计算公式,计算所述各文字区域的清晰度;

本实施例中,所述预置文本清晰度计算公式具体如下:

其中,计算每个频域图像上每个像素值c(x,y)(离散余弦变换系数)的绝对值的对数,即log(|c(x,y)|),然后统计log(|c(x,y)|)大于阈值t的个数tn,其中t取值为-0.2,最后计算所述文本清晰度q。

207、根据所述各文字区域的清晰度,采用预置综合清晰度计算公式,计算所述各图像的综合清晰度;

本实施例中,所述综合清晰度计算公式如下:

其中,s表示图像的综合清晰度,u表示所述文字区域的数量总和,qi表示第i个文字区域对应的文本清晰度值。本实施例中,对之前计算得到的全部文本清晰度值求和,并根据所述各文字区域的文本清晰度的数量综合计算平均数得到所述各图像的综合清晰度。

可选的,在一实施例中,在所述获取待检测的图像之前还包括:

获取具有不同清晰度的多张图像样本;

将所述各图像样本输入预置全卷积网络模型,在所述全卷积网络模型的激活层的第四卷积层中,使用c.relu激活函数及第四卷积核,对所述各图像样本进行非线性映射计算及卷积操作,得到对应的多个第三卷积特征图;

本可选实施例中,c.relu激活函数是基于relu激活函数基础上改进的一种激活函数,relu函数是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。c.relu激活函数在relu激活函数基础上,增加输出维度,从而使得c.relu激活函数能够减小输出特征图个数为原始一半,另一半直接取相反数得到,再将两部分特征图连接,从而减少了卷积核数目。在本可选实施例中,通过使用c.relu激活函数及所述第四卷积核,对所述图像进行卷积操作及c.relu激活函数进行的单侧抑制计算,从而得到对应的多个第三卷积特征图。

在所述全卷积网络模型的inception网络的多个第五卷积层中,使用大小不同的多个第五卷积核,对所述各第三卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第四卷积特征图;

本可选实施例中,inception网络又叫做googlenet,是克里斯蒂安·塞格迪提出的一种全新的深度学习结构,该网络通过增加网络的宽度来提高网络性能,在每个inception模块中,使用了不同大小的卷积核,可以理解成不同的感受野,可以得到不同尺度的特征,用1×1的卷积核起到降维作用并大大减少了运算量,然后将其集中起来,丰富了每层的信息,加速了网络的收敛速度。在本可选实施例中,对所述各第三卷积特征图使用大小不同的多个第五卷积核进行卷积操作,最后得到不同尺寸的所述各第四卷积特征图。

在所述全卷积网络模型的hypernet网络的多个第六卷积层中,使用多个第六卷积核,对所述不同尺寸的各第四卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个预测特征图;

本可选实施例中,hypernet网络是faster-rcnn的变种。hypernet主要改进在于集合了多层的特征图,得到多尺度的超特征(hyperfeature),相比与faster-rcnn,hypernet更擅长处理小物体,其应用的跳层特征在处理小物体检测中已经多次被用到,成为了一种常用的有效手段。在本实施例中,hypernet网络将所述图像样本的1/8特征图、所述图像样本的1/16特征图、所述待检测的图像1/32特征图连接来增加最终特征图中多尺度信息,同时将所述第四卷积特征图被线性插值上采样,得到不同尺寸的所述各预测特征图。

在所述全卷积网络模型的特征合并层的多个第二反卷积层中,使用多个第二反卷积核,对所述各预测特征图进行上采样并向下合并,得到对应的多个第三特征图;

本可选实施例中,在特征提取阶段提取四个级别的预测特征图,其大小分别输入图像样本大小的1/32、1/16、1/8和1/4,在每个合并阶段,首先,将来自在每个合并阶段,首先,将来自上一个阶段的特征图首先被输入到一个上采样层来扩大其大小;然后,与当前层特征图进行合并;最后,通过conv1×1减少通道数量和计算量;conv3×3计算主要用于将局部信息融合以最终产生该合并阶段的输出。在最后一个合并阶段之后,conv3×3层会生成合并分支的多个第三特征图并将其送到输出层。

在所述全卷积网络模型的网络输出层的多个第二池化层中,使用多个第二池化卷积核,对所述各第三特征图进行线性变换计算,得到对应的多个预测文字区域框;

本可选实施例中,网络输出层中包括多个conv1×1操作,以将32个通道的特征图投影到1个通道的分数特征图和一个多通道几何图形特征图。几何形状输出可以是四边形或者是旋转四边形中的一种,本实施例中输出的是对应的多个预测文本区域框。

根据所述各预测文字框区域,调用预置损失函数采用梯度更新方法对所述全卷积网络模型进行参数优化,直至所述全卷积网络模型收敛,得到场景文本检测模型。

本可选实施例中,在进行模型训练时,采用交叉熵对网络进行优化,训练时计算网络的交叉熵损失函数loss值,根据loss值对比图像样本特征图与真实图像特征图相差的大小,相差越多,loss值越大,相差越少,loss值越低。采用梯度下降法,沿着梯度下降的方向进行权重更新,当loss值达到4以下时,此时模型收敛,得到场景文本检测模型。

本发明实施例中,通过获取多个图像样本进行训练,采取具有不同清晰度的图像样本,对场景文本检测模型文本检测的效率有了提升,在从所述图像中裁取所述各文字区域框对应的文字区域之后,基于无参考离散余弦变换域,对所述文字区域进行清晰度计算,并对全部文字区域的清晰度值求平均值,能够更直观清楚地得到待检测的图像的清晰度,有效评价用户上传图像的清晰度情况。

上面对本发明实施例中图像清晰度检测方法进行了描述,下面对本发明实施例中图像清晰度检测装置进行描述,请参阅图3,本发明实施例中图像清晰度检测装置一个实施例包括:

获取模块301,用于获取待检测的图像;

定位模块302,用于采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框;

裁剪模块303,用于从所述图像中采取所述各文字区域框对应的文字区域;

变换模块304,变换模块,用于基于无参考离散余弦变换域,对所述文字区域对应的空域进行变换,得到所述文字区域对应的频域图像;

可选的,所述变换模块304还包括:

计算单元3041,用于基于无参考离散余弦变换域,采用离散余弦函数,对所述文字区域对应的像素数据进行计算,得到离散余弦变换系数;

正交变换单元3042,用于基于所述离散余弦变换系数,对所述文字区域对应的空域进行正交变换,得到所述文字区域对应的频域图像。

清晰度计算模块305,用于根据所述频域图像,采用预置文本清晰度计算公式,计算所述各文字区域的清晰度;

综合清晰度计算模块306,用于根据所述各文字区域的清晰度,计算所述图像的综合清晰度。

可选的,图像清晰度检测装置还包括:

特征提取模块307,用于在所述激活层的第一卷积层中,使用c.relu激活函数及第一卷积核,对所述图像进行非线性映射计算及卷积操作,得到对应的多个第一卷积特征图;在所述inception网络的多个第二卷积层中,使用大小不同的多个第二卷积核,对所述各第一卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第二卷积特征图;在所述hypernet网络的多个第三卷积层中,使用第三卷积核,对所述不同尺寸的各第二卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个第一特征图。

模型训练模块308,用于获取具有不同清晰度的多张图像样本;

将所述各图像样本输入预置全卷积网络模型,在所述全卷积网络模型的激活层的第四卷积层中,使用c.relu激活函数及第四卷积核,对所述各图像样本进行非线性映射计算及卷积操作,得到对应的多个第三卷积特征图;在所述全卷积网络模型的inception网络的多个第五卷积层中,使用大小不同的多个第五卷积核,对所述各第三卷积特征图进行不同的卷积操作,得到对应不同尺寸的多个第四卷积特征图;在所述全卷积网络模型的hypernet网络的多个第六卷积层中,使用多个第六卷积核,对所述不同尺寸的各第四卷积特征图进行线性插值上采样及特征图融合,得到不同尺寸的多个预测特征图;在所述全卷积网络模型的特征合并层的多个第二反卷积层中,使用多个第二反卷积核,对所述各预测特征图进行上采样并向下合并,得到对应的多个第三特征图;在所述全卷积网络模型的网络输出层的多个第二池化层中,使用多个第二池化卷积核,对所述各第三特征图进行线性变换计算,得到对应的多个预测文字区域框;根据所述各预测文字框区域,调用预置损失函数采用梯度更新方法对所述全卷积网络模型进行参数优化,直至所述全卷积网络模型收敛,得到场景文本检测模型。

本发明实施例中,采用预置场景文本检测模型对所述图像进行文字区域定位,输出所述图像中各文字所在区域对应的文字区域框,场景文本检测模型能够有效的检测到待检测的图像中的文本区域部分,其中,采用pvanet网络进行特征提取也提高了提取效率,对于后续便于进行图像清晰度计算提供了准确度基础,在从所述图像中裁取所述各文字区域框对应的文字区域之后,基于无参考离散余弦变换域,对所述文字区域进行清晰度计算,并对全部文字区域的清晰度值求平均值,能够更直观清楚地得到待检测的图像的清晰度,有效评价用户上传图像的清晰度情况。

上面图3从模块化功能实体的角度对本发明实施例中的图像清晰度检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中图像清晰度检测设备进行详细描述。

图4是本发明实施例提供的一种图像清晰度检测设备的结构示意图,该图像清晰度检测设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对图像清晰度检测设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在图像清晰度检测设备400上执行存储介质430中的一系列指令操作。

图像清晰度检测设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统431,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图4示出的图像清晰度检测设备结构并不构成对图像清晰度检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种图像清晰度检测设备,所述图像清晰度检测设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述图像清晰度检测方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述图像清晰度检测方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onvlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1