图像属性的确定方法、装置、终端设备和存储介质与流程

文档序号:23753980发布日期:2021-01-29 14:55阅读:97来源:国知局
图像属性的确定方法、装置、终端设备和存储介质与流程

[0001]
本申请涉及图像处理技术领域,具体涉及一种图像属性的确定方法、终端设备和计算机可读存储介质。


背景技术:

[0002]
随着科学技术的发展,目前对于图像处理识别的需求越来越大,例如身份证识别、票据文字识别、试卷自动批改、拍照搜题等。然而在某一些实际应用场景中,例如拍照搜题时,为了提高搜题的准确性,在图像识别(例如文字识别)之前往往需要对图像的多个属性进行判断,如图像文字的方向判断(即是否有倾斜)、图像文字的类型(即文字是手写体还是印刷体)等。目前现有的图像属性确定方案基本都是分别对图像的单一属性进行分类判断,即每一个模型方案只能识别图像的单一属性,那么对于多属性的图像而言就需要设计多个独立的模型方案,模型方案设计复杂且耗时长。
[0003]
申请内容
[0004]
有鉴于此,本申请实施例中提供了一种图像属性的确定方法、终端设备和计算机可读存储介质,以克服现有技术中每一个模型方案只能识别图像的单一属性,对于多属性的图像而言就需要设计多个独立的模型方案,模型方案设计复杂且耗时长的问题。
[0005]
第一方面,本申请实施例提供了一种图像属性的确定方法,该方法包括:获取待识别图像;
[0006]
将所述待识别图像输入至预先训练的图像属性分类模型,分别输出所述待识别图像的图像角度概率值和文字类型概率值;其中,所述图像属性分类模型是采用标记有图像角度信息和文字类型信息的图像样本对改进的efficient网络进行训练得到的,所述改进的efficient网络包括多个attention-mbconv模块,每个所述attention-mbconv模块串行连接,所述attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的;
[0007]
根据所述图像角度概率值和所述文字类型概率值分别确定图像角度和文字类型。
[0008]
第二方面,本申请实施例提供了一种图像属性的确定装置,该装置包括:
[0009]
待识别图像获取模块,用于获取待识别图像;
[0010]
概率值输出模块,用于将所述待识别图像输入至预先训练的图像属性分类模型,分别输出所述待识别图像的图像角度概率值和文字类型概率值;其中,所述图像属性分类模型是采用标记有图像角度信息和文字类型信息的图像样本对改进的efficient网络进行训练得到的,所述改进的efficient网络包括多个attention-mbconv模块,每个所述attention-mbconv模块串行连接,所述attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的;
[0011]
角度类型确定模块,用于根据所述图像角度概率值和所述文字类型概率值分别确定图像角度和文字类型。
[0012]
第三方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,
与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的图像属性的确定方法。
[0013]
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的图像属性的确定方法。
[0014]
本申请实施例提供的一种图像属性的确定方法、终端设备和计算机可读存储介质,获取待识别图像;将待识别图像输入至预先训练的图像属性分类模型,分别输出待识别图像的图像角度概率值和文字类型概率值;其中,图像属性分类模型是采用标记有图像角度信息和文字类型信息的图像样本对改进的efficient网络进行训练得到的,改进的efficient网络包括多个attention-mbconv模块,每个attention-mbconv模块串行连接,attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的;根据图像角度概率值和文字类型概率值确定图像角度和文字类型;该方法由于采用了采用标记有图像角度信息和文字类型信息(即已知图像角度和文字类型)的图像样本来训练改进的改进的efficient网络从而得到预先训练的图像属性分类模型,那么基于图像属性分类模型就能分别识别出待识别图像的图像角度和文字类型,可见该方法只需要设计训练一个模型就可以同时识别出图像角度和文字类型,减少了操作以及计算量。另外,采用改进的efficient网络,可以对多个图像属性同时进行学习训练,能够相互促进卷积神经网络从而学到更好的深度特征,进一步提高了准确率。
附图说明
[0015]
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0016]
图1为本申请实施例提供的图像属性的确定方法的应用场景示意图;
[0017]
图2为本申请一个实施例提供图像属性的确定方法的流程示意图;
[0018]
图3为本申请一个实施例提供的改进的efficient-b0网络的结构示意图;
[0019]
图4为本申请一个实施例提供的图像属性分类模型训练的流程示意图;
[0020]
图5为本申请一个实施例提供的attention-mbconv模块的结构示意图;
[0021]
图6为本申请一个实施例提供的注意力模块(attention block)结构示意图;
[0022]
图7为本申请另一个实施例提供的图像属性的确定方法的流程示意图;
[0023]
图8为本申请一个实施例提供的图像属性的确定装置的结构示意图;
[0024]
图9为本申请一个实施例中提供的终端设备的结构示意图;
[0025]
图10为本申请一个实施例中提供的计算机可读存储介质的结构示意图。
具体实施方式
[0026]
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]
为了更详细说明本申请,下面结合附图对本申请提供的一种图像属性的确定方法、装置、终端设备和计算机存储介质,进行具体地描述。
[0028]
请参考图1,图1示出了本申请实施例提供的图像属性的确定方法的应用场景的示意图,该应用场景包括本申请实施例提供的终端设备102和服务器104,其中服务器104与终端设备102之间设置有网络。网络用于在终端设备102和服务器104之间提供通信链路的介质。其中,终端设备102通过网络与服务器104交互,以接收或发送消息等,服务器104可以是提供各种服务的服务器。其中服务器104可以用来执行本申请实施例中提供的图像属性的确定方法,服务器104可以从终端设备102中获取待识别图像,然后将待识别图像输入预先训练的图像属性分类模型从而分别输出待识别图像的图像角度概率值和文字类型概率值,然而根据图像角度概率值和文字类型概率值确定图像角度和文字类型。另外,服务器104还可以将确定的结果返回至终端设备102等。此外,服务器104可以存储有预先训练的图像属性分类模型;终端设备102可以用来对待识别物体(例如试卷试题等)进行拍照生成待识别图像。
[0029]
可选的,终端设备102可以是具有显示屏的各种电子设备,包括但不限于智能手机和计算机设备,其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。终端设备102可以泛指多个终端设备中的一个。此外,终端设备102也可以用来执行本申请实施例中提供的一种图像属性的确定方法。
[0030]
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。
[0031]
基于此,本申请实施例中提供了一种图像属性的确定方法。请参阅图2,图2示出了本申请实施例提供的一种图像属性的确定方法的流程示意图,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
[0032]
步骤s110,获取待识别图像;
[0033]
在对图像进行文本识别之前,需要先对图像进行属性确定。因此,在本实施例中待识别图像是指任意的需要进行文本识别的图像。其中,待识别图像可以是图像采集设备(例如智能终端、摄像设备等)拍摄文档、证件、试卷、书籍等产生的图片。
[0034]
另外,待识别图像的角度(即图像是否发生倾斜)、颜色、大小、分辨率等不限,只要能符合图像识别的最低要求即可。
[0035]
步骤s120,将待识别图像输入至预先训练的图像属性分类模型,分别输出待识别图像的图像角度概率值和文字类型概率值;其中,图像属性分类模型是采用标记有图像角度信息和文字类型信息的图像样本对改进的efficient网络进行训练得到的,改进的efficient网络包括多个attention-mbconv模块,每个attention-mbconv模块串行连接,attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的;
[0036]
具体地,模型训练就是给定输入向量和目标输出值,然后将输入向量来输入一个或多个网络结构或函数来求得实际输出值,并根据目标输出值和实际输出值来计算偏量,
并判断偏量是否在容许范围内;若在容许范围内,则训练结束并固定相关参数;若不在容许范围内,不断去调整网络结构或函数中的一些参数,直至在偏量在容许范围内或达到了某一结束条件时,训练结束并固定相关参数,最后根据固定的相关参数即可得到训练完成的模型。
[0037]
而本实施例中的图像属性分类模型的训练实际上为:将标记有图像角度信息和文字类型信息的图像样本作为输入向量输入至改进的efficient网络,将图像样本的图像角度和文字类型作为目标输出值;求隐含层,输出各层单元的输出,求出目标分类结果和实际分类结果偏差,当偏差在不容许范围内,计算网络层中神经元的误差,求误差梯度,并更新权值,重新求隐含层,输出各层单元的输出,求出目标分类结果和实际分类结果偏差,直至偏差在容许范围内,训练结束,固定权重和阈值,从而得到预先训练的图像属性分类模型。此外,在本实施例中,采用了改进的efficient网络,其中改进的efficient网络是一种多任务神经网络,可以同时对多个任务(在本实施例中是指图像的多个属性)进行分析判断,大大的简化了图像属性检测的流程,并且也能提升图像属性检测的效果和准确性。另外,改进的efficient网络包括多个attention-mbconv模块,每个attention-mbconv模块串行连接,attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的。加入注意力模块即在mbconv模块中引入了注意力机制,能进一步提高文本检测的准确率。其中,mbconv模块,又叫移动翻转瓶颈卷积。
[0038]
图像角度信息用来确定图像样本的图像角度;文字类型信息用来确定图像样的文字类型。其中,图像角度通常可以是指0~360
°
范围内的任意一个角度;但在实际应用中,并不需要确定出精确的角度;另外为了模型训练的方便,在本实施例中可以将图像角度分为4种类别,即0
°
、90
°
、270
°
以及360
°
。文字类型主要包括手写体和印刷体(或打印体)两种类别。值得注意的是本实施例中的文字类型并不是指字体类型(例如宋体、楷体等);书写体或印书体都可以包括不同的字体类型。
[0039]
图像角度概率值是指待识别的图像属于某一种角度类别所对应的概率;文字类型概率值是指待识别的图像属于某一种文字类别所对应的概率。
[0040]
另外,mbconv模块通常是由多层(通常包括卷积层、relu层)构成,每一层都会输出一个特征图。最后一个特征输出层通常是指mbconv模块的最后一层。
[0041]
步骤s130,根据图像角度概率值和文字类型概率值分别确定图像角度和文字类型。
[0042]
具体而言,通过图像属性分类模型对待识别图像进行处理,可以输出图像角度概率值和文字类型概率值,然后选择最大的图像角度概率值对应的角度类别即为图像角度,以及最大的文字类型概率值对应的文字类型即为文字类型。例如,将待识别的图像a输入图像属性分类模型进行处理,输出结果为a的图像角度为0
°
的概率为五分之一,a的图像角度为270
°
的概率为五分之四,a的文字类型为印刷体的概率为四分之三,a的文字类型为印刷体的概率为四分之一,那么a的最终图像角度为270
°
,a的文字类型为印书体。
[0043]
为了便于理解本方案,给出一个详细的实施例。例如,某一个用户需要从某题库中搜索某一道题目的正确解法时,该用户可以采用手机等智能终端拍摄该题目形成待识别图像;由于在拍摄过程中图像可能发生倾斜,并且题目中可能包括多种文字类型,例如一道印刷的数学题目a,用户在a旁边用笔手写了一些文字等,那么此时的文字类型就既有印书体
又有手写体,在进行题目识别时需要先区分印书体和手写体。在获得待识别图像后,将待识别图像上传至某题库相关服务器,某题库相关服务器可以采用本发明实施例中的预先训练的图像属性分类模型对待识别图像进行图像角度和文字类别判断,根据判断的结果来确定图像角度(即题目角度)、题目对应的文字类别(即确定题目为印刷体,从而排除用户在a旁边手写的一些文字),然后基于光学字符识别,识别出题目信息,然后根据题目信息从题库中找到对应的题目以及相关的解法方案。
[0044]
本申请实施例中的图像属性的确定方法,获取待识别图像;将待识别图像输入至预先训练的图像属性分类模型,分别输出待识别图像的图像角度概率值和文字类型概率值;其中,图像属性分类模型是采用标记有图像角度信息和文字类型信息的图像样本对改进的efficient网络进行训练得到的,改进的efficient网络包括多个attention-mbconv模块,每个attention-mbconv模块串行连接,attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的;根据图像角度概率值和文字类型概率值确定图像角度和文字类型;该方法由于采用了采用标记有图像角度信息和文字类型信息(即已知图像角度和文字类型)的图像样本来训练改进的改进的efficient网络从而得到预先训练的图像属性分类模型,那么基于图像属性分类模型就能分别识别出待识别图像的图像角度和文字类型,可见该方法只需要设计训练一个模型就可以同时识别出图像角度和文字类型,减少了操作以及计算量。另外,采用改进的efficient网络,可以对多个图像属性同时进行学习训练,能够相互促进卷积神经网络从而学到更好的深度特征,进一步提高了准确率。
[0045]
在一个实施例中,改进的efficient网络包括深度特征提取网络、两个第一全连接层、两个第二全连接层和两个softmax分类层;其中深度特征提取网络多个attention-mbconv模块和两个卷积模块,attention-mbconv模块设置在两个卷积模块之间。
[0046]
在一种可选的实施方式中,改进的efficient网络可以是改进的efficient-b0网络。其中改进的efficient-b0网络通常包括两个卷积模块、多个attention-mbconv模块、一个全局平均池化层和一个fc分类层(请参照图3所示,其中图3中仅示意出了部分内容)。可选的,attention-mbconv模块的数量可以为16个,其中16个attention-mbconv模块相串接,形成多层级结构,通过多层级结构可以对图像进行多次或多阶段的翻转瓶颈卷积运算。另外,多层级结构设置于两个卷积模块之间。
[0047]
全局平均池化层主要用于对卷积模块和attention-mbconv模块输出的深度特征图进行全局平均池化处理。fc分类层主要用于对全局平均池化后的深度特征图进行处理,输出分类结果。在本实施例中,fc分类层两个第一全连接层、两个第二全连接层和两个softmax分类层,其中,两个第一全连接层可以是512个神经元的全连接层;两个第二全连接层可以是一个4个神经元的全连接层和一个2个神经元的全连接层,其中4个神经元的全连接层通常是用于对图像角度进行分类,而2个神经元的全连接层通常是用于对文字类型进行分类。
[0048]
请参照图4,图像属性分类模型的训练方法,包括:
[0049]
步骤s210,获取图像样本,采用图像角度信息和文字类型信息对图像样本进行标记,得到标记有图像角度信息和文字类型信息的图像样本;
[0050]
在本实施例中,首先要准备比较多(例如几千张、几万张等)数量的图像样本。图像
样本可以是采用拍摄设备自行拍摄收集,也可以是从网络的图片数据库或试题数据库中进行爬取。通常情况下,图像样本越多,其训练的模型更加精确;但图像样本太多会降低模型训练的速度。因此,在实际应用中,选择合适数量的图像样本即可,但在准备图像样本时尽可能使样本多样化。其中在准备图像样本时可以建立数据训练集,将图像样本存储至数据训练集中。
[0051]
在获取到图像样本后,需要对图像样本进行图像角度信息和文字类型信息标记。可选地,在标记过程中,可以采用图像角度标签来对图像样本进行图像角度信息标记,以及采用文字类型标签来对图像样本进行文字类型信息标记。
[0052]
步骤s220,将标记有图像角度信息和文字类型信息的图像样本输入深度特征提取网络进行特征提取,得到深度特征图;
[0053]
具体地,首先将标记有图像角度信息和文字类型信息的图像样本输入第一个卷积模块进行卷积处理,得到特征图;然后将特征图输入由多个attention-mbconv模块形成多层级结构,进行多次翻转瓶颈卷积运算,再通过第二个卷积模块输出深度特征图。
[0054]
步骤s230,将深度特征图分别依次输入两个第一全连接层、两个第二全连接层和两个softmax分类层,输出实际分类结果;
[0055]
具体地,在将深度特征图别依次输入第一全连接层、第二全连接层和softmax分类层之前,通常还包括将深度特征图输入全局平均池化层进行全局平均池化,在全局平均化后将深度特征图像输入后面的分类层进行分类处理得到实际分类结果。其中,深度特征图经过两个第一全连接层、两个第二全连接层和两个softmax分类层通常输出的是图像角度概率值和文字类型概率值,然后根据图像角度概率值和文字类型概率值分别来确定实际分类结果。
[0056]
步骤s240,对改进的efficient网络的权重进行调整,直至实际分类结果与目标分类结果的偏差在容许范围内时,训练完成,得到图像属性分类模型。
[0057]
具体地,根据图像角度信息和文字类型信息可以确定目标图像角度和文字类型(即目标分类结果),然后将实际分类结果(即采用改进的efficient网络对图像样本进行分类得到的结果),看其偏差是否在容许范围,若不是,对改进的efficient网络的权重进行调整,重新输出实际分类结果,直至实际分类结果与目标分类结果的偏差在容许范围内时,训练完成,得到图像属性分类模型。其中,容许范围可以是一个预设的值,表示可接收的实际分类结果与目标分类结果最大偏差。
[0058]
该模型训练方法,只需要训练一次,即可同时对图像角度和文字类型分类模型进行训练,大大减少了操作步骤,提高了效率。
[0059]
为了便于理解,给出一个详细的实施例。以改进的efficient-b0网络为例来说明图像属性分类模型训练时的流程:输入标记有图像角度信息和文字类型信息的图像样本至第一阶段至第九阶段进行处理最后输出待识别图像的图像角度概率值和文字类型概率值,其中第一阶段为卷积模块—>批归一化—>swish激活函数;第二阶段:1个attention-mbconv模块,第三阶段:2个attention-mbconv模块,第四阶段:2个attention-mbconv模块,第五阶段:3个attention-mbconv模块,第六阶段:3个attention-mbconv模块,第七阶段:4个attention-mbconv模块,第八阶段:1个attention-mbconv模块,第九阶段:卷积模块—>批归一化—>swish激活函数—>全局平均池化—>随机失活—>全连接层—>softmax层,最
后输出。
[0060]
在一个实施例中,attention-mbconv模块包括第一卷积层、relu层、第二卷积层和注意力模块;将图像样本输入深度特征提取网络进行特征提取,得到深度特征图的步骤中包括:
[0061]
将第一特征图输入第一卷积层进行卷积处理得到第二特征图;其中第一特征图是位于当前attention-mbconv模块之前的卷积模块和attention-mbconv模块对标记有图像角度信息和文字类型信息的图像样本进行处理输出的特征图;
[0062]
将第二特征图输入relu层进行relu和深度卷积处理得到第三特征图;将第三特征图输入第二卷积层进行relu和卷积处理得到第四特征图;将第四特征图输入注意力模块进行加权计算,得到加权处理后的特征图;将加权处理后的特征图输入位于当前attention-mbconv模块之后的attention-mbconv模块或卷积模块进行输出,得到深度特征图。
[0063]
具体地,如图5所示,attention-mbconv模块包括第一卷积层(即图中第一个方块)、relu层(即图中第二个方块,3
×
3,relu6,dwise)、第二卷积层(即图中第3个方块,relu6,1
×
1)和注意力模块(即图中的attention block);请参照图6,注意力模块包括scale层和自上向下依次连接的global pooling(全局池化层)、1
×
1conv(1
×
1卷积层)、bn/relu层、1
×
1conv(1
×
1卷积层)、bn层和sigmoid函数层,其中sigmoid函数层连接scale层。bn和relu层表示非线性激活单元,主要用于避免卷积神经网络只能拟合线性数据,不能拟合非线性数据,从未造成后续模型训练不准确甚至导致训练失败的问题。注意力模块主要用于对第四特征图进行加权处理,使得加权处后输出的特征图更加精确,从而使得后续训练得到的图像属性分类模型更加精确。
[0064]
在本实施例中,attention-mbconv模块可以指的是改进的efficient网络中任意一个attention-mbconv模块。将输入第一卷积层的特征图称为第一特征图,其中第一特征图通常是将标记有图像角度信息和文字类型信息的图像样本输入改进的efficient网络第一阶段中通过卷积模块、批归一化以及swish激活函数处理后得到的特征图,或者是其他的attention-mbconv模块输出的特征图。其中其他的attention-mbconv模块是指即除了当前attention-mbconv模块之外的且处于当前attention-mbconv模块之前的attention-mbconv模块。
[0065]
第一特征图经过第一卷积层进行卷积、以及批量标准化、归一化处理得到第二特征图,然后将第二特征图输入relu层进行relu、深度卷积以及批量标准化、归一化处理得到第三特征图,将第三特征图输入第二卷积层进行relu、卷积以及批量标准化、归一化处理得到第四特征图;将第四特征图输入注意力模块进行加权计算,得到加权处理后的特征图;将加权处理后的特征图输入位于当前attention-mbconv模块之后的attention-mbconv模块或卷积模块进行输出,得到深度特征图。
[0066]
在一个实施例中,在对改进的efficient网络的权重进行调整的步骤中,包括:
[0067]
采用梯度下降方法对改进的efficient网络的权重进行调整;其中损失函数采用加权损失函数。
[0068]
具体而言,梯度下降法是迭代法的一种,可以用在求解机器学习算法的模型参数。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。
[0069]
在采用梯度下降法来调整改进的efficient网络的权重时采用的损失函数为加权损失函数。可选地,加权损失函数中的图像角度、字体类型两种属性的权重可以为1:2。
[0070]
在一个实施例中,将标记有图像角度信息和文字类型信息的图像样本输入深度特征提取网络进行特征提取的步骤之前,包括:
[0071]
将标记有图像角度信息和文字类型信息的图像样本按照预设缩放范围进行缩放处理。
[0072]
具体地,在采用图像样本训练改进的efficient网络网络之前,需要对图像样本缩放处理。将各图像样本都缩放都一个统一的尺寸范围内。其中,预设缩放范围是一个预先设置的值,例如可以取300
×
300。应当理解,预设缩放范围的取值并不唯一,可以取其他值。
[0073]
在一些实施例中,将标记有图像角度信息和文字类型信息的图像样本输入深度特征提取网络进行特征提取的步骤之前,还包括:
[0074]
按照预设选择概率选择一种或多种增强处理方法对缩放处理后的图像样本进行增强处理;其中当选择多种增强处理方法时,每一种增强处理方法的运行顺序是随机的,增强处理方法包括对图像样本的rgb三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。
[0075]
具体的,为了增强预先训练的文本公式定位模型的泛化能力,防止模型过拟合,在将采用图像样本训练改进的efficient网络之前,还需要对图像样本进行增强处理。具体增强方法包括对图像样本的rgb三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理,其中添加噪声可以是高斯噪声和椒盐噪声。
[0076]
亮度变换处理通常是指对图像样本乘以一个系数,来改变图像样本的亮度。其系数可以是0.7-1.3区间的一个随机数。
[0077]
运动模糊是景物图像中的移动效果,通常是在拍照过程中产生的。为了保证图像样本的多样性以及真实性,对图像样本进行运动模糊处理。
[0078]
另外,对于一个图像样本而言,图像增强处理是可选的(即可以进行也可以不进行),图像增强处理方法也可以是选择其中一种或多种。每一种方法可以按照其预设选择概率来选择,每一种方法被选择的概率可以相等也可以不相同。
[0079]
在一种可选的实施方式中,每一种增强处理方法被选择的概率可以都设有0.5。
[0080]
在一个实施例中,压缩处理包括jpeg压缩;按照预设选择概率选择一种或多种增强处理方法对缩放处理后的图像样本进行增强处理的步骤中,包括:
[0081]
采用jpeg压缩并按照预设压缩强度对缩放处理后的图像样本进行压缩处理。
[0082]
其中,jpeg压缩是一种基于dct变换、zig-zag扫描和huffman编码的图像压缩方法。在图像压缩过程为了防止过度压缩,其压缩强度要保持在预设压缩范围内。可选的,预设压缩范围可以为0~40。
[0083]
应当理解,在图像压缩采用的算法不限于本实施例中提到的jpeg压缩算法,根据本发明的技术启示,本领域技术人员还可以采用其他压缩算法来进行图像压缩。
[0084]
为了便于理解,给出一个详细的实施例。图像属性的确定方法主要包括两大部分:模型训练阶段和模型推理阶段(即应用阶段)。请参考图7,模型训练阶段主要为:输入已知图像角度、字体类型标签的图像样本,并将图像样本缩放至300
×
300,将缩放后的图像样本进行增强处理;然后将增强处理后的图像样本输入改进的efficient-b0网络中的深度特征
提取网络进行深度特征提取,再将深度特征分别输入两个神经元个数为512的全连接层,再分别经过神经元个数为4、2的全连接层,并将softmax层输出等到角度、文字类型两种属性的概率值,对改进的efficient-b0网络的权重进行调整,模型训练完成。模型推理阶段主要为:将待识别的图像(也可以先进行图像缩放,缩放至300
×
300)输入训练后的改进的efficient-b0网络中的深度特征提取网络进行深度特征提取,再将深度特征分别输入两个神经元个数为512的全连接层,再分别经过神经元个数为4、2的全连接层,并将softmax层输出图像角度概率值、文字类型概率值,概率最大的类别即是图像角度、文字类型。
[0085]
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0086]
上述本申请公开的实施例中详细描述了一种图像属性的确定方法,对于本申请公开的上述方法可采用多种形式的设备实现,因此本申请还公开了对应上述方法的图像属性的确定装置,下面给出具体的实施例进行详细说明。
[0087]
请参阅图8,为本申请实施例公开的一种图像属性的确定装置,主要包括:
[0088]
待识别图像获取模块802,用于获取待识别图像;
[0089]
概率值输出模块804,用于将所述待识别图像输入至预先训练的图像属性分类模型,分别输出所述待识别图像的图像角度概率值和文字类型概率值;其中,所述图像属性分类模型是采用标记有图像角度信息和文字类型信息的图像样本对改进的efficient网络进行训练得到的,所述改进的efficient网络包括多个attention-mbconv模块,每个所述attention-mbconv模块串行连接,所述attention-mbconv模块是在mbconv模块的最后一个特征输出层之后加入注意力模块而形成的;
[0090]
角度类型确定模块806,用于根据所述图像角度概率值和文字类型概率值分别确定图像角度和文字类型。
[0091]
在一个实施例中,改进的efficient网络包括深度特征提取网络、全局平均池化层、两个第一全连接层、两个第二全连接层和两个softmax分类层;其中深度特征提取网络多个attention-mbconv模块和两个卷积模块,attention-mbconv模块设置在两个卷积模块之间;包括:
[0092]
样本获取模块,用于获取图像样本;
[0093]
样本标记模块,用于采用图像角度信息和文字类型信息对图像样本进行标记,得到标记有图像角度信息和文字类型信息的图像样本;
[0094]
特征提取模块,用于将标记有图像角度信息和文字类型信息的图像样本输入深度特征提取网络进行特征提取,得到深度特征图;
[0095]
结果输出模块,用于将深度特征图分别依次输入两个第一全连接层、两个第二全连接层和两个softmax分类层,输出实际分类结果;
[0096]
权重调整模块,用于对改进的efficient网络的权重进行调整,直至实际分类结果
与目标分类结果的偏差在容许范围内时,训练完成,得到图像属性分类模型。
[0097]
在一个实施例中,attention-mbconv模块包括第一卷积层、relu层、第二卷积层和注意力模块;特征提取模块包括:第二特征图得到模块、第三特征图得到模块、第四特征图得到模块和加权计算模块;
[0098]
第二特征图得到模块,用于将第一特征图输入第一卷积层进行卷积处理得到第二特征图;其中第一特征图是位于当前attention-mbconv模块之前的卷积模块和attention-mbconv模块对标记有图像角度信息和文字类型信息的图像样本进行处理输出的特征图;
[0099]
第三特征图得到模块,用于将第二特征图输入relu层进行relu和深度卷积处理得到第三特征图;
[0100]
第四特征图得到模块,用于将第三特征图输入第二卷积层进行relu、卷积、批量标准化以及归一化处理得到第四特征图;
[0101]
加权计算模块,用于将第四特征图输入注意力模块进行加权计算,得到加权处理后的特征图;
[0102]
特征提取模块,还用于将加权处理后的特征图输入位于当前attention-mbconv模块之后的attention-mbconv模块或卷积模块进行输出,得到深度特征图。
[0103]
在一个实施例中,权重调整模块,还用于对采用梯度下降方法改进的efficien网络的权重进行调整;其中损失函数采用加权损失函数。
[0104]
在一个实施例中,还包括:
[0105]
缩放处理模块,用于将标记有图像角度信息和文字类型信息的图像样本按照预设缩放范围进行缩放处理。
[0106]
在一个实施例中,还包括:
[0107]
增强处理模块,用于按照预设选择概率选择一种或多种增强处理方法对缩放处理后的图像样本进行增强处理;其中,当选择多种增强处理方法时,每一种增强处理方法的运行顺序是随机的,增强处理方法包括对图像样本的rgb三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。
[0108]
在一个实施例中,压缩处理包括jpeg压缩;增强处理模块包括压缩处理模块:
[0109]
压缩处理模块,用于采用jpeg压缩并按照预设压缩强度对缩放处理后的图像样本进行压缩处理。
[0110]
关于图像属性的确定装置的具体限定可以参见上文中对于方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0111]
请参考图9,图9其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备90可以是终端设备。本申请中的终端设备90可以包括一个或多个如下部件:处理器92、存储器94以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器94中并被配置为由一个或多个处理器92执行,一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法,也可以配置用于执行上述应用于图像属性的确定方法的方法实施例中所描述的方法。
[0112]
处理器92可以包括一个或者多个处理核。处理器92利用各种接口和线路连接整个
终端设备90内的各个部分,通过运行或执行存储在存储器94内的指令、程序、代码集或指令集,以及调用存储在存储器92内的数据,执行终端设备90的各种功能和处理数据。可选地,处理器94可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logicarra y,pl a)中的至少一种硬件形式来实现。处理器92可集成中央处理器(cen tralprocessing unit,cpu)、埋点数据的上报验证器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器92中,单独通过一块通信芯片进行实现。
[0113]
存储器94可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器94可用于存储指令、程序、代码、代码集或指令集。存储器94可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备90在使用中所创建的数据等。
[0114]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0115]
综上,本申请实施例提供的终端设备用于实现前述方法实施例中相应的图像属性的确定方法,并具有相应的方法实施例的有益效果,在此不再赘述。
[0116]
请参阅图10,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质100中存储有程序代码,程序代码可被处理器调用执行上述图像属性的确定方法实施例中所描述的方法,也可以被处理器调用执行上述图像属性的确定方法实施例中所描述的方法。
[0117]
计算机可读取存储介质100可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读取存储介质100包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质100具有执行上述方法中的任何方法步骤的程序代码1002的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1002可以例如以适当形式进行压缩。
[0118]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0119]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的
一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1