图像和电商图像处理方法、设备及存储介质与流程

文档序号：31565641发布日期：2022-09-20 20:27阅读：79来源：国知局

1.本技术涉及图像处理技术领域，尤其涉及一种图像和电商图像处理方法、设备及存储介质。

背景技术：

2.对于线上购物而言，电商图像对于消费者有着极大的启发和引导作用，它在整个购物活动中有着核心的作用，如向消费者介绍产品、辅助视觉搜索、吸引消费者以及影响他们的最终决定。由于线上购物的固有属性，电商图像的核心目标是吸引顾客的注意力。电商图像内容通常是图片和文字的组合，以实现有效吸引和介绍客户的目标。因此电商图像的显著性预测对于为消费者提供增强的引导信息和购物体验具有重要意义。
3.现有的显著性预测工作几乎都集中在自然图像上。然而，由于电商图像与自然图像的设计目标有着本质的不同，现有的显著性预测方法在预测电子商务图像的显著性方面存在不足。

技术实现要素：

4.本技术的多个方面提供一种图像和电商图像处理及模型训练方法、设备及存储介质，用以实现对电商图像的显著性预测。
5.本技术实施例提供一种电商图像处理方法，包括：
6.获取电商图像；
7.对所述电商图像进行显著性特征提取，以得到所述电商图像的显著性特征；
8.根据所述显著性特征，对所述电商图像进行显著性检测，以得到所述电商图像的第一显著性图；
9.根据所述显著性特征，对所述电商图像进行文字检测，以得到所述电商图像的文字概率图；
10.根据所述第一显著性图和所述文字概率图，生成所述电商图像的第二显著性图。
11.本技术实施例还提供一种图像处理方法，包括：
12.获取待处理图像；所述待处理图像包括：文字信息和其它对象的图像；
13.对所述待处理图像进行显著性特征提取，以得到所述待处理图像的显著性特征；
14.根据所述显著性特征，对所述待处理图像进行显著性检测，以得到所述待处理图像的第一显著性图；
15.根据所述显著性特征，对所述待处理图像进行文字检测，以得到所述待处理图像的文字预测概率图；
16.根据所述第一显著性图和所述文字预测概率图，生成所述待处理图像的第二显著性图。
17.本技术实施例还提供一种模型训练方法，包括：
18.获取电商图像样本；
19.以损失函数最小化为训练目标，利用电商图像样本对显著性检测模型的初始模型进行模型训练；
20.在模型训练过程中，利用主干网络中级联的多个网络层对电商图像样本进行显著性特征提取，以得到所述多个网络层对应的预测显著性特征；
21.将所述多个网络层对应的预测显著性特征输入到文字检测头进行文字检测，以得到文字预测概率图；
22.将所述多个网络层最后一层对应的预测显著性特征输入到显著性检测头进行显著性检测，以得到预测显著性图；
23.所述损失函数是根据所述文字预测概率图和文字真值图之间的差异、所述预测显著性图与真值显著性图之间的差异，以及，所述多个网络层对应的预测显著性特征与真值显著性特征之间的差异确定的；每个网络层对应的真值显著性特征与该网络层对应的预测显著性特征大小相同。
24.本技术实施例还提供一种计算设备，包括：存储器和处理器；其中，所述存储器，用于存储计算机程序；
25.所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行上述电商图像处理方法，和/或图像处理方法，和/或模型训练方法中的步骤。
26.本技术实施例还提供一种存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述电商图像处理方法，和/或图像处理方法，和/或模型训练方法中的步骤。
27.本技术实施例提供的电商图像处理方式，在对电商图像进行显著性检测时，兼顾了电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度的特性，对电商图像分别进行显著性检测和文字检测；并基于显著性检测得到的第一显著性图和文字检测得到的文字概率图，生成电商图像的第二显著性图，实现了针对电商图像特性的显著性检测，有助于提高电商图像显著性检测的准确度。
附图说明
28.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
29.图1a为一种电商图像示意图；
30.图1b为本技术实施例提供的电商图像的关注点密度图；
31.图2a和图2b为本技术实施例提供的电商图像中除文字区域外的关注点比例分布情况；
32.图3a为本技术实施例提供的视角的计算过程示意图；
33.图3b为图3a提供的视角计算过程的视角测量结果；
34.图4为本技术实施例提供的电商图像处理方法的流程示意图；
35.图5为本技术实施例提供的显著性检测模型对电商图像进行在线显著性检测的过程示意图；
36.图6为本技术实施例提供的显著性检测模型架构示意图和模型训练过程示意图；
37.图7为本技术实施例提供的图像处理方法的流程示意图；
38.图8为本技术实施例提供的计算设备的结构示意图。
具体实施方式
39.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.传统的显著性预测方法旨在预测像素级的人类注意力，主要依赖于低水平的特征，包括对比度、颜色、亮度和纹理等。然而，传统的显著性预测方法均未涉及电子商务(简称电商)图像的显著性预测。在本技术实施例中，电商图像是指电子商务中用于展示商品信息而制作的图像，通常包括商品图片和文字。例如，在线购物平台(如网站、app等)上用于展示商品和商品价格信息而制作的图片等。
41.由于线上购物的固有属性，电商图像的核心目标是吸引顾客的注意力，这主要包含两个方面：(1)吸引消费者在在浏览网站时关注某产品，同时宣传某个品牌；(2)吸引消费者关注图像中特定区域，比如商品或者想要传达的信息(如降价促销字样等)。因此，电商图像内容通常是图片和文字的组合，以实现有效吸引和介绍客户的目标。例如，如图1a所示，电商图像包括：电商图像的语义对象(xx轻薄本)和文字信息(降价促销字样“限时特惠每满300减80；最低到手价：xxxx元”)等。因此电商图像的显著性预测对于为消费者提供增强的引导信息和购物体验具有重要意义。现有的显著性预测工作几乎都集中在自然图像上，包括自下而上或自上而下的方法。然而，由于电商图像与自然图像的设计目标有着本质的不同，现有的方法在预测电子商务图像的显著性方面存在不足。例如，在现有方法中预测图像的显著性时，自然图像中的对象区域是最重要的高级线索之一，导致预测电商图像中的产品关键特征区域和品牌文字区域一样显著。
42.因此，为了解决电商图像中文字优先级问题，亟需研究一种新的电子商务图像显著性预测方法。同时，电商图像数据集的缺乏也阻碍了显著性预测模型的研究。为此，本技术实施例提供一种电商图像显著性预测方法。
43.针对电商图像数据集匮乏的问题，本技术实施例建立了电商图像的眼球跟踪数据集，该数据集包含从在线购物平台收集的多样化电商图像，并通过眼球跟踪技术提供关注点图和真实显著性图。为了研究人类对电商图像的感知行为，本技术发明人建立了电商图像数据集，其中包括：大量电商图像，其中包括收集的图像关注点和文字边界。总之，本技术建立的电商图像的眼球跟踪数据集包括：多名受试者眼球跟踪实验中的数十万个注视点，以及由多名志愿者注释的上万个文字边框。本技术发明人通过眼球跟踪技术对电商图像的眼球跟踪数据集进行了分析，发现电商图像具有以下特性：
44.(1)特性1：对于电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引。在本技术实施例中，电商图像中的语义对象主要是指电商图像中的商品图像。
45.根据在先研究可知一般自然场景的图像，其视觉关注更容易被语义对象吸引。本技术发明人首先对于电商图像的显著真值图进行分析，发现电商图像的文字区域吸引了大量的关注度。为了进一步评估这一特征，通过yolov5和craft检测数据库中的语义对象框和文字框，然后分别计算了落在文字区域和物体区域的关注点密度(每1000像素值)。如图1b
所示，对于电商图像，文字区域关注点密度远高于物体区域，而物体区域密度只是略高于关注点在随机区域的密度。这主要是因为，电商图像的核心设计目标就是想要展示商品，因此商品物体往往是占据图像的绝大部分面积的，但是只有物体的一小部分吸引了视觉注意力。以上结果表明，对于电商图像而言，用户的视觉注意力更容易被文字吸引。
46.(2)特性2：虽然电商图像中的文字可以极大地吸引视觉注意力，但文字区域外仍然存在大量的视觉关注度。
47.根据特性1可以知道，文字可以极大地吸引用户的视觉注意力。本技术发明人进一步计算了文字区域外的关注点的数量。图2a和图2b显示了文字区域外关注点的比例。其中，图2a为文字区域有关注点的电商图像的文字区域外关注点比例；图2b为文字区域无关注点的电商图像的文字区域外关注点比例。在图2a和图2b中，每个点表示电商图像数据集中的一张电商图像，横坐标表示电商图像上的文字区域的面积占比，纵坐标表示电商图像上的文字区域外的关注点占该电商图像的所有关注点数量的比例。如图2a所示，对于电商图像数据集的绝大多数图像，大约40％到70％的关注点落在文字区域之外。这意味着在文字区域中，视觉注意力被具有自底向上或自上而下显著性的其他区域所吸引。
48.在图2b中，本技术发明人还计算了每张电商图像中无任何关注点的文字区域的面积比例，与该电商图像中文字区域外的关注点占该电商图像的所有关注点数量的比例之间的关系。根据图2b显示结果，可以发现这部分的文字区域不具有聚集性，即不存在某一范围比例的文字区域吸引大量的视觉关注点。同样值得注意的是，在不同类别的电商图像中也出现了上述类似的趋势。
49.上述图2a和图2b显示的结果表明，用户对电商图像的关注点分布式分散的，因此，对电商图像的显著性预测是复杂的，不能简单地用文字检测方法来解决。
50.特性3：在电商图像中，不同用户主体之间的视觉注意是一致的，尤其是文字区域内的注意。
51.为了研究电商图像的一致特征，本技术发明人通过计算单个受试者和其他受试者的显著性之间的线性相关系数(linear correlation coefficient，lcc)来测量电商图像数据集中的视觉一致性，也就是计算单个人的显著真值图和其他人的显著真值图的相关性。如表1所示，为了详细了解被试者在观看图像时，不同区域一致性的区别，本技术发明人分别计算了每个人与其他人在不同区域的lcc，即包括整个图像、文字区域和物体对象区域等。表1还列出了其他两个眼球跟踪数据集(即ledov和hollywood)的lcc值作为对比参照。此外，表1中还通过测量2张随机选择的电商图像显著性图之间的lcc，体现了电商图像数据集中位置偏差的视觉一致性。根据表1结果可以得出结论，电商图像数据集中的视觉一致性与其他眼球跟踪数据集相似。也再次证明了，用户在观看电商图像时，更加倾向于关注文字。
52.表1不同数据集一致性
[0053][0054]
特性4：电商图像中的注视转移通常比中央凹区(fovea region)大得多，这表明电
商图像中的非局部内容会吸引视觉注意趋势。其中，中央凹区是视网膜中视觉(辨色力、分辨力)最敏锐的区域。
[0055]
图3a为本技术提供的视角的计算过程示意图。如图3a所示，本技术发明人通过计算每个受试者两次连续注视之间的视角θ来评估电商图像数据集中的注视点转移。在本技术的眼球跟踪实验中，屏幕的大小以及测试者主体(用户)和屏幕之间的距离是固定的，因此，可以通过三角函数计算视角。在图3a中，点o表示眼球的中央凹区的注视位置；a点和b点表示两次连续视觉转移的注视位置。通过三角函数计算可得到两次连续注视之间的视角θ。通过图3a示出的视角的计算过程进行视角测量，得到图3b所示的视角测量结果。根据对人类视觉系统的研究，人类的视觉注意力只集中在视角不超过2度(deg)的小范围区域。然而，根据图3b所示的视角测量结果可知受试者对于电商图像的注视转移视角，只有25.8％的视角位于中央凹区，因此，用户对于电商图像的关注点转移视角较大。较大的关注点转移视角表明在电商图像中，人类的注意力更容易被非局部内容吸引。这可能是因为电商图像最初设计的目的是展示图像上所有的语义对象和文字，而不是图像的一部分。
[0056]
基于上述受试者对电商图像的注视特性研究，本技术实施例提供的电商图像处理方式，在对电商图像进行显著性检测时，兼顾了电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度的特性，在对电商图像分别进行显著性检测和文字检测；并基于显著性检测得到的第一显著性图和文字检测得到的文字概率图，生成电商图像的第二显著性图，实现了针对电商图像特性的显著性检测，有助于提高电商图像显著性检测的准确度。
[0057]
以下结合附图，详细说明本技术各实施例提供的技术方案。
[0058]
应注意到：相同的标号在下面的附图以及实施例中表示同一物体，因此，一旦某一物体在一个附图或实施例中被定义，则在随后的附图和实施例中不需要对其进行进一步讨论。
[0059]
图4为本技术实施例提供的电商图像处理方法的流程示意图。如图4所示，电商图像处理方法主要包括：
[0060]
401、获取电商图像。
[0061]
402、对电商图像进行显著性特征提取，以得到电商图像的显著性特征。
[0062]
403、根据显著性特征，对电商图像进行显著性检测，以得到电商图像的第一显著性图。
[0063]
404、根据显著性特征，对电商图像进行文字检测，以得到电商图像的文字概率图。
[0064]
405、根据第一显著性图和文字概率图，生成电商图像的第二显著性图。
[0065]
在本技术实施例中，为了对电商图像进行显著性检测，在步骤401中，可获取电商图像。该电商图像为待处理的任一电商图像，可为二维图像，也可为三维图像。当然，电商图像可为独立的一帧图像，也可为视频中的任一视频帧。可选地，对于进行电商图像处理的设备，可获取针对在线购物平台的访问请求；并从访问请求中获取待访问图像的标识；之后，从在线购物平台的服务端获取待访问图像的标识对应的电商图像，作为步骤401中的电商图像。关于电商图像的特性的描述可参见上文内容，在此不再赘述。
[0066]
进一步，在步骤402中，可对电商图像进行显著性特征提取，以得到电商图像的显著性特征。图像显著性是图像中重要的视觉特征，体现了人眼对图像的某些区域的重视程
度。显著性特征可以显著性特征图(feature map)的形式，为多维度特征向量。
[0067]
基于上述电商图像的特性分析，可知对于电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度。因此，在本技术实施例中，在对电商图像进行显著性检测时，可在步骤403中，根据显著性特征，对电商图像进行显著性检测，以得到电商图像的显著性图；并在步骤404中，根据显著性特征，对电商图像进行文字检测，以得到电商图像的文字概率图。文字概率图中每个概率值是指电商图像中每个像素点为文字的概率。其中，文字检测也可称为文本检测。
[0068]
在本技术实施例中，步骤403中的显著性检测与步骤404中的文字检测，可为两个不交叉的分支网络，也可以为共用主干网络的两个分支网络。在本技术实施例中，为了提高后续显著性检测的准确度，步骤403和步骤404可为共用主干网络的两个分支网络。相应地，步骤402可实现为：利用显著性检测模型的主干网络对电商图像进行显著性特征提取，以得到电商图像的显著性特征。
[0069]
在一些实施例中，主干网络可实现为神经网络模型。其中，神经网络模型可为任意结构的机器学习模型，包括但不局限于：cnn、dnn、rnn、fcn及transformer模型等。
[0070]
进一步，基于上述电商图像的特性2和4可知电商图像的关注点信息具有非局部性的特点。而transformer模型的注意机制能让模型在做预测时关注全局的感知线索，因此可选择transformer模型作为对电商图像进行显著性特征提取的主干网络。但transformer模型进行显著性特征提取的计算复杂度较高，视觉任务所带来的计算复杂度问题一直没有解决，自注意力机制需要对输入的所有的n个token，计算n^2大小的相互关系矩阵。考虑到视觉信息本来就就是二维(图像)甚至三维(视频)，分辨率稍微高一点，就会导致transformer模型计算量变高很多。
[0071]
为了降低显著性检测的计算量，在本技术一些实施例中，可采用swin-transformer模型作为主干网络。swin-transformer模型通过提出分层架构和移位窗口的设计，解决transformer模型计算量高的技术问题，并经过验证在各种视觉任务中降低了计算复杂度。swin-transformer模型通过多尺度层和在移动的窗口内学习自注意图来提高效率。
[0072]
其中，显著性检测模型的模型架构如图5和图6所示，主干网络的分层架构主要是指级联的多个网络层。多个是指2个或2个以上。图6中仅网络层的数量为4个进行图示，但不构成限定。如图5和图6所示，网络层可包括：窗口化多头自我注意力(window multi-head self-attention，w-msa)模块和移位窗口多头自我注意力(shifted-window multi-head self-attention，sw-msa)模块。
[0073]
基于上述显著性检测模型，步骤403的一种实施方式为：利用显著性检测模型的显著性检测头(saliency head)根据显著性特征，对电商图像进行显著性检测，以得到电商图像的显著性图。相应地，步骤404的一种实施方式为：利用显著性检测模型的文字检测头(text head)根据显著性特征，对电商图像进行文字检测，以得到电商图像的文字概率图。
[0074]
在本技术实施例中，显著性检测头和文字检测头可采用轻而有效的模型来进行显著性图和文字概率预测。在一些实施例中，如图5所示，显著性检测头可包括：多个稠密块(dense block)、多尺度信息提取模块及反卷积块(deconv)。多个是指2个或2个以上。例如，稠密块可以为3个或4个等。图5中仅以稠密块的数量为3个进行图示，但不构成限定。可选
地，多尺度信息提取模块可采用空洞空间卷积池化(atrous spatial pyramid pooling，aspp)结构进行多尺度信息提取。多尺度信息提取模块可采用不同采样率的空洞卷积。例如，图5的显著性检测头使用了四种不同采样率的空洞卷积。如图5所示空洞卷积具体可实现为扩展卷积(dilated conv)。进一步，可采用反卷积块对多尺度信息进行恢复，得到显著性图。反卷积块的数量为多个。多个是指2个或2个以上。图5中以3个反卷积块进行图示，但不构成限定。
[0075]
在本技术实施例中，不限定文字检测头的具体结构。在一些实施例中，文字检测头可利用craft的基本结构，基于分割的思想，能够实现字符级文字检测。可选地，如图5所示，文字检测头可包括：上采样块和上卷积块。主干网络输出的显著性特征经过上采样和上卷积之后，再经过卷积模块输出电商图像的字符区域得分图(soc)和亲和度得分图(aff)。其中，字符区域得分图中每个得分表示电商图像对应像素为字符中心的概率；亲和度得分表示相邻字符区域中心的概率。基于craft的基本结构的基本架构，在本实施例中，可利用显著性检测模型的文字检测头根据所述显著性特征，对电商图像进行字符检测，以得到电商图像的字符区域得分图；并根据显著性特征检测电商图像中字符间的连接关系，以得到所述电商图像的亲和度得分图；进一步，可确定字符区域得分图和亲和度得分图，为电商图像的文字概率图。
[0076]
基于上述电商图像的特性分析，可知对于电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度，因此，在步骤405中，可根据步骤403得到的显著性图和文字概率图，生成电商图像的显著性图。在本技术实施例中，为了便于描述和区分，将步骤403得到的显著性图定义为第一显著性图；并将步骤405得到的显著性图，定义第二显著性图。
[0077]
具体地，可对文字概率图和第一显著性图中相同像素坐标的像素值进行相加，得到电商图像的第二显著性图。
[0078]
本技术实施例提供的电商图像处理方式，在对电商图像进行显著性检测时，兼顾了电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度的特性，在对电商图像分别进行显著性检测和文字检测；并基于显著性检测得到的第一显著性图和文字检测得到的文字概率图，生成电商图像的第二显著性图，实现了针对电商图像特性的显著性检测，有助于提高电商图像显著性检测的准确度。
[0079]
对于上述步骤402-步骤404的具体实施方式可利用显著性检测模型进行实现。如图5和图6所示，显著性检测模型可包括：主干网络、显著性检测头和文字检测头。其中，主干网络用于对电商图像进行显著性特征提取；显著性检测头和文字检测头分别根据显著性特征，对电商图像进行显著性检测和文字检测。显著性检测模型在在线使用之前，还需对显著性检测模型进行模型训练。下面以显著性检测模型包括：主干网络、显著性检测头和文字检测头为例，对显著性检测模型的训练过程进行示例性说明。
[0080]
在本技术实施例中，为了提高网络预测性能，可在每个swn变换块中加入显著性信息，以促进网络预测的性能。即图6中每个网络层输出的显著性预测特征可输入到显著性检测头中，以在显著性检测头的每个swn变换块(图6文字检测头中的上卷积块)中加入显著性信息。在本技术实施例中，对于每个阶段的网络层中的最后一个基本层，本技术实施例提出了一个使用显著性图的注意损失la，以监督主干网络中学习到的显著性特征。对于第l个网
络层，损失la表示为：
[0081][0082]
其中，在式(1)中，m表示第l个网络层中通道的总数量。m表示第l层的第m通道。m＝1,2，
…
,m。a
l,c
代表着第l层输出的第m通道的自我注意图，s
l
表示与第l层自我注意图相同大小的显著性图，即显著性预测特征。多个网络层对应的显著性预测特征是对电商图像样本的显著性真值图进行大小调整得到的。每个网络层对应的显著性预测特征的大小与该网络层输出的自我注意图相等。
[0083]
上述式(1)中cor(
·
)可表示为：
[0084]
cor(x)＝soft max(vec(x)
·
(vec(x)
t
)
ꢀꢀ
(2)
[0085]
式(2)中vec(x)为将大小为h
l
×wl
的矩阵x矢量化w
×h×
l的向量，softmax(
·
)表示softmax操作。在本技术实施例中，式(2)中的x为式(1)中的a
l,c
和s
l
。
[0086]
本技术提出的注意损失的主要目的是指导本技术提出的主干网络(如sswin-transformer主干网络)根据人类感知学习电商图像的非局部线索，同时保持多头自我注意图所带来的多样性。一方面促进的主干网络将重点放在人类最重视的非局部区域；这在电商图像的显著性预测和文字检测等任务中起着至关重要的作用，因为人们在观看电商图像时对文字区域的关注度较高。另一方面，也对网络施加了全局和统一的优先级，这在多任务学习中非常重要。同时，主干网络的输出特征通过多任务学习的全局线索得到增强，有利于后续的显著性检测和文字检测。
[0087]
本技术实施例中，显著性检测头的损失函数可通过显著性检测头通过预测的显著性图(即显著性预测图)和显著性真值图之间的差异进行表示。例如，可通过显著性检测头预测的显著性图(即显著性预测图)和显著性真值图之间的kullback-leibler(kl)散度计算。相应地，显著性检测头的损失函数ls可表示为：
[0088]
ls＝kl(s
p
||s
gt
)
ꢀꢀ
(3)
[0089]
在上述式(3)中，s
p
表示显著性检测头输出的电商图像样本的显著性预测图；s
gt
表示电商图像样本的显著性真值图。
[0090]
关于文字检测，在本技术实施例中，文字检测头可采用craft的基本结构，基于分割的思想，能够实现字符级文字检测。如图6所示，来自主干网络的不同网络层的不同分辨率的显著性预测特征，经过上采样和上卷积、连接操作，增强了不同分辨率之间的信息聚合。然后再经过多个上卷积模块输出文字概率预测图。在图6中，文字概率预测图可表示为字符区域得分图和亲和度得分图。在本技术实施例中，文字检测头的损失函数可通过文字概率预测图与文字概率真值图之间的差异进行表示。例如，可通过文字概率预测图与文字概率真值图之间的均方误差(mse)评估它们与文字概率真值图的损失。
[0091]
在本技术实施例中，由于文字区域得分图和亲和度得分图通常是稀疏的，直接将它们的mse加起来，可能会出现样本不平衡问题，导致几乎所有地方都输出零值。为了克服样本不平衡的问题，可使用平衡的mse(bmse)缓解网络输出为0的训练问题。相应地，文字概率预测图与文字概率真值图之间的均方误差时，可随机选择n
pos
个正样本图像和n
neg
个负样本图像。其中，正样本图像为已知显著性真值图和文字概率真值图标注正确的电商图像样本；负样本图像为已知显著性真值图和文字概率真值图标注错误的电商图像样本。相应地，
bmse的计算方法表示为：
[0092][0093]
式(4)中的(p∪n)代表了正样本和负样本的集合，(i，j)表示电商样本图像中坐标为(i，j)的像素点。x(i,j)表示像素点(i，j)的文字概率预测值；y(i,j)表示像素点(i，j)的文字概率真值。n
pos
和n
neg
分别表示正负样本的数量。相应地，文字检测头的损失函数l
t
表示为：
[0094][0095]
式(5)中的和分别表示文字检测头输出的电商图像样本的字符区域得分预测图及电商图像样本的字符区域得分真值图；和分别表示文字检测头输出的电商图像样本的字符亲和度得分预测图和电商图像样本的字符亲和度得分真值图。
[0096]
基于上述分析，显著性检测模型的损失函数可表示为：
[0097]
l＝λala+λsls+λ
t
l
t
ꢀꢀ
(6)
[0098]
在式(6)中，λa、λs和λ
t
表示主干网络、显著性检测头和文字检测头的损失权重，用于调整不同模块损失的占比，la、l
t
，ls分别表示主干网络、显著性检测头和文字检测头的损失。
[0099]
基于上述图6示出的显著性检测模块的架构示意图，显著性检测模型的模型训练过程主要包括以下步骤：
[0100]
s1、获取电商图像样本。
[0101]
s2、以损失函数最小化为训练目标，利用电商图像样本对所述主干网络、所述显著性检测头及所述文字检测头进行模型训练；
[0102]
s3、在模型训练过程中，利用主干网络中级联的多个网络层对电商图像样本进行显著性特征提取，以得到多个网络层对应的显著性预测特征。
[0103]
s4、将多个网络层对应的预测显著性特征输入到文字检测头进行文字检测，以得到所述电商图像样本的文字概率预测图。
[0104]
s5、将多个网络层最后一层对应的显著性预测特征输入到显著性检测头进行显著性检测，以得到显著性预测图。
[0105]
其中，损失函数是根据文字概率预测图和文字概率真值图之间的差异、显著性预测图与显著性真值图之间的差异，以及，多个网络层对应的显著性预测特征与显著性真值特征之间的差异确定的；每个网络层对应的显著性真值特征与该网络层对应的显著性预测特征大小相同。关于损失函数的具体表示方式可参见上述式(1)-式(6)的相关内容，在此不再赘述。
[0106]
由于上述显著性预测模型的训练过程中在文字检测头中加入了不同网络层产生的不同分辨率的显著性预测特征，因此，可提高文字检测头的预测性能，有助于提高后续利用显著性预测模型进行文字检测的准确度，进而提高后续根据文字检测得到的文字概率图和显著性检测得到的显著性图，生成的电商图像的显著性图的准确度。
[0107]
在另一些实施例中，也可将多个网络层对应的显著性预测特征输入到显著性检测
头进行显著性检测。由于根据上述电商图像的特性1可知，电商图像的文字关注度高于其它区域，因此，文字检测的优先级高于显著性检测。基于此，可将多个网络层的前k层对应的显著性预测特征输入到显著性检测头进行显著性检测。其中，k小于网络层的数量。
[0108]
在本技术实施例中，根据上述电商图像的特性1和2可知，在电商图像中，文字检测和显著性检测是相互促进的。基于此，如图6所示，在本技术实施例中，在对显著性检测模型训练阶段，可将从显著性头部输出的信息反馈到文字检测头部的输入端，并将从文字检测头部的输出信息反馈到显著性头部的输入端。这样的显著性检测头和文字检测头之间的交互信息流可改进显著性预测和文字检测的学习。基于此，上述显著性检测头的正向过程变为：
[0109][0110]
式(7)中的salhead(
·
)代表了显著性检测头，和分别表示对文字检测头输出的字符区域得分预测图和字符亲和度得分预测图调整大小，与主干网络输出的显著性预测特征f大小相等后的字符区域得分预测图和字符亲和度得分预测图。
⊙
表示元素乘积，即点乘。
[0111]
其中，式(7)中f(
·
)可表示为：
[0112]
f(x)＝ρ(x-0.5)+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0113]
其中，x大小为0≤x≤1，ρ为比例因子。针对式(7)，式(8)中的x为：这样，与输出为零的背景区域相比，检测到的具有正值的文字区域可以适当地增加相应位置处特征的重要性，从而通过该额外信息可以进一步改进显著性检测头的性能。
[0114]
同理，上述文字检测头输出的文字概率预测图可表示为：
[0115][0116]
在式(8)中，texthead(
·
)代表了文字检测头。表示对显著性检测头输出的显著性预测图，与主干网络输出的显著性预测特征f大小相等后的显著性预测图。针对式(9)，式(8)中的x为：
[0117]
基于上述文字检测头和显著性检测头之间的信息反馈机制，上述显著性预测模型的训练过程包括多个训练轮次，针对任一当前训练轮次，可将主干网络在当前训练轮次输出的多个网络层对应的显著性预测特征和显著性检测头在前一训练轮次输出的显著性预测图，输入文字检测头进行文字检测，以得到文字检测头在当前训练轮次输出的文字概率预测图；以及，将多个网络层最后一层对应的显著性预测特征和文字检测头在前一训练轮次输出的文字概率预测图，输入所述显著性检测头进行显著性检测，以得到显著性检测头在当前训练轮次输出的显著性预测图；其中，当前训练轮次为除第一训练轮次之外的任一训练轮次。
[0118]
具体地，可计算主干网络在当前训练轮次输出的多个网络层对应的显著性特征和显著性检测头在前一训练轮次输出的显著性预测图之间的第一点积，并将第一点积输入文字检测头进行文字检测，得到文字检测头在当前训练轮次输出的文字概率预测图。以及，计算多个网络层最后一层对应的显著性预测特征和文字检测头在前一训练轮次输出的文字
概率预测图之间的第二点积，输入显著性检测头进行显著性检测，得到显著性检测头在当前训练轮次输出的显著性预测图。
[0119]
需要说明的是，在第一训练轮次，可根据第一训练轮次主干网络输出的显著性预测特征的大小，确定与显著性预测特征大小相等的全1矩阵，作为第一训练轮次之前文字头输出的结果，并获得一个粗略预测s
p
，然后将其反馈送入文字检测头，以获得文字检测头在第一训练轮次输出的文字概率预测图和然后，通过在获得的文字检测和之后再次反馈至显著性检测头获得更加精细的显著性预测图。需要指出的是，尽管迭代这个过程可能会得到进一步增强的预测，但随着迭代次数的增加，计算复杂度会越来越大，而增益却越来越小。为了简化计算复杂度，在本技术实施例中，也可为文字检测头和显著性检测头反馈设定次数的信息。其中，设定次数可小于设定的训练轮次。例如，设定次数可为1次、2次或者3次等等。
[0120]
针对上述文字检测头和显著性检测头之间的信息反馈机制，由于上述显著性预测模型的训练过程中在文字检测头中加入了不同网络层产生的不同分辨率的显著性预测特征，因此，可提高文字检测头的预测性能；另一方面，由于文字检测头的输出信息反馈到显著性检测头，因此，显著性检测头中也加入不同网络层产生的不同分辨率的显著性预测特征，同样有助于提高后续利用显著性预测模型进行显著性检测的准确度。
[0121]
上述实施例示例性的给出了显著性检测模型的训练过程，在显著性检测模型训练完成之后，可利用显著性检测模型对电商图像进行显著性检测和文字检测，以得到电商图像的第一显著性图和文字概率图；进一步，可根据显著性检测模型输出的第一显著性图和文字概率图，生成电商图像的第二显著性图。由于第二显著性图融合了电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度的特性，因此，本技术实施例提供的电商图像显著性检测方式与电商图像的特性相适配，相较于传统显著性检测方式，可提供电商图像显著性检测的准确度。
[0122]
在本技术实施例中，对于电商图像而言，在得到电商图像的显著性图之后，还可根据电商图像的第二显著性图，对电商图像进行码率分配，以得到电商图像的码率分配结果；之后，可根据码率分配结果，对电商图像进行图像编码，实现图像编码的感知优化。进一步，可将编码后的电商图像传输给图像请求端。由于电商图像的第二显著性图反映了人们对于电商图像不同区域的关注度信息，因此，根据电商图像的第二显著性图对电商图像进行码率分配，可实现对高关注度的区域和低关注度的区域的编码码率分配，使得高关注度的区域分配较高的码率，可实现图像编码的感知优化。
[0123]
在本技术实施例中，不限定根据电商图像的第二显著性图，对电商图像进行码率分配的具体实施方式。在一些实施例中，可对电商图像进行分割，以得到多个图像块，可。多个是指2个或2个以上。图像块可称为编码树单元(coding tree unit,ctu)。一个ctu由n*n大小的像素块组成。在一些实施例中，n为128(针对当前4k/8k超高清图像)。在本技术实施例中，不限定对电商图像进行图像分割的具体实施方式。在一些实施例中，对电商图像进行图像分割的方式可包括：基于阈值的分割方法、基于边缘检测的分割方法、基于区域的分割方法以及基于深度学习的分割方法中的一种或多种，但不限于此。
[0124]
进一步，可根据上述步骤405得到的电商图像的第二显著性图，对多个图像块进行码率分配，以得到多个图像块的目标码率，作为电商图像的码率分配结果。进一步，可根据
多个图像块的目标码率，对电商图像进行图像编码。
[0125]
在一些实施例中，可以电商图像编码失真最小化为目标，以多个图像块的码率等于设定的目标比特数为约束，采用率失真优化方法计算多个图像块的初始码率，使得电商图像的总体感知失真最小。相应地，计算方式可表示为：
[0126][0127]
其中，di和ri分别表示第i个图像块的失真和初始码率，m表示当前电商图像对应的图像块的总数量。r表示电商图像编码的目标比特数，可根据实际需求进行灵活设置。“s.t.”表示使得电商图像的总比特数等于r。
[0128]
在一些实施例中，图像的失真和码率满足一定的曲线关系。例如，图像的失真和码率满足双曲函数关系。图像的失真和码率之间的曲线关系可表示为：
[0129]
d(ri)＝c*r
i-k
ꢀꢀ
(11)
[0130]
在式(11)中，c和k为常数。基于上述式(10)和(11)进行联合求解，可得到每个图像块的初始码率ri。
[0131]
进一步，可根据电商图像的第二显著性图，对多个图像块的初始码率进行调整，以得到多个图像块的目标码率。
[0132]
具体地，可从第二显著性图中，确定多个图像块对应的显著性子图；之后，可根据多个图像块对应的显著性子图，计算多个图像块的显著性权重。可选地，可计算每个图像块对应的显著性子图中显著性值之和；并从多个图像块中，选择对应的显著性值之和最大的目标图像块；针对任一图像块a，可计算该图像块a对应的显著性值之和与目标图像块对应的显著性值之和的比值，作为图像块a的显著性权重。
[0133]
在一些实施例中，为确保图像的感知失真最小，可基于视觉感知模型，在r-lambda码率控制算法的基础上，减少非关键编码树单元的码率分配，降低电商图像的感知失真。具体地，首先根据视觉感知模型输出当前图像的显著性图，以ctu块为单位，计算得到当前图像各个ctu块的显著性权重值，作为感知编码的主观权重wi。在编码器内部计算每个图像块的码率时，根据其对应的图像块的显著性权重，调整图像块的初始码率，得到每个图像块的目标码率。整体码率如式(12)所示：
[0134][0135]
其中，在式(12)中，ri*(wi+w
base
)表示图像块i的目标码率。wi为图像块i的显著性权重。w
base
为预设的校正权重。主要由于图像块i的显著性权重wi为该图像块i对应的显著性值之和与目标图像块对应的显著性值之和的比值。而图像块i对应的显著性值之和存在和为0的情况。为了防止图像块i对应的显著性值之和为0影响后续编码效果，设置w
base
对图像块i对应的显著性值之和进行权重校正。其中，w
base
可为0.5。
[0136]
其中，电商图像对应的显著性权重图的大小为电商图像的分辨率除以图像块的大小。相应地，电商图像对应的显著性权重图可表示为：
[0137]hw
＝(h+size-1)/size
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0138]ww
＝(w+size-1)/size
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0139]
式(13)和(14)的ww和hw分别表示显著性权重图的宽高，size为图像块的大小，比如
在视频编码(vvc)中size为128。
[0140]
在确定出每个图像块的显著性权重之后，可以多个图像块的码率之和等于设定的目标比特数为约束，利用多个图像块的显著性权重，对多个图像块的初始码率进行调整，以得到多个图像块的目标码率。具体调整方式可参见上述式(12)。
[0141]
之后，可根据多个图像块的目标码率，对电商图像进行图像编码。具体地，可根据多个图像块的目标码率及码率与图像编码参数之间的曲线关系，计算多个图像块的图像编码参数。其中，图像编码参数可表示为：量化参数(quantization parameter，qp)。相应地，个图像块的目标码率及码率与图像编码参数之间的曲线关系可实现为下述式(15)和(16)由目标码率计算得到对应ctu块的量化参数qp进行编码。如式(3.10)和(3.11)所示：
[0142][0143]
qpi＝4.2005
·
lnλi+13.7122
ꢀꢀ
(16)
[0144]
在上述式(15)中，λi表示图像块i的失真与图像块i的目标码率之间的曲线系数。αi和βi为与图像块i的内容有关的系数。bppi表示图像块i的像素深度，可根据图像块i的目标码率计算得到。其中，计算公式如下：
[0145][0146]
在式(17)中，ri表示图像块i的目标码率。f表示帧率。wi和hi分别表示图像块i的宽和高。
[0147]
基于上述式(15)-(17)，可得到每个图像块对应的图像编码参数，如量化参数qp。进一步，可利用多个图像块的图像编码参数，对所述多个图像块进行图像编码，以对电商图像进行图像编码。
[0148]
本技术实施例对电商图像进行编码过程中，根据上述人们的对于图像的不同区域关注信息，对于电商图像的区域的码率进行再分配，使得关注度高的区域分配的码率较高，关注度低的区域分配的码率较低，在保证关注度高的区域编码质量的同时，可降低关注度低的区域的编码码率，相较于传统编码器，可降低电商图像编码码率。本技术发明人在通用视频编码(vvc)上进行了感知编码验证，经过感知编码的图像码率相比标准编码器可以节省20％以上。
[0149]
本技术实施例提供的图像处理方式除了可应用于对电商图像进行显著性检测和编码之外，还可对其它包括文字和语义对象的图像进行显著性检测和编码。例如，带字幕的视频图像、人机交互界面(如ui界面)、电子海报等。下面对本技术实施例提供的图像处理方式应用于其它应用场景进行示例性说明。
[0150]
图7为本技术实施例提供的图像处理方法的流程示意图。如图7所示，该方法主要包括：
[0151]
701、获取待处理图像；待处理图像包括：文字信息和其它对象的图像。
[0152]
702、对待处理图像进行显著性特征提取，以得到待处理图像的显著性特征。
[0153]
703、根据显著性特征，对待处理图像进行显著性检测，以得到待处理图像的第一显著性图。
[0154]
704、根据显著性特征，对待处理图像进行文字检测，以得到待处理图像的文字概
率图。
[0155]
705、根据第一显著性图和文字概率图，生成待处理图像的第二显著性图。
[0156]
在本实施例中，待处理图像可为任一包括文字信息和其他对象的图像。例如，带字幕的视频帧图像、ui界面、弹窗、电子海报等。
[0157]
在本实施例中，待处理图像与电商图像具有相似特性。基于待处理图像相比语义对象，用户关注更容易被待处理图像中的文字吸引；且文字区域外仍然具有较大的关注点度的特性，本实施例在对待处理图像进行显著性检测时，对待处理图像分别进行显著性检测和文字检测；并基于显著性检测得到的第一显著性图和文字检测得到的文字概率图，生成待处理图像的第二显著性图，实现了针对待处理图像特性的显著性检测，有助于提高待处理图像显著性检测的准确度。其中，关于对待处理图像分别进行显著性检测和文字检测的具体实施方式可参见上述对电商图像进行显著性检测和文字检测的相关内容，在此不再赘述。
[0158]
需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤401和402的执行主体可以为设备a；又比如，步骤401的执行主体可以为设备a，步骤402的执行主体可以为设备b；等等。
[0159]
另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本技术发明人中出现的顺序来执行或并行执行，操作的序号如403、404等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。
[0160]
相应地，本技术实施例还提供一种存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述电商图像处理方法，和/或，图像处理方法，和/或，模型训练方法中的步骤。
[0161]
图8为本技术实施例提供的计算设备的结构示意图。在本技术实施例中，不限定计算设备的实现形态。可选地，计算设备可实现为单一服务器、云化的服务器阵列等；当然，计算设备也可实现为手机、电脑等终端设备。如图8所示，该计算设备包括：存储器80a和处理器80b；其中，存储器80a，用于存储计算机程序；
[0162]
处理器80b耦合至存储器80a，用于执行计算机程序以用于：获取电商图像；对电商图像进行显著性特征提取，以得到电商图像的显著性特征；根据显著性特征，对电商图像进行显著性检测，以得到电商图像的第一显著性图；根据显著性特征，对电商图像进行文字检测，以得到电商图像的文字概率图；以及，根据第一显著性图和文字概率图，生成电商图像的第二显著性图。
[0163]
在一些实施例中，处理器80b在对电商图像进行显著性特征提取时，具体用于：利用显著性检测模型的主干网络对电商图像进行显著性特征提取，以得到电商图像的显著性特征。
[0164]
相应地，处理器80b在对电商图像进行显著性检测，以得到电商图像的第一显著性图时，具体用于：利用显著性检测模型的显著性检测头根据显著性特征，对电商图像进行显著性检测，以得到电商图像的第一显著性图。
[0165]
可选地，处理器80b在对电商图像进行文字检测时，具体用于：利用显著性检测模
型的文字检测头根据显著性特征，对电商图像进行文字检测，以得到电商图像的文字概率图。
[0166]
进一步，处理器80b利用显著性检测模型的文字检测头根据显著性特征，对电商图像进行文字检测时，具体用于：利用显著性检测模型的文字检测头根据显著性特征，对电商图像进行字符检测，以得到电商图像的字符区域得分图；字符区域得分图中每个得分表示电商图像对应像素为字符中心的概率；根据显著性特征检测电商图像中字符间的连接关系，以得到电商图像的字符亲和度得分图；字符亲和度得分表示相邻字符区域中心的概率；并确定字符区域得分图和字符亲和度得分图，为文字概率图。
[0167]
在一些实施例中，处理器80b还用于：获取电商图像样本；以损失函数最小化为训练目标，利用电商图像样本对主干网络、显著性检测头及文字检测头进行模型训练；在模型训练过程中，利用主干网络中级联的多个网络层对电商图像样本进行显著性特征提取，以得到多个网络层对应的显著性预测特征；将多个网络层对应的显著性预测特征输入到文字检测头进行文字检测，以得到电商图像样本的文字概率预测图；将多个网络层最后一层对应的显著性预测特征输入到显著性检测头进行显著性检测，以得到显著性预测图；其中，损失函数是根据文字概率预测图和文字概率真值图之间的差异、显著性预测图与显著性真值图之间的差异，以及，多个网络层对应的显著性预测特征与显著性真值特征之间的差异确定的；每个网络层对应的显著性真值特征与该网络层对应的显著性预测特征大小相同。
[0168]
其中，显著性预测图与显著性真值图之间的差异，以显著性预测图与显著性真值图之间的散度进行表示；多个网络层对应的显著性预测特征与显著性真值特征之间的差异，以多个网络层对应的显著性预测特征与显著性真值特征之间的散度进行表示；每个网络层对应的显著性真值特征是对显著性真值图进行大小调整得到的。
[0169]
上述电商图像样本包括：正样本图像和负样本图像；正样本图像为已知显著性真值图和文字概率真值图标注正确的电商图像样本；负样本图像为已知显著性真值图和文字概率真值图标注错误的电商图像样本。
[0170]
可选地，模型训练过程包括多个训练轮次。处理器80b还用于：针对当前训练轮次，将主干网络在当前训练轮次输出的多个网络层对应的显著性预测特征和显著性检测头在前一训练轮次输出的显著性预测图，输入文字检测头进行文字检测，以得到文字检测头在当前训练轮次输出的文字概率预测图；将多个网络层最后一层对应的显著性预测特征和文字检测头在前一训练轮次输出的文字概率预测图，输入显著性检测头进行显著性检测，以得到显著性检测头在当前训练轮次输出的显著性预测图；当前训练轮次为除第一训练轮次之外的任一训练轮次。
[0171]
可选地，处理器80b在将主干网络在当前训练轮次输出的多个网络层对应的显著性特征和显著性检测头在前一训练轮次输出的显著性预测图，输入文字检测头进行文字检测时，具体用于：计算主干网络在当前训练轮次输出的多个网络层对应的显著性特征和显著性检测头在前一训练轮次输出的显著性预测图之间的第一点积，将第一点积输入文字检测头进行文字检测。
[0172]
相应地，处理器80b在将多个网络层最后一层对应的显著性特征和文字检测头在前一训练轮次输出的文字概率预测图，输入显著性检测头进行显著性检测时，具体用于：计算多个网络层最后一层对应的显著性预测特征和文字检测头在前一训练轮次输出的文字
概率预测图之间的第二点积，输入显著性检测头进行显著性检测。
[0173]
在一些实施例中，处理器80b在根据第一显著性图和文字概率图，生成电商图像的第二显著性图时，具体用于：对文字概率图和第一显著性图中相同像素坐标的像素值进行相加，得到电商图像的第二显著性图。
[0174]
在本技术实施例中，处理器80b还用于：对电商图像进行图像分割，以得到多个图像块；根据第二显著性图，对多个图像块进行码率分配，以得到多个图像块的目标码率；根据多个图像块的目标码率，对电商图像进行图像编码。
[0175]
可选地，处理器80b还用于：以电商图像编码失真最小化为目标，以多个图像块的码率之和等于设定的目标比特数为约束，采用率失真优化方法计算多个图像块的初始码率。相应地，处理器80b在根据第二显著性图时，具体用于：根据第二显著性图，对多个图像块的初始码率进行调整，以得到多个图像块的目标码率。
[0176]
进一步，处理器80b在根据第二显著性图，对多个图像块的初始码率进行调整时，具体用于：从第二显著性图中，确定多个图像块对应的显著性子图；根据多个图像块对应的显著性子图，计算多个图像块的显著性权重；以多个图像块的码率之和等于目标比特数为约束，利用多个图像块的显著性权重，对多个图像块的初始码率进行调整，以得到多个图像块的目标码率。
[0177]
可选地，处理器80b在根据多个图像块对应的显著性子图，计算多个图像块的显著性权重时，具体用于：计算每个图像块对应的显著性子图中显著性值之和；从多个图像块中，选择对应的显著性值之和最大的目标图像块；针对任一图像块，计算任一图像块对应的显著性值之和与目标图像块对应的显著性值之和之间的比值，作为任一图像块的显著性权重。
[0178]
在一些实施例中，处理器80b在根据多个图像块的目标码率，对电商图像进行图像编码时，具体用于：根据多个图像块的目标码率及码率与图像编码参数之间的曲线关系，计算多个图像块的图像编码参数；利用多个图像块的图像编码参数，对多个图像块进行图像编码，以对电商图像进行图像编码。
[0179]
本实施例提供的计算设备，在对电商图像进行显著性检测时，兼顾了电商图像而言，相比语义对象，用户关注更容易被电商图像中的文字吸引；且文字区域外仍然具有较大的关注点度的特性，对电商图像分别进行显著性检测和文字检测；并基于显著性检测得到的第一显著性图和文字检测得到的文字概率图，生成电商图像的第二显著性图，实现了针对电商图像特性的显著性检测，有助于提高电商图像显著性检测的准确度。
[0180]
在本技术实施例中，处理器80b还用于：获取待处理图像；待处理图像包括：文字信息和其它对象的图像；对待处理图像进行显著性特征提取，以得到待处理图像的显著性特征；根据显著性特征，对待处理图像进行显著性检测，以得到待处理图像的第一显著性图；根据显著性特征，对待处理图像进行文字检测，以得到待处理图像的文字预测概率图；根据第一显著性图和文字预测概率图，生成待处理图像的第二显著性图。
[0181]
其中，关于对待处理图像进行文字检测和显著性检测的具体实施方式，可参见上述对电商图像进行文字检测和显著性检测的相关内容，在此不再赘述。
[0182]
在一些可选实施方式中，如图8所示，该计算设备还可以包括：通信组件80c、电源组件80d等组件。在一些实施例中，计算设备可实现为手机、电脑等终端设备，相应地，计算
设备还可包括：显示组件80e及音频组件80f等组件。图8中仅示意性给出部分组件，并不意味着计算设备必须包含图8所示全部组件，也不意味着计算设备只能包括图8所示组件。
[0183]
在本技术实施例中，存储器用于存储计算机程序，并可被配置为存储其它各种数据以支持在其所在设备上的操作。其中，处理器可执行存储器中存储的计算机程序，以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0184]
在本技术实施例中，处理器可以为任意可执行上述方法逻辑的硬件处理设备。可选地，处理器可以为中央处理器(central processing unit，cpu)、图形处理器(graphics processing unit，gpu)或微控制单元(microcontroller unit，mcu)；也可以为现场可编程门阵列(field-programmable gate array，fpga)、可编程阵列逻辑器件(programmable array logic，pal)、通用阵列逻辑器件(general array logic，gal)、复杂可编程逻辑器件(complex programmable logic device，cpld)等可编程器件；或者为先进精简指令集(risc)处理器(advanced risc machines，arm)或系统芯片(system on chip，soc)等等，但不限于此。
[0185]
在本技术实施例中，通信组件被配置为便于其所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如wifi，2g或3g，4g，5g或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还可基于近场通信(nfc)技术、射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术或其他技术来实现。
[0186]
在本技术实施例中，显示组件可以包括液晶显示器(lcd)和触摸面板(tp)。如果显示组件包括触摸面板，显示组件可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。
[0187]
在本技术实施例中，电源组件被配置为其所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0188]
在本技术实施例中，音频组件可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(mic)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。例如，对于具有语言交互功能的设备，可通过音频组件实现与用户的语音交互等。
[0189]
需要说明的是，本技术发明人中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。
[0190]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0191]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0192]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0193]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0194]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0195]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0196]
计算机的存储介质为可读存储介质，也可称为可读介质。可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本技术发明人中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0197]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0198]
以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟子皓王文强黄勃虞旭林陈清付
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：一种自动上下料系统的制作方法
上一篇：一种市政预制桥墩用造型模板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。