图像处理方法、装置、计算机存储介质及电子设备与流程

文档序号:20839409发布日期:2020-05-22 17:18阅读:327来源:国知局
图像处理方法、装置、计算机存储介质及电子设备与流程

本公开涉及人工智能技术领域,具体而言,涉及一种图像处理方法、图像处理装置、计算机存储介质及电子设备。



背景技术:

随着计算机技术的快速发展,为了适应不同的用户需求,提高平台点击率,各个平台开始建立个性化推荐系统并向客户推出个性化推荐服务,个性化推荐系统是互联网和电子商务发展的产物,它是建立在海量数据挖掘基础上的一种高级商务智能平台,向顾客提供个性化的信息服务和决策支持。

目前,已有的推荐方案在使用用户历史数据时一般只是简单的将历史数据信息特征与推荐数据进行形似度对比,未能挖掘历史数据信息与推荐数据之间的内在关联信息。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开的实施例提供了一种图像处理方法、图像处理装置、计算机存储介质及电子设备,进而至少在一定程度上可以挖掘用户历史感兴趣图像和待处理图像集的内在关联性,进而更有针对性地、更准确地对用户进行个性化推荐。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面,提供了一种图像处理方法,包括:获取待处理图像集和历史图像集,所述历史图像集包括用户的历史感兴趣图像;通过图像处理模型对所述历史感兴趣图像进行特征提取,并基于所提取的特征获取历史兴趣信息描述;同时通过所述图像处理模型对所述待处理图像集中的待处理图像进行特征提取,以获取与所述待处理图像对应的特征信息;根据所述特征信息和所述历史兴趣信息描述确定与所述待处理图像对应的兴趣权重,并基于与所述待处理图像对应的特征信息和所述兴趣权重从所述待处理图像集中确定封面图像。

根据本公开实施例的一个方面,提供了一种图像处理装置,包括:获取模块,用于获取待处理图像集和历史图像集,所述历史图像集包括用户的历史感兴趣图像;特征提取模块,用于通过图像处理模型对所述历史感兴趣图像进行特征提取,并基于所提取的特征获取历史兴趣信息描述;同时通过所述图像处理模型对所述待处理图像集中的待处理图像进行特征提取,以获取与所述待处理图像对应的特征信息;图像确定模块,用于根据所述特征信息和所述历史兴趣信息描述确定与所述待处理图像对应的兴趣权重,并基于与所述待处理图像对应的特征信息和兴趣权重从所述待处理图像集中确定封面图像。

在本公开的一些实施例中,所述图像处理模型包括第一双向门控循环单元;基于前述方案,所述图像确定模块配置为:将所述特征信息与所述历史兴趣信息描述输入至所述第一双向门控循环单元,通过所述第一双向门控循环单元对所述特征信息与所述历史兴趣信息描述进行特征提取;根据所述特征信息对应的特征和所述历史兴趣信息描述对应的特征确定所述特征信息与所述历史兴趣信息描述之间的重合度,并将所述重合度作为所述兴趣权重。

在本公开的一些实施例中,所述图像处理模型包括第一全连接层和第一归一化层;基于前述方案,所述图像确定模块包括:加权单元,用于根据所述兴趣权重对所述特征信息进行加权处理,以获取兴趣点特征信息;全连接单元,用于将所述兴趣点特征信息输入至所述第一全连接层,通过所述第一全连接层对所述兴趣点特征信息进行非线性变换处理,以获取与所述待处理图像对应的全连接特征信息;归一化单元,用于将所述全连接特征信息输入至所述第一归一化层,通过所述第一归一化层对所述全连接特征信息进行归一化处理,以获取与所述待处理图像对应的概率值;图像获取单元,用于获取具有最大概率值的待处理图像,并将所述具有最大概率值的待处理图像作为所述封面图像。

在本公开的一些实施例中,基于前述方案,所述全连接单元配置为:根据公式(1)对所述兴趣点特征信息进行非线性变换处理:

z=f(w1x+b1)(1)

其中,f()为激活函数,w1为权重矩阵,b1为偏置常量,x为所述兴趣点特征信息,z为所述全连接特征信息;

所述归一化单元配置为:根据公式(2)对所述全连接特征信息进行归一化处理:

其中,zj为所述全连接特征信息中的第j个子特征信息,k为所述全连接特征信息包含的子特征信息的总数量,σ(z)j为与所述待处理图像对应的概率值。

在本公开的一些实施例中,所述图像处理模型包括第一卷积单元和第二双向门控循环单元;基于前述方案,所述特征提取模块配置为:通过所述第一卷积单元对所述历史感兴趣图像进行特征提取,以获取感兴趣图像特征信息;将所述感兴趣图像特征信息输入至所述第二双向门控循环单元,通过所述第二双向门控循环单元对所述感兴趣图像特征信息进行特征提取,以获取所述历史兴趣信息描述。

在本公开的一些实施例中,所述图像处理模型包括第二卷积单元;基于前述方案,所述特征提取模块包括:第一特征提取单元,用于通过所述第二卷积单元对所述待处理图像进行特征提取,以获取与所述待处理图像对应的特征信息。

在本公开的一些实施例中,基于前述方案,所述第一特征提取单元配置为:根据预设规则从所述待处理图像集中获取多个目标待处理图像;通过所述第二卷积单元对各所述目标待处理图像进行特征提取,以获取与各所述目标待处理图像对应的特征信息。

在本公开的一些实施例中,基于前述方案,所述图像处理装置还配置为:获取待处理视频,对所述待处理视频进行解析以获取图像帧;根据所述待处理视频中所有的图像帧形成所述待处理图像集。

在本公开的一些实施例中,基于前述方案,所述图像处理装置还包括:样本获取模块,用于获取多组训练样本,每组所述训练样本包括视频样本、视频类别样本、视频封面样本和历史感兴趣图像样本;模型训练模型,用于根据所述视频样本、所述视频类别样本、所述视频封面样本和所述历史感兴趣图像样本对待训练图像处理模型进行训练,以获取所述图像处理模型。

在本公开的一些实施例中,所述待训练图像处理模型包括第一训练支路、第二训练支路和第三训练支路;基于前述方案,所述模型训练模块包括:第二特征提取单元,用于通过所述第一训练支路对所述历史感兴趣图像样本进行特征提取,以获取与所述历史感兴趣图像样本对应的兴趣分布信息描述;通过所述第二训练支路对所述视频样本进行特征提取,基于所提取的特征和所述兴趣分布信息描述获取与所述视频样本对应的推荐图像信息;通过所述第三训练支路对所述视频样本进行特征提取,以获取与所述视频样本对应的类别信息;损失函数确定单元,用于根据所述推荐图像信息和所述视频封面样本确定第一损失函数,根据所述类别信息和所述视频类别样本确定第二损失函数;调参单元,用于通过调节所述待训练图像处理模型的参数,以使所述第一损失函数和所述第二损失函数的加权和最小,并获取所述图像处理模型。

在本公开的一些实施例中,所述第一训练支路包括待训练第一卷积单元和待训练第二双向门控循环单元;基于前述方案,所述第二特征提取单元配置为:通过所述待训练第一卷积单元中的卷积层对所述历史感兴趣图像样本进行特征提取,以获取与所述历史感兴趣图像样本对应的兴趣分布特征信息;将与所述历史感兴趣图像样本对应的兴趣分布特征信息输入至所述待训练第二双向门控循环单元,通过所述待训练第二双向门控循环单元对所述兴趣分布特征信息进行处理,以获取所述兴趣分布信息描述。

在本公开的一些实施例中,所述第二训练支路包括待训练第二卷积单元、待训练第一双向门控循环单元、待训练第一全连接层和待训练第一归一化层;基于前述方案,所述第二特征提取单元包括:第一特征提取子单元,用于通过所述待训练第二卷积单元中的卷积层对所述视频样本中的图像样本进行特征提取,以获取图像样本特征信息;第二特征提取子单元,用于将所述图像样本特征信息和所述兴趣分布信息描述输入至所述待训练第一双向门控循环单元,通过所述待训练第一双向门控循环单元对所述图像样本特征信息与所述兴趣分布信息描述进行特征提取,以获取兴趣分布权重;加权单元,用于根据所述图像样本特征信息和所述兴趣分布权重获取多个加权特征信息;后处理单元,用于通过所述待训练第一全连接层对多个所述加权特征信息进行非线性变换处理,并通过所述待训练第一归一化层对非线性变换处理后的所述加权特征信息进行归一化处理,以获取所述推荐图像信息。

在本公开的一些实施例中,基于前述方案,所述第一特征提取子单元配置为:根据预设规则从所述图像集样本中确定多个目标图像样本;通过所述待训练第二卷积单元中的卷积层对各所述目标图像样本进行特征提取,以获取所述图像样本特征信息。

在本公开的一些实施例中,所述第三训练支路包括待训练第二全连接层和待训练第二归一化层;基于前述方案,所述第二特征提取单元配置为:获取所述待训练第二卷积单元输出的所述图像样本特征信息;对所述图像样本特征信息进行加和平均,以获取与所述视频样本对应的视频特征描述;通过所述待训练第二全连接层对所述视频特征描述进行非线性变换处理,并通过所述待训练第二归一化层对非线性变换处理后的所述视频特征描述进行归一化处理,以获取与所述视频样本对应的类别信息。

根据本公开实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例所述的图像处理方法。

根据本公开实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上述实施例所述的图像处理方法。

在本公开的实施例所提供的技术方案中,首先获取待处理图像集和包含用户的历史感兴趣图像的历史图像集;接着对历史图像集进行特征提取获取历史兴趣信息描述,对待处理图像集进行特征提取获取与待处理图像对应的特征信息;然后根据待处理图像对应的特征信息和历史兴趣信息描述确定待处理图像对应的兴趣权重;最后根据待处理图像对应的特征信息和兴趣权重从待处理图像集中确定封面图像。本公开的技术方案能够根据用户的历史感兴趣图像确定用户的历史兴趣信息描述,基于历史兴趣信息描述和待处理图像集的特征信息能够实现对历史感兴趣图像与待处理图像的内在关联性的挖掘,进而可以从待处理图像集中精准地确定封面图像并推荐给用户,提高了图像推荐的效率和精准度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图;

图2示意性示出了根据本公开的一个实施例的图像处理方法的流程示意图;

图3示意性示出了根据本公开的一个实施例的图像处理模型的结构示意图;

图4示意性示出了根据本公开的一个实施例的获取历史兴趣信息描述的流程框架图;

图5示意性示出了根据本公开的一个实施例的获取待处理图像对应的特征信息的流程框架图;

图6示意性示出了根据本公开的一个实施例的获取目标待处理图像对应的特征信息的流程框架图;

图7示意性示出了根据本公开的一个实施例的获取封面图像的流程示意图;

图8示意性示出了根据本公开的一个实施例的训练样本的组成;

图9示意性示出了根据本公开的一个实施例的待训练图像处理模型的结构示意图;

图10示意性示出了根据本公开的一个实施例的对待训练图像处理模型进行训练的流程示意图;

图11示意性示出了根据本公开的一个实施例的全连接层的处理框架图;

图12示意性示出了根据本公开的一个实施例的图像处理装置的框图;

图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。

如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要,可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。终端设备101可以是诸如笔记本、便携式电脑、台式电脑等终端设备。

在本公开的一个实施例中,可以通过终端设备101收集待处理图像构成的待处理图像集,同时获取包含用户的历史感兴趣图像的历史图像集,并通过网络102将待处理图像集和历史图像集发送至服务器103。服务器103接收到待处理图像集和历史图像集后,可以通过训练好的图像处理模型的第一卷积单元和第二双向门控循环单元对历史图像集中用户的历史感兴趣图像进行特征提取,以获取用户的历史兴趣信息描述。通过图像处理模型中的第二卷积单元对待处理图像集中的待处理图像进行特征提取以获取待处理图像对应的特征信息;接着通过图像处理模型中的第一双向门控循环单元对待处理图像对应的特征信息和历史兴趣信息描述进行处理,以获取待处理图像对应的兴趣权重;然后根据兴趣权重对待处理图像对应的特征信息进行加权处理,以获取兴趣点特征信息;最后通过图像处理模型中的第一全连接层对兴趣点特征信息进行非线性变换处理,以获取与待处理图像对应的全连接特征信息,并通过第一归一化层对全连接特征信息进行归一化处理,以获取待处理图像对应的概率值,该概率值用于表征待处理图像符合用户兴趣且可作为待处理图像集的封面图像的概率,通过选取具有最大概率值的待处理图像,即可确定待处理图像集的封面图像。在使用图像处理模型进行图像处理之前,需要对待训练的图像处理模型进行训练,以获取稳定的图像处理模型,在本公开实施例中,待训练的图像处理模型为多任务学习的图像处理模型,其包含封面图像确定任务和图像集/视频类别识别任务,图像集/视频类别识别任务能够使模型更有针对性的对不同类别的图像集/视频提取相应的特征信息,为封面图像确定任务提供互补信息。本公开实施例的技术方案能够在不同数据类别上构建用户兴趣点分布特征,并且能够挖掘用户的历史感兴趣图像和待处理图像集的内在关联性,进而能够更精确、更有针对性地确定与用户对应的封面图像。

需要说明的是,本公开实施例所提供的图像处理方法一般由服务器执行,相应地,图像处理装置一般设置于服务器中。但是,在本公开的其它实施例中,也可以由终端设备执行本公开实施例所提供的图像处理方法。

在本领域的相关技术中,常用的用户个性化推荐方案是基于用户历史数据信息或用户自身属性信息构建用户兴趣特征信息从而在新的推荐数据上进行个性化推荐,但是此种方法未能考虑推荐数据自身的属性信息,因为不同的数据类型,用户会有不同的兴趣特征分布,所以在面对不同类型的数据时,已有的方法并不能很好地针对数据类型有针对性的提取该类型数据的信息特征。此外已有的技术方法在使用用户历史数据时一般只是简单的将历史数据信息特征与推荐数据进行形似度对比,未能挖掘历史数据信息与推荐数据之间的内在关联信息。

鉴于相关技术中存在的问题,本公开实施例提供了一种图像处理方法,该方法是基于人工智能实现的,人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(computervision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本公开实施例提供的方案涉及人工智能的图像处理技术,具体通过如下实施例进行说明:

本公开实施例首先提供了一种图像处理方法,图2示意性示出了根据本公开的一个实施例的图像处理方法的流程图,该图像处理方法可以由服务器来执行,该服务器可以是图1中所示的服务器103。参照图2所示,该图像处理方法至少包括步骤s210至步骤s230,详细介绍如下:

在步骤s210中,获取待处理图像集和历史图像集,历史图像集包括用户的历史感兴趣图像。

在本公开的一个实施例中,待处理图像集可以是包含多幅待处理图像的图集,也可以是包含多帧图像的视频,在制作完图集或视频后,通常需要从中选取具有代表性的一幅或一帧图像作为该图集或视频的封面,当然也可以选取具有代表性的多幅或多帧图像组合作为该图集或视频的封面,以吸引用户点击观看,例如用户在新闻平台、视频交互平台观看视频或图集时,首先看到的是一幅封面图像,如果用户对该封面图像感兴趣,就会对与该封面图像对应的链接进行相应地触发操作,以观看整个视频或图集。但是平台上的视频和/或图集数量庞大,用户通常不会把每个都点开观看,而是选择自己感兴趣的视频或图集进行观看,因此视频或图集的封面对于用户是否点击观看是至关重要的,而对于同一个视频或图集,不同的用户有不同的兴趣侧重点,因此针对不同的用户生成不同的封面图像,将会大大提升视频或图集的点击播放量。例如有一个视频是截选自热播电视剧的片段,该片段中出现的角色有男一号和女一号,有的用户喜欢男一号,而有的用户喜欢女一号,因此在生成视频封面时,需要对用户的兴趣点进行挖掘,比如用户a平时喜欢看美女,以前还点击过女一号扮演者的其它视频,那么在向用户a推送该视频的时候,可以从视频片段中出现女一号的图像帧中选择一个具有代表性的图像帧作为视频封面,这样用户a就会被视频封面吸引,并点击观看该视频片段,同样地,对于喜欢男一号的用户b,则可以从视频片段中出现男一号的图像帧中选择一个具有代表性的图像帧作为视频封面,这样就可以吸引用户b点击观看该视频片段。为了便于理解本公开的技术方案,以下将以视频封面的推荐为例,对本公开的图像处理方法进行说明。

在本公开的一个实施例中,首先需要获取待处理图像集,在获取待处理视频,即需要为其推荐视频封面的视频之后,可以对待处理视频进行解析以获取与待处理视频对应的图像帧,根据与待处理视频对应的所有图像帧即可形成待处理图像集;同时还需要获取历史图像集,该历史图像集包括用户的历史感兴趣图像,在收集用户的历史感兴趣图像时,可以收集距离当前时刻预设时间段内用户点击过的视频的封面图像,也可以收集用户自第一次登陆平台到当前时刻所点击过的视频的封面图像。对应不同类别的视频,用户的兴趣点分布不同,根据历史图像集可以明确用户对不同类别的视频具有如何的兴趣特征分布,进而可以精准地从待处理视频中确定封面图像。

在步骤s220中,通过图像处理模型对所述历史感兴趣图像进行特征提取,并基于所提取的特征获取历史兴趣信息描述;同时通过所述图像处理模型对所述待处理图像集中的待处理图像进行特征提取,以获取与所述待处理图像对应的特征信息。

在本公开的一个实施例中,在获取待处理图像集和历史图像集后,可以通过图像处理模型对待处理图像集和历史图像集进行处理,以获取封面图像。在通过图像处理模型对待处理图像集和历史图像集进行处理时,可以通过图像处理模型对历史图像集进行特征提取,并基于所提取的特征获取历史兴趣信息描述;同时可以通过图像处理模型对待处理图像集进行特征提取,以获取与待处理图像对应的特征信息。

在本公开的一个实施例中,图3示出了图像处理模型的结构示意图,如图3所示,图像处理模型300包括第一卷积单元301、第二双向门控循环单元302、第二卷积单元303、第一双向门控循环单元304、第一全连接层305和第一归一化层306。其中第一卷积单元301和第二双向门控循环单元302用于对历史图像集进行特征提取,并基于所提取的特征获取历史兴趣信息描述;第二卷积单元303用于对待处理图像集进行特征提取,以获取与待处理图像对应的特征信息。

在本公开的一个实施例中,历史图像集中包含多个用户的历史感兴趣图像,为了获取用户的历史兴趣信息描述,可以在第一卷积单元301中设置多个卷积层,图4示出了获取历史兴趣信息描述的流程框架图,如图4所示,第一卷积单元301包括多个卷积层401-1、401-2、……、401-n,历史感兴趣图像包括hf-1、hf-2、……、hf-n,其中卷积层的数量与历史感兴趣图像的数量相等,通过各卷积层对各历史感兴趣图像进行特征提取,以获取感兴趣图像特征信息hfv-1、hfv-2、……、hfv-n;接着可以将感兴趣图像特征信息hfv-1、hfv-2、……、hfv-n输入至第二双向门控循环单元302,通过第二双向门控循环单元302对感兴趣图像特征信息进行特征提取,以获取历史兴趣信息描述hfv。历史兴趣信息描述hfv主要是用于表示用户在各种类别图像集上的兴趣点分布,例如用户喜欢观看枪战类的电视剧或电影,那么历史兴趣信息描述hfv中关于电视剧或电影的兴趣信息描述可以是枪支、枪战等相关描述;用户喜欢观看明星参加的各种综艺节目,那么历史兴趣信息描述hfv中关于综艺类节目的兴趣信息描述可以是明星;用户喜欢观看财经类新闻,那么历史兴趣信息描述hfv中关于新闻类节目的兴趣信息描述可以是财经等相关描述,等等。

门控循环单元(gaterecurrentunit,gru)是新一代的递归神经网络,与lstm非常相似,gru摆脱了细胞状态并使用隐藏状态来传输信息,gru只有两个门,一个复位门和一个更新门,其中复位门决定忘记过去的信息量,更新门决定了丢弃哪些信息以及要添加的新信息。双向门控循环单元bi-gru包括正向门控循环单元和反向门控循环单元,在通过第二双向门控循环单元302对感兴趣图像特征信息进行特征提取时,可以通过复位门和更新门对感兴趣图像特征信息中的信息进行处理,以获得历史兴趣信息描述hfv。

在本公开的一个实施例中,待处理图像集同样包含多个待处理图像,即待处理视频包含多个待处理图像帧,为了获取待处理图像对应的特征信息,可以在第二卷积单元303中设置多个卷积层,图5示出了获取待处理图像对应的特征信息的流程框架图,如图5所示,第二卷积单元303包括多个卷积层501-1、501-2、……、501-s,待处理视频包括图像帧pf-1、pf-2、……、pf-s,其中卷积层的数量与待处理视频中图像帧的数量相等,通过各卷积层对各图像帧进行特征提取,以获取待处理图像对应的特征信息pfv-1、pfv-2、……、pfv-s。

在本公开的一个实施例中,由于待处理视频中包含的图像帧数量巨大,以时长5分钟的视频为例,若每秒包含25帧图像,那么5分钟的视频总共包含7500帧图像,如果对每一帧图像都进行特征提取,则需要较长的处理时间,降低了图像处理的效率,因此在本公开的实施例中,可以根据预设规则从待处理视频中获取多个目标待处理图像,然后通过第二卷积单元303中的卷积层对目标待处理图像进行特征提取,以获取与各目标待处理图像对应的特征信息。其中,预设规则可以是间隔1s、3s或5s等获取一个图像帧作为目标待处理图像,也可以是将待处理视频划分为多个场景,从每个场景中获取一个图像帧作为目标待处理图像,当然还可以根据其它规则确定目标待处理图像,本公开实施例对此不作具体限定。

在本公开的一个实施例中,图6示出了获取目标待处理图像对应的特征信息的流程框架图,如图6所示,对待处理视频进行关键帧提取,以获取多个目标待处理图像kf-1、kf-2、……、kf-v,第二卷积单元303包括多个卷积层601-1、601-2、……、601-v,其中卷积层的数量与目标待处理图像的数量相等,通过各卷积层对各目标待处理图像进行特征提取,以获取待处理图像对应的特征信息kfv-1、kfv-2、……、kfv-v。

在步骤s230中,根据特征信息和历史兴趣信息描述确定与待处理图像对应的兴趣权重,并基于与待处理图像对应的特征信息和兴趣权重从待处理图像集中确定封面图像。

在本公开的一个实施例中,为了根据用户的兴趣确定封面图像,需要判断用户的兴趣点在各个待处理图像中的分布,如果存在一个或多个待处理图像中用户的兴趣点分布范围最广,那么就说明用户对该(些)待处理图像更感兴趣。具体地,可以通过图3中所示的第一双向门控循环单元304根据待处理图像对应的特征信息和历史兴趣信息描述进行特征提取,根据特征信息对应的特征和历史兴趣信息描述对应的特征可以确定特征信息与历史兴趣信息描述之间的重合度,该重合度即为与待处理图像对应的兴趣权重,通过第一双向门控循环单元304对各个待处理图像对应的特征信息和历史兴趣信息进行上述操作,可以得到与各个待处理图像对应的兴趣权重,用于表征用户的兴趣点在各个待处理图像中的分布。

在本公开的一个实施例中,在确定了与待处理图像对应的特征信息所对应的兴趣权重后,可以基于待处理图像对应的特征信息和相应地兴趣权重从待处理图像集中确定封面图像。图7示出了获取封面图像的流程示意图,如图7所示,在图6的基础上,获取待处理图像对应的特征信息kfv-1、kfv-2、……、kfv-v后,将其与第二双向门控循环单元302输出的历史兴趣信息描述hfv同时输入至第一双向门控循环单元304,通过第一双向门控循环单元304分别对待处理图像对应的特征信息kfv-1、kfv-2、……、kfv-v和历史兴趣信息描述hfv进行处理,以获取与待处理图像对应的特征信息kfv-1、kfv-2、……、kfv-v对应的兴趣权重γ1、γ2、……、γn;接着根据兴趣权重对与待处理图像对应的特征信息进行加权处理,以获取兴趣点特征信息wkfv-1、wkfv-2、……、wkfv-v;然后将兴趣点特征信息wkfv-1、wkfv-2、……、wkfv-v输入至第一全连接层305,通过第一全连接层305对兴趣点特征信息wkfv-1、wkfv-2、……、wkfv-v进行非线性变换处理,以获取与待处理图像对应的全连接特征信息;最后将全连接特征信息输入至第一归一化层306,通过第一归一化层306对全连接特征信息进行归一化处理,以获取与待处理图像对应的概率值,该概率值即为待处理图像可以作为封面图像的可能性,那么可以获取具有最大概率值的待处理图像,该具有最大概率值的待处理图像即为待处理图像集的封面图像。

由于在计算概率值的过程中引入了根据用户的历史感兴趣图像确定的历史兴趣信息描述,图像处理模型在确定封面图像时充分挖掘了用户历史感兴趣图像与待处理图像之间的内在关联性,除此之外,图像处理模型在训练过程,除了训练模型挖掘用户历史感兴趣图像与待处理图像之间的内在关联性,还训练模型基于待处理图像的特征信息识别待处理图像集的类别,使得模型能够确定用户在不同类别的待处理图像中的兴趣点分布,因此通过上述方法所获得的封面图像是最符合用户对待处理图像集的兴趣的,具有该封面图像的视频或图集可以引起用户的兴趣,吸引用户点击观看该视频或图集,提高了视频或图集的点击率。

在本公开的一个实施例中,在使用图像处理模型进行封面图像预测前,需要对待训练图像处理模型进行训练,以获取稳定的图像处理模型。在对待训练图像处理模型进行训练时,可以获取多组训练样本,具体地可以获取多个用户的数据,并且每个用户对应多组训练样本,每组训练样本包括视频样本、视频类别样本、视频封面样本和历史感兴趣图像样本,图8示出了训练样本的组成,如图8所示,有多组训练样本,其中第一组训练样本具体为:仙剑奇侠传中的一个片段、电视剧、包含赵灵儿的图像、用户的历史感兴趣图像样本;第二组训练样本具体为:极限挑战的一个片段、综艺、包含多个明星的图像、用户的历史感兴趣图像样本;最后一组训练样本具体为:今日说法的一个片段、法制节目、包含节目主持人的图像、用户的历史感兴趣图像样本。

在本公开的一个实施例中,获取训练样本后,可以根据各组训练样本中的视频样本、视频类别样本、视频封面样本和历史感兴趣图像样本对待训练图像处理模型进行训练,以获取图像处理模型。图9示出了待训练图像处理模型的结构示意图,如图9所示,待训练图像处理模型900包括第一训练支路901、第二训练支路902和第三训练支路903,其中,第一训练支路901包括待训练第一卷积单元904、待训练第二双向门控循环单元905,第二训练支路902包括待训练第二卷积单元906、待训练第一双向门控循环单元907、待训练第一全连接层908和待训练第一归一化层909;第三训练支路903包括待训练第二全连接层910和待训练第二归一化层911。

在本公开的一个实施例中,基于图9所示的待训练图像处理模型的结构示意图,图10示出了对待训练图像处理模型进行训练的流程示意图,该流程至少包括步骤s1001-s1003,具体地:

在步骤s1001中,通过第一训练支路对历史感兴趣图像样本进行特征提取,以获取与历史感兴趣图像样本对应的兴趣分布信息描述;通过第二训练支路对视频样本进行特征提取,基于所提取的特征和兴趣分布信息描述获取与视频样本对应的推荐图像信息;通过第三训练支路对视频样本进行特征提取,以获取与视频样本对应的类别信息。

在本公开的一个实施例中,历史感兴趣图像样本具体可以是用户以前点击过的视频的封面图像,其数量可以是多个,相应地用于对历史感兴趣图像样本进行特征提取的待训练第一卷积单元904中可以设置多个卷积层,其数量与历史感兴趣图像样本的数量相同。在通过第一训练支路对历史感兴趣图像样本进行特征提取,以获取与历史感兴趣图像样本对应的兴趣分布信息描述时,具体可以通过待训练第一卷积单元904中的卷积层对各所述历史感兴趣图像样本hfs-1、hfs-2、……、hfs-n进行特征提取,以获取与各历史感兴趣图像样本对应的兴趣分布特征信息hfsv-1、hfsv-2、……、hfsv-n;然后将与各历史感兴趣图像样本对应的兴趣分布特征信息输入至待训练第二双向门控循环单元905,通过待训练第二双向门控循环单元905对兴趣分布特征信息进行处理,以获取兴趣分布信息描述hfsv。

在本公开的一个实施例中,在通过第二训练支路对视频样本进行特征提取,基于所提取的特征和兴趣分布特征信息获取与视频样本对应的推荐图像信息时,具体可以通过待训练第二卷积单元906中的卷积层对图像集样本中的各图像样本ps-1、ps-2、……、ps-v进行特征提取,以获取图像样本特征信息psv-1、psv-2、……、psv-v;接着将图像样本特征信息psv-1、psv-2、……、psv-v和兴趣分布信息描述hfsv输入至待训练第一双向门控循环单元907,通过待训练第一双向门控循环单元907对图像样本特征信息与兴趣分布信息描述进行特征提取,以获取兴趣分布权重;然后根据图像样本特征信息和兴趣分布权重获取多个加权特征信息wpsv-1、wpsv-2、……、wpsv-v;最后通过待训练第一全连接层908对多个加权特征信息进行非线性变换处理,并通过待训练第一归一化层909对非线性变换处理后的加权特征信息进行归一化处理,以获取推荐图像信息。其中各步的具体实现细节与上述实施例中获取封面图像的实现细节相同,在此不再赘述。

在本公开的一个实施例中,考虑到图像数量的大小和图像处理效率,在通过第二训练支路对视频样本进行特征提取,基于所提取的特征和兴趣分布特征信息获取与视频样本对应的推荐图像信息时,首先可以根据预设规则从视频样本中确定多个目标图像样本;接着通过待训练第二卷积单元906中的卷积层对各目标图像样本进行特征提取,以获取图像样本特征信息;再接着将图像样本特征信息和兴趣分布信息描述输入至待训练第一双向门控循环单元907,通过待训练第一双向门控循环单元907对图像样本特征信息与兴趣分布信息描述进行特征提取,以获取兴趣分布权重;然后根据图像样本特征信息和兴趣分布权重获取多个加权特征信息;最后通过待训练第一全连接层908对多个加权特征信息进行非线性变换处理,并通过待训练第一归一化层909对非线性变换处理后的加权特征信息进行归一化处理,以获取推荐图像信息。该预设规则具体可以是从视频样本中间隔一定时间获取图像帧作为目标图像样本,也可以是从视频样本所包含的各个场景中选取一帧或多帧作为目标图像样本,当然还可以是其它的规则,本公开实施例对此不做具体限定。

在本公开的一个实施例中,在通过第三训练支路对视频样本进行特征提取,以获取与视频样本对应的类别信息时,具体可以先获取待训练第二卷积单元906输出的图像样本特征信息;然后对图像样本特征信息进行加和平均,以获取与视频样本对应的视频特征描述;最后通过待训练第二全连接层910对视频特征描述进行非线性变换处理,并通过待训练第二归一化层911对非线性变换处理后的视频特征描述进行归一化处理,以获取与视频样本对应的类别信息。

在本公开的一个实施例中,待训练图像处理模型900为一个多任务学习模型,其中的主学习任务是获取推荐图像信息,辅学习任务是识别图像集的类别,以推荐视频封面为例,主学习任务就是推荐视频封面,辅学习任务就是识别视频的类别,判断视频的类别是电视剧(电影)、综艺、财经、法制、军事还是农业等等。对视频类别的识别学习任务能够使得待训练图像处理模型更有针对性的对不同类别的视频提取相应地特征信息,为主学习任务提供互补信息,主学习任务结合辅学习任务的互补信息并有针对性的挖掘用户的历史感兴趣图像和待处理图像的内在联系,构建不同类别图像的用户兴趣点分布。

在本公开的一个实施例中,主学习任务和辅学习任务共享待训练图像处理模型的第二卷积单元903,而后才划分为两个学习分支,因此待训练图像处理模型的结构较为简单,易于训练。

在步骤s1002中,根据推荐图像信息和视频封面样本确定第一损失函数,根据类别信息和视频类别样本确定第二损失函数。

在本公开的一个实施例中,在获取第二训练支路生成的推荐图像信息及第三训练支路生成的与视频样本对应的类别信息后,可以根据推荐图像信息和视频封面样本确定第一损失函数loss-1,根据类别信息和视频类别样本确定第二损失函数loss-2,第一损失函数loss-1和第二损失函数loss-2可以是相同的损失函数,也可以是不同的损失函数。在得到第一损失函数loss-1和第二损失函数loss-2后,可以将其进行加权,以获取模型损失函数loss,具体地,loss=αloss-1+βloss-2,其中α、β为待训练图像处理模型的参数。

在步骤s1003中,通过调节待训练图像处理模型的参数,以使第一损失函数和第二损失函数的加权和最小,并获取图像处理模型。

在本公开的一个实施例中,对待训练图像处理模型的参数进行调整,更新待训练图像处理模型,当模型损失函数loss达到最小时,表明待训练图像处理模型训练完成,可以作为稳定的图像处理模型对待处理图像集进行处理确定封面图像。

在本公开的一个实施例中,在对待训练图像处理模型进行训练及采用图像处理模型进行封面图像推荐时,第一全连接层、待训练第一全连接层和待训练第二全连接层都是用于对输入的特征信息进行非线性变换处理的,图11示出了全连接层的处理框架图,如图11所示,该框架包括输入层1101、全连接神经元层1102和输出层1103,输入层1101将接收到的信息,如兴趣点特征信息、加权特征信息、图像集特征描述,发送至全连接神经元层1102,全连接神经元层1102对接收到的信息进行非线性变换,具体根据计算公式(1)进行变换:

z=f(w1x+b1)(1)

其中,f()为激活函数,w1为权重矩阵,b1为偏置常量,x为接收到的信息,z为全连接特征信息。获得z后,将z通过输出层1103输出至与全连接层连接的归一化层进行归一化处理。

在本公开的一个实施例中,第一归一化层、待训练第一归一化层、待训练第二归一化层均为softmax层,其可将全连接层输出的结果转化为各个图像推荐为封面图像的概率,或者视频对应每种类别的概率。具体可以根据计算公式(2)进行计算:

其中,zj为全连接特征信息中的第j个子特征信息,k为全连接特征信息包含的子特征信息的总数量,σ(z)j为与待处理图像对应的概率值,即图像推荐为封面图像的概率,同时也是视频对应每种类别的概率。

在本公开的一个实施例中,待训练图像处理模型划分为主学习任务和辅学习任务,主学习任务为封面图像推荐,辅学习任务为视频类别识别,辅学习任务能够为主学习任务提供互补信息,在提取用户的历史兴趣信息时挖掘历史信息之间的内在关联性,并基于获取的关联性信息结合辅学习任务的互补信息构建待处理图像上用户的兴趣点分布,即兴趣权重,然后反向对待处理图像进行加权得到含有用户的兴趣点分布的数据信息,有助于图像处理模型更准确地进行个性化封面图像的推荐。

本公开实施例中的图像处理方法可以应用于多个场景,例如用户自己制作视频或图集后,可以通过本公开实施例的方法为用户制作的视频或图集推荐封面图像;某视频交互平台或其它用于播放视频、展示图集的平台在向用户推送视频、图集时,可以通过本公开实施例的方法针对不同的用户为待推送的视频或图集推荐不同的封面图像,然后将具有不同封面图像的视频或图集推送给不同的用户,以提高视频或图集的点击率。

以图集展示平台向不同用户推送图集为例,首先可以收集目标用户在登陆该图集展示平台时所产生的数据,主要包括目标用户的历史感兴趣图像,历史感兴趣图像具体可以是目标用户历次观看的图集的封面图像;在获取目标用户的历史感兴趣图像后,可以将该历史感兴趣图像和待推送的图集输入至图像处理模型,通过图像处理模型分别对历史感兴趣图像和待推送图集进行处理,以从待推送图集中确定一幅或多幅图像作为待推送图集的封面图像。具体地,可以通过图像处理模型中的第一卷积单元对目标用户的历史感兴趣图像进行特征提取,并通过第二双向门控循环单元根据提取的特征获取目标用户的历史兴趣信息描述;同时通过第二卷积单元对待推送图集中的图像进行特征提取,以获取图像特征信息;接着可以通过第一双向门控循环单元根据各图像的图像特征信息和目标用户的历史兴趣信息描述确定各图像对应的兴趣权重,该兴趣权重即为图像与目标用户的历史兴趣信息描述的重合度;然后根据兴趣权重对各图像的图像特征信息进行加权,以获取与各图像对应的兴趣点特征信息;最后通过第一全连接层对各图像对应的兴趣点特征信息进行非线性变换处理,并通过第一归一化层对非线性变换处理后的兴趣点特征信息进行归一化处理,以获取各图像可作为封面图像的概率值,其中具有最大概率值的图像即为封面图像。由于在确定封面图像的过程中,引入了目标用户的历史兴趣信息描述,也就是说在确定封面图像的过程中,深入挖掘了目标用户的历史感兴趣图像与待推送图集中各图像的内在关联信息,因此最终确定的封面图像是最符合目标用户兴趣的图像,如果将具有该封面图像的图集推送给目标用户的话,目标用户很大概率会点击观看,提高了点击率。

本公开实施例中的图像处理模型可以进行多任务学习,其中对待处理图像集的类别进行识别的学习任务能够为对待处理图像集推荐封面图像的学习任务提供互补信息,同时引入根据用户的历史感兴趣图像确定的历史感兴趣信息描述,能够使得模型挖掘用户的历史感兴趣图像与待处理图像集中的图像之间的内在关联性,并根据类别识别的特征信息构建用户在待处理图像集上的兴趣分布,进而可以精准地针对不同用户进行个性化封面图像的推荐,进一步提高了待处理图像集的点击率。

以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的图像处理方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的图像处理方法。

图12示意性示出了根据本公开的一个实施例的图像处理装置的框图。

参照图12所示,根据本公开的一个实施例的图像处理装置1200,包括:获取模块1201、特征提取模块1202和图像确定模块1203。

其中,获取模块1201,用于获取待处理图像集和历史图像集,所述历史图像集包括用户的历史感兴趣图像;特征提取模块1202,用于通过图像处理模型对所述历史感兴趣图像进行特征提取,并基于所提取的特征获取历史兴趣信息描述;同时通过所述图像处理模型对所述待处理图像集中的待处理图像进行特征提取,以获取与所述待处理图像对应的特征信息;图像确定模块1203,用于根据所述特征信息和所述历史兴趣信息描述确定与所述待处理图像对应的兴趣权重,并基于与所述待处理图像对应的特征信息和兴趣权重从所述待处理图像集中确定封面图像。

在本公开的一个实施例中,所述图像处理模型包括第一双向门控循环单元;所述图像确定模块1203配置为:将所述特征信息与所述历史兴趣信息描述输入至所述第一双向门控循环单元,通过所述第一双向门控循环单元对所述特征信息与所述历史兴趣信息描述进行特征提取;根据所述特征信息对应的特征和所述历史兴趣信息描述对应的特征确定所述特征信息与所述历史兴趣信息描述之间的重合度,并将所述重合度作为所述兴趣权重。

在本公开的一个实施例中,所述图像处理模型包括第一全连接层和第一归一化层;所述图像确定模块1203包括:加权单元,用于根据所述兴趣权重对所述特征信息进行加权处理,以获取兴趣点特征信息;全连接单元,用于将所述兴趣点特征信息输入至所述第一全连接层,通过所述第一全连接层对所述兴趣点特征信息进行非线性变换处理,以获取与所述待处理图像对应的全连接特征信息;归一化单元,用于将所述全连接特征信息输入至所述第一归一化层,通过所述第一归一化层对所述全连接特征信息进行归一化处理,以获取与所述待处理图像对应的概率值;图像获取单元,用于获取具有最大概率值的待处理图像,并将所述具有最大概率值的待处理图像作为所述封面图像。

在本公开的一个实施例中,所述全连接单元配置为:根据公式(1)对所述兴趣点特征信息进行非线性变换处理:

z=f(w1x+b1)(1)

其中,f()为激活函数,w1为权重矩阵,b1为偏置常量,x为所述兴趣点特征信息,z为所述全连接特征信息;

所述归一化单元配置为:根据公式(2)对所述全连接特征信息进行归一化处理:

其中,zj为所述全连接特征信息中的第j个子特征信息,k为所述全连接特征信息包含的子特征信息的总数量,σ(z)j为与所述待处理图像对应的概率值。

在本公开的一个实施例中,所述图像处理模型包括第一卷积单元和第二双向门控循环单元;所述特征提取模块1202配置为:通过所述第一卷积单元对所述历史感兴趣图像进行特征提取,以获取感兴趣图像特征信息;将所述感兴趣图像特征信息输入至所述第二双向门控循环单元,通过所述第二双向门控循环单元对所述感兴趣图像特征信息进行特征提取,以获取所述历史兴趣信息描述。

在本公开的一个实施例中,所述图像处理模型包括第二卷积单元;所述特征提取模块1202包括:第一特征提取单元,用于通过所述第二卷积单元对所述待处理图像进行特征提取,以获取与所述待处理图像对应的特征信息。

在本公开的一个实施例中,所述第一特征提取单元配置为:根据预设规则从所述待处理图像集中获取多个目标待处理图像;通过所述第二卷积单元对各所述目标待处理图像进行特征提取,以获取与各所述目标待处理图像对应的特征信息。

在本公开的一个实施例中,所述图像处理装置1200还配置为:获取待处理视频,对所述待处理视频进行解析以获取图像帧;根据所述待处理视频中所有的图像帧形成所述待处理图像集。

在本公开的一个实施例中,所述图像处理装置1200还包括:样本获取模块,用于获取多组训练样本,每组所述训练样本包括视频样本、视频类别样本、视频封面样本和历史感兴趣图像样本;模型训练模型,用于根据所述视频样本、所述视频类别样本、所述视频封面样本和所述历史感兴趣图像样本对待训练图像处理模型进行训练,以获取所述图像处理模型。

在本公开的一个实施例中,所述待训练图像处理模型包括第一训练支路、第二训练支路和第三训练支路;所述模型训练模块包括:第二特征提取单元,用于通过所述第一训练支路对所述历史感兴趣图像样本进行特征提取,以获取与所述历史感兴趣图像样本对应的兴趣分布信息描述;通过所述第二训练支路对所述视频样本进行特征提取,基于所提取的特征和所述兴趣分布特征信息获取与所述视频样本对应的推荐图像信息;通过所述第三训练支路对所述视频样本进行特征提取,以获取与所述视频样本对应的类别信息;损失函数确定单元,用于根据所述推荐图像信息和所述视频封面样本确定第一损失函数,根据所述类别信息和所述视频类别样本确定第二损失函数;调参单元,用于通过调节所述待训练图像处理模型的参数,以使所述第一损失函数和所述第二损失函数的加权和最小,并获取所述图像处理模型。

在本公开的一个实施例中,所述第一训练支路包括待训练第一卷积单元和待训练第二双向门控循环单元;所述第二特征提取单元配置为:通过所述待训练第一卷积单元中的卷积层对所述历史感兴趣图像样本进行特征提取,以获取与所述历史感兴趣图像样本对应的兴趣分布特征信息;将与所述历史感兴趣图像样本对应的兴趣分布特征信息输入至所述待训练第二双向门控循环单元,通过所述待训练第二双向门控循环单元对所述兴趣分布特征信息进行处理,以获取所述兴趣分布信息描述。

在本公开的一个实施例中,所述第二训练支路包括待训练第二卷积单元、待训练第一双向门控循环单元、待训练第一全连接层和待训练第一归一化层;所述第二特征提取单元包括:第一特征提取子单元,用于通过所述待训练第二卷积单元中的卷积层对所述视频样本中的图像样本进行特征提取,以获取图像样本特征信息;第二特征提取子单元,用于将所述图像样本特征信息和所述兴趣分布信息描述输入至所述待训练第一双向门控循环单元,通过所述待训练第一双向门控循环单元对所述图像样本特征信息与所述兴趣分布信息描述进行特征提取,以获取兴趣分布权重;加权单元,用于根据所述图像样本特征信息和所述兴趣分布权重获取多个加权特征信息;后处理单元,用于通过所述待训练第一全连接层对多个所述加权特征信息进行非线性变换处理,并通过所述待训练第一归一化层对非线性变换处理后的所述加权特征信息进行归一化处理,以获取所述推荐图像信息。

在本公开的一个实施例中,所述第一特征提取子单元配置为:根据预设规则从所述图像集样本中确定多个目标图像样本;通过所述待训练第二卷积单元中的卷积层对各所述目标图像样本进行特征提取,以获取所述图像样本特征信息。

在本公开的一个实施例中,所述第三训练支路包括待训练第二全连接层和待训练第二归一化层;所述第二特征提取单元配置为:获取所述待训练第二卷积单元输出的所述图像样本特征信息;对所述图像样本特征信息进行加和平均,以获取与所述视频样本对应的视频特征描述;通过所述待训练第二全连接层对所述视频特征描述进行非线性变换处理,并通过所述待训练第二归一化层对非线性变换处理后的所述视频特征描述进行归一化处理,以获取与所述视频样本对应的类别信息。

图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图13示出的电子设备的计算机系统1300仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示,计算机系统1300包括中央处理单元(centralprocessingunit,cpu)1301,其可以根据存储在只读存储器(read-onlymemory,rom)1302中的程序或者从存储部分1308加载到随机访问存储器(randomaccessmemory,ram)1303中的程序而执行各种适当的动作和处理,实现上述实施例中所述的图像标注方法。在ram1303中,还存储有系统操作所需的各种程序和数据。cpu1301、rom1302以及ram1303通过总线1304彼此相连。输入/输出(input/output,i/o)接口1305也连接至总线1304。

以下部件连接至i/o接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(cathoderaytube,crt)、液晶显示器(liquidcrystaldisplay,lcd)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如lan(localareanetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至i/o接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(cpu)1301执行时,执行本公开的系统中限定的各种功能。

需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compactdiscread-onlymemory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的图像处理装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1