一种图片搜索方法及装置与流程

文档序号:13136929阅读:307来源:国知局
一种图片搜索方法及装置与流程

【技术领域】

本申请涉及互联网应用领域,尤其涉及一种图片搜索方法及装置。



背景技术:

图片检索(imagesearch)是指用户输入自然语言,从图片集合中查找并按相关性等指标,返回排序的图片结果给用户的信息检索(informationretrieval)过程。

图片搜索引擎(imagesearchengine)就是用于查找互联网图片信息的信息检索工具。现有的图片搜索引擎是对单张图片做召回和排序,搜索结果按图片展开。这种方案满足了用户在互联网上“找图”的需求,但结果页的呈现方式体验不佳。在pc端,结果页每屏可以呈现10-20张图片的缩略图结果;但在移动端,结果页每屏只能呈现4-6张图片结果。

现有图片搜索引擎并未针对图集进行检索,仅有少量高频搜索下的图集结果,所采用的方案是预先根据主题挖掘图集资源并前插到搜索结果中。上述方案存在以下缺点:

1)没有使用搜索引擎技术对图集做建库和检索排序,必须预先针对高频搜索挖掘图集资源,可扩展性和时效性都较差;

2)没有引入图集维度的特征参与排序,不能有效控制图集的相关性和质量;

3)没有引入点击特征形成负反馈机制,低质图集不能在系统内自然沉降。



技术实现要素:

本申请的多个方面提供一种图片搜索方法及装置,用以提供图集搜索结果。

本申请的一方面,提供一种图片搜索方法,包括:

接收搜索词;

根据所述搜索词从图片数据库和图集数据库中获取搜索结果项;

对所述搜索结果项进行混合排序;

展示所述排序后的搜索结果项。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述搜索词从图片数据库和图集数据库中获取搜索结果项包括以下子步骤:

在预先建立的图片倒排索引和图集倒排索引中进行搜索,获得与所述搜索词匹配的索引;

获得与所述搜索词匹配的索引对应的图片和图集,生成搜索结果项。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在接收所述搜索词之前,对网络图片进行抓取,建立倒排索引,包括以下子步骤:

对抓取的图片所在网页的结构化文本字段进行分析,获得所述图片的文本信息;

对抓取的图片进行挖掘,生成图集;

建立图集倒排索引。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对抓取的图片进行挖掘,生成图集包括:

将抓取的图片进行聚合,得到智能聚合图集。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对抓取的图片进行挖掘,生成图集包括:

将网址的构成特征相似且主题词相同的图片生成网页图集

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述搜索结果项进行混合排序进一步包括以下子步骤:

对图片和图集进行特征提取;

将检索词与待排序的图片和图集的特征数据输入预先训练的排序模型,对各待排序图片和图集进行混合排序。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述展示所述排序后的搜索结果项包括:

将图片和图集的缩略图按混合排序顺序展示在搜索结果页面上。

本发明的另一方面,提供一种图集装置,包括:

接收模块,用于接收搜索词;

搜索模块,用于根据所述搜索词从图片数据库和图集数据库中获取搜索结果项;

排序模块,用于对所述搜索结果项进行混合排序;

展示模块,用于展示所述排序后的搜索结果项。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述搜索模块包括以下子模块:

索引获取子模块,用于在预先建立的图片倒排索引和图集倒排索引中进行搜索,获得与所述搜索词匹配的索引;

搜索结果项生成子模块,用于获得与所述搜索词匹配的索引对应的图片和图集,生成搜索结果项。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述搜索模块还包括倒排索引建立子模块,用于在接收所述搜索词之前,对网络图片进行抓取,建立图集倒排索引,所述倒排索引建立子模块包括:

文本信息获取子模块,用于对抓取的图片所在网页的结构化文本字段进行分析,获得所述图片的文本信息;

图集生成子模块,用于对抓取的图片进行挖掘,生成图集;

图集倒排索引建立子模块,用于建立图集倒排索引。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述图集生成子模块具体执行:

将抓取的图片进行聚合,得到智能聚合图集。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述图集生成子模块具体执行:

将网址的构成特征相似且主题词相同的图片生成网页图集

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述排序模块包括以下子模块:

特征提取子模块,用于对图片和图集进行特征提取;

所述混合排序子模块,用于将检索词与待排序的图片和图集的特征数据输入预先训练的排序模型,对各待排序图片和图集进行混合排序。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述展示模块具体执行:

将图片和图集的缩略图按混合排序顺序展示在搜索结果页面上。

本申请的另一方面,提供一种设备,其特征在于,所述设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一上述的方法。

本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一上述的方法。

由所述技术方案可知,本申请实施例获取摄像头拍摄的图片信息,显示绘制有所述ar信息的所述图片信息,能够帮助用户进行快速定位要找寻的另外一个或多个终端。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的图片搜索方法的流程示意图;

图2为本申请一实施例提供的图片搜索方法中根据所述搜索词从图片数据库和图集数据库中获取搜索结果项的流程示意图;

图3为本申请一实施例提供的图片搜索方法中接收所述搜索词之前,对网络图片进行抓取,建立倒排索引的流程示意图

图4为本申请一实施例提供的图片搜索方法中对所述搜索结果项进行混合排序的流程示意图;

图5为本申请另一实施例提供的图片搜索装置的结构示意图;

图6为本申请另一实施例提供的图片搜索装置的搜索模块的结构示意图;

图7为本申请另一实施例提供的图片搜索装置的图片倒排索引和图集倒排索引建立子模块结构示意图;

图8为本申请另一实施例提供的图片搜索装置的排序模块的结构示意图;

图9为适于用来实现本发明实施例的示例性计算机系统/服务器的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

图1为本申请一实施例提供的图片搜索方法的流程示意图,如图1所示,包括以下步骤:

在101中,接收搜索词;

所述搜索词被浏览器封装在搜索请求中发送給搜索引擎,用于请求所述搜索引擎搜索与所述搜索词相关的图片和图集。

在102中,根据所述搜索词从图片数据库和图集数据库中获取搜索结果项;具体的,如图2所示,包括以下子步骤:

在201中,所述图片搜索引擎接收所述搜索词之前,在预先建立的图片倒排索引和图集倒排索引中进行搜索,获得与所述搜索词匹配的索引;

优选的,分别在预先建立的图片倒排索引和图集倒排索引中进行搜索,获得与所述搜索词匹配的索引。

在202中,获得与所述搜索词匹配的索引对应的图片和图集,生成搜索结果项。

优选的,分别建立图片倒排索引和图集倒排索引。

其中,建立图片倒排索引已经非常成熟,不在详细介绍。

进一步地,接收所述搜索词之前,对网络图片进行抓取,建立倒排索引,如图3所示,包括以下子步骤:

在301中,对抓取的图片所在网页的结构化文本字段进行分析,获得所述图片的主题词;所述图片的所在网页的结构化文本字段包括所述网页的网页主题描述字段、图片周边文本字段。

具体地,对所述图片所在网页的网页主题描述字段进行切词处理,将切词处理的结果作为主题词提取的输入。在此提取的主题词除了通常所采用的单词之外,还有能够更准确更多元表达图片语义的复合词,即由两个以上词语搭配构成。

其中提取单词作为主题词时,是将上述图片的文本信息进行切词处理的结果进行停用词过滤,提取出预设词性的词语作为主题词,通常是提取出专有名词作为主题词。

提取两个以上的词语的搭配作为主题词时,是从上述图片的文本信息进行切词处理的结果中提取满足预设搭配词模式的两个以上词语的搭配作为主题词。

在302中,对抓取的图片进行挖掘,生成图集;

根据挖掘方式不同分为网页图集和智能聚合图集,将所得到的各个网页图集、智能聚合图集组合成图集资源集。

所述图集的内容组成上包括图集的主题描述,图片的二进制内容以及图片的描述文本(即图片在网页上的周边文本)。

在本实施例的一种实现方式中,将抓取的图片进行聚合,得到智能聚合图集。

优选的,按照其主题词进行聚合。

优选的,通过例如模式识别技术的各种现有技术的图片对比技术进行聚合。

在本实施例的另一种实现方式中,将同一网页或连续网页按主题编辑好的图片生成网页图集,具体地,包括以下子步骤:

从数据库中随机选取一副图片作为第一图片,搜索与第一图片相似的第二图片。该数据库可存储有预先搜索引擎从网络(例如,互联网)收集或抓取的图片以及图片所在的网页。可从数据库中搜索与第一图片的相似度大于预定阈值的图片,或主题词相同的图片作为第二图片;例如,可以通过例如模式识别技术的各种现有技术的图片对比技术来搜索第二图片。

从图像数据库获取每个第二图像所在的网页。应该理解,由于一个第二图像有可能存在于多个网页中,因此,针对每个第二图像,可获取至少一个网页。

针对每个网页,获取该网页的至少一级深度的链接指向的第三图像。例如,网页的第一级深度的链接表示该网页上的链接,网页的第二级链接表示该网页上的链接指向的网页上的链接,以此类推。

优选地,获取所述网页中的图像作为第三图像。此外,当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第三图像。可通过链接的描述文字(例如,上一页、下一页)等来确定该链接是否表示翻页。

从第三图像之中选择面积(即,分辨率)大于预定阈值的图像作为第四图像。这样,可以滤掉不重要的小图、边角图等。

根据第四图像的网址的构成特征及其主题词,对第四图像进行分组,以获得至少一个网页图集。

通常,成套图像的网址的大部分内容是相同的,仅在于编号的不同(例如,网址的最后一个层次分隔符“/”之前的内容相同,而之后的内容不同,即所述图片位于统一网页或连续网页),因此可以将网址的构成特征相似且主题词相同的第四图像分为一组,作为一个网页图集。

在303中,建立图集倒排索引;

优选的,可以将对各个图集的图片所在网页的网页主题描述文本做切词处理的结果作为图集的主题词;建立图集倒排索引。

优选的,可以将所述抓取的图片中除图集资源集外的图片作为非图集图片。建立所述非图集图片的图片倒排索引。

在103中,对所述搜索结果项进行混合排序。

所述搜索结果项包括所述搜索词匹配的索引对应的图片和图集及其url;对所述搜索结果项进行混合排序即对图片和图集进行混合排序;具体的,如图4所示,包括以下子步骤:

在401中,对图片和图集进行特征提取,包括:图片和图集文本(图片周边文本/图集主题描述)数据、内容数据、质量特征数据、点击特征数据。

在图集和图片的混合排序过程中,优选的,将图集特征与图片特征对齐,如果存在对应的图集特征,使用图集的特征;如果不存在对应的图集特征,则使用该图集首图的特征对齐;根据图片和图集的对齐后的特征对图片和图集进行排序。

在402中,将检索词与待排序的图片和图集的特征数据输入预先训练的排序模型,对待排序图片和图集进行混合排序。

具体的,将检索词与待排序的图片和图集的特征数据输入预先训练的排序模型,得到各待排序图片和图集与所述检索词之间的相关性度量值;基于所述相关性度量值,将各待排序图片和图集进行混合排序。

所述排序模型为深层神经网络,使用训练样本对预先构建的原始深层神经网络进行训练得到。

所述原始深层神经网络包括:表示向量生成网络以及相关计算网络,所述表示向量生成网络用于将所述训练样本中不同类型的数据转换为表示向量并输入至所述相关计算网络,所述相关计算网络用于将输入的表示向量转换为一个相关性度量值;所述训练样本包括检索词与图片和图集特征数据。

在本实施例的一个优选的实施方式中,

所述相关计算网络可以包括:隐藏层集以及与所述隐藏层集的输出端相连的输出层;其中,所述隐藏层集包括一个或者多个首尾相连的隐藏层,所述向量生成网络的表示向量输出端与所述隐藏层集的输入端相连,所述输出层输出所述相关性度量值。

由于图片和图集特征数据包括:图集文本(图片周边文本/图集主题描述)数据、图片内容数据、质量特征数据、点击特征数据。对应的,所述表示向量生成网络中包括有五个表示向量生成单元,分别用于将输入的检索词、图集文本数据、图片内容数据以及图片关联特征数据转换为相对应的表示向量,以进行后续的模型训练工作。

其中,所述表示向量生成单元,根据任务目标的不同可以有很多种实现方式:

图片内容数据的表示向量生成目前使用较广泛的是cnn(convolutionalneuralnetwork,卷积神经网络)分类网络,该网络的输入为尺寸归一化的图片像素矩阵,输出为图片的类别概率分布表示向量,分类表示向量一般是图片在一个图片类别体系(图类别体系一般有千级到万级的类别标签)上的类别概率分布向量a1,a2,…,an。其中,a=(a1,a2,…,an);ai(i=1,2,…,n)是cnn网络给出的图片属于第i个类别的概率,n为类别体系的大小(类别个数)。

由于图集文本数据以及检索词均为文本,因此上述两者的表示向量生成方式相一致,均为文本的表示向量生成。

文本先经过分词,然后每个分词根据预设词典映射为一个one-hot(独热)表征向量。例如:(…,0,…,1,…,0,…),该向量长度为词典的大小,有一个元素为1,其余元素全部为0,元素1所在的位置序号对应于该词在词典中的序号。接下来的处理可以有几种选择,例如bow-dnn(bagofwords-deepneuralnetworks,词袋形式深层神经网络)网络、cnn网络或者rnn(recurrentneuralnetwork,循环神经网络)网络等,本实施例对此并不进行限制。

图片其它特征数据,如质量特征数据和点击特征数据的表示生成网络视这些特征的物理意义而定。如果是类似图片、文本这样的有序格式,也可以使用cnn或rnn网络,如果是无序的集合特征,使用bow-dnn网络即可。

其中,图片的质量特征包括但不限于图片的站点分级,图片的面积分档。图集的质量特征以图集所有图片的质量特征作为输入,输出图集整体的质量特征。包括但不限于图集的平均站点分级,图集的平均面积分档。这里,站点分级,面积分档与质量成正比。

图集的点击特征以图集封面的点击特征为基准,并根据图集的浏览完成度调整,浏览完成度高的图集获得“奖励”,完成度低的图集被“惩罚”。

使用训练样本对预先构建的原始深层神经网络进行训练包括:

选取设定数量的训练样本;

所述训练样本具体包括:由训练搜索词,以及与所述训练搜索词分别对应的正样本图片和图集以及负样本图片和图集构成的正负训练对;

依次获取一个训练样本输入至所述原始深层神经网络中,并根据所述原始深层神经网络基于所述训练样本的输出结果,对所述原始深层神经网络中的加权参数进行调整;具体包括:

将所述训练搜索词以及与所述正样本图片和图集对应的数据输入至与所述原始深层神经网络结构相同的第一网络中,并获取所述第一网络输出的第一预测值;

将所述训练搜索词以及与所述负样本图片和图集对应的数据输入至与所述第一网络结构相同的第二网络中,并获取第二网络输出的第二预测值;

根据所述第一预测值、所述第二预测值以及所述正样本图片和图集与所述负样本图片和图集之间的相关性偏序,计算损失函数;

采取设定权值更新算法,沿着最小化损失函数的方向,反向逐层更新所述第一网络以及所述第二网络中各层的加权参数。

判断是否达到预先设定的训练结束条件:若是,将训练完成的所述原始深层神经网络作为所述排序模型;否则,返回执行依次获取一个训练样本输入至所述原始深层神经网络中,并根据所述原始深层神经网络基于所述训练样本的输出结果,对所述原始深层神经网络中的加权参数进行调整,直至达到预先设定的训练结束条件。

在本实施例中,可以根据实际需求设定训练结束条件,例如,训练的回合数(例如,1000次,或者2000次等)或者神经网络对训练样本的总误差值等,本实施例对此并不进行限制。

在104中,展示所述排序后的搜索结果项。具体的,

将图片和图集的缩略图混排,按混合排序顺序展示在搜索结果页面上。

优选的,图集采用层叠的方式,展现该类图片中最主要的、最有代表性的一张或数张图片。采用这一层叠展现方式目的在于既体现出该类主要图片的内容,又节省网页展示的空间,还能给人模仿现实中放置图片方式的美感。

当在搜索结果页面上选择所述图集时,如当鼠标或者其他动态输入设备移动到其中一个所述图集的区域上时,这个图集将被认为是希望被用户了解的图集,所以应该展现更为详细的情况。将所述光标所在区域上的所述图集表现为准激活状态,即该图集所占的区域位置明显大于其他类别,同时该类别所包含的图片层叠方式发生缓慢的变化,比如以动画的方式使得上层的图片缓慢移动到下层,下层的图片按层叠的顺序移动到顶层,让用户有机会观看到以前由于空间限制被遮挡的图片。

优选的,图集采用采用在缩略图上标注数字的形式,来表示所述图集中的图片数目。

采用上述实施例提供的技术方案,能够避免现有技术中没有使用搜索引擎技术对图集做建库和检索排序,必须预先针对高频搜索挖掘图集资源,可扩展性和时效性都较差;没有引入图集维度的特征参与排序,不能有效控制图集的相关性和质量;没有引入点击特征形成负反馈机制,低质图集不能在系统内自然沉降的问题。能够降低用户在搜索结果中选图的成本,同时满足用户对成套图片的需求。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在所述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

图5为本申请一实施例提供的图片搜索装置的流程示意图,如图5所示,包括以下模块:

接收模块51,用于接收搜索词;

所述搜索词被浏览器封装在搜索请求中发送給搜索引擎,用于请求所述搜索引擎搜索与所述搜索词相关的图片/图片集。

搜索模块52,用于根据所述搜索词从数据库中获取搜索结果项;具体的,如图6所示,包括以下子模块:

索引获取子模块61,用于在所述图片搜索引擎接收所述搜索词之前,在预先建立的图片倒排索引和图集倒排索引中进行搜索,获得与所述搜索词匹配的索引;

优选的,分别在预先建立的图片倒排索引和图集倒排索引中进行搜索,获得与所述搜索词匹配的索引。

搜索结果项生成子模块62,用于获得与所述搜索词匹配的索引对应的图片和图集,生成搜索结果项。

优选的,分别建立图片倒排索引和图集倒排索引。其中,建立图片倒排索引已经非常成熟,不在详细介绍。

进一步地,所述搜索模块还包括所述图片倒排索引和图集倒排索引建立子模块63,用于在接收所述搜索词之前,对网络图片进行抓取,建立图片倒排索引和图集倒排索引,如图7所示,具体包括:

文本信息获取子模块71,用于对抓取的图片所在网页的结构化文本字段进行分析,获得所述图片的文本信息;所述图片所在网页的结构化字段包括所述网页的网页主题描述字段、图片周边文本字段和图片二进制内容字段。

具体地,对所述图片所在网页的网页主题描述字段进行切词处理,将切词处理的结果作为主题词提取的输入。在此提取的主题词除了通常所采用的单词之外,还有能够更准确更多元表达图片语义的复合词,即由两个以上词语搭配构成。

其中提取单词作为主题词时,是将上述图片的文本信息进行切词处理的结果进行停用词过滤,提取出预设词性的词语作为主题词,通常是提取出专有名词作为主题词。

提取两个以上的词语的搭配作为主题词时,是从上述图片的文本信息进行切词处理的结果中提取满足预设搭配词模式的两个以上词语的搭配作为主题词。

图集生成子模块72,用于对抓取的图片进行挖掘,生成图集;根据挖掘方式不同分为网页图集和智能聚合图集。将所得到的各个网页图集、智能聚合图集组合成图集资源集。

所述图集的内容组成上包括图集的主题描述,图片的二进制内容以及图片的描述文本(即图片在网页上的周边文本)。

在本实施例的一种实现方式中,将抓取的图片进行聚合,得到智能聚合图集。优选的,按照其主题词进行聚合。优选的,通过例如模式识别技术的各种现有技术的图片对比技术进行聚合。

在本实施例的另一种实现方式中,将同一网页或连续网页按主题编辑好的图片生成网页图集;具体的;

从数据库中随机选取一副图片作为第一图片,搜索与第一图片相似的第二图片,将第一图片与第二图片组成智能聚合图集。该数据库可存储有预先搜索引擎从网络(例如,互联网)收集或抓取的图片以及图片所在的网页。可从数据库中搜索与第一图片的相似度大于预定阈值的图片作为第二图片,例如,可以通过例如模式识别技术的各种现有技术的图片对比技术来搜索第二图片。

从图像数据库获取每个第二图像所在的网页。应该理解,由于一个第二图像有可能存在于多个网页中,因此,针对每个第二图像,可获取至少一个网页。

针对每个网页,获取该网页的至少一级深度的链接指向的第三图像。例如,网页的第一级深度的链接表示该网页上的链接,网页的第二级链接表示该网页上的链接指向的网页上的链接,以此类推。

优选地,获取所述网页中的图像作为第三图像。此外,当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第三图像。可通过链接的描述文字(例如,上一页、下一页)等来确定该链接是否表示翻页。

从第三图像之中选择面积(即,分辨率)大于预定阈值的图像作为第四图像。这样,可以滤掉不重要的小图、边角图等。

根据第四图像的网址的构成特征,对第四图像进行分组,以获得至少一个网页图集。

通常,成套图像的网址的大部分内容是相同的,仅在于编号的不同(例如,网址的最后一个层次分隔符“/”之前的内容相同,而之后的内容不同,即所述图片位于统一网页或连续网页),因此可以将网址的构成特征相似的第四图像分为一组,作为一个网页图集。

图集倒排索引建立子模块73,用于建立图集倒排索引;

优选的,可以将对各个图集的图片所在网页的网页主题描述文本做切词处理的结果作为图集的主题词;建立图集倒排索引。

排序模块53,用于对所述搜索结果项进行混合排序,所述搜索结果项包括所述搜索词匹配的索引对应的图片和图集及其url;对所述搜索结果项进行混合排序即对图片和图集进行混合排序;如图8所示,包括以下子模块:

特征提取子模块81,用于进行图集维度的特征提取,所述图片和图集数据可以包括:图集文本(图片周边文本/图集主题描述)数据、图片内容数据、质量特征数据、点击特征数据。

在图集和图片的混合排序过程中,优选的,将图集特征与图片特征对齐,如果存在对应的图集特征,使用图集的特征;如果不存在对应的图集特征,则使用该图集首图的特征对齐;根据图片和图集的对齐后的特征对图片和图集进行排序。

混合排序子模块82,用于将检索词与待排序的图片和图集的特征数据输入预先训练的排序模型,对各待排序图片和图集进行混合排序。

具体的,用于将检索词与待排序的图片和图集的特征数据输入预先训练的排序模型,可以得到各待排序图片和图集与所述检索词之间的相关性度量值;基于所述相关性度量值,将各待排序图片和图集进行混合排序。

所述排序模型为深层神经网络,使用训练样本对预先构建的原始深层神经网络进行训练得到。

所述原始深层神经网络包括:表示向量生成网络以及相关计算网络,所述表示向量生成网络用于将所述训练样本中不同类型的数据转换为表示向量并输入至所述相关计算网络,所述相关计算网络用于将输入的表示向量转换为一个相关性度量值;所述训练样本包括检索词与图片和图集特征数据。

在本实施例的一个优选的实施方式中,

所述相关计算网络可以包括:隐藏层集以及与所述隐藏层集的输出端相连的输出层;其中,所述隐藏层集包括一个或者多个首尾相连的隐藏层,所述向量生成网络的表示向量输出端与所述隐藏层集的输入端相连,所述输出层输出所述相关性度量值。

由于图片和图集特征数据包括:图集文本(图片周边文本/图集主题描述)数据、图片内容数据、质量特征数据、点击特征数据。对应的,所述表示向量生成网络中包括有五个表示向量生成单元,分别用于将输入的检索词、图集文本数据、图片内容数据以及图片关联特征数据转换为相对应的表示向量,以进行后续的模型训练工作。

其中,所述表示向量生成单元,根据任务目标的不同可以有很多种实现方式:

图片内容数据的表示向量生成目前使用较广泛的是cnn(convolutionalneuralnetwork,卷积神经网络)分类网络,该网络的输入为尺寸归一化的图片像素矩阵,输出为图片的类别概率分布表示向量,分类表示向量一般是图片在一个图片类别体系(图类别体系一般有千级到万级的类别标签)上的类别概率分布向量a1,a2,…,an。其中,a=(a1,a2,…,an);ai(i=1,2,…,n)是cnn网络给出的图片属于第i个类别的概率,n为类别体系的大小(类别个数)。

由于图集文本数据以及检索词均为文本,因此上述两者的表示向量生成方式相一致,均为文本的表示向量生成。

文本先经过分词,然后每个分词根据预设词典映射为一个one-hot(独热)表征向量。例如:(…,0,…,1,…,0,…),该向量长度为词典的大小,有一个元素为1,其余元素全部为0,元素1所在的位置序号对应于该词在词典中的序号。接下来的处理可以有几种选择,例如bow-dnn(bagofwords-deepneuralnetworks,词袋形式深层神经网络)网络、cnn网络或者rnn(recurrentneuralnetwork,循环神经网络)网络等,本实施例对此并不进行限制。

图片其它特征数据,如质量特征数据和点击特征数据的表示生成网络视这些特征的物理意义而定。如果是类似图片、文本这样的有序格式,也可以使用cnn或rnn网络,如果是无序的集合特征,使用bow-dnn网络即可。

其中,图片的质量特征包括但不限于图片的站点分级,图片的面积分档。图集的质量特征以图集所有图片的质量特征作为输入,输出图集整体的质量特征。包括但不限于图集的平均站点分级,图集的平均面积分档。这里,站点分级,面积分档与质量成正比。

图集的点击特征以图集封面的点击特征为基准,并根据图集的浏览完成度调整,浏览完成度高的图集获得“奖励”,完成度低的图集被“惩罚”。

使用训练样本对预先构建的原始深层神经网络进行训练包括:

选取设定数量的训练样本;所述训练样本具体包括:由训练搜索词,以及与所述训练搜索词分别对应的正样本图片和图集以及负样本图片和图集构成的正负训练对;

依次获取一个训练样本输入至所述原始深层神经网络中,并根据所述原始深层神经网络基于所述训练样本的输出结果,对所述原始深层神经网络中的加权参数进行调整;具体包括:

将所述训练搜索词以及与所述正样本图片和图集对应的数据输入至与所述原始深层神经网络结构相同的第一网络中,并获取所述第一网络输出的第一预测值;

将所述训练搜索词以及与所述负样本图片和图集对应的数据输入至与所述第一网络结构相同的第二网络中,并获取第二网络输出的第二预测值;

根据所述第一预测值、所述第二预测值以及所述正样本图片和图集与所述负样本图片和图集之间的相关性偏序,计算损失函数;

采取设定权值更新算法,沿着最小化损失函数的方向,反向逐层更新所述第一网络以及所述第二网络中各层的加权参数。

判断是否达到预先设定的训练结束条件:若是,将训练完成的所述原始深层神经网络作为所述排序模型;否则,返回执行依次获取一个训练样本输入至所述原始深层神经网络中,并根据所述原始深层神经网络基于所述训练样本的输出结果,对所述原始深层神经网络中的加权参数进行调整,直至达到预先设定的训练结束条件。

在本实施例中,可以根据实际需求设定训练结束条件,例如,训练的回合数(例如,1000次,或者2000次等)或者神经网络对训练样本的总误差值等,本实施例对此并不进行限制。

展示模块54,用于展示所述排序后的搜索结果项;具体地,

将图集和图片的缩略图混排,按混合排序顺序展示在搜索结果页面上。

优选的,图集采用层叠的方式,展现该类图片中最主要的、最有代表性的一张或数张图片。采用这一层叠展现方式目的在于既体现出该类主要图片的内容,又节省网页展示的空间,还能给人模仿现实中放置图片方式的美感。

当在搜索结果页面上选择所述图集时,如当鼠标或者其他动态输入设备移动到其中一个所述图集的区域上时,这个图集将被认为是希望被用户了解的图集,所以应该展现更为详细的情况。将所述光标所在区域上的所述图集表现为准激活状态,即该图集所占的区域位置明显大于其他类别,同时该类别所包含的图片层叠方式发生缓慢的变化,比如以动画的方式使得上层的图片缓慢移动到下层,下层的图片按层叠的顺序移动到顶层,让用户有机会观看到以前由于空间限制被遮挡的图片。

优选的,图集采用采用在缩略图上标注数字的形式,来表示所述图集中的图片数目。

采用上述实施例提供的技术方案,能够避免现有技术中没有使用搜索引擎技术对图集做建库和检索排序,必须预先针对高频搜索挖掘图集资源,可扩展性和时效性都较差;没有引入图集维度的特征参与排序,不能有效控制图集的相关性和质量;没有引入点击特征形成负反馈机制,低质图集不能在系统内自然沉降的问题。能够降低用户在搜索结果中选图的成本,同时满足用户对成套图片的需求。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的终端和服务器的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图9显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1