基于物品间相似度的物品处理方法、系统和装置制造方法

文档序号:6544297阅读:123来源:国知局
基于物品间相似度的物品处理方法、系统和装置制造方法
【专利摘要】本发明公开了一种基于物品间相似度的物品处理方法、系统和装置,所述方法包括:根据物品处理指令所涉及的物品的名称,查找物品间相似度列表中以该物品的名称为索引的相似度记录,根据查找到的相似度记录进行物品处理;其中,物品间相似度列表的更新包括:对于新增物品,从以特征为索引的特征列表中查找出与新增物品的特征相同的特征后,确定查找出的特征所对应的原有物品的名称;在物品间相似度列表中、以原有物品的名称为索引的相似度记录中,存储原有物品与新增物品间的相似度;在物品间相似度列表中创建以新增物品的名称为索引的相似度记录,存储新增物品与原有物品间的相似度;从而加快相似度更新和物品处理的速度。
【专利说明】基于物品间相似度的物品处理方法、系统和装置
【技术领域】
[0001]本发明涉及计算机领域,尤其涉及一种基于物品间相似度的物品处理方法、系统和装置。
【背景技术】
[0002]随着互联网技术迅猛发展,网上信息爆炸式增长,基于特征向量的相似度计算已广泛应用于多个领域。例如,在物品推荐系统中,可将待推荐物品等以特征向量的方式表示,通过计算各待推荐物品的特征向量之间的相似度,建立相似度数据模型;这样,物品推荐系统可根据用户的需求、兴趣等,将用户感兴趣的物品推荐给用户,从而避免信息超载给用户带来的不便。再如,在垃圾邮件过滤系统中,将电子邮件的邮件数据以特征向量表示,通过计算各电子邮件的特征向量之间的相似度,对电子邮件进行分类,以便于垃圾邮件过滤规则的挖掘。为便于描述,在本文中将物品推荐系统中的待推荐物品、垃圾邮件过滤系统中的电子邮件等统称为物品。
[0003]在实际应用中,随着物品推荐系统、垃圾邮件过滤系统的不断运行,这些系统中的物品的数量将越来越多。现有技术中当有新增物品时,提取新增物品的特征,进而得到新增物品的特征向量后,分别计算新增物品的特征向量与之前的所有原有物品的特征向量之间的相似度,从而得到当前的全部物品的特征向量间的相似度;从而物品推荐系统可基于得到的物品间相似度进行物品推荐,垃圾邮件过滤系统也可基于得到的物品间相似度进行电子邮件(物品)分类。其中,物品的特征向量间的相似度即表示物品间的相似度。然而,这种方式的计算量较大,每当有新增物品时,需要计算新增物品的特征向量与之前的所有原有物品的特征向量之间的相似度,在原有物品较多的情况下,这种方式的计算量将非常大,占用的计算资源较多,导致相似度更新速度较慢。而且,现有技术中基于物品间相似度进行物品推荐或分类时占用时间较长,使得用户体验较差。

【发明内容】

[0004]针对上述现有技术存在的缺陷,本发明提供了一种基于物品间相似度的物品处理方法、系统和装置,用以加快相似度更新速度,并加快物品处理速度。
[0005]本发明实施例提供了 一种基于物品间相似度的物品处理方法,包括:
[0006]在接收到物品处理指令后,根据所述物品处理指令所涉及的物品的名称,查找物品间相似度列表中以该物品的名称为索引的相似度记录,并根据查找到的相似度记录中所涉及的物品进行物品处理;其中,所述物品间相似度列表是以如下方法进行更新的:
[0007]对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量;
[0008]从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称;
[0009]对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并
[0010]在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度。
[0011]较佳地,在所述确定所述新增物品的特征向量后,还包括:
[0012]对于所述新增物品的每个特征,将该特征与所述特征列表中存储的特征进行比对,若该特征不存在于所述特征列表中,则在所述特征列表中创建以该特征为索引的特征记录后,在该特征记录中存储所述新增物品的名称;以及
[0013]所述从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,还包括:
[0014]对于查找出的每个特征,在以该特征为索引的特征记录中存储所述新增物品的名称。
[0015]其中,所述物品间相似度列表和所述特征列表是预先创建的:
[0016]对于预先得到的若干原有物品中的每个原有物品,提取该原有物品的特征后,确定出该原有物品的特征向量;
[0017]将各原有物品的特征组成特征集合后,创建所述特征列表;并
[0018]对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中;
[0019]对于所述特征列表中记录的每个特征,将以该特征为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对原有物品的特征向量间的相似度;
[0020]创建所述物品间相似度列表后,对于每个原有物品,在所述物品间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。
[0021]较佳地,所述物品处理指令具体为物品推荐指令;以及所述根据查找到的相似度记录进行物品处理,具体为:根据查找到的相似度记录中所涉及的物品进行物品推荐。
[0022]较佳地,在所述创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度后,还包括:
[0023]根据所述新增物品所对应的相似度记录中所涉及的各物品的类别属性,确定出所述新增物品的类别属性后,在该相似度记录中进行存储;
[0024]或者,所述物品处理指令具体为物品类别请求指令;以及所述根据查找到的相似度记录进行物品处理,具体为:根据查找到的相似度记录中存储的、该物品类别请求指令所涉及的物品的类别属性,进行所述物品类别请求的响应。
[0025]本发明实施例还提供了一种物品间相似度的更新方法,包括:
[0026]对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量;
[0027]从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称后,对以物品的名称为索引的物品间相似度列表进行更新:
[0028]对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并
[0029]在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度。
[0030]本发明实施例还提供了 一种基于物品间相似度的物品处理系统,包括:
[0031]特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量;
[0032]特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称;
[0033]物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进行更新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度;
[0034]指令处理模块,用于在接收到物品处理指令后,根据所述物品处理指令所涉及的物品的名称,查找所述物品间相似度列表中以该物品的名称为索引的相似度记录,并根据查找到的相似度记录中所涉及的物品进行物品处理。
[0035]进一步,所述基于物品间相似度的物品处理系统,还包括:
[0036]特征列表更新模块,用于对于所述新增物品的每个特征,将该特征与所述特征列表中存储的特征进行比对,若该特征不存在于所述特征列表中,则在所述特征列表中创建以该特征为索引的特征记录后,在该特征记录中存储所述新增物品的名称;若该特征存在于所述特征列表中,则在以该特征为索引的特征记录中存储所述新增物品的名称。
[0037]进一步,所述基于物品间相似度的物品处理系统,还包括:
[0038]特征列表确定模块,用于对于预先得到的若干原有物品中的每个原有物品,提取该原有物品的特征后,确定出该原有物品的特征向量;将各原有物品的特征组成特征集合后,创建所述特征列表;并对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中;
[0039]物品间相似度列表确定模块,用于对于所述特征列表中记录的每个特征,将以该特征为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对原有物品的特征向量间的相似度;并在创建所述物品间相似度列表后,对于每个原有物品,在所述物品间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。
[0040]本发明实施例还提供了一种物品间相似度的更新装置,包括:
[0041]特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量;
[0042]特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称;
[0043]物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进行更新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度。
[0044]本发明的技术方案中,由于有新增物品时,仅计算新增物品与那些与其具有至少一个共同特征的原有物品间的相似度,便可完成物品间相似度列表的更新,从而尽量避免了冗余计算,减少了计算量、节省了计算资源;对于原有物品的数量较多的情况,减少计算量、节省计算资源的效果尤为明显。而且,基于以物品的名称为索引的相似度记录,可较快地查找到与某个物品具有较大相似度的物品,有助于加快物品处理(如物品推荐或物品分类)的速度。
【专利附图】

【附图说明】
[0045]图1为本发明实施例的得到物品间相似度列表的方法的流程图;
[0046]图2为本发明实施例的物品间相似度的更新方法的流程图;
[0047]图3为本发明实施例的基于物品间相似度的物品处理系统的内部结构框图。
【具体实施方式】
[0048]以下将结合附图对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
[0049]本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
[0050]本发明的发明人发现,当有新增物品时,提取出的新增物品的特征可能仅有几个,这样确定新增物品与各原有物品间的相似度时,计算那些与新增物品具有至少一个共同特征的原有物品与新增物品之间的相似度,对于物品间相似度的确定才有意义,而其它与新增物品没有共同特征的原有物品与新增物品之间的相似度为零,对于物品间相似度的确定并无实际意义,为冗余计算。其中,若一个物品具有某个特征,则该物品的特征向量中该特征相对应的元素值不为零;若该物品不具有某个特征,则该物品的特征向量中该特征相对应的元素值为零。
[0051]基于上述的分析,本发明的技术方案中,将物品间的相似度以物品的名称为索引记录到物品间相似度列表中,即对于每个物品,在物品间相似度列表中创建以该物品的名称为索引的相似度记录,并将其它物品与该物品间的相似度记录到其中。并且,通过以特征为索引的特征列表对具有某个特征的物品的名称进行记录。这样,若有新增物品,则可基于以特征为索引的特征列表,确定出与新增物品具有至少一个共同特征的原有物品,并计算新增物品与确定出的这些原有物品间的相似度后对物品间相似度列表进行更新。由于有新增物品时,仅计算新增物品与那些与其具有至少一个共同特征的原有物品间的相似度,便可完成物品间相似度列表的更新,从而尽量避免了冗余计算,减少了计算量、节省了计算资源;对于原有物品的数量较多的情况,减少计算量、节省计算资源的效果尤为明显。而且,基于以物品的名称为索引的相似度记录,可较快地查找到与某个物品具有较大相似度的物品,有助于加快物品处理速度。
[0052]下面结合附图详细说明本发明的技术方案。本发明实施例中当物品推荐系统或者垃圾邮件过滤系统中有新增物品而需要进行物品间相似度的更新之前,可计算出各原有物品的特征向量间的相似度,记录于以物品的名称为索引的相似度记录中,从而得到物品间相似度列表。具体地,得到记录有原有物品间的相似度的物品间相似度列表的方法的流程,如图1所示,包括如下步骤:
[0053]SlOl:对于每个原有物品,提取该原有物品的特征后,确定出该原有物品的特征向量。
[0054]具体地,对于每个原有物品,可根据现有的特征提取方法提取该原有物品的特征,并分别计算各特征对该原有物品的权重值,进而得到该原有物品的特征向量。例如,原有物品为b,提取出的原有物品b的特征为A、B,特征A、B对原有物品b的权重值分别为Ab、Bb,则可将原有物品b的特征向量以析出方式表示为{〈A,Ab>,〈B,Bb>},也就是记录原有物品b的特征向量中不为零的元素及相应的特征,这种以析出方式记录特征向量的方式可节省存储空间。
[0055]S102:建立原有物品的特征的倒排索引,得到以特征为索引的特征列表。
[0056]具体地,建立原有物品的特征的倒排索引,也就是将各原有物品的特征组成特征集合后,创建以特征为索引的特征列表,并对于特征集合中的每个特征,在特征列表中创建一条以该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中。这样,各条特征记录组成了以特征为索引的特征列表。
[0057]例如,原有物品a、b、C、d的特征向量分别以析出方式表示为{〈A, Aa>}、{<A, Ab>,〈B,Bb>}、?B, Be〉,<C, Ce〉}、?B, Bd>},则得到的以特征为索引的特征列表可如下表1所示。A、B、C表示原有物品a、b、C、d的特征。
[0058]表1
[0059]
【权利要求】
1.一种基于物品间相似度的物品处理方法,其特征在于,包括: 在接收到物品处理指令后,根据所述物品处理指令所涉及的物品的名称,查找物品间相似度列表中以该物品的名称为索引的相似度记录,并根据查找到的相似度记录进行物品处理;其中,所述物品间相似度列表是以如下方法进行更新的: 对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量; 从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称; 对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并 在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度。
2.如权利要求1所述的方法,其特征在于,在所述确定所述新增物品的特征向量后,还包括: 对于所述新增物品的每个特征,将该特征与所述特征列表中存储的特征进行比对,若该特征不存在于所述特征列表中,则在所述特征列表中创建以该特征为索引的特征记录后,在该特征记录中存 储所述新增物品的名称;以及 所述从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,还包括: 对于查找出的每个特征,在以该特征为索引的特征记录中存储所述新增物品的名称。
3.如权利要求2所述的方法,其特征在于,所述物品间相似度列表和所述特征列表是预先创建的: 对于预先得到的若干原有物品中的每个原有物品,提取该原有物品的特征后,确定出该原有物品的特征向量; 将各原有物品的特征组成特征集合后,创建所述特征列表;并对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中; 对于所述特征列表中记录的每个特征,将以该特征为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对原有物品的特征向量间的相似度; 创建所述物品间相似度列表后,对于每个原有物品,在所述物品间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。
4.如权利要求1-3任一所述的方法,其特征在于,所述物品处理指令具体为物品推荐指令;以及所述根据查找到的相似度记录进行物品处理,具体为:根据查找到的相似度记录中所涉及的物品进行物品推荐。
5.如权利要求1-3任一所述的方法,其特征在于, 在所述创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度后,还包括:根据所述新增物品所对应的相似度记录中所涉及的各物品的类别属性,确定出所述新增物品的类别属性后,在该相似度记录中进行存储;以及 所述物品处理指令具体为物品类别请求指令;以及所述根据查找到的相似度记录进行物品处理,具体为:根据查找到的相似度记录中存储的、该物品类别请求指令所涉及的物品的类别属性,进行所述物品类别请求的响应。
6.一种物品间相似度的更新方法,其特征在于,包括: 对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量; 从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从中确定查找出的特征所对应的原有物品的名称后,对以物品的名称为索引的物品间相似度列表进行更新: 对于确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并 在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,并在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度。
7.一种基于物品间相似度的物品处理系统,其特征在于,包括: 特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量; 特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称; 物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进行更新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度; 指令处理模块,用于在接收到物品处理指令后,根据所述物品处理指令所涉及的物品的名称,查找所述物品间相似度列表中以该物品的名称为索引的相似度记录,并根据查找到的相似度记录中所涉及的物品进行物品处理。
8.如权利要求7所述的系统,其特征在于,还包括: 特征列表更新模块,用于对于所述新增物品的每个特征,将该特征与所述特征列表中存储的特征进行比对,若该特征不存在于所述特征列表中,则在所述特征列表中创建以该特征为索引的特征记录后,在该特征记录中存储所述新增物品的名称;若该特征存在于所述特征列表中,则在以该特征为索引的特征记录中存储所述新增物品的名称。
9.如权利要求8所述的系统,其特征在于,还包括: 特征列表确定模块,用于对于预先得到的若干原有物品中的每个原有物品,提取该原有物品的特征后,确定出该原有物品的特征向量;将各原有物品的特征组成特征集合后,创建所述特征列表;并对于所述特征集合中的每个特征,在所述特征列表中创建一条以该特征为索引的特征记录,将具有该特征的原有物品的名称存储到该特征记录中; 物品间相似度列表确定模块,用于对于所述特征列表中记录的每个特征,将以该特征为索引的特征记录中所涉及的任意两个原有物品确定为一对原有物品对,计算出该对原有物品的特征向量间的相似度;并在创建所述物品间相似度列表后,对于每个原有物品,在所述物品间相似度列表中创建以该原有物品的名称为索引的相似度记录,并在该相似度记录中存储计算出的该原有物品的特征向量与其它原有物品的特征向量间的相似度。
10.一种物品间相似度的更新装置,其特征在于,包括: 特征向量确定模块,用于对于新增物品,在提取其特征后,根据提取的特征确定所述新增物品的特征向量; 特征列表查找模块,用于从以特征为索引的特征列表中查找出与所述新增物品的特征相同的特征后,进一步从所述特征列表中确定查找出的特征所对应的原有物品的名称; 物品间相似度列表更新模块,用于对以物品的名称为索引的物品间相似度列表进行更新:对于所述特征列表查找模块确定出的每个原有物品的名称,在所述物品间相似度列表中的、以该原有物品的名称为索引的相似度记录中,存储该原有物品的特征向量与所述新增物品的特征向量间的相似度;并在所述物品间相似度列表中,创建以所述新增物品的名称为索引的一条相似度记录,在该相似度记录中存储所述新增物品的特征向量与各确定出的原有物品的特征向量间的相似度。
【文档编号】G06F17/30GK103995831SQ201410158957
【公开日】2014年8月20日 申请日期:2014年4月18日 优先权日:2014年4月18日
【发明者】刘洋 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1