一种产品聚类方法及装置的制造方法

文档序号:9579256阅读:571来源:国知局
一种产品聚类方法及装置的制造方法
【技术领域】
[0001 ] 本申请涉及电子商务技术,特别涉及一种产品聚类方法及装置。
【背景技术】
[0002] 随着电子商务技术的发展,电子商务网站中展示的产品数目日亦庞大,并且产品 与产品之间的相似度计算复杂度很高。通常情况下,电子商务网站拥有数亿的用户,用户的 行为也是非常丰富的。但是由于产品的数据量巨大,用户对产品的操作行为(如,点击、购 买、收藏等)则显得非常稀疏。由于用户到产品的数据的稀疏性,在计算用户偏好以及计算 用户相似性等等参量时,往往覆盖率不高,而且也影响准确性。
[0003] 针对上述问题,现有技术下,通常会将足够相似的产品聚合成一个簇,再把簇内产 品涉及的所有用户行为聚合起来,以增加数据的稠密性,然后在稠密数据的基础上进行用 户偏好及用户相似性的挖掘,从而得到较高的覆盖率和准确率;进一步地,也可以基于获得 的挖掘结果向用户推荐其他相关产品。
[0004] 现有技术下划分簇的算法较多,比较常用的是谱聚类的算法。采用谱聚类算法时, 首先需要设定一个聚类的个数K,从而将产品与产品之间的相似性降维成κ(即是针对海量 产品设置了目标类数),然后再利用k-means将降维后的产品进行聚类。
[0005] 采用谱聚类算法的缺点如下:
[0006] 首先,必须要设置聚类的个数K。然而,在给定一个数据集合后,用户很难判断K的 取值需要设置为多大才合适。
[0007] 其次,需要对产品进行降维处理,一般降成K维。然而,电子商务网站中存在着海 量的产品,要通过降维处理聚类为几百万的簇,其计算的时间复杂度和空间复杂度会给系 统带来严重的运行负荷。

【发明内容】

[0008] 本申请实施例提供一种产品聚类方法及装置,用以解决现有技术中存在的为了实 现海量产品的准确聚类,从而增加系统运行负荷的问题。
[0009] 本申请实施例提供的具体技术方案如下:
[0010] 提供一种产品聚类方法,包括:
[0011] 根据用户的操作行为计算各个产品之间的相似度;
[0012] 基于各个产品之间的相似度筛选出相似度符合预设条件的产品;
[0013] 基于预设原则在筛选出的各个产品中进一步确定簇中心产品,其中,所述预设原 则包括:与簇中心产品之间存在链接的产品的数目达到预设门限值,以及,不同簇中心产品 之间不存在链接;
[0014] 对于一个非簇中心产品,从各簇中心产品中,确定与该非簇中心产品具有最高相 似度的簇中心产品,并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中 心产品归为一簇。
[0015] 较佳的,基于各个产品之间的相似度筛选出相似度符合预设条件的产品,包括:
[0016] 根据计算获得的各个产品之间的相似度,分别针对每一个产品保存相似度最高的 K个产品,并在每一个产品与对应其保存的相似的每一个产品之间建立链接;
[0017] 删除单向相似的产品之间的链接,只保留双向相似的产品之间的链接。
[0018] 较佳的,在保留双向相似的广品之间的链接之后,进一步包括:
[0019] 分别计算并判断每一条链接两端的两个产品的相似产品的重合程度是否达到预 设的重合度阈值,若是,则保留相应的链接,否则,删除相应的链接。
[0020] 较佳的,基于预设原则在筛选出的各个产品中进一步确定簇中心产品,包括:
[0021 ] 根据各个产品之间的链接,分别确定每一个产品的度数,其中,一产品的度数为与 所述一产品之间存在链接的其他产品的数目;
[0022] 筛选出度数大于预设的第一度数阈值的所有产品作为待选簇中心产品;
[0023] 将各个待选簇中心产品按照度数从大到小的顺序进行排序;
[0024] 按照排序顺序遍历每个待选簇中心产品,每当确定与某一待选簇中心产品之间存 在链接的其他广品均为非待选族中心广品时,将所述某一待选族中心广品确定为族中心广 品。
[0025] 较佳的,对于一个非簇中心产品,从各簇中心产品中,确定与该非簇中心产品具有 最高相似度的簇中心产品,并将该非簇中心产品和所述与该非簇中心产品具有最高相似度 的簇中心产品归为一簇,包括:
[0026] 确定一非簇中心产品的度数,并判断所述非簇中心产品的度数是否大于预设的第 二度数阈值,其中,所述第二度数阈值小于所述第一度数阈值;
[0027] 若所述非簇中心产品的度数大于预设的第二度数阈值,则获取所有与所述非簇中 心产品之间存在链接的簇中心产品,并将与所述非簇中心产品之间存在链接数目最多的簇 中心产品与所述非簇中心产品归为一簇;
[0028] 若所述非簇中心产品的度数不大于预设的第二度数阈值,则确定与所述非簇中心 产品之间存在链接的所有其他产品,并分别确定所述其他产品各自对应的簇中心产品,以 及将与所述其他产品之间存在链接最多的簇中心产品与所述非簇中心产品归为一簇。
[0029] 提供一种产品聚类装置,包括:
[0030] 计算单元,根据用户的操作行为计算各个产品之间的相似度;
[0031] 第一处理单元,用于基于各个产品之间的相似度筛选出相似度符合预设条件的产 品;
[0032] 第二处理单元,用于基于预设原则在筛选出的各个产品中进一步确定簇中心产 品,其中,所述预设原则包括:与簇中心产品之间存在链接的产品的数目达到预设门限值, 以及,不同簇中心产品之间不存在链接;
[0033] 聚类单元,用于对于一个非簇中心产品,从各簇中心产品中,确定与该非簇中心产 品具有最高相似度的簇中心产品,并将该非簇中心产品和所述与该非簇中心产品具有最高 相似度的簇中心产品归为一簇。
[0034]较佳的,在基于各个产品之间的相似度筛选出相似度符合预设条件的产品时,所 述第一处理单元具体用于:
[0035] 根据计算获得的各个产品之间的相似度,分别针对每一个产品保存相似度最高的 K个产品,并在每一个产品与对应其保存的相似的每一个产品之间建立链接;
[0036] 删除单向相似的产品之间的链接,只保留双向相似的产品之间的链接。
[0037] 较佳的,在保留双向相似的产品之间的链接之后,所述第一处理单元进一步用 于:
[0038] 分别计算并判断每一条链接两端的两个产品的相似产品的重合程度是否达到预 设的重合度阈值,若是,则保留相应的链接,否则,删除相应的链接。
[0039] 较佳的,在基于预设原则在筛选出的各个产品中进一步确定簇中心产品时,所述 第二处理单元具体用于:
[0040] 根据各个产品之间的链接,分别确定每一个产品的度数,其中,一产品的度数为与 所述一产品之间存在链接的其他产品的数目;
[0041] 筛选出度数大于预设的第一度数阈值的所有产品作为待选簇中心产品;
[0042] 将各个待选簇中心产品按照度数从大到小的顺序进行排序;
[0043] 按照排序顺序遍历每个待选簇中心产品,每当确定与某一待选簇中心产品之间存 在链接的其他广品均为非待选族中心广品时,将所述某一待选族中心广品确定为族中心广 品。
[0044] 较佳的,在对于一个非簇中心产品,从各簇中心产品中,确定与该非簇中心产品具 有最高相似度的簇中心产品,并将该非簇中心产品和所述与该非簇中心产品具有最高相似 度的簇中心产品归为一簇时,所述聚类单元具体用于:
[0045] 确定一非簇中心产品的度数,并判断所述非簇中心产品的度数是否大于预设的第 二度数阈值,其中,所述第二度数阈值小于所述第一度数阈值;
[0046] 若所述非簇中心产品的度数大于预设的第二度数阈值,则获取所有与所述非簇中 心产品之间存在链接的簇中心产品,并将与所述非簇中心产品之间存在链接数目最多的簇 中心产品与
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1