一种对象聚类方法和装置的制造方法

文档序号:9249263阅读:443来源:国知局
一种对象聚类方法和装置的制造方法
【技术领域】
[0001] 本发明设及计算机技术领域,具体设及一种对象聚类方法和装置。
【背景技术】
[0002] 在数据处理过程中,将物理或抽象对象的集合分成由类似的对象组成的多个类的 过程被称为聚类。由聚类所生成的类(簇)是一组数据对象的集合,该些对象与同一个类 (簇)中的对象彼此相似,与其他类(簇)中的对象相异。下文使用"类"的概念,需要说明 的是,本文中"类"与"簇"的含义相同。
[0003]而在互联网中,存在大量的品牌数据,需要将该些品牌数据进行聚类,方便后续处 理,比如针对性的推送广告数据,在先技术中存在一种层次聚类的方法,其是各个类的中屯、 点计算两个类之间的距离,然后将两个距离最近的类合并为一个新的类,但是其对新的类 的中屯、只是根据两个类中的样本个数去计算,然后计算下一轮各个类之间的距离,循环聚 类直到达到结束条件。
[0004] 但是,上述聚类方法中,其新的类的中屯、点是根据两个类的样本个数计算的,与实 际应用中样本的分布重屯、存在较大偏差,因此,聚类得到的品牌分类不够精确,导致后续的 处理计算量大,并且后续处理结果偏差更大。

【发明内容】

[0005]鉴于上述问题,提出了本发明W便提供一种克服上述问题或者至少部分地解决上 述问题的对象聚类装置和相应的对象聚类方法。
[0006] 根据本发明的一个方面,提供了一种对象聚类方法,包括:
[0007]获取待聚类的样本和各样本的访问权重;所述访问权重为所述样本被访问时的重 要程度,所述样本包括品牌数据;
[000引将各样本划分为一个分类对象,并将相应样本的坐标作为所述分类对象的中屯、 坐标,并将相应样本的访问权重作为所述分类对象的访问权重;
[0009] 根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚类,获得各包括 至少一个品牌数据的品牌分类。
[0010] 优选的,所述根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚类 的步骤包括:
[0011] 针对各个分类对象,根据每个分类对象的中屯、坐标,计算每两个分类对象之间的 距离;
[0012] 将距离最近的两个分类对象聚合为一个新的分类对象,并根据每个分类对象的中 屯、坐标和访问权重,计算所述新的分类对象的中屯、坐标和访问权重.
[0013] 判断是否达到聚合结束条件,如果未达到聚合结束条件,将新的分类对象与当前 回合中未聚合的分类对象,一并返回针对各个分类对象,根据每个分类对象的中屯、坐标,计 算每两个分类对象之间的距离的步骤,直到达到聚合结束条件。
[0014] 优选的,所述访问权重包括:
[0015] 所述样本在网络中被浏览的浏览权重;
[0016] 和/或,所述样本在网络中被点击的点击权重;
[0017] 和/或,所述样本最近被浏览时刻距离基准时刻的时间跨度权重;
[001引和/或,所述样本所在网站的网站权重;
[0019] 和/或,所述样本最近被浏览时,用户的浏览行为所在区域的区域权重;
[0020] 和/或,所述样本所在被捜索时的捜索权重。
[0021] 优选的,所述针对各个分类对象,根据每个分类对象的中屯、坐标,计算每两个分类 对象之间的距离的步骤,包括:
[0022] 针对每个分类对象,根据中屯、坐标构建中屯、向量;
[0023] 计算每两个分类对象所对应的两个中屯、向量之间的余弦距离。
[0024] 优选的,所述获取初始的各样本的步骤,包括:
[0025] 针对每个样本,根据业务标识获取相应的访问权重。
[0026] 优选的,在根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚类的 步骤之后,还包括:
[0027] 针对每个用户,根据用户对各个所述用户对各类中的品牌数据的访问行为数据, 对所述用户打上品牌分类标签。
[002引优选的,在针对每个用户,根据用户对各个所述用户对各类中的品牌数据的访问 行为数据,对所述用户打上品牌分类标签步骤之后,还包括:
[0029] 根据所述用户的品牌分类标签,将对应所述标记的第=对象发送给所述用户所在 终端;所述第=对象包括针对所述品牌数据的广告数据。
[0030] 优选的,所述根据每个分类对象的中屯、坐标和访问权重,计算所述新的分类对象 的中屯、坐标包括:
[0031] 根据业务标识,调用相应的坐标计算函数计算所述新的分类的中屯、坐标。
[0032] 依据本发明的另外一个方面,还公开了一种对象聚类装置,包括:
[0033] 初始对象获取模块,适于获取待聚类的样本和各样本的访问权重;所述访问权重 为所述样本被访问时的重要程度;
[0034] 划分模块,适于将各样本划分为一个分类对象,并将相应样本的坐标作为所述分 类对象的中屯、坐标,并将相应样本的访问权重作为所述分类对象的访问权重;
[0035] 聚类模块,适于根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚 类。
[0036] 优选的,所述聚类模块包括:
[0037] 距离计算模块,适于针对各个分类对象,根据每个分类对象的中屯、坐标,计算每两 个分类对象之间的距离;
[003引聚合模块,适于将距离最近的两个分类对象聚合为一个新的分类对象,并根据每 个分类对象的中屯、坐标和访问权重,计算所述新的分类对象的中屯、坐标和访问权重;
[0039] 判断模块,适于判断是否达到聚合结束条件,如果未达到聚合结束条件,将新的分 类对象与当前回合中未聚合的分类对象,一并返回针对各个分类对象,根据每个分类对象 的中屯、坐标,计算每两个分类对象之间的距离的步骤,直到达到聚合结束条件。
[0040] 优选的,所述访问权重包括:
[0041] 所述样本在网络中被浏览的浏览权重;
[00创和/或,所述样本在网络中被点击的点击权重;
[0043] 和/或,所述样本最近被浏览时刻距离基准时刻的时间跨度权重;
[0044] 和/或,所述样本所在网站的网站权重;
[0045] 和/或,所述样本最近被浏览时,用户的浏览行为所在区域的区域权重;
[0046] 和/或,所述样本所在被捜索时的捜索权重。
[0047] 优选的,所述距离计算模块包括:
[0048] 中屯、向量构建模块,适于针对每个分类对象,根据中屯、坐标构建中屯、向量;
[0049] 余弦距离计算模块,适于计算每两个分类对象所对应的两个中屯、向量之间的余弦 距离。
[0化0] 优选的,所述初始对象获取模块包括:
[0化1] 访问权重获取模块,适于针对每个样本,根据业务标识获取相应的访问权重。
[005引优选的,还包括:
[0化3] 标记模块,适于针对每个用户,根据用户对各个所述用户对各类中的品牌数据的 访问行为数据,对所述用户打上品牌分类标签。
[0054] 优选的,还包括;
[0化5] 对象发送模块,适于根据所述用户的品牌分类标签,将对应所述标记的第=对象 发送给所述用户所在终端;所述第=对象包括针对所述品牌数据的广告数据。
[0化6] 优选的,所述第一聚合模块包括:
[0化7] 计算函数选择模块,适于根据业务标识,调用相应的坐标计算函数计算所述新的 分类的中屯、坐标。
[005引根据本发明的对象聚类方法可W获取包括访问权重的初始品牌数据,该访问权重 指示了所述品牌数据被访问时的重要程度,然后根据品牌数据的访问权重参与聚类过程, 那么在聚类时,访问权重高的品牌数据参与度高,由此解决了传统聚类过程中依据各类中 的品牌数据数量进行聚类,而导致品牌数据聚合度分散,聚类不够准确的问题,从而导致后 续处理计算量大,计算结果偏差大的问题,取得了聚类结果精确,使后续的处理计算量小, 偏差低的有益效果。
[0059] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予W实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,W下特举本发明的【具体实施方式】。
【附图说明】
[0060] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0061] 图1示出了根据本发明一个实施例的一种对象聚类方法的流程示意图;
[0062] 图2示出了根据本发明一个实施例的一种对象聚类方法的流程示意图;
[0063] 图3示出了根据本发明一个实施例的一种对象聚类方法的流程示意图;
[0064] 图4示出了根据本发明一个实施例的一种对象聚类装置的结构示意图;
[0065] 图5示出了根据本发明一个实施例的一种对象聚类装置的结构示意图;W及
[0066] 图6示出了根据本发明一个实施例的一种对象聚类装置的结构示意图。
【具体实施方式】
[0067] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可各种形式实现本公开而不应被该里阐述的实施例 所限制。相反,提供该些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0068] 本发明的核屯、思想之一在于;本发明实施例针对的是品牌数据,该品牌数据包括 了用户访问数据,比如各用户访问该品牌的浏览数据、点击数据、购买数据、收藏数据等用 户访问数据,本发明实施例的品牌数据是对包括上述用户访问数据的一种概括。对于各品 牌数据,获取其访问权重,该访问权重表示所述品牌数据被访问时的重要程度。然后W该品 牌数据和访问权重作为的样本进行聚类过程中,访问权重高的品牌数据参与度高,使分类 对象中屯、偏向访问权重高的一侧,从而使最终的品牌数据聚类结果更精确,降低后续处理 过程中的计算量,也降低后续处理的结果的偏差。
[00例实施例一
[0070] 参照图1,其示出了本发明一种对象聚类方法的流程示意图,具体可W包括:
[0071] 步骤110,获取待聚类的样本和各样本的访问权重;所述访问权重为所述样本被 访问时的重要程度;所述样本包括品牌数据。
[0072] 可W理解,本发明实施例需要获取各个样本的信息和相应的样本的访问权重。
[0073] 本发明实施例针对的是品牌数据,该品牌数据包括了用户访问数据,比如各用户 访问该品牌的浏览数据、点击数据、购买数据、收藏数据等用户访问数据,本发明实施例的 品牌数据是对包括上述用户访问数据的一种概括。比如品牌数据"海欄之家",其包括用户 在天猫网站的一个网页中浏览商品对象的"2015夏季新品海欄之家男装正品简约印花V领 短袖T恤HNTCJ2A101A"的用户数据。又比如"阿迪达斯"、"耐克"、"iphoneV'S星"等均是 相应商品对象的品牌数据。那么对于一个品牌数据,可W获取其多个维度的特征构造品牌 数据的坐标。比如品牌名称、品牌简介、品牌受众、该品牌下的品牌数据的价格、访问量、收 藏量等,得到类似A= (al,a2,a3……}的多维坐标。在本发明实施例中,对于一个品牌数 据,可通过汇总网络中展示所述品牌的相关商品的网页数据,进行分析提取得到赏识特征。
[0074] 可W理解,各维度特征的初始的参数可W为任意字符类型,比如可W为数字,也可 W为汉字,当然也可W为其他类型的参数。在本发明实施例中为则会将不为数字的初始
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1