一种对用户和内容进行分类的方法、装置及计算设备的制造方法_2

文档序号：8282419阅读：来源：国知局

所述分类步骤中不改变该用户的用户类型；对于已有的内容与内容类型之间的映射关系，在所述相似度计算步骤中不计算该内容与各内容类型之间的相似度，且在所述分类步骤中不改变该内容的内容类型。
[0016] 可选地，在根据本发明的对用户和内容进行分类的方法中，在所述访问量计算步骤中，按照如下方式计算某个用户类型对某个内容的访问量：获取该用户类型包括的所有用户；获取其中每个用户对该内容的访问量；对所有访问量求和，得到该用户类型对该内容的访问量；按照如下方式计算某个用户对某个内容类型的访问量：获取该内容类型包括的所有内容；获取该用户对其中每个内容的访问量；对所有访问量求和，得到该用户对该内容类型的访问量；按照如下方式计算某个用户类型对某个内容类型的访问量：获取该用户类型包括的所有用户以及该内容类型包括的所有内容；获取其中每个用户对其中每个内容的访问量；对所有访问量求和，得到该用户类型对该内容类型的访问量。
[0017] 可选地，在根据本发明的对用户和内容进行分类的方法中，所述相似度为基于最小值的相似系数、巴氏相似系数或者余弦相似系数。
[0018] 可选地，在根据本发明的对用户和内容进行分类的方法中，在所述相似度计算步骤中，在计算两个向量的相似度前，先对这两个向量的定义域取交集或并集后，再计算这两个向量的相似度。
[0019] 可选地，在根据本发明的对用户和内容进行分类的方法中，所述预定条件为：触发所述访问量计算步骤和相似度计算步骤的次数达到预设的次数；或者，本次的分类结果与上次的分类结果相比，用户类型发生变化的用户比例小于预设的第一门限且内容类型发生变化的内容比例小于预设的第二门限。
[0020] 根据本发明的又一方面，提供了一种计算设备，该计算设备中驻留有根据本发明的对用户和内容进行分类的装置。
[0021] 与现有技术相比，在根据本发明的对用户和内容进行分类的方案中，采用对网站用户和内容进行双聚类分析，不需要知道内容的诸多属性，只需要根据各用户对各内容的访问量，就可以一次性把用户、内容同时进行分类，把用户归到各用户类型，把内容归到各内容类型。而且，本发明的方案在每次迭代计算中，不需要遍历用户数X内容数，因此，其迭代计算量相比于现有的PLSA、LDA等算法要小很多。
[0022] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0023] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0024] 图1示出了本发明实施例采用的用户和内容双聚类方法的原理图；
[0025] 图2示出了根据本发明一个实施例的对用户和内容进行分类的方法的流程图；
[0026] 图3示出了根据本发明一个实施例的对用户和内容进行分类的装置的结构图；
[0027] 图4示出了本发明实施例采用的双聚类算法与PLSA算法的计算用时对比图；以及
[0028] 图5是布置为实现根据本发明的对用户和内容进行分类的方法的示例计算设备的框图。
【具体实施方式】
[0029] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0030] 本发明实施例采用的方案是对网站用户和内容进行双聚类分析，其实现原理如下：
[0031] 将用户、内容看作二分图的两个独立点集，将用户作为左侧点集L，将内容作为右侧点集R，将用户对内容的访问量作为边上的权重，目标是将所有用户聚成Nl个类别，将所有内容聚成Nr个类别。
[0032] 如图1所示，左图为聚类前，用户A、B、C、D对内容X、Y、Z有访问，每个边有相应的权重（本例权重值为1)。经算法聚类后为右图，用户Α、Β聚为一个用户类L，用户C、D聚为一个用户类M，内容X、Y聚为一个内容类R，内容Z单独为一个内容类S。通过聚类，用户对内容的访问归属到用户类型对内容类型的访问。
[0033] 为便于理解，现将下文中用到的符号解释如下：
[0034] pickone (S)表示从集合S中取出一个元素，可随机取出一个。
[0035] D (F)表示映射F的定义域，即映射F的键（key)集合；R (F)表示映射F的值域，即映射F的值（value)集合。
[0036] F (X)表示映射F把定义域中X映射为值域中的值（X对应的函数值），即映射F的 key为X时对应的value值。
[0037] F(x,)或F(, X)表示把映射F定义域某一维取值固定为X后剩余的子映射，即偏函数，得到定义域中没有给出参数的子集形成的定义域到值域的映射。
[0038] argmax (F)表示对映射F，值域中的最大值对应的定义域中的值。
[0039] similarity (X，Y)表示两个向量X和Y之间的相似度。
[0040] 图2示出了根据本发明一个实施例的对用户和内容进行分类的方法的流程图，该方法在计算设备中执行，适于将用户集合中的各用户聚类为第一预定数目个用户类型，将内容集合中的各内容聚类为第二预定数目个内容类型。
[0041] 参照图2,该方法始于步骤S202 (初始化步骤）。在步骤S202中，为第一预定数目个用户类型中的每个用户类型指定用户集合中的一个或多个用户，为第二预定数目个内容类型中的每个内容类型指定内容集合中的一个或多个内容。
[0042] 可以根据已有的用户与用户类型之间的映射关系，为已有一个或多个用户的用户类型指定该一个或多个用户，并为没有用户的用户类型随机指定一个没有用户类型的用户；根据已有的内容与内容类型之间的映射关系，为已有一个或多个内容的内容类型指定该一个或多个内容，并为没有内容的内容类型随机指定一个没有内容类型的内容。
[0043] 设包括所有待进行聚类的用户的用户集合为U，包括所有待进行聚类的内容的内容集合为A，用户集合U中的各用户与内容集合A中各内容的访问量映射关系为F ua，且Fua ={(11，3)->4」11￡11，3￡六，4￡1>0}，在该映射关系中，（11，3)->4 ￡1表示用户11对内容3的访问量为fua。
[0044] 例如，U = {ul，u2, u3, u4, u5, u6, u7, u8, u9, ulO};
[0045] A = {al, a2, a3, a4, a5, a6, a7, a8, a9, alO}；
[0046] Fua= {(u6, a3)->4, (u5, a5)->8, (u9, al)->

完整全部详细技术资料下载

当前第2页1 2 3