一种Web文本个性化推荐方法_2

文档序号：8299205阅读：来源：国知局

关键词集合； 1. 2)、Web文本特征维度生成依次扫描每个Web文本的关键词集合，将其中的关键词添加到一个无重复元素即关键词的有序集合中，得到有序关键词集合S = {sp s2，…，sm}，m表不有序关键词集合S的大小，即无重复关键词的数量，有序关键词集合S中的每个关键词分别作为衡量Web文本的一个维度，从而建立Web文本的特征维度； 1. 3)、Web文本特征矩阵生成对于Web文本集合中的每个Web文本，统计Web文本中出现的、且包含于有序关键词集合S中的各个关键词的词频，作为m维行向量中对应维度的值，若有序关键词集合S中的关键词未在Web文本中出现，则对应维度的值为0,该m维行向量为该Web文本的特征向量；所有Web文本的特征向量构成Web文本集合的特征矩阵E，E的列数为m、行数为Web文本个数； (2) 、Web文本模型构建使用k-means聚类算法，对特征矩阵E中各Web文本的特征向量进行聚类，将Web文本集合中的Web文本分为若干类别，组成类别集合R = {rp r2，…，rn}，n为类别总数，rz (z = 1，2,…，n)表不类标识，z为类编号； (3) 、用户动态偏好建模用U = {up u2，…，uj表示用户集合，1表示用户的数量，用户w (i = 1，2,…，1)在时亥lj t之前的行为所涉及的Web文本子集合为0 = {op 〇2，…，ov}，v为Web文本的数量，Web 文本％(j = 1，2,…，v)产生的时刻距离时刻t的时间长度为hj; 3. 1)、生成用户行为所涉及Web文本对用户偏好影响度 Web t本〇,.对用户u 偏好影响度为d」：
(1) 其中，G(hj)和G(hk)可分别表示为：
(2) 式⑵中，e为自然对数，b为相对记忆强度，b依据经验而设定（1彡b彡10); 3. 2)、Web文本类别生成查找Web文本〇j所属的类别：在Web文本集合中查找Web文本〇」，返回〇j所属的类编号zj;同时，结合步骤3. 1)已经计算出的Web文本〇』的影响度,可得到Web文本〇』的类编号_影响度对，记为Cj= (z」，dj); 用户所有行为所涉及Web文本的类编号-影响度对集合记为C = {Cl，c2，…，cv}; 3. 3)、用户动态偏好向量生成若类编号-影响度对集合C中(^和c n(m, n = 1，2,…，v ;m尹n)具有相同的类编号，则将cn的影响度加到c m的影响度上，并去除c n，直到所有的类编号-影响度对的类编号无重复，此时类编号-影响度对的数量为V (v' <v)，这V个类编号-影响度对构成用户偏好向量f，即生成用户W的动态偏好向量； (4)、Web文本个性化推荐在时刻t之后产生的Web文本为待推荐Web文本； 4. 1)、首先，使用步骤1. 1)中的方法对待推荐Web文本进行关键词提取，得到待推荐 Web文本的关键词集合，使用步骤1. 2)中的方法得到待推荐Web文本特征向量；接着，计算类别集合R中每个类别的中心坐标，即计算属于每个类别的所有Web文本特征向量的重心坐标；再次，计算出待推荐Web文本特征向量到各个类别中心坐标的距离；最后，根据 MMD(最大最小距离）分类算法，将待推荐Web文本归到相应的类别，得到其所属的类编号； 4. 2)、用户喜欢的Web文本生成查找用户集合U中所有用户对应的动态偏好向量，找出其中包含待推荐Web文本所属类编号的所有用户；给定一个影响度阈值t(0.t<〇.7)，若找出用户与待推荐Web文本所属类的偏好影响度不小于t，则将该待推荐Web文本推荐给该用户。
2.根据权利要求1所述的推荐方法，其特征在于，所述的使用k-means聚类算法，对特征矩阵E中各Web文本的特征向量进行聚类为：首先对特征矩阵E中进行映射处理，得到概念矩阵E'，然后使用k-means聚类算法，对概念矩阵E'中各Web文本的特征向量进行聚类；所述映射处理为：依次在词林W中查找有序关键词集合S中的各关键词sx，x = 1，2,…，m，若发现词林W中有词语与关键词sx相同，就用这个词语对应的概念替换关键词 sx，并检查关键词s x与有序关键词集合S中之前用相同概念替换过的关键词是否与关键词 sx重复，若有关键词s y(y = 1，2,…，x-1)与关键词\对应的概念相同，则将关键词sx和关键词sy合并，具体做法为：通过特征矩阵E的列变换，将特征矩阵E的第x列的值加到第y 列，移除特征矩阵E中的第x列，同时从有序关键词集合S中移除关键词s x; 处理完有序关键词集合S中的所有关键词，就可得到Web文本集合的概念矩阵E'，有序关键词集合S变为有序关键词集合S'，维度由m降到m'，其中概念矩阵E'的每一行对应一个Web文本的概念向量；所述步骤4. 1)中，对待推荐Web文本的关键词集合中映射为同一概念的两个关键词，将Web文本特征向量中后一个关键词对应的维度值加到前一个关键词对应的维度值，并删除后一个关键词对应的维度值，得到待推荐Web文本的概念向量；然后根据待推荐Web文本的概念向量进行重心坐标计算和分类。
【专利摘要】本发明公开了一种Web文本个性化推荐方法，通过对某时刻t之前产生的若干Web文本进行特征提取，得到Web文本集合的特征矩阵E，然后进行聚类得到n个类别；同时，对某个用户ui在时刻t之前的行为所涉及的Web文本子集合中的Web文本oj产生的时刻距离时刻t的时间长度hj计算出其对用户ui偏好影响度dj，得到Web文本oj的类编号-影响度对cj，生成用户ui的动态偏好向量；若找出用户与待推荐Web文本所属类的偏好影响度不小于阈值τ，则将该待推荐Web文本推荐给该用户。本发明考虑了用户历史行为对当前偏好随时间推移而改变的动态影响，推荐更准确、具有动态性、且更符合实际情形。
【IPC分类】G06F17-30
【公开号】CN104615779
【申请号】CN201510090280
【发明人】尹子都, 岳昆, 张骥先, 武浩, 刘惟一
【申请人】云南大学
【公开日】2015年5月13日
【申请日】2015年2月28日

完整全部详细技术资料下载

当前第2页1 2