一种基于数据挖掘技术的微博推荐方法及装置的制造方法

文档序号:9810740阅读:266来源:国知局
一种基于数据挖掘技术的微博推荐方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机科学及网络技术领域,特别是涉及一种微博推荐方法的数据挖 掘技术。
【背景技术】
[0002] 微博网站每天都会发布数据量非常之多的微博,尤其是大型网站的用户访问量多 达亿级别,而且信息更新速度非常快,对微博的时效性也有很高的要求。网站针对这种情 况,首要选择就是实施微博推荐,快速有效的找到用户感兴趣的微博,获取用户想要了解的 信息。
[0003] 现有技术中,推荐方法主要分为三种:第一种是基于内容过滤,基于内容过滤的推 荐系统通过比较项(商品)之间的相似性而不是用户之间的相似性实现推荐功能;第二种是 基于协同过滤,基于协同过滤技术的电子商务推荐系统并不分析商品之间的相似性,而是 学习目标用户和历史用户之间行为的相似性,而不依赖商品的特征,从而根据相似历史用 户的行为生成推荐结果;第三种是混合型,结合使用前面两种技术,尽量利用它们的优点而 避免其缺点,提高推荐系统的性能和推荐质量。
[0004] 但是在上述现有技术中,基于内容过滤,只能考虑到微博的相似性而不能考虑到 微博的时效性,所以推荐效果不理想;基于协同过滤,必须是鉴于访问记录而进行的推荐, 对时效性要求较高的微博推荐而言,只推荐被访问过的热门微博,故在协同过滤中,就会生 成已过期的热门微博。

【发明内容】

[0005] 本发明的目的在于提供一种基于数据挖掘技术的微博推荐方法及装置,克服现有 技术中针对微博上现有的大量微博信息不能有效合理地推荐给相关用户的难题,,以实现 能够通过数据挖掘技术,匹配相关类别的微博和用户,并根据相关性给用户有效的推荐意 见。
[0006] 为了解决以上技术问题,本发明采用的具体技术方案如下:
[0007] -种基于数据挖掘技术的微博推荐方法,其特征在于包括以下步骤:
[0008] 步骤一,将微博按照内容进行分类
[0009] 通过KNN分类算法,将微博按照内容进行分类。按照内容可分为情感类、社会类、明 星类、财经类、体育类、科技类、军事类、教育类、游戏类;
[0010]步骤二,获取预置时间段内选定用户对各类微博的点击量,并根据各类微博的该 所述点击量,计算得到所述用户在所述时间段内的微博兴趣模型;
[0011]根据各类微博的所述点击量,通过贝叶斯全概率公式计算得到所述用户在所述时 间段内的微博兴趣模型。根据所述用户在所述时间段的微博兴趣模型,加权平均计算得到 所述用户在包含多个所述时间段的当天24小时的最终微博兴趣模型;
[0012]步骤三,按照所述最终微博兴趣模型聚类所有用户,并根据所述最终微博兴趣模 型确定向聚类后的各类用户推荐的微博候选集;
[0013] 将对微博的兴趣向量相似的用户聚成一个用户类,向属于同一个聚类的用户推荐 相同的微博,具体采用鉴于K均值算法的MapReduce模型实现用户聚类,根据预置时间段内 最终微博兴趣模型得到微博候选集;
[0014] 步骤四,将所述微博候选集中的微博推荐给所述用户
[0015] 将所述微博候选集中的微博按照一定的规则推荐给用户,根据用户兴趣标签推荐 相关类别的微博。规则为:在相关类别中,将所述微博候选集中的微博按照权重值进行降序 排列,并按照排列的先后顺序向所述用户推荐微博。
[0016] -种基于数据挖掘技术的微博推荐装置,其特征在于:包括微博分类模块,兴趣建 模模块,用户聚类模块,候选集确定模块,微博推荐模块;
[0017] 所述微博分类模块,用于将微博按照内容进行分类;兴趣建模模块,获取预置时间 段内选定用户对各类微博的点击量,并根据各类微博的该所述点击量,计算得到所述用户 在所述时间段内的微博兴趣模型;用户聚类模块,用于按照所述最终微博兴趣模型聚类各 用户;候选集确定模块,根据所述最终微博兴趣模型确定向聚类后的各类用户推荐的微博 候选集;微博推荐模块,用于将所述微博候选集中的微博推荐给所述用户。本发明的工作过 程为:将发布微博按照内容在微博分类模块中进行分类,获得微博类别;获取预置时间段内 选定用户对各类微博的点击量,并根据各类微博的该所述点击量,在兴趣建模模块中计算 得到所述用户在所述时间段内的微博兴趣模型;在用户聚类模块中将对微博的兴趣向量相 似的用户聚成一个用户类,向属于同一个聚类的用户推荐相同的微博;根据所述最终微博 兴趣模型,在候选集确定模块中确定向聚类后的各类用户推荐的微博候选集;最后在微博 推荐模块中将所述微博候选集中的微博推荐给用户。
[0018] 本发明具有有益效果。本发明通过采用数据挖掘技术,使得微博推荐方法及装置 更加准确有效。具体体现在:通过KNN分类方法,用较低的代价得到高效的分类结果;用贝叶 斯全概率公式计算微博兴趣模型,在推荐的实时性方面得到提升;用K均值聚类方法,对所 有用户进行有效聚类。
【附图说明】
[0019] 图1是本发明的摘要附图;
[0020] 图2是本发明的实施流程图;
[0021 ]图3是本发明的装置示意图;
[0022]图3中:1、微博分类模块;2、兴趣建模模块;3、用户聚类模块;4、候选集确定模块; 5、微博推荐模块。
【具体实施方式】
[0023]下面结合附图对本发明的【具体实施方式】进行详细阐述,以使本发明的优点和特征 更容易被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
[0024] 实施例一:
[0025] 本发明提供了一种基于数据挖掘的微博推荐方法,其实施流程如图2所示,包括如 下步骤:
[0026] 步骤一,将微博根据内容进行分类。
[0027] 按照内容可分为情感类、社会类、明星类、财经类、体育类、科技类、军事类、教育 类、游戏类。
[0028] 具体地,可通过多项式模型的KNN分类算法来对微博进行分类,其优点在于,重新 训练的代价较低,而且简单有效,另外该算法比较适用于样本容量比较大的类域的自动分 类,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别 的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。对 微博分类的主要目的是实现对各认证微博或者公众号微博以及热门微博的自动分类,分类 结果用来分析用户兴趣,将按照内容分类得到的类别作为描述用户兴趣的参照。
[0029]步骤二,获取预置时间段内选定用户对各类微博的点击量,并根据各类微博的该 所述点击量,计算得到所述用户在所述时间段内的微博兴趣模型。
[0030] 下面建立选定用户的微博兴趣模型,微博兴趣模型指的是用户和用户所感兴趣的 微博之间相互对应的关系,即,用户对各类微博的微博兴趣度,获取某时间段内用户对各类 微博的点击量,并根据所述点击量,计算得到选定用户在所述时间段内的微博兴趣模型。
[0031] 其中,选定用户作为训练集,为了能够代表微博用户的真实使用情况,采用随机抽 样的方法来选定,则得到所述选定用户在某时间段的微博兴趣模型就是全体用户
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1