一种Web文本个性化推荐方法

文档序号:8299205阅读:611来源:国知局
一种Web文本个性化推荐方法
【技术领域】
[0001] 本发明属于海量信息处理与数据挖掘技术领域,更为具体地讲,涉及一种Web文 本个性化推荐方法,基于用户行为的历史数据来获得用户偏好,向用户推荐感兴趣和潜在 兴趣的Web文本。
【背景技术】
[0002] 互联网的出现和普及满足了用户在信息时代对信息的需求,但网络的演进与人们 认知能力的提_,使彳目息的广生速度不断加快。
[0003] Web文本是用文本表示的各种Web信息,网络新闻、微博内容、电子商务网站商品 的文字描述或评价等都是目前Web文本的典型代表。随着互联网技术的迅速发展和普及, 大量的Web文本产生并成为了互联网上信息的重要载体。可供用户获取和浏览的Web文本 数量已超过用户实际能够处理的能力,出现了信息超载问题,用户的需求变为最大限度地 得到所需要的信息。
[0004] 针对Web文本的个性化推荐,我们需要通过分析用户过去一段时间内对Web文本 的浏览、评价、关注或转发等的行为记录即用户行为的历史数据,计算出用户的偏好,同时 对Web文本进行处理并提取特征,将符合用户偏好条件的Web文本推送给相应的用户。
[0005] Web文本推荐系统,主要处理和推荐用文本表不的各种Web信息,包括用户建模模 块、Web文本建模模块和推荐方法模块。其中Web文本建模模块的建立依赖于用户建模模 块,推荐方法模块需要考虑用户建模模块和Web文本建模模块,由此可知,用户建模模块及 相应方法是整个推荐系统的核心和关键。为此,需要建立有效的用户模型及相应的匹配机 制,公知的用户建模模块的建立基于用户行为的历史数据,即用户过去对Web文本的浏览、 评价、关注或转发等行为的历史数据,完成用户建模模块,即建立用户偏好模型,最后根据 特定用户实施Web文本的个性化推荐。
[0006] 卢美莲等提出了"基于主题的个性化研究方向推荐系统和推荐方法"(2013年12 月4日公布的,公布号为CN103425799A的中国发明专利申请),使用用户阅读记录的历史数 据完成用户建模;王晓龙等提出了 "一种点击反馈式个性化推荐系统"(2014年07月16日 授权公告,授权公告号为CN102685565B的中国发明专利),与相关推荐系统融合的个性化 推荐系统,基于点击反馈并通过用户偏好的历史数据对结果进行自动调整,从而产生更精 确的推荐结果;赵燕斌等提出了 "基于社区的相关帖推荐系统及推荐方法"(2014年05月 28日公布的,公布号为CN103823805A的中国发明专利申请),给出通过用户偏好历史数据 及其之间相关性获得特定用户推荐结果的方法;王立才等(〈软件学报〉,2012年第1期) 提出了 "一种基于用户历史行为上下文信息获得用户偏好的方法";钟小武等提出了 "一种 基于领域专家的推荐系统"(2012年05月30日公布的,公布号为CN102479202A的中国发 明专利申请),根据项目数据、用户数据和用户行为历史数据挖掘用户对项目好坏评分、用 户感兴趣和潜在兴趣的领域以及专家用户数据,并计算获取当前用户的邻近专家列表,作 为推荐结果集返回给用户。
[0007] 现有的Web文本个性化推荐方法,尽管考虑了用户行为的历史数据,但是推荐的 准确性还是有待于提_。

【发明内容】

[0008] 本发明的目的在于在现有技术的基础上,提供一种Web文本个性化推荐方法,进 一步提高向用户推荐感兴趣和潜在兴趣Web文本的准确性。
[0009] 为实现上述发明目的,本发明一种Web文本个性化推荐方法,其特征在于,包括以 下步骤:
[0010] (1)、Web文本特征提取
[0011] 1. 1)、Web文本关键词集合生成
[0012] 某时刻t之前产生的若干Web文本构成Web文本集合;对Web文本集合中的每个 Web文本的内容进行分词,去除无用词,得到描述Web文本的关键词集合;
[0013]1. 2)、Web文本特征维度生成
[0014] 依次扫描每个Web文本的关键词集合,将其中的关键词添加到一个无重复元素即 关键词的有序集合中,得到有序关键词集合S={sps2,…,sm},m表不有序关键词集合S的 大小,即无重复关键词的数量,有序关键词集合S中的每个关键词分别作为衡量Web文本的 一个维度,从而建立Web文本的特征维度;
[0015] 1. 3)、Web文本特征矩阵生成
[0016] 对于Web文本集合中的每个Web文本,统计Web文本中出现的、且包含于有序关键 词集合S中的各个关键词的词频,作为m维行向量中对应维度的值,若有序关键词集合S中 的关键词未在Web文本中出现,则对应维度的值为0,该m维行向量为该Web文本的特征向 量;
[0017] 所有Web文本的特征向量构成Web文本集合的特征矩阵E,E的列数为m、行数为 Web文本个数;
[0018] ⑵、Web文本模型构建
[0019] 使用k-means聚类算法,对特征矩阵E中各Web文本的特征向量进行聚类,将Web 文本集合中的Web文本分为若干类别,组成类别集合R={rpr2,…,rn},n为类别总数,rz(z =1,2,…,n)表示类标识,z为类编号;
[0020] (3)、动态用户偏好建模
[0021] 用U= …,uj表示用户集合,1表示用户的数量,用户Ui(i= 1,2,…,1) 在时刻t之前的行为所涉及的Web文本子集合为0 ={od〇2,…,ov},v为Web文本的数量,Web文本〇j(j= 1,2,…,v)产生的时刻距离时刻t的时间长度为hj;
[0022] 3. 1)、生成用户行为所涉及Web文本对用户偏好影响度
[0023] Web文本〇」对用户u^扁好影响度为dj:
【主权项】
1. 一种Web文本个性化推荐方法,其特征在于,包括以下步骤: (1) 、Web文本特征提取 1. 1)、Web文本关键词集合生成 某时刻t之前产生的若干Web文本构成Web文本集合;对Web文本集合中的每个Web 文本的内容进行分词,去除无用词,得到描述Web文本的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1