一种Web文本个性化推荐方法

文档序号：8299205阅读：611来源：国知局

一种Web文本个性化推荐方法
【技术领域】
[0001] 本发明属于海量信息处理与数据挖掘技术领域，更为具体地讲，涉及一种Web文本个性化推荐方法，基于用户行为的历史数据来获得用户偏好，向用户推荐感兴趣和潜在兴趣的Web文本。
【背景技术】
[0002] 互联网的出现和普及满足了用户在信息时代对信息的需求，但网络的演进与人们认知能力的提_，使彳目息的广生速度不断加快。
[0003] Web文本是用文本表示的各种Web信息，网络新闻、微博内容、电子商务网站商品的文字描述或评价等都是目前Web文本的典型代表。随着互联网技术的迅速发展和普及，大量的Web文本产生并成为了互联网上信息的重要载体。可供用户获取和浏览的Web文本数量已超过用户实际能够处理的能力，出现了信息超载问题，用户的需求变为最大限度地得到所需要的信息。
[0004] 针对Web文本的个性化推荐，我们需要通过分析用户过去一段时间内对Web文本的浏览、评价、关注或转发等的行为记录即用户行为的历史数据，计算出用户的偏好，同时对Web文本进行处理并提取特征，将符合用户偏好条件的Web文本推送给相应的用户。
[0005] Web文本推荐系统，主要处理和推荐用文本表不的各种Web信息，包括用户建模模块、Web文本建模模块和推荐方法模块。其中Web文本建模模块的建立依赖于用户建模模块，推荐方法模块需要考虑用户建模模块和Web文本建模模块，由此可知，用户建模模块及相应方法是整个推荐系统的核心和关键。为此，需要建立有效的用户模型及相应的匹配机制，公知的用户建模模块的建立基于用户行为的历史数据，即用户过去对Web文本的浏览、评价、关注或转发等行为的历史数据，完成用户建模模块，即建立用户偏好模型，最后根据特定用户实施Web文本的个性化推荐。
[0006] 卢美莲等提出了"基于主题的个性化研究方向推荐系统和推荐方法"（2013年12 月4日公布的，公布号为CN103425799A的中国发明专利申请），使用用户阅读记录的历史数据完成用户建模；王晓龙等提出了 "一种点击反馈式个性化推荐系统"（2014年07月16日授权公告，授权公告号为CN102685565B的中国发明专利），与相关推荐系统融合的个性化推荐系统，基于点击反馈并通过用户偏好的历史数据对结果进行自动调整，从而产生更精确的推荐结果；赵燕斌等提出了 "基于社区的相关帖推荐系统及推荐方法"（2014年05月 28日公布的，公布号为CN103823805A的中国发明专利申请），给出通过用户偏好历史数据及其之间相关性获得特定用户推荐结果的方法；王立才等（〈软件学报〉，2012年第1期）提出了 "一种基于用户历史行为上下文信息获得用户偏好的方法";钟小武等提出了 "一种基于领域专家的推荐系统"（2012年05月30日公布的，公布号为CN102479202A的中国发明专利申请），根据项目数据、用户数据和用户行为历史数据挖掘用户对项目好坏评分、用户感兴趣和潜在兴趣的领域以及专家用户数据，并计算获取当前用户的邻近专家列表，作为推荐结果集返回给用户。
[0007] 现有的Web文本个性化推荐方法，尽管考虑了用户行为的历史数据，但是推荐的准确性还是有待于提_。

【发明内容】

[0008] 本发明的目的在于在现有技术的基础上，提供一种Web文本个性化推荐方法，进一步提高向用户推荐感兴趣和潜在兴趣Web文本的准确性。
[0009] 为实现上述发明目的，本发明一种Web文本个性化推荐方法，其特征在于，包括以下步骤：
[0010] (1)、Web文本特征提取
[0011] 1. 1)、Web文本关键词集合生成
[0012] 某时刻t之前产生的若干Web文本构成Web文本集合；对Web文本集合中的每个 Web文本的内容进行分词，去除无用词，得到描述Web文本的关键词集合；
[0013]1. 2)、Web文本特征维度生成
[0014] 依次扫描每个Web文本的关键词集合，将其中的关键词添加到一个无重复元素即关键词的有序集合中，得到有序关键词集合S={sps2，…，sm}，m表不有序关键词集合S的大小，即无重复关键词的数量，有序关键词集合S中的每个关键词分别作为衡量Web文本的一个维度，从而建立Web文本的特征维度；
[0015] 1. 3)、Web文本特征矩阵生成
[0016] 对于Web文本集合中的每个Web文本，统计Web文本中出现的、且包含于有序关键词集合S中的各个关键词的词频，作为m维行向量中对应维度的值，若有序关键词集合S中的关键词未在Web文本中出现，则对应维度的值为0,该m维行向量为该Web文本的特征向量；
[0017] 所有Web文本的特征向量构成Web文本集合的特征矩阵E，E的列数为m、行数为 Web文本个数；
[0018] ⑵、Web文本模型构建
[0019] 使用k-means聚类算法，对特征矩阵E中各Web文本的特征向量进行聚类，将Web 文本集合中的Web文本分为若干类别，组成类别集合R={rpr2，…，rn}，n为类别总数，rz(z =1，2,…，n)表示类标识，z为类编号；
[0020] (3)、动态用户偏好建模
[0021] 用U= …，uj表示用户集合，1表示用户的数量，用户Ui(i= 1，2,…，1) 在时刻t之前的行为所涉及的Web文本子集合为0 ={od〇2，…，ov}，v为Web文本的数量，Web文本〇j(j= 1，2,…，v)产生的时刻距离时刻t的时间长度为hj;
[0022] 3. 1)、生成用户行为所涉及Web文本对用户偏好影响度
[0023] Web文本〇」对用户u^扁好影响度为dj:
【主权项】
1. 一种Web文本个性化推荐方法，其特征在于，包括以下步骤： (1) 、Web文本特征提取 1. 1)、Web文本关键词集合生成某时刻t之前产生的若干Web文本构成Web文本集合；对Web文本集合中的每个Web 文本的内容进行分词，去除无用词，得到描述Web文本的

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹子都;岳昆;张骥先;武浩;刘惟一;
技术所有人：云南大学;
我是此专利的发明人

上一篇：电子地图制作的批量并行高效系统及其生成方法
上一篇：一种避免数据重抽的方法和装置及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。