一种基于人口属性关键字向量的协作过滤推荐方法

文档序号:7946536阅读:122来源:国知局
专利名称:一种基于人口属性关键字向量的协作过滤推荐方法
技术领域
本发明涉及IPTV个性化推荐系统,具体地说是一种基于人口属性关键字 向量的协作过滤推荐方法。
背景技术
随着Internet上信息的剧增出现了所谓的"信息过载"和"信息迷向" 现象,推荐系统应运而生,他能根据用户操作历史和反馈等信息为用户找到 适合其兴趣的资源,为其产生个性化的推荐。如今,推荐技术已经应用在电 子商务、数字图书馆、影视娱乐等各个领域。尤其是IPTV领域,随着数字电 视和通信技术的不断发展,电视节目资源越来越丰富, 一方面用户为能够收 看到如此之多的节目而感到兴奋不已,另一方面又为如何从成百上千个节目 中找到他们真正喜爱的节目,而感到苦恼。协作过滤技术是当前最成功的个 性化推荐技术,一些比较有名的推荐系统如WebWatcher、GroupLens、Firefly、 SELECT、 LileMinds和Citeseer都采用了协作过滤的方法。基本思想就是基于 评分相似的最近邻居的评分数据向目标用户产生推荐,即根据其他用户的观 点产生对目标用户的推荐列表。它基于这样一个假设如果用户对一些项目
的评分比较相似,则他们对其他项目的评分也比较相似。其出发点是找到与 你兴趣相同的一组用户,术语叫做"最近邻"。最近邻搜索的核心是计算两个
用户的相似度。例如用户A和用户B,首先需要获取用户A和用户B所有的评分 项,然后选择一个合适的相似度计算方法,基于评分项数据,计算得到用户A 和用户B的相似度数值。以上三种类型的推荐系统各有其优缺点,但所有的推 荐系统均面临一个共同的问题,即冷启动问题。即传统的协作过滤算法均要 求用户已对一部分项目进行过评分,当无评分或者评分非常少的时候,系统则无法产生推荐或者推荐的精度非常差。

发明内容
本发明的目的是针对现有技术的不足而设计的一种基于人口属性关键字 向量依据人口属性状况建立人口属性向量,这些人口属性状况包括年龄、性 别、民族、职业、收入状况、爱好、自我描述等一系列用户在注册时给定的 信息。人口属性向量为一关键字集,之后根据每个用户的属性向量集计算两 用户之间的相似度,并同传统推荐算法计算出的相似度混合,之后选择出跟 目标邻居最相似的若干个用户,然后综合这些用户的评分来预测用户未评分 的项目,最后产生推荐。这种方法能在系统冷启动阶段很好的为用户提供推 荐。
本发明的目的是这样实现的
一种引入基于人口属性关键字向量的协作过滤推荐方法,特点是IPTV 节目的界面上,提供用户评分的可视化菜单,并根据终端机顶盒传来的用户 观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户,其具体 步骤如下
a) 、收集用户人口属性信息和自我描述信息;
b) 、收集用户对项目的评分数据形成用户-项目评分矩阵A附,w);
c) 、使用中文分词技术和关键字匹配寻找每个用户所拥有的关键字集合;
d) 、计算目标用户和其他用户之间的关键字集合之间的交集;
e) 、计算目标用户和其他用户之间的共同评分项目;
f) 、根据d、 e步骤的结果计算出目标用户和其他用户之间的相似度;
g) 、选取相似度最大的K个用户作为其最近邻居集;
h) 、根据最近邻居集对目标用户未评分项目来预测评分并排序;i )、将预测评分最大的前N个项目作出推荐列表给目标用户。
所述"用户-项目"评分矩阵」—,"),以用户评分信息和用户行为数据进
行矩阵排列,行代表用户,列代表项目,矩阵中的元素值则代表该行用户对 该列项目的喜爱程度。
所述使用中文分词技术和关键字匹配寻找每个用户所拥有的关键字集合 是在用户每次注册以及更新个人信息时使用。
所述目标用户和其他用户间的相似度是根据人口属性相似度和用户评分 相似度混合后共同计算得到的。
本发明能够有效解决以往推荐系统所存在的无法对新用户产生推荐的问 题,并能很好的提高对评分稀疏的用户的推荐精度。


图1为本发明系统架构图
图2为本发明所使用的基于人口属性关键字向量的协作过滤推荐算法 流程图
具体实施方式
实施例
参阅附图1 2,本发明在IPTV节目的界面上,提供用户评分的可视化
菜单,并根据终端机顶盒传来的用户观看时间、行为操作、节目评分数据作
出节目推荐列表给目标用户,其具体步骤如下
(1) 、数据收集部件在IPTV系统中通过跟踪用户的观看时间、行为操作等
特征来获取代表用户兴趣的信息。
(2) 、将上述用户的行为特征信息由系统进行原始数据的处理,并代替用
户完成评价,然后根据用户评分信息和用户行为数据,整理得到"用户-项目"评分矩阵4附,力,评分的值从1到;x (即打分范围为1-5),该矩阵作为
用户兴趣模型存储在推荐引擎装置上,行代表用户,列代表项目,矩阵中的 元素值代表该行用户对该列项目的喜爱程度,喜爱程度设置为5档,分别对 应为①、很不喜欢,②、比较不喜欢,③、 一般,④、比较喜欢,⑤、很
喜欢。若用户对某项目没有评价过,那么在评分矩阵中设置为o。
(3) 、通过注册时用户填写的资料来收集用户信息来创建用户属性集(user profile)。比如包括年龄、性别、职业、自我描述等。然后采用中文分词技 术将用户填写的资料分解成一关键字集。例如某用户的注册信息如下
姓名张小二性别男职业软件工程师年龄27 (青年)爱好: 旅游,摄影,唱歌自我性格描述开朗,喜爱交际。
对上述信息所分解所得的关键字集将为{男,软件,工程师,青年,旅游,
摄影,唱歌,开朗,交际K这里我们将每个用户的关键字集用P"表示。
(4) 、当目标用户"到达时,扫描评分矩阵AW"),得到"已评分项目集合
^,对每个项目^L,在W(n)中找到对应的w';推荐引擎根据"用户-项目" 评分矩阵^ ,")和所有用户的人口属性关键字集,采用目标用户"和其他用
户"的相似度计算形成用户相似度矩阵S^ '—,在相似度计算中引入人口 属性关键字集,计算过程如下
I )、计算用户i和用户j之间的共同关键字^^h
假设,q/^表示用户i的关键字集合,F^^表示用户j的关键字集合。 则有
假设z表示所有关键字的集合,所得到的^"^ 为一系列关键字集合
6II )、计算^^ 中每个关键字^的权重巧所构成的向量 &"%=(7^,7^2,.."7^),其中
^x表示关键字^对两用户相似度影响的大小,^《越大,则表示^对两用户
相似度的影响越大。其中,表示关键字^在所有用户属性关键字集合中出现
的次数,m^z表示在所有用户属性关键字集合中出现最多的关键字所出现的 次数,艮卩maXz=M"x{V/Jl^"x&w^Z}。也就是说,如果一个关键字W非
常普遍,几乎每个用户属性关键字集合中都有,那么其^《越小。反之两用户 的F^、中某个关键字W在所有用户的;^y^集中出现的频率相当小,那么
其巧则比较大。极端情况,如果某关键字^在每个用户^^e集中都出现,
则其T《将为0。
III) 、根据^气—巧,巧,…'巧)得到计算相似度^A^,公式如下
IV) 、将5^*^与传统协同过滤计算出的相似度&>"。~进行融合
由于在用户评分非常少的情况下传统的协同过滤产生的推荐精度都很
差,因此在新用户评分非常少的时候,我们依然可以使用&^Ww"。使用如下 公式-
/ISVwTVe, (1—/1)S/w Cq/ 57", =-^-^
jV
^是用户已评分过的项目的数量,^为系统设定值,表示在用户评分项目数
量达到多少以前均考虑使用用户人口统计信息。
(5)、根据上述目标用户"与其他用户间的相似度大小并排序,找到与目
7标用户"最相似的前^个最近邻居,形成最近邻居集^"',^"2,…,^^],使得 (",^W7)〉w'附(a, Aw22 )> ..> (a, )
(6)、扫描Aw,"),找到用户"未评分的项目集合C,针对活动用户"每个
未评分的项目A预测用户"对项目J的评分,采用如下公式对每个"T。'计算
预测评分值;
—》/w (", — ) x (i — j - )
尸。"=& + ^-^- (2)
计算出的用户"对所有未评分项目的预测评分,将其按照从大到小进行排序,
选取评分值最大的前^个项目组成推荐列表RecList (N)给当前活动用户"。
权利要求
1、一种引入基于人口属性关键字向量的协作过滤推荐方法,其特征在于IPTV节目的界面上,提供用户评分的可视化菜单,并根据终端机顶盒传来的用户观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户,其具体步骤如下a)、收集用户人口属性信息和自我描述信息;b)、收集用户对项目的评分数据形成用户-项目评分矩阵A(m,n);c)、使用中文分词技术和关键字匹配寻找每个用户所拥有的关键字集合;d)、计算目标用户和其他用户之间的关键字集合之间的交集;e)、计算目标用户和其他用户之间的共同评分项目;f)、根据d、e步骤的结果计算出目标用户和其他用户之间的相似度;g)、选取相似度最大的K个用户作为其最近邻居集;h)、根据最近邻居集对目标用户未评分项目来预测评分并排序;i)、将预测评分最大的前N个项目作出推荐列表给目标用户。
2、 根据权利要求1所述的协作过滤推荐方法,其特征在于所述"用户-项目"评分矩阵^^,";),以用户评分信息和用户行为数据进行矩阵排列,行代表用户,列代表项目,矩阵中的元素值则代表该行用户对该列项目的喜爱 程度。
3、 根据权利要求1所述的协作过滤推荐方法,其特征在于所述使用中文 分词技术和关键字匹配寻找每个用户所拥有的关键字集合是在用户每次注册 以及更新个人信息时使用。
4、 根据权利要求1所述的协作过滤推荐方法,其特征在于所述目标用户 和其他用户间的相似度是根据人口属性相似度和用户评分相似度混合后共同 计算得到的。
全文摘要
本发明公开了一种引入基于人口属性关键字向量的协作过滤推荐方法,特点是IPTV节目的界面上,提供用户评分的可视化菜单,并根据终端机顶盒传来的用户观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户。本发明能够有效解决以往推荐系统所存在的无法对新用户产生推荐的问题,并能很好的提高对评分稀疏的用户的推荐精度。
文档编号H04N7/173GK101489107SQ20091004565
公开日2009年7月22日 申请日期2009年1月21日 优先权日2009年1月21日
发明者磊 任, 何克勤, 夏薇薇, 燕 杨, 欣 林, 樑 贺, 邓双义, 天 陈, 顾君忠, 马天龙 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1