一种个性化信息推荐的方法

文档序号:7700748阅读:170来源:国知局
专利名称:一种个性化信息推荐的方法
技术领域
本发明涉及无线互联网技术领域,尤其涉及一种个性化信息推荐的方法。
背景技术
随着互联网技术的快速发展,使得海量的信息涌现在大家面前,我们已然进入了 一个信息爆炸的时代。在此背景下,一方面用户越来越不容易从中发现自己感兴趣的内容, 另一方面也使得大量的信息无人问津,无法被普通用户所获取。同样,在通过手机终端访问 的无线互联网,已经实现了和互联网的互通,自然也面临着相同的问题。搜索引擎技术是目前解决信息过剩的常用方法,搜索引擎技术通过网络爬虫遍历 收录互联网上的海量数据,建立索引并进行序列化存储,然后利用前端搜索页面,对用户输 入的关键词进行中英文分词处理和匹配检索,而后将符合条件的信息内容按照一定的排序 算法进行展现。该技术方案存在以下缺点1、需要用户主动输入搜索关键词,普通用户不会使用复杂的检索条件;2、很多情况下检索出来的信息内容依然是大量的,需要用户进行二次或多次的重 复检索;3、无法定位和分析用户的历史行为,也不能分析用户的使用偏好;4、同样的搜索关键词只能呈现给所有用户一样的排序结果,无法针对不同用户的 兴趣爱好提供相应的服务。

发明内容
本发明的目的在于提出一种个性化信息推荐的方法,能够自动记录分析用户行 为,挖掘用户属性及偏好,实现了用户属性和信息内容的匹配,并主动推荐给用户。为达此目的,本发明采用以下技术方案一种个性化信息推荐的方法,适用于无线互联网,包括以下步骤A、手机上的行为记录模块记录用户访问无线互联网的行为,并发送给服务器;B、对用户访问的页面的内容进行分析,得到用户感兴趣的页面集;C、对用户访问页面的行为进行分析,得到用户对页面的兴趣度;D、将所述感兴趣的页面集与页面的兴趣度进行结合,建立用户兴趣模型;E、对用户项矩阵进行维数简化,并计算项集相似性,产生推荐的个性化信息。步骤B进一步包括以下步骤根据用户的浏览日志记录,得到用户的浏览历史页面的地址;从服务器中获取地址对应的页面,作为浏览内容兴趣描述的数据源;从页面内容抽取元数据,对页面文档进行文本特征表示,建立用户兴趣矩阵。建立文档集合D= W1, d2,…,dn},其中文档Cli采用向量空间模型表示为Cli = KT1, W1),(T2, W2),…,(Tn, ffn)},n为文档Cli特征向量的个数,Ti为文档Cli的第i个特征
3向量,Wi为文档Cli中Ti的权值。还包括以下步骤将文本分词,由特征词作为向量的维数来表示文本,相对词频采用以下公式 还包括以下步骤采用以下公式计算两个特征向量之间相似性的相似度 其中,C (X,Y)表示页面X与Y的相似度,Xi与Yi表示X与Y对应的特征词的权值。步骤C中,用户访问页面的行为包括用户对页面的浏览时间和翻页/拉动滚动条 的次数。步骤E中,采用单值分解方法对用户项矩阵进行维数简化。步骤E中,通过产生最近邻居集和相应的top-N推荐集,产生推荐的个性化信息。步骤E中,采用以下公式计算用户的兴趣度,predu, t = U,+TS1/2(u) · S172D' (t),其中 U,是用户 u 的平均评估值。采用了本发明的技术方案,通过手机终端软件记录、分析用户行为,深度挖掘用户 属性,总结用户使用偏好,建立用户属性与信息内容之间的关联关系,综合使用多种推荐算 法,从而可以进行个性化推荐,即向不同的用户推荐不同的各自感兴趣的信息内容,实现了 依据用户属性自动进行满足用户偏好的个性化信息过滤和内容推荐,极大的节省了用户的 信息检索时间,是一个解决目前信息过剩的有效方法,具有重要的社会应用价值。


图1是本发明具体实施方式
中个性化信息推荐的流程图。
具体实施例方式下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。个性化推荐引擎由三个部分组成收集用户信息的行为记录模块,分析用户喜好 的模型分析模块和推荐算法模块。行为记录模块负责记录用户的喜好行为,例如浏览、下 载、订阅、问答、评分、购买等,其中的问答和评分的信息相对容易采集,然而很多用户不愿 意向系统提供这些信息,那么就需要通过其他方式对用户的行为进行分析,例如浏览、下 载、购买、订阅等行为。通过这些用户的行为记录分析用户的潜在偏好产品和喜好程度,这 就是模型分析模块所要实现的工作。模型分析模块的功能能够对用户的行为记录进行分 析,建立合适的模型来描述用户的喜好信息。最后是推荐算法模块,利用后台的推荐算法, 实时的从内容库中筛选出用户感兴趣的信息和产品进行推荐。其中,推荐算法模块是推荐 系统中最为核心的部分。图1是本发明具体实施方式
中个性化信息推荐的流程图。如图1所示,该个性化信息推荐的流程包括以下步骤步骤101、手机上的行为记录模块记录用户访问无线互联网的行为,并发送给服务行为记录模块实现相对简单,它通过安装在手机上的终端软件记录用户的浏览、 订阅等行为,并直接传输至服务器进行存储。通过手机终端软件采集用户行为有着先天的 优势,在这里,可以实现用户的自动登录和身份认证,也就是说我们很容易知道来的用户是 谁。而在PC的浏览器上大多数用户放弃了输入用户名和密码登录,这样显然服务器不知道 来的是谁,自然也就无法进行行为记录和分析。步骤102、根据用户的浏览日志记录,得到用户的浏览历史页面的地址;从服务器 中获取地址对应的页面,作为浏览内容兴趣描述的数据源。用户兴趣模型描述所基于的web浏览内容是指用户浏览页面的内容信息,它被用 于基于内容的聚类分析。这些页面的内容信息主要来源于web服务器端,首先根据用户的 浏览日志记录,得到单一用户的浏览历史页面URL,然后从数据库服务器中取出这些URL对 应的web页面,作为对浏览内容兴趣描述的数据源。步骤103、从页面内容抽取元数据,对页面文档进行文本特征表示,建立用户兴趣 矩阵。与数据库中的结构化数据相比,web文档具有有限的结构,即使具有一些结构,也 是着重于格式而非文档内容。此外,文档的内容是人类所使用的自然语言,计算机很难处理 其语义。Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这 就需要对文本进行预处理,抽取代表其特征的元数据,作为文档的中间表示形式。我们采用 近年来应用较多且效果较好的特征表示法向量空间模型(Vector Space ModelVSM)法。 在VSM中,将文本文档看成由一组词条(T1, T2,…,Tn)构成,对于每一词条Ti,根据其在文 章中的重要程度赋予一定的权重W”因此,所有用于挖掘的页面文档都可以用词条特征矢 M ((TijW1), (T2, W2),…,(Tn,Wn)}表示。要将文本表示为向量空间中的一个向量,就先要 将文本分词,由这些特征词作为向量的维数来表示文本,最初的向量表示完全是0、1形式, 即,如果文本中出现了该词,那么文本向量的该维为1,否则为0。这类方法无法体现这个词 在文本中的作用程度,所以0、1逐渐被更精确的词频代替,词频分为绝对词频和相对词频。 绝对词频,即使用词在文本中的出现频率表示文本;相对词频为规一化的词频,其计算方法 主要运用TF-IDF公式,目前存在多种TF-IDF公式,我们可采用一种比较普遍的TF-IDF公 式 我们把用于挖掘的页面文档作为一个文档集合。这样对于文档集合D= {di; d2,···,(! }中的任一文档屯,采用向量空间模型表示为Cli = ((TijW1), (T2, W2),…,(Tn, WnM。其中η为文档Cli特征向量的个数,Ti为文档Cli的第i个特征向量,Wi为文档Cli中Ti 的权值。采用向量空间模型表示的数据,必须选择计算两个特征矢量之间相似性的相似度 函数。现在常用的方法有欧几里德距离、曼哈坦距离和夹角余弦函数。我们在这里采用夹 角余弦函数。但是在计算时可能会遇到用于比较的两个特征矢量长度不一样,我们可以采
5用添零补齐的方法使两者长度一致。夹角余弦函数如下 其中,C (X,Y)表示页面X与Y的相似度,Xi与Yi表示X与Y对应的特征词的权值。 页面X与Y值越相似,C(x,Y)值越大;反之则越小。步骤104、对用户访问页面的行为进行分析,得到用户对页面的兴趣度。研究表明,用户很多浏览行为都能很好地反映用户的兴趣。用户的很多动作都能 暗示用户的喜好,如查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前 进、后退等。另外用户访问时的停留时问、访问次数、保存、编辑、修改等动作也能够揭示用 户兴趣。这些行为究竟怎样反映用户的兴趣,我们需要对其进行量化估算。从表面上看能揭示用户对网页P兴趣度d(P)的浏览行为很多,但我们分析发现, 起关键作用的是两种行为在网页P上的浏览时间t(p)(简称T行为)和翻页/拉动滚动 条的次数V(P)(简称V行为)。原因有三1)查询、编辑、修改等行为必定增加网页浏览时 间和翻页次数,因此能够通过后者间接的得到反映。2)执行了保存、标记书签等动作的页 面,若真为用户关心,通常以后会被多次调出来重新浏览,故可体现为访问次数。3)点击鼠 标动作不被考虑,因为简单动作不能有效揭示用户兴趣。为了找到T,V与网页兴趣度的定量关系,通过分析和实验,我们采用一元线性回 归方法作为网页兴趣建模分析的工具。线性回归分析方法是在分析研究对象变化趋势的基 础上建立函数模型,从而研究对象之间存在的相互依存关系。步骤105、将感兴趣的页面集与页面的兴趣度进行结合,建立用户兴趣模型。Web浏览内容分析,就是采用Web聚类分析方法对用户已浏览的Web页面集进行内 容聚类,得到用户感兴趣的页面集;Web浏览行为分析是对用户浏览页面时的行为信息进 行分析,得到用户对单一页面的兴趣浓度。将二者相结合,就得到了用户感兴趣的主题类别 及对每类主题的兴趣度,即用兴趣分类树表示的用户兴趣模型。步骤106、采用单值分解方法对用户项矩阵进行维数简化。通常所用的协同过滤技术的用户项矩阵的数据表述方法所带来的稀疏性严重 制约了推荐效果,在系统较大的情况,它既不能精确地产生推荐集,又忽视了数据之间 潜在的关系,有必要对这种矩阵表示方式做优化,我们采用单值分解(singular value decomposition, SVD)技术对用户项矩阵进行维数简化。单值分解是一种矩阵分解技术,它可将一个mXn的矩阵分解为3个矩阵R = T0S0D' 0,S0 = diag( σ ” · · ·,σ r)其中,σ i彡…彡彡0,Ttl和Dtl分别是mXr和nXr的正交矩阵(TJQ,= I, DQDQ’= I),r是矩阵R的秩(r彡min(m,n))。Stl是一个rXr的对角矩阵,所有的σ r大于 0并按照大小顺序排列,称为单值(singularvalue)。通常对于矩阵R = TtlStlD'『!;力和 Dtl必须是满秩的。但单值分解有一个优点,它允许存在一个简化的近似矩阵。对于Stl,保留 k个最大的单值,将其余的用0来替代,这样,我们就可以将Stl简化为仅有k个单值的矩阵 (k < r)。因为引入了 0,可以将Stl中的值为0的行和列删除,得到一个新的对角矩阵S,如 果矩阵Ttl和Dtl据此简化得到矩阵T和,那么有重构的矩阵Rk = TSD', Rk ^ R0单值分解能够生成初始矩阵R的所有秩等于k的矩阵中与矩阵足最近似的一个。本方案将单值分解应用到推荐系统中,首先将矩阵R中评估值为0的稀疏项用相 关列的平均值代替,即项的平均评估值。接着将矩阵每行规范化为相同长度,用— ’代 替原来的(r/是相关列的项的平均评估值).进行规范化的目的是因为选择不同数量项 的用户对相似度计算结果的影响不同,容易造成偏差,规范化为相同长度后,选择项数目较 多的用户对相似度计算结果的影响降低了。经过这样的处理,我们得到矩阵R’,这是算法的 输入矩阵,由此,得到我们的推荐算法输人矩阵R’、用户U、与之对应的已选项集Iu。输出相关矩阵T,S,D0过程①用单值分解方法分解矩阵R’得到矩阵I;、S0和队。②将Stl简化为维数为k的矩阵,得到S (k < r,r是矩阵R的秩)。③相应简化矩阵Ttl和Dtl得到T,D0④计算S的平方根得到S172。⑤计算两个相关矩阵TS1/2,S172D'。TS172是mXk的矩阵,它描述的是用户在k维空间中的关系,即用户对k个元一项 的评估值。可以理解为用户矩阵,矩阵S"2D’大小为nXk,可以理解为相应的项矩阵。步骤107、通过产生最近邻居集和相应的top-N推荐集,产生推荐的个性化信息。采用向量空间方法计算相似性,这里分析的对象是经过SVD分解后的mXk矩阵 TS"2,前面我们提到它描述的是用户在k维空间中的关系,因为经过单值分解,大大降低了 它的数据稀疏性,可以产生更精确的最近邻居集和相应的top-N推荐集。步骤108、除了 top-N推荐集外,还可以计算用户u对任意项t的兴趣度,因为两个 矩阵TS"2,S172D'的乘积就是规范化后的评估值,则对矩阵TS"2的第u行和矩阵S"2D’的第 t列的内积反规范化,就得到实际的评估值,如下所示predu,t = U,+TS"2(U) · S172D' (t)U’是用户u的平均评估值。基于维数简化的推荐算法较好地解决了数据稀疏性的问题,同时,因为k《n,计算 消耗有相应的降低,也有利于解决扩展性问题。与协同过滤技术一样,基于维数简化的算法 也是面向用户的算法,可以提供真正的带有个性化色彩的推荐结果。本具体实施方式
可以使用手机终端的先天优势,自动记录分析用户行为,挖掘用 户属性及偏好,实现了用户属性和信息内容的匹配,并主动推荐给用户。用户不再需要输入 关键词,也不再需要在海量的信息里大海捞针一般的寻找自己想要的内容。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖 在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
一种个性化信息推荐的方法,适用于无线互联网,其特征在于,包括以下步骤A、手机上的行为记录模块记录用户访问无线互联网的行为,并发送给服务器;B、对用户访问的页面的内容进行分析,得到用户感兴趣的页面集;C、对用户访问页面的行为进行分析,得到用户对页面的兴趣度;D、将所述感兴趣的页面集与页面的兴趣度进行结合,建立用户兴趣模型;E、对用户项矩阵进行维数简化,并计算项集相似性,产生推荐的个性化信息。
2.根据权利要求1所述的一种个性化信息推荐的方法,其特征在于,步骤B进一步包括 以下步骤根据用户的浏览日志记录,得到用户的浏览历史页面的地址;从服务器中获取地址对应的页面,作为浏览内容兴趣描述的数据源;从页面内容抽取元数据,对页面文档进行文本特征表示,建立用户兴趣矩阵。
3.根据权利要求2所述的一种个性化信息推荐的方法,其特征在于,建立文档集合D= Id1, d2,…,dn},其中文档屯采用向量空间模型表示为Cli = ((TijW1), (T2, W2),…,(Tn, WnM,η为文档Cli特征向量的个数,Ti为文档Cli的第i个特征向量,Wi为文档Cli中Ti的权 值。
4.根据权利要求3所述的一种个性化信息推荐的方法,其特征在于,还包括以下步骤将文本分词,由特征词作为向量的维数来表示文本,相对词频采用以下公式
5.根据权利要求3所述的一种个性化信息推荐的方法,其特征在于,还包括以下步骤采用以下公式计算两个特征向量之间相似性的相似度 ,其中,c(x,Y)表示页面X与Y的相似度,Xi与Yi表示X与Y对应的特征词的权值。
6.根据权利要求1所述的一种个性化信息推荐的方法,其特征在于,步骤C中,用户访 问页面的行为包括用户对页面的浏览时间和翻页/拉动滚动条的次数。
7.根据权利要求1所述的一种个性化信息推荐的方法,其特征在于,步骤E中,采用单 值分解方法对用户项矩阵进行维数简化。
8.根据权利要求7所述的一种个性化信息推荐的方法,其特征在于,步骤E中,通过产 生最近邻居集和相应的top-N推荐集,产生推荐的个性化信息。
9.根据权利要求8所述的一种个性化信息推荐的方法,其特征在于,步骤E中,采用以 下公式计算用户的兴趣度,predu, t = u’ +TS1/2(u) · S172D' (t),其中 U’ 是用户 u 的平均评估值。
全文摘要
本发明公开了一种个性化信息推荐的方法,适用于无线互联网,手机上的行为记录模块记录用户访问无线互联网的行为,并发送给服务器;对用户访问的页面的内容进行分析,得到用户感兴趣的页面集;对用户访问页面的行为进行分析,得到用户对页面的兴趣度;将所述感兴趣的页面集与页面的兴趣度进行结合,建立用户兴趣模型;对用户项矩阵进行维数简化,并计算项集相似性,产生推荐的个性化信息。采用了本发明的技术方案,能够自动记录分析用户行为,挖掘用户属性及偏好,实现了用户属性和信息内容的匹配,并主动推荐给用户。
文档编号H04L29/08GK101923545SQ20091008647
公开日2010年12月22日 申请日期2009年6月15日 优先权日2009年6月15日
发明者陈豪 申请人:北京百分通联传媒技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1