基于隐私反馈预测移动用户基础属性的方法

文档序号:6540350阅读:237来源:国知局
基于隐私反馈预测移动用户基础属性的方法
【专利摘要】本发明通过分析移动用户的浏览内容,预测用户的年龄和性别等基础属性。从用户的浏览日志出发,将用户的浏览行为分类,得出用户行为偏好点击矩阵,采用LFM方法得到用户的关系反馈矩阵。分析用户的浏览行为和用户之间的关系,从而通过用户的浏览行为预测用户的基础属性。采用贝叶斯网络模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。本发明实施例的有益效果是,通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测,其中对年龄的预测能够达到85%以上的准确率,对性别的预测能够达到92%以上的准确率。
【专利说明】基于隐私反馈预测移动用户基础属性的方法

【技术领域】
[0001]本发明涉及互联网技术,具体涉及基于隐私反馈预测移动用户基础属性的实现方法。

【背景技术】
[0002]在网络应用中用户的基础属性扮演着重要的角色,用户基础属性预测就是通过分析用户的浏览行为和搜索内容来预测用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等用户的基础属性。随着web2.0的到来和移动互联的飞速发展,用户的基础属性在网络应用中越来越重要,而与之相关的研究内容成为研究的一个热点。例如Google提供的个性化搜索服务,根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表,以为用户提供个性化的搜索服务。
[0003]对用户基础属性预测的研究主要集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄,采取的方法主要是基于文本的分类方法,如SVM文本分类。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系,已实现对用户的基础属性预测目的,采取的方法一般是统计分析和关联规则分析。然而,不管是基于搜索内容关联分析和还是基于习惯的分类预测都不能达到理想的效果,召回率和准确率依然很低。


【发明内容】

[0004]本发明的目的是提供基于隐私反馈预测移动用户基础属性的实现方法。使用本发明提供的实施例,可以通过分析移动用户的浏览行为对用户的基础属性进行预测。
[0005]本发明通过分析移动用户的浏览内容,预测用户的年龄和性别等基础属性。从用户的浏览日志出发,根据用户浏览的网页的内容将网页归类,用户对该类网页的一次浏览视为用户对该类网页的一次投票,从而得到用户的网页类别点击矩阵。通过用户的ID将用户的基础属性和点击浏览请款关联起来,分析用户的浏览行为和用户之间的关系,从而通过用户的浏览行为预测用户的基础属性。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。本发明将每一位用户的浏览记录视为一个文本,采用朴素贝叶斯对用户的基础属性建模,实现对用户的基础属性进行预测。但是,用户的浏览的网页类别往往是很多的,而用户的兴趣爱好在一段时间内是比较稳定的,因此为了解决数据的稀疏性和用户兴趣为的有限性之间的矛盾,我们采用隐私反馈的方法对我们的方法进行改进。基于朴素贝叶斯、隐私反馈和邻居模型算法提出并实现了基于隐私反馈预测移动用户基础属性的方法。
[0006]该方法的步骤包括:
[0007]1、爬取用户访问的URL的内容,通过关键字匹配将网页归类,得到(用户ID,网页类别)值对;
[0008]2、将(用户ID,网页类别)值对转化为用户的点击矩阵R,用TFIDF统计方法处理矩阵R;
[0009]3、通过关键字用户ID,将用户点击矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
[0010]4、计算出每个网页类别的先验概率;
[0011]5、对矩阵R做行归一化处理,采用SVD方法分解归一化之后的矩阵得到用户的隐私反馈矩阵P和网页类别的隐私反馈矩阵Q ;
[0012]6、结合网页类别的隐私反馈矩阵Q邻居模型得到网页类别的前N个邻居,并用邻居的先验概率修正该网页类别的先验概率;
[0013]7、利用朴素贝叶斯模型对用户的基础属性做出预测;
[0014]8、结合用户隐私反馈矩阵P和邻居模型得到用户的前M个邻居,用邻居的后验概率修正用户的后验概率,为测试样本做出最终预测;
[0015]9、输出对测试测试样本的预测结果
[0016]最后,实施本发明具有以下有益效果:
[0017]本发明实施例的有益效果是,通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测,其中对性别的预测能够达到80%以上的准确率,对性别的预测能够达到85%以上的准确率。

【专利附图】

【附图说明】
[0018]附图是本发明提出的基于隐私反馈预测移动用户基础属性的实现方法的算法流程。

【具体实施方式】
[0019]下面结合附图对本发明的【具体实施方式】进行描述,以便本领域的技术人员更好地理解本发明。
[0020]在本实施例中,如图所示,提供了本发明提出的方法的算法流程:
[0021]步骤101、爬取用户访问的URL的内容,通过关键字匹配将网页归类,得到(用户ID,网页类别)值对;
[0022]经过关键字处理,一条访问记录转化为一个(用户ID,网页类别)值对。
[0023]步骤102、将(用户ID,网页类别)值对转化为用户的点击矩阵R,用TFIDF统计方法处理矩阵R ;
[0024]统计由访问日志得到的(用户ID,网页类另Ij)值对,得到网页类别的总数n,将同一个用户访问的网页类别统计到一行,一次访问视为对该类网页的一次投票,多次访问则为多次投票,最后得到用户的点击矩阵,用TFIDF方法对点击矩阵做统计处理。
[0025]步骤103、通过关键字用户ID,将用户点击矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
[0026]用户的性别为男和女两类,用户的年龄为青少年(〈18岁)、少年(18-24)、青年(25-34)、中年(35-49)和老年(>50)五类。
[0027]步骤104、计算出每个网页类别的先验概率;
[0028]根据用户的点击矩阵和用户的基础属性,计算每个网页类别被相应基础属性用户访问的概率,即为该网页类别的先验概率。
[0029]步骤105、对矩阵R做行归一化处理,采用SVD方法分解归一化之后的矩阵得到用户的隐私反馈矩阵P和网页类别的隐私反馈矩阵Q ;
[0030]对归一化之后的点击矩阵做SVD分解,采用随机梯度下降法求解用户的隐私反馈矩阵P和网页类别的隐私反馈矩阵Q,在求解的过程中可以根据需要选着合适的迭代次数和数据维度K。
[0031]步骤106、结合网页类别的隐私反馈矩阵Q邻居模型得到网页类别的前N个邻居,并用邻居的先验概率修正该网页类别的先验概率;
[0032]将SVD分解之后的网页隐私反馈Q矩阵作为网页类别的向量模型,采用修正后的余弦相似性计算用户之间的相似性,得到网页类别的前T个邻居,用邻居的先验概率修正该网页类别的先验概率,用户朴素贝叶斯预测。
[0033]步骤107、利用朴素贝叶斯模型对用户的基础属性做出预测;
[0034]对每一个用户,根据访问的网页情况,采用贝叶斯公式,计算出用户属于各个基础属性类别的概率,即为用户的后验概率,根据极大似然思想,选择概率最大的类为用户对应基础属性的类别。
[0035]步骤108、结合用户隐私反馈矩阵P和邻居模型得到用户的前M个邻居,用邻居的后验概率修正用户的后验概率,为测试样本做出最终预测;
[0036]用户的隐私反馈矩阵P是用户在特定空间的隐私反馈,采用邻居模型基于用户的相似性得到用户的前M个邻居,根据邻居的后验概率修正自身的后验概率,为测试样本做出最终预测。
[0037]步骤109、输出对预测测试样本的预测结果。
[0038]对预测结果进行输出。
[0039]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本【技术领域】的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
【权利要求】
1.基于隐私反馈预测移动用户基础属性的方法:其特征在于,从手机用户浏览和搜索的日志出发,根据浏览的URL内容,按关键字将其归类,将一次用户的访问转化为(用户ID,网页类别)值对;将(用户ID,网页类别)转化为点击矩阵,用TFIDF统计方法处理点击矩阵;通过用户ID关联用户的基础属性,将用户的基础属性作为类标;计算出每个网页类别的先验概率;对点击矩阵做行归一化,采用SVD分解矩阵得到用户的隐私反馈矩阵和网页类别的隐私反馈矩阵;根据网页类别的隐私反馈矩阵的到网页类别的T个邻居,用邻居的先验概率修正网页类别的先验概率;利用朴素贝叶斯计算出用户所属各类的后验概率;结合用户的隐私反馈矩阵和邻居模型得出用户的N个邻居,根据邻居的后验概率修正用户所属各类的后验概率,将用户归类为后延概率最大的类并对用户基础属性做出预测。
【文档编号】G06F17/30GK104281635SQ201410092727
【公开日】2015年1月14日 申请日期:2014年3月13日 优先权日:2014年3月13日
【发明者】程红蓉, 夏勇, 秦臻 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1