一种基于邻居关系的移动用户基础属性预测方法

文档序号：6540337阅读：138来源：国知局

一种基于邻居关系的移动用户基础属性预测方法
【专利摘要】本发明通过分析移动用户的浏览内容，预测用户的年龄和性别等基础属性。从用户的浏览日志出发，将用户的浏览行为分类，得出用户的点击矩阵，采用SVD方法得到用户的关系反馈矩阵。分析用户的浏览行为和用户之间的关系，从而通过用户的浏览行为预测用户的基础属性。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理，年龄分段之后作为多分类问题处理。本发明实施例的有益效果是，通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测，其中对年龄的预测能够达到80％以上的准确率，对性别的预测能够达到85％以上的准确率。
【专利说明】
一种基于邻居关系的移动用户基础属性预测方法

【技术领域】
[0001]本发明涉及互联网技术，具体涉及一种基于邻居关系的移动用户基础属性预测方法的实现方法。

【背景技术】
[0002]在网络应用中用户的基础属性扮演着重要的角色，用户基础属性预测就是通过分析用户的浏览行为和搜索内容来预测用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等用户的基础属性。随着web2.0的到来和移动互联的飞速发展，用户的基础属性在网络应用中越来越重要，而与之相关的研究内容成为研究的一个热点。例如Google提供的个性化搜索服务，根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表，以为用户提供个性化的搜索服务。
[0003]对用户基础属性预测的研究主要集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄，采取的方法主要是基于文本的分类方法，如SVM文本分类。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系，已实现对用户的基础属性预测目的，采取的方法一般是统计分析和关联规则分析。然而，不管是基于搜索内容关联分析和还是基于习惯的分类预测都不能达到理想的效果，召回率和准确率依然很低。

【发明内容】

[0004]本发明的目的是提供基于邻居关系的移动用户基础属性预测方法的实现方法。使用本发明提供的实施例，可以通过分析移动用户的浏览行为对用户的基础属性进行预测。
[0005]本发明通过分析移动用户的浏览内容，预测用户的年龄和性别等基础属性。从用户的浏览日志出发，根据用户浏览的网页的内容将网页归类，用户对该类网页的一次浏览视为用户对该类网页的一次投票，从而得到用户的网页类别点击矩阵。从用户的点击矩阵得出用户的相似性矩阵，采用SVD方法分解用户的关系矩阵得到用户的关系反馈矩阵。拼接用户的点击矩阵和关系反馈矩阵。通过用户的ID将用户的基础属性和点击浏览请求关联起来，分析用户的浏览行为和用户之间的关系，从而通过用户的浏览行为预测用户的基础属性。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理，年龄分段之后作为多分类问题处理。
[0006]该方法的步骤包括:
[0007]1、爬取用户访问的URL的内容，通过关键字匹配将网页归类，得到(用户ID，网页类别)值对；
[0008]2、将(用户ID，网页类别)值对转化为用户的点击矩阵R ;
[0009]3、由用户的点击矩阵计算用户的相似性，得出用户的相似性矩阵；
[0010]4、对相似性做行归一化，采用SVD方法分解处理后的用户相似性矩阵，得到用户关系的隐私反馈矩阵；
[0011]5、合并点击矩阵和用户的关系隐私反馈矩阵；
[0012]6、通过关键字用户ID，将用户点击矩阵和用户的基础属性关联，将用户的基础属性设置为类标；
[0013]7、用训练数据训练SVM分类模型；
[0014]8、训练好的SVM模型分类预测测试样本；
[0015]9、输出对测试样本的预测结果
[0016]最后，实施本发明具有以下有益效果:
[0017]本发明实施例的有益效果是，通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测，其中对性别的预测能够达到80%以上的准确率，对性别的预测能够达到85%以上的准确率。

【专利附图】

【附图说明】
[0018]附图是本发明提出的一种基于邻居关系的移动用户基础属性预测方法的算法流程。

【具体实施方式】
[0019]下面结合附图对本发明的【具体实施方式】进行描述，以便本领域的技术人员更好地理解本发明。
[0020]在本实施例中，如图所示，提供了本发明提出的方法的算法流程:
[0021]步骤101、爬取用户访问的URL的内容，通过关键字匹配将网页归类，得到(用户ID，网页类别)值对；
[0022]经过关键字处理，一条访问记录转化为一个(用户ID，网页类别)值对。
[0023]步骤102、将(用户ID，网页类别)值对转化为用户的点击矩阵R ;
[0024]统计由访问日志得到的(用户ID，网页类另Ij)值对，得到网页类别的总数n，将同一个用户访问的网页类别统计到一行，一次访问视为对该类网页的一次投票，多次访问则为多次投票，最后得到用户的点击矩阵。
[0025]步骤103、计算出用户的相似性矩阵；
[0026]从用户的点击矩阵出发，用户对某一类网页的点击视为用户在该方面的属性，因此点击矩阵的每一行视为一个用户在不同网页类别的属性分布，两个用户之间采用皮尔森相关系数计算出用户之间的相似度，最终得到用户的相似性矩阵S。
[0027]步骤104、对矩阵S做行归一化处理，采用SVD方法分解归一化之后的相似矩阵得到用户隐性关系反馈矩阵P;
[0028]对归一化之后的相似性矩阵做SVD分解，采用随机梯度下降法求解用户隐性关系反馈矩阵P，在求解的过程中可以根据需要选着合适的迭代次数和数据维度K。
[0029]步骤105、按行拼接点击矩阵和用户隐性关系反馈矩阵；
[0030]点击矩阵R和用户隐性关系反馈矩阵P具有相同的行数，点击矩阵的每一行代表用户的访问偏好分布，用户隐性关系反馈矩阵的每一行反应用户的特定关系，将两个矩阵按行拼接起来，作为用户的空间向量的元，即用户的属性值。
[0031]步骤106、通过关键字用户ID，将用户点击矩阵和用户的基础属性关联，将用户的基础属性设置为类标；
[0032]用户的性别为男和女两类，用户的年龄为青少年(〈18岁)、少年(18-24)、青年(25-34)、中年(35-49)和老年(>50)五类。
[0033]步骤107、将数据随机等分为训练集和测试集，训练集用于训练SVM分类模型；
[0034]将数据随机等分，一份用于训练，一份用于测试，SVM采用RBF核函数，对于性别和年龄分别训练SVM模型。
[0035]步骤108、用训练好的SVM模型预测测试集；
[0036]用训练的SVM性别分类模型和年龄分类模型分别测试测试集的数据。
[0037]步骤109、输出对预测测试样本的预测结果。
[0038]对预测结果进行输出。
[0039]尽管上面对本发明说明性的【具体实施方式】进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于【具体实施方式】的范围，对本【技术领域】的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。
【权利要求】
1.一种基于邻居关系的移动用户基础属性预测方法:其特征在于，从手机用户浏览和搜索的日志出发，根据浏览的URL内容，按关键字将其归类，将一次用户的访问转化为(用户ID，网页类别)值对；将(用户ID，网页类别)转化为点击矩阵；从用户的点击矩阵出发计算出用户的相似性，得到用户的相似性矩阵；采用SVD分解用户相似度矩阵，得到用户隐私关系反馈矩阵；按行拼接用户点击矩阵和用户隐性关系反馈矩阵，将用户的属性扩展为用户访问偏好和邻居关系；通过用户ID关联用户的基础属性，将用户的基础属性作为类标；将数据随机等分为训练集和测试集，对性别和年龄分别训练SVM预测模型，SVM模型中采用RBF核函数；用训练的模型预测测试集，并对去其结果输出。
【文档编号】G06F17/30GK104281634SQ201410092544
【公开日】2015年1月14日申请日期:2014年3月13日优先权日:2014年3月13日
【发明者】秦臻, 夏勇, 程红蓉申请人:电子科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：秦臻;夏勇;程红蓉
技术所有人：电子科技大学
我是此专利的发明人

上一篇：用于dqs自动门控的电路和方法
上一篇：一种基于实体及特征的搜索排序改进算法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。