一种基于手机上网行为的用户性别预测方法与流程

文档序号:11920822阅读:263来源:国知局
本发明属于计算机、通信
技术领域
,具体涉及一种基于手机上网行为的用户性别预测方法。
背景技术
:随着大数据的发展,许多的网络应用如电子商务网站、搜索引擎等,越来越关心用户的基础属性信息,通过构建用户的画像,为后续对用户进行个性化的服务提供了有力的支持。亚马逊的个性化商店就是个性化服务很好的例子。亚马逊购物商城可以根据用户的浏览记录和购买记录给用户推荐相应的商品促使用户消费,或者通过分析购买过相同或相似产品的其他用户的购买行为为用户推荐商品。在互联网公司的广告业务不断增长的同时,许多的互联网公司也在为用户提供个性化的广告。百度推广会根据用户的搜索历史关键字给用户提供不同的广告业务。很多的公司会根据用户的历史行为分析用户的兴趣模型,以便提供更好的个性化服务。刻画用户画像包括刻画用户的人口统计信息,地理位置信息,搜索访问兴趣爱好等。刻画用户画像其中一个非常重要的部分就是用户特征识别。用户特征识别在个性化推荐、可疑用户辨识等方面都发挥着重要的作用。比如在营销方面,确定了用户的个人特征(如年龄、性别等),就可以针对该用户进行有目的的营销。相比于盲目的撒网式营销,精准营销的成功率将更高,能够创造更大的价值。同样,公共安全已经成为当今社会一个不容忽视的问题,一些犯罪分子往往会隐藏行踪,不在网络等地方留下任何痕迹,但手机作为不可或缺的工具,接打电话、基站切换时就能暴露用户的位置,同时用户使用的哪些APP以及上网习惯等信息也能帮助描绘该用户的特征,帮助相关执法机构缩小探查范围,锁定目标。然而用户的基础属性信息如性别、年龄、收入等在一般情况下是不容易得到的,因为这些信息对用户而言是很敏感的,人们不愿意公开这类个人隐私属性。因此,用户基础特征的识别是近几年研究的热点。随着信息技术的发展和智能手机的普及,智能手机应用呈现指数增长,基于位置的服务也越来越多。这些基于位置的网络应用准许用户发布自己的地理位置信息、搜索附近的人、分享个人的经历等,与此同时网络应用会为用户推荐用户所在地的特色商店、用户感兴趣的人或物,这些需要结合用户的地理位置信息、兴趣爱好以及个人基础属性信息。然而这些信息一般被视作用户隐私信息,很多的网络应用公司很难获得。尽管一些网络应用在用户注册时要求用户填写性别、出生年月、教育程度等相关信息,但是这些信息对用户比较敏感,因此很多用户根本不会填写这些相关信息或者填写错误的信息,这些不真实的信息对个性化推荐会有负作用。实际情况是大部分用户在注册时都没有填写相关的基础属性信息。对手机应用而言由于性别的差异,男性和女性使用的APP也不尽相同。不同属性的用户使用APP的频次不尽相同,但是,相同属性的用户偏爱的APP种类大致相同,因而同一属性的用户使用同一APP的频次大致相同。因此通过研究用户使用每一款APP的频次来预测用户的基础属性信息这个课题为预测用户未知信息提供了新的思路及方法。通过对现有技术的文献检索发现,早期的用户基础属性主要基于用户文本数据和语音数据根据每个人的行为习惯、写作风格等进行年龄及性别的基础属性判别。Eckert等利用社会语言学,通过研究用户的语言特征来推断用户的性别;Koppel等根据用户性别对一些作者的文字进行文本分类,发现在语言风格和文字内容方面,不同性别和年龄的作者之间都有较大的差异,据此他提出了Multi-ClassRealWinnow算法,根据作者的博客内容对作者的年龄和性别进行了分类,取得了较好的效果。目前,面向移动端上网行为数据的用户基础属性识别的研究相对较少。预测用户基础属性的方法主要基于传统的分类器方法。1、LR(逻辑回归)算法。该算法是一种分类方法,主要用于二分类。它的预测值只有两个,是或否。可以用它来做性别预测。该算法对自变量要求较严格,当模型中的自变量过多时,容易造成过拟合。2、朴素贝叶斯算法,该方法常用于文本分类。一般在文本分类中,首先应用TF-IDF分词算法来调整词语的权重,得到关于词语权重的矩阵,然后应用朴素贝叶斯算法来分类。针对非文本数据,该方法不太适用。中国专利申请201510027957.X公开了一种“基于智能手机流量数据的用户基础属性预测方法”,通过分析用户智能手机的流量数据,预测用户的年龄和性别等。其方法是分析用户手机上所有APP的流量精确使用情况,分析用户对每个APP流量的使用特征,并计算相应特征值。将所有APP流量特征值作为特征向量,通过用户ID将用户的基础属性和特征向量关联起来,分析智能手机流量数据与用户基础属性之间的关系,从而达到依据智能手机的流量数据预测用户基础属性的目的。采用SVM模型实现对用户的基础属性的分类预测。该方法由于要分析用户手机上所有APP的流量精确使用情况,分析数据量过大,将所有APP流量特征值作为特征向量会导致变量过多,从而造成特征不明显,分析预测的准确性低。技术实现要素:本发明的目的在于针对现有技术所存在的问题,提供一种简单易行、准确率高的基于手机上网行为的用户性别预测方法。本发明的技术方案如下:一种基于手机上网行为的用户性别预测方法,包括如下步骤:(1)统计用户在一段时间内点击各APP的次数;(2)将统计数据整理成矩阵形式;(3)对所述矩阵进行降维处理;(4)将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;(5)用测试数据集来验证预测模型,并计算准确度。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(2)中所述矩阵的行表示每个用户的记录,列表示用户使用每个APP对应的次数。进一步,如上所述的基于手机上网行为的用户性别预测方法,在步骤(3)中,由于所述矩阵为稀疏矩阵,先删除数据的缺失率大于99%的APP,然后再对所述矩阵进行降维处理;降维处理采用主成分分析法。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(4)中在划分训练数据集和测试数据集时,采取随机划分的方法并针对用户不同性别划分一定比例的数据作为训练数据集,以避免有些属性由于随机划分没有测试数据。更进一步,随机划分数据过程中要保证男性和女性数据中分别有80%的数据作为训练数据集,20%的数据作为测试数据集。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(4)中采用RandomForest随机森林算法来建立预测模型;所述随机森林算法是一个包含多个决策树的组合分类器,其输出的类别由多个树输出的类别的众数决定;在模型建立的过程中,通过不断的调整算法参数(如调整CART树的数量)来提高模型预测结果的准确度。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(5)中所述的准确度可以由准确率、精确度、召回率来表示,所述准确率定义为正确预测的人数和实际预测人数的比例;所述精确度定义为该类别正确预测人数和预测为该类别人数的比例;召回率定义为该类别正确预测的人数和该类别实际人数的比例。本发明的有益效果如下:本发明提供的一种根据用户手机上网数据来预测用户基础属性的方法,解决了由于变量过多,造成特征不明显的问题,并且可以有效的避免过拟合现象。同时,能够针对非文本数据来预测用户的基础属性,如性别、年龄。该方法简单易行,且准确率较高。根据用户使用的APP的次数来预测用户的性别,对后续根据不同性别用户的偏好进行相关的个性化服务推荐提供了支持。附图说明图1为本发明基于手机上网行为的用户性别预测方法流程图。具体实施方式下面结合附图和实施例对本发明进行详细的介绍。本发明提出了一种基于手机端用户访问APP的次数数据的用户性别预测方法,可以有效的利用非文本数据即用户上网行为数据来预测用户的性别。本发明研究了在移动网络环境下,用户访问APP产生的上网行为数据,利用数据挖掘算法来预测用户的性别。对用户使用的所有APP进行记录,当用户在移动网络下点击一次APP,则产生一条上网日志,统计用户在一段时间内点击每个APP的次数,接着对所有用户进行类似统计,然后对数据进行汇总,将数据写成矩阵形式,行表示每个用户在一段时间内点击各个APP的次数,列对应每个APP,由于APP的种类非常的多,因而该矩阵是个稀疏矩阵。本方案所述的基于手机上网行为的用户性别预测方法主要包括两个部分:数据预处理部分和模型构建及预测部分;其中:所述数据预处理部分,包括对上述的稀疏矩阵进行标准化处理,然后对数据进行降维,在该阶段主要采用主成分分析方法对数据进行降维。降低了数据的冗余度。所述模型构建及预测部分,将经过预处理的数据作为训练数据来训练模型,得到用于预测用户性别的预测模型。然后利用真实数据来验证模型,并计算准确度。在该阶段主要利用RandomForest随机森林算法来训练模型,该算法是数据挖掘算法中的常见算法,属于公知技术,本领域的技术人员完全可以实现。再利用该模型来预测真实的用户数据,并计算准确度。当模型准确率通过时,可以利用该模型来预测用户的性别。总的方法流程如图1所示,包括如下步骤:(1)根据用户IMEI号统计用户在一段时间内点击各APP的次数;(2)将统计数据整理成矩阵形式;(3)对所述矩阵进行降维处理;(4)将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;(5)用测试数据集来验证预测模型,并计算准确度。实施例下面以具体的用户性别的预测为例,对本发明进行进一步的说明。(一)数据预处理阶段本阶段主要以数据预处理为主。1、通过系统中APP规则库的识别方法,对用户使用的APP进行识别。分析用户的上网日志,对数据进行清洗,删除不必要的字段。根据用户的上网日志,统计用户在一天内各时段使用APP的次数。由于用户的性别属于隐私信息,有些用户愿意公开,有些不愿意公开,所以本发明就是要通过用户上网日志数据来预测相应用户的性别,对该信息进行补全。2、将统计后的数据整理成矩阵形式,行表示用户,列为对应的APP的使用次数。相关形式如下:微信PopStar消QQQQ互联QQ室间QQ输入法QQ同步助手15192200002005001603002001604007200012112101502501700001700000018501620013119095100020059201021046000722038032202334217386590240329009216250400003、由于APP的种类非常的多,每人使用的APP也不尽相同,大众类的APP,如QQ、微信等基本上人们都会使用,而一些小众的APP使用的人数相对较少,因此上述处理的数据矩阵是一个稀疏矩阵,有超过80%的零值。由于APP的数目过多,删除缺失率大于99%的APP。4、虽然删除了一些APP,数据的维度降低了一些,但是矩阵的维度仍然很大,如果将数据全部放进模型,则模型的准确率非常低,所以数据在进入模型之前需要对数据进行降维,降维的方法有很多,比如主成分分析、奇异值分析、因子分析等。在本实施例中采用了主成分分析的方法对数据进行降维。经过数据降维后的用户上网行为数据的维度为150。大大降低了计算的复杂度。(二)模型训练及预测阶段对于用户基础属性的预测问题被定义为一个分类问题,是有监督的机器学习问题。有监督学习是指利用一组已知类标的样本数据训练分类器,通过调整分类器的参数使其达到所要求的预测性能的过程。这里,我们根据已收集到的用户的性别的数据来训练模型。在训练模型开始时,首先需要将用户对应的性别添加到上面经过预处理的数据的最后一列,然后再对数据进行划分。对于数据的划分需要遵循以下原则:1)将数据划分成两部分:训练集D1和测试集D2,其中训练集占80%,测试集占20%。2)对于训练数据集D1和测试数据集D2应该满足D1+D2=D且D1∩D2=φ。3)训练集作为模型的训练数据,测试集用来验证模型的准确性。4)随机抽取数据过程中要保证男性和女性数据中分别要有80%的数据作为训练集,20%作为测试集。根据上面划分好的训练数据来训练模型。该模型使用的算法为随机森林算法,在训练模型过程中,要不断地调整算法的参数,如调整分类器中CART树的数量,使模型能够更好的拟合数据。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由多个树输出的类别的众数而定,采用该算法能够避免过拟合现象。预测的准确度是评价分类算法的基本指标,在一定程度上能衡量算法的分类性能。本发明中用户基础属性预测问题是分类问题,目前最常用的分类准确度指标有准确率(Accuracy)、精确度(Precision)、召回率(Recall)。对于一个二分类系统而言,预测的情况有4种,以用户的性别基础属性为例,即用户为男性且预测该用户性别为男,用户为男性但是预测该用户性别为女,用户性别为女但是预测该用户性别为男,用户性别为女且预测该用户性别为女。表1-1对这4种情况作了一个总结,其中f++,f+-,f-+,f--分别表示这4种情况的数目。M表示测试集中男性用户的数量,F表示测试数据集中女性用户的数量,显然M=f+++f+-,F=f-++f--。表1-1用户性别属性预测问题的混淆矩阵对于用户的基础属性,其预测的准确率(Accuracy)定义为正确预测的人数和实际预测人数的比例。用户性别预测的准确率为:对于用户基础属性的一个类别,其预测的精确度(Precision)定义为该类别正确预测人数和预测为该类别人数的比例,用户性别基础属性男性类别的预测精确度为:对于用户基础属性的一个类别,其预测的召回率(Recall)定义为该类别正确预测的人数和该类别实际人数的比例,用户性别基础属性男性类别的预测召回率计算公式为:本发明利用准确率来评价模型。根据对已搜集到的2900个北京移动用户一天内的上网行为数据日志进行分析,经过数据清洗、降维处理后,来训练模型。在这里随机抽取80%的数据作为训练集,20%的数据作为测试集。预测结果为Acc=70%。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1