一种移动终端用户性别的预测方法、服务器和系统与流程

文档序号:12465324阅读:131来源:国知局
一种移动终端用户性别的预测方法、服务器和系统与流程
本发明涉及移动通信领域,尤其涉及一种移动终端用户性别的预测方法、服务器和系统。
背景技术
:随着互联网技术和硬件技术的不断发展,越来越多的人开始使用如智能手机、平板电脑等移动终端设备。同时,移动互联网的广泛普及促使移动应用的发展更加迅猛,用户通过使用移动终端上安装的各类移动应用,进行阅读、聊天、购物等各项活动。用户在移动设备上使用某个应用时,会产生一系列状态数据,例如应用信息、移动设备信息、环境信息、位置信息等。大量移动设备的使用产生了海量的数据,通过对人群的基本属性、行为习惯、商业价值等多种维度信息数据综合分析即可精准的进行目标受众的画像和定位,并以标签和画像为基础进行精准定向的互联网广告营销。在用户画像的众多维度当中,性别是最重要的维度之一。如果知道了用户的性别,就可以专门向该用户推荐其他同性用户常关注的内容消息,从而提高用户体验和内容点击率或转化率。因此,需要提供一种能高效准确判断移动终端用户性别的方法。技术实现要素:为此,本发明提供一种移动终端用户性别的预测方法、服务器和系统,以力图解决或至少解决上面存在的问题。根据本发明的一个方面,提供一种移动终端用户性别的预测方法,适于在服务器中执行,该方法包括服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型,该方法包括:步骤1:收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1;步骤2:将第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出第一模型样本A1的移动终端数目占比在一定范围的类;步骤3:从选出的类中取出第一模型子样本A11和第一待测子样本B11,并从第一模型子样本A11中选取一部分样本作为训练样本,对构建好的分类模型进行训练;步骤4:根据第一待测子样本B11的第二设备信息及所述训练好的分类模型,预测得到该样本B11中每个移动终端的用户性别;步骤5:将已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到所述第一模型样本A1中,得到第二模型样本A2;步骤6:从剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2;步骤7:在第二模型样本A2和第二待测样本B2的基础上,重复上述步骤2-4,以预测得到第二待测子样本B22中移动终端的用户性别;以及步骤8:重复上述步骤5-7直到处理了整体待测样本B中的所有移动终端为止。可选地,在根据本发明的方法中,第一模型样本A1的第一设备信息包括其中每个移动终端的用户性别和应用信息,根据第一模型样本A1的第一设备信息创建分类模型的方法包括步骤:通过组合该第一模型样本A1中每个移动终端的用户性别和应用信息,生成应用列表;从应用列表中统计每个应用所对应的移动终端的女性用户数目和男性数目,并计算得到每个应用的性别倾向指数;将该样本A1中的所有应用按照性别倾向指数的大小划分为多个分组,并计算该样本中的每个移动终端在各分组内的单组性别维度值;以及根据每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型。可选地,在根据本发明的方法中,构建分类模型的步骤包括:根据单组性别维度值计算得到该移动终端的整体性别维度值,整体性别维度值包括偏女性维度值和偏男性维度值;以及根据每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。可选地,在根据本发明的方法中,步骤1包括:计算该整体待测样本B中的每个待测移动终端的各个单组性别维度值和整体性别维度值;以及计算整体待测样本B中的每个待测移动终端的第一置信度和第二置信度,并从该样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为第一待测样本B1。可选地,在根据本发明的方法中,从整体待测样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本的操作包括步骤:对该样本B中进行第一次随机样本选取,并从选取结果中取出第一置信度大于第一阈值且第二置信度大于第二阈值的样本作为第一待测样本B1;步骤6包括:对剔除了第一待测子样本B11后的整体待测样本B进行第二次随机样本选取,并从选取结果中取出第一置信度大于第三阈值且第二置信度大于第四阈值的样本作为第二待测样本B2。可选地,在根据本发明的方法中,步骤2包括:根据第一模型样本A1和第一待测样本B1中每个移动终端的整体性别维度值和用户性别的对应关系进行聚类;以及从聚类结果中选取第一模型样本A1的移动终端数目占比在30%-70%的类。可选地,在根据本发明的方法中,步骤2还包括:如果聚类结果中有多个类的第一模型样本A1的移动终端数目占比在一定范围,则将这多个类中属于第一模型样本A1的样本进行合并,作为第一模型子样本A11;以及将这多个类中属于第一待测样本B1的样本进行合并,作为第一待测子样本B11。可选地,根据本发明的方法中,根据构建好的分类模型对待确定用户性别的移动终端进行性别预测的步骤包括:收集一个待确定用户性别的移动终端的设备信息;计算该移动终端的单组或整体性别维度值;以及将该单组或整体性别维度值输入到构建好的分类模型中,输出得到该移动终端的用户性别预测结果。可选地,在根据本发明的方法中,步骤3还包括:从第一模型子样本A11中另选一部分样本作为校验样本;将检验样本中的移动终端的性别维度值输入到训练好的分类模型中,输出得到该移动终端的用户性别预测结果;以及根据每个移动终端的真实用户性别对预测结果进行检验,得到该第一模型子样本A1'的性别预测准确度,并将该性别预测准确度近似作为第一待测子样本B1'的性别预测准确度。可选地,在根据本发明的方法中,还包括:如果第一模型子样本A11的性别预测准确度小于第五阈值,则在步骤5中将第一待测子样本B11继续保留在整体待测样本B中;以及在步骤6中从含有该第一待测子样本B11的整体待测样本B中进行第二次随机样本选取,并从选取结果中取出第二待测样本B2。可选地,在根据本发明的方法中,第一设备信息还包括移动终端的机型信息,该方法还包括步骤:统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数;以及基于每个机型的性别倾向指数计算该机型的性别维度值;计算移动终端的整体性别维度值的步骤还包括:如果机型的性别维度值偏向女性维度,则将该机型的性别维度值加入到该移动终端的偏女性维度值中,反之则加入到该移动终端的偏男性维度值中。可选地,在根据本发明的方法中,还包括:根据模型样本中所含移动终端的数量,对第三阈值和第四阈值的数值进行调整。可选地,在根据本发明的方法中,将述应用按照性别倾向指数的大小划分为多个分组的步骤包括:计算性别倾向指数的最大值和最小值之间的差值,根据该差值将应用均分为多个分组;计算移动终端的应用在每个分组内的单组性别维度值的步骤包括:统计每个分组内所含的该移动终端的应用数目,并结合每个分组的权值来计算该移动终端在每个分组的单组性别维度值。根据本发明的另一方面,提供一种性别预测服务器,服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型,该服务器包括:样本选取单元,适于收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1;样本聚类单元,适于将第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出第一模型样本A1的移动终端数目占比在一定范围的类;模型训练单元,适于从选出的类中取出第一模型子样本A11和第一待测子样本B11,并从第一模型子样本A11中选取一部分样本作为训练样本,对构建好的分类模型进行训练;模型训练单元,适于根据第一待测子样本B11的第二设备信息及训练好的分类模型,预测得到该样本中每个移动终端的用户性别;样本更新单元,适于将已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到第一模型样本A1中,得到第二模型样本A2,并从剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2;以及循环迭代单元,适于在第二模型样本A2和第二待测样本B2的基础上,重复上述样本聚类、模型训练和模型训练的操作,以预测得到第二待测子样本B22中移动终端的用户性别;其中,循环迭代单元还适于重复上述样本更新和循环迭代操作,直到处理了整体待测样本B中的所有移动终端为止。根据本发明的另一方面,提供一种性别预测系统,包括如上所述的性别预测服务器,以及至少一个移动终端。根据本发明的技术方案,提供了一种半监督学习的方法,从小样本逐渐推算出整体待测样本的用户性别,在这个过程中不断地新预测出结果的样本加入模型样本,并用更新后的模型样本对待测样本进行预测,使得模型在从小样本推广到整体待测样本的时候,尽可能消除抽样偏差对预测结果的影响。而且,本发明通过聚类算法优选出与待测子样本最相近的模型样本,从而能够近似得到该待测子样本的性别预测准确度,并根据该准确度对样本进行区别更新,进一步完善整体样本的预测精度。另外,本发明在构建模型时,在尽可能不损失信息的前提下,明显降低数据统计的维度,降低了数据计算量,进而降低了对计算硬件条件的要求。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本发明一个实施例的性别预测系统100的结构框图;图2示出了根据本发明一个实施例的移动终端用户性别的预测方法200的流程图;图3示出了根据本发明一个实施例的分类模型的构建方法300的流程图;图4示出了根据本发明一个实施例的性别预测服务器400的结构框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本发明一个实施例的性别预测系统100的结构图。如图1所示,性别预测系统100包括该系统包括性别预测服务器400和移动终端500,服务器400和移动终端500之间通过互联网络600通信连接。移动终端500(如图1中的520、540、560和580)可以是可连网的手机、平板电脑、桌面电脑、笔记本电脑等移动设备,也可以是智能手表、智能眼镜等可以连网的可穿戴设备,但不限于此。虽然图1中仅示例性地示出了4个移动终端,但是本领域技术人员可以意识到,该系统中还可以包括多个移动终端,本发明对性别预测系统100中的移动终端500的数目并无限制。移动终端500可以以有线或无线的方式与服务器400建立连接,如采用3G、4G、WiFi、个人热点、IEEE802.11x、蓝牙等技术建立无线连接。移动终端500中通常安装了多个应用(即app),某些应用中的代码中嵌入了js脚本或植入了第三方的sdk(softwaredevelopmentkit,软件开发工具包),当用户使用这些应用时,js或sdk会采集用户使用该应用时的状态数据,例如移动设备ID、机型、应用名、移动设备mac等各项设备信息,并将采集到的数据发送至服务器400。另外,通过身份证、客服沟通、问卷调查等方式可以还能获取到某些终端用户的性别。因此,服务器400就可以收集到客户端的各项设备信息,并根据这些信息构建一个模型样本,这个样本里有每个设备ID的性别、机型,以及该设备上所安装的应用名称。另外,服务器400收集到客户端的各项设备信息后,可以将数据存储于数据库中。应当指出,数据库可以作为本地数据库驻留于服务器400中,也可以作为远程数据库设置于服务器400之外,本发明对数据库的部署方式不做限制。服务器400可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。此外,用于组成服务器集群或云计算服务中心的多个服务器可以驻留在多个地理位置中,本发明对服务器400的部署方式不做限制。另外,服务器400中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型。其中,这些移动终端已经确定了其用户性别,设备信息包括每个移动终端的设备ID、应用信息和用户性别。根据这些设备信息可以得到移动终端的单组性别维度值和整体性别维度值(包括偏女性维度值和偏男性维度值),这些性别维度值代表移动终端的性别特征,其计算过程将会后文中介绍。根据模型样本和构建好的分类模型,可以对数据库中的整体待测样本的移动终端进行性别预测。但是,虽然收集到用户数量非常庞大,但是模型样本的数量毕竟有限,一般只有小部分的数据带有真实的性别标签的。这小部分的数据很有可能是整体的一个有偏的抽样,导致用小样本训练出的模型不适用于预测整体样本。为此,本发明提供了一种更为精确的预测移动终端用户性别的方法。图2示出了根据本发明一个实施例的移动终端用户性别的预测方法200的流程图,该方法适于在服务器400中执行。如图2所示,该方法始于步骤S210。在步骤S210中,收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1。具体地,在进行样本选取时,先计算该整体待测样本B中的每个待测移动终端的各个单组性别维度值和整体性别维度值,并计算整体待测样本B中每个待测移动终端的第一置信度和第二置信度,以及从该样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为第一待测样本B1。根据一个实施例,从整体待测样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本的操作可以包括步骤:从该整体待测样本B中进行第一次随机样本选取,并从选取结果中取出第一置信度大于第一阈值且第二置信度大于第二阈值的样本作为第一待测样本B1。根据另一个实施例,第一置信度是女性维度值和男性维度值的绝对值之和,第二置信度是女性维度值和男性维度值中的绝对值最大值。对应某个设别ID,其第一置信度越大,表示该设备上的应用数目越多;第二置信度越大,表示该设备的性别特征越明显。根据一个实施例,第一阈值可以是300,第二阈值是500;或者,第一阈值是500,第二阈值是700,也可以根据数据情况设置为其他数值,本发明对此不作限制。例如,阈值取前者时,分类模型的预测准确率为70%;阈值取后者时,分类模型的预测准确率为80%,可以根据需要选择合适的阈值设置。举例来说,假如收集到了100万个待测移动终端的第二设备信息存储到了数据库中,因为本发明采用的是小样本逐渐向大样本推进的方法,因此可以先进行随机第一次样本选取,从中选取1万个待测移动终端进行用户性别预测。而在对这1万个终端进行预测时,是从中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本作为第一待测样本B1,如选出了2000个达标的终端。这样最终选出的终端具有更大的用户性别倾向,其预测得到的用户性别的准确度也相对更高。随后,在步骤S220中,将第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出第一模型样本A1的移动终端数目占比在一定范围的类。其中,可以根据第一模型样本A1和第一待测样本B1中每个移动终端的整体性别维度值和用户性别的对应关系进行聚类;占比在一定范围一般是指第一模型样本A1的移动终端数目占比在30%-70%,这样选出的类中两种样本的分布比较均匀。需要说明的是,有时聚类结果中有多个类的第一模型样本A1的移动终端数目占比在预定范围,这时,可以将这多个类中属于第一模型样本A1的样本进行合并,作为第一模型子样本A11进行计算。同样地,将这多个类中属于第一待测样本B1的样本进行合并,作为第一待测子样本B11进行计算。根据一个实施例,聚类方法可以选择K-mens聚类算法,当然也可以选择现有的任意一种聚类方法,本发明对此不作限制。随后,在步骤S230中,从选出的那个类中取出第一模型子样本A11和第一待测子样本B11,并从该第一模型子样本A11中选取一部分样本作为训练样本,对构建好的分类模型进行训练。按照上述例子说明,第一待测样本B1中有2000个终端,假设第一模型样本A1中1000个终端,聚类后分为了三个类。其中,第一个类中样本A1和样本B1的终端数目比例为600:500,第二个类为200:1000,第三个类为200:500,只有第一类的比例满足30%-70%,则将该类中的600个属于第一模型样本A1的终端选取出来作为第一模型子样本A11;同样地,将属于第一待测样本B1的500个终端选取出来作为第一待测子样本B11。根据一个实施例,还可以从该第一模型子样本A11中选取一部分样本作为校验样本,对构建好的分类模型进行校验。校验过程包括:将校验样本中的移动终端的性别维度值输入到训练好的分类模型中,输出得到该校验样本中移动终端的用户性别预测结果,再根据每个移动终端的真实用户性别对预测结果进行检验,得到该第一模型子样本A1'的性别预测准确度。随后,在步骤S240中,根据第一待测子样本B11的第二设备信息及在步骤S230中训练好的分类模型,预测得到该第一待测子样本B11中每个移动终端的用户性别。具体地,可以将第一待测子样本B11中每个移动终端的性别维度值输入到训练好的分类模型,输出得到其用户性别预测结果。根据一个实施例,因为第一模型子样本A11和第一待测子样本B11是从聚类结果中选出的较相似的类,因此可以将第一模型子样本A11中校验样本的性别预测准确度近似作为第一待测子样本B11的性别预测准确度。随后,在步骤S250中,将已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到第一模型样本A1中,得到第二模型样本A2,即样本更新的过程。这里,可以结合第一待测子样本B11的性别预测准确度对样本进行选择性更新,也就是,如果第一模型子样本A11的性别预测准确度小于第五阈值,则在步骤S250中将该第一待测子样本B11继续保留在整体待测样本B中,也不再加入到第一模型样本中。其中,第五阈值可以设为70%。也就是,若第一模型子样本A11的性别预测准确度不小于70%,则将上述例子中选出的含有500个终端的第一待测子样本B11从整体待测样本B(100万个终端)中剪切到第一模型样本(1000个终端),得到第二模型样本(1500个终端)。但若其准确度小于70%,则将其继续保留在原样本中,等到以后模型样本再进一步扩大后再进行预测。随后,在步骤S260中,从剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2。这里,依然可以采用类似步骤S210中的样本选取方法,即先从剔除了第一待测子样本B11后的整体待测样本B进行第二次随机样本选取,并从该选取结果中取出第一置信度大于第三阈值且第二置信度大于第四阈值的样本作为第二待测样本B2。应当说明的是,若在步骤S250中,因预测准确度低,将第一待测子样本B11保留在了整体待测样本B中,则在步骤S260中从原整体待测样本中进行样本抽取,也就是当作未对第一待测子样本B11进行过性别预测。另外,在步骤S210中和步骤S260中,因为对模型样本和待测样本的数量都进行了更新,所以可以相应地调整置信度的阈值。阈值的调整可以根据模型样本中移动终端的数量,也可以根据对模型样本的性别预测准确度。一般地,阈值设定越高,选出的待测样本的性别倾向越明显,其性别预测的准确度也会相应越高。所以,若想要高的预测准确度则可以调大阈值;另一方面,如果性别预测准确度过高,则可以相应地稍微调小阈值。比如,第一阈值设为300,第二阈值设为500,第三阈值设为500,第四阈值设为700。然后对后续选出的新的待测子样本,还可以设置为其他阈值。当然,也可以不进行调整,本发明对这些阈值的具体数值大小不作限制。依旧采用上述例子进行说明,整体待测样本原先有100万个,剔除了500个后,先进行第二次样本选取,依然取出1万个,然后再从这1万个中选出置信度满足预定条件的终端样本作为第二待测样本B2。可以看出,本发明并不是直接对这100万个终端进行性别预测,而是逐步地更新样本选取样本,即先选出1万个终端,再从中选出达标的2000个终端进行处理,相对而言剩下的8000个终端的性别倾向不是太明显,其置信度可能依然不达标。因此本发明处理完第一批的2000个后,并没有接着去处理剩下的8000个,而是从整体样本再重新选出1万个,并选出这1万个终端里置信度达标的第二批样本,因为阈值的变化,这时达标的终端可能是其他数值。随后,在步骤S270中,在第二模型样本A2和第二待测样本B2的基础上,重复上述步骤S220-S240,以预测得到第二待测子样本B22中移动终端的用户性别。即对这两个样本进行聚类操作,选出分布均匀的类,并取出该类中的第二模型子样本A22和第二待测子样本B22,之后选出部分第二模型子样本A22对模型进行进一步训练,并用再次训练的分类模型来预测第二待测子样本B22的用户性别。随后,在步骤S280中,上述步骤S250-S270直到处理了整体待测样本B中的所有移动终端为止。应当理解,即使多次更新了模型样本和置信度阈值,也不能保证对所有终端的预测结果准确度都很高,但这不妨碍本发明对其性别预测。下面将详细介绍服务器分类模型的构建方法及性别维度值的计算过程。图3示出了根据本发明一个实施例的构建分类模型的方法300,该方法适于在性别预测服务器400中执行,该服务器中预先存储的第一设备信息(包括每个移动终端的设备ID、应用信息和用户性别)如表1所示。表1设备ID性别应用ID1男APP1,APP2,APP5…ID2女APP1,APP2,APP3…ID3男APP1,APP3,APP4…………如图3所示,该方法适于步骤S310。在步骤S310中,组合第一模型样本A1中的多个移动终端的应用信息及其用户性别,生成应用列表。假设第一模型样本A1中统计了2000个终端的设备信息(设备ID、机型、性别和应用信息等),这2000个终端中共含有200种应用,则对于每种应用,都统计设置有该应用的移动终端的设备信息,如表2所示。表2应当理解,每个用户手机都安装一定数量的应用,这些应用彼此之间虽然有些重合。当收集到的用户数量非常庞大的时候,应用的数量甚至会呈指数级增长的。这对计算资源的要求非常高,也很容易导致计算维度的爆炸。从表1和表2中也可以进一步看出,应用数目、设备ID和机型所含的维度非常大,需要对其中的数据进行降维处理。因此,在步骤S320中,从应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数I。即从表2中的“性别”栏中统计得到每个应用的男女用户数目,如表3所示。其中,性别倾向指数I=(男性用户数目-女性用户数目)/(男性用户数目+女性用户数目)。当然,也可以根据实际数据情况采取其他计算方法,本发明对此不作限制。表3应用男性用户数目女性用户数目应用_性别倾向指数APP110002300-0.39APP2340012560.46............对于某一款应用,其所在终端的男性用户数目显著高于男性用户数目,则其性别倾向指数偏向1,否则偏向-1。如果对数据的抽样没有偏差,即对每一款应用,抽到的数据中男女性男性用户数目的比值几乎是恒定的,则每次抽样算出的每一款应用的性别倾向指数是恒定的。因此,可将这个性别倾向指数作为该应用的终端用户的性别判断参数。随后,在步骤S330中,将应用列表中的应用按照性别倾向指数的大小划分为多个分组。具体地,可以计算每个应用的性别倾向指数的最大值和最小值之间的差值,并根据差值将所述应用均分为多个分组。如根据(Imax-Imin)/100的间隔将性别倾向指数分为100个分组,假设性别倾向指数最大为1,最小为-1,则应用分组为[-1,-0.98],(-0.98,-0.96]...,(0.96,0.98],(0.98,1]。在上述例子中APP1的性别倾向指数为-0.39,则其应该属于[-0.4,-0.38)这一分组。当然,各个分组区间也可以设置为[-1,-0.98),[-0.98,-0.96)...,[0.96,0.98),[0.98,1],本发明对分组区间的设定不作限定。随后,在步骤S340中,计算第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值。根据本发明的一个实施例,单组性别维度值可以直接选择每个分组内所含的该移动终端的应用数目。表4示出了统计得到的每个设备ID的应用在每个分组中的数目。在表4中,设备ID1的用户是男性,其使用的应用大多是性别倾向指数偏大的(偏向1);设备ID2的用户是女性,其使用的应用大多数是性别倾向指数偏小的(偏向-1)。这里,就将表1和表2中的多维数据降低到了只有100维,从而可从整体降低数据的运算量。表4根据本发明的另一个实施例,考虑两端分组里的应用性别倾向严重(一种用户性别显著高于另一种用户性别),靠近中间分组里的应用性别倾向不明显(男女用户数量没有显著差别)。因此,可以给每个分组一个权值,两端分组的权值绝对值大,中间分组的权值绝对值小。对于统计得到的每个分组内所含的该移动终端的应用数目,可以结合每个分组的权值来计算该移动终端在每个分组内的单组性别维度值。在给每个分组定义权值时,根据一个实施例,可以计算落在每一个分组内的所有应用的平均性别倾向指数,并将其作为该分组的权重。假设对于某个移动终端,其中有2个应用的性别倾向指数属于第一个分组[-1,-0.98],则可以计算得到这2种应用的平均性别倾向指数作为第一个分组的权值。当然,采取平均性别倾向指数的方法这只是一个示例性的说明,还可以根据具体数据分布情况采用其他权值计算方法,本发明对此不作限制。计算得到权值后,将统计得到的每个分组内所含的该移动终端的应用数目乘以该分组的权值,作为该移动终端在对应分组的单组性别维度值。当然,对于应用数目与权值之间的乘法计算,只是一个示例性的说明,也可以根据情况采取其他数学计算方法,本发明对此不作限制。假设表4中每个分组的权值序列为(-100,-99,...,99,100),则计算得到每个分组的单组性别维度值如表5所示,其中,设备ID1的第一组性别维度值为-200,最后一组性别维度值为1100。表5经过这种变化,就可以对两端的应用分组,也就是性别差异较为明显的分组给予更多关注。随后,在步骤S350中,根据第一模型样本中每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型。即利用表5中的各个特征值来构建分类模型。其中,构建分类模型可以采取随机森林模型、支持向量机(SVM)模型或卷积神经网络(CNN)模型等现有的任意一种方法,本发明对此不作限制。使用的模型依据具体数据情况而定,比如,如果表5中的数据很稀疏,可以考虑使用支持向量机模型。根据一个实施例,还可以根据每个移动终端的用户性别和整体性别维度值来构建分类模型。例如,当统计得到表5中的数据非常稀疏,或者需要减少抽样误差以保证模型更加稳定时,就可以考虑进一步降低维度,将多个分组的单组性别维度值合并为整体性别维度值来构建模型。具体地,对于每个移动终端,根据其各个单组性别维度值计算得到该移动终端的整体性别维度值。其中,整体性别维度值包括偏女性维度值和偏男性维度值。之后,就可以根据每个移动终端的用户性别及其整体性别维度值来构建分类模型。其中,根据单组性别维度值计算整体性别维度值,可以将全部分组里偏女性的单组性别维度值(全部是负数)相加得到偏女性维度值;将全部分组里偏男性的单组性别维度值(全部是正数)相加得到偏男性维度值。这样,就从表5中的100维的应用分组,降低到偏女性维度和偏男性维度这2个维度,从而进一步降低了数据的运算量。表6示出了根据一个实施例的计算得到的偏女性维度值和偏男性维度值。表6设备ID性别偏女性维度值偏男性维度值ID1男-2001100ID2女-2000200............这样,对于第一整体样本B中的每个移动终端,统计该终端的所有应用在各分组的分布情况,就可以得到每个待测终端的单组性别维度值,进一步得到其整体性别维度值以及每个移动终端的第一置信度和第二置信度。如表6中ID1的第一置信度是偏女性维度值-200与偏男性维度值1100的绝对值之和,即1200;第二置信度是单个的绝对值最大值,即1100。另外,申请人发现,机型对用户性别的判断非常重要,比如市面上一些明显偏重于美颜或照相功能的手机,都明显更受女士们的青睐。根据本发明的一个实施例,可以将机型作为终端用户性别判断的一个重要参考依据。因此在步骤S210统计第一模型样本中每个移动终端的设备信息时,可以将机型信息也包括在设备信息内,生成类似表7的机型信息。表7设备ID性别机型ID1男机型AID2女机型BID3男机型A………随后,参考表2的生成过程,组合多个移动终端的机型信息及其用户性别,生成机型列表。即从表7中统计得到每个机型所对应的移动终端的设备ID和用户性别,生成类似表8的机型列表。表8随后,参考表3的生成过程,从机型列表中统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数,如表9所示。表9机型男性用户数目女性用户数目机型_性别倾向指数机型A10002000-0.33机型B300010000.5............根据本发明的一个实施例,参考应用的权值加权,可以对机型的性别倾向指数也设置一个权值(如设置100),以得到该机型的性别维度值,如表10所示。对于机型来说,在处理过程中是直接根据性别倾向指数及权值计算的,因此得到的就直接是唯一的性别维度值,而不用区分是单组性别维度值还是整体性别维度值。表10机型机型_性别维度值机型A-33机型B50......进一步地,考虑到在判断用户性别时,机型信息有时甚至比应用信息更有效,因此可以将机型的性别维度值加入到偏女性维度值和偏男性维度值中,以对整体性别维度值进行进一步的校正。具体地,对于每一个设备ID,如果其对应的机型的性别维度值偏向男性维度,即是正数(如表10里的50),则加其加入到表6中的偏男性维度值中;反之(如表10里的-33)则加入到表6中的偏女性维度值里,最后得到的校正后的性别维度值如表11所示。表11之后,就可以根据表11中的每个移动终端的用户性别及其校正后的偏女性维度值和偏男性维度值,构建用于预测用户性别的分类模型。对于待测移动终端,可以以同样方法计算得到其机型特征校正后的偏女性维度值和偏男性维度值,进而计算得到其第一置信度和第二置信度,以判断其是否要选入第一待测样本B1中。根据另一个实施例,也可以不把机型的性别维度值计入到与应用有关的整体性别维度值中,而单独基于每个机型的性别维度值和其对应终端的用户性别构建分类模型,即构建机型与用户性别的对应关系。对于这种方法构建的分类模型,需要算出待测终端的机型的性别维度值进行预测,这种方法通过几步简单的运算就可得到预测结果,在某些定性分析中比较快速有效。综上所述,分类模型可以根据表5中的单组性别维度值构建,也可以根据表6中的由单组性别维度值计算得到整体性别维度值构建,也可以根据表10中的机型的性别维度值构建,还可以根据表11中的用机型特征校正过的整体性别维度值构建。这样多样的模型构建方法,为数据分析提供了多种可能,开发者可以根据需要选择合适的计算精度。图4示出了根据本发明一个实施例的性别预测服务器400的结构框图。如图4所示,服务器400包括样本选取单元410、样本聚类单元420、模型训练单元430、性别预测单元440、样本更新单元450和循环迭代单元460。样本选取单元410收集收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1,这些设备信息包括该移动终端的设备ID和应用信息。进一步地,样本选取单元410适于计算该整体待测样本B中的每个待测移动终端的单组性别维度值和整体性别维度值,进而计算该样本B中每个待测移动终端的第一置信度和第二置信度,并从该样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为第一待测样本B1。样本聚类单元420适于将第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出第一模型样本A1的移动终端数目占比在一定范围的类。其中,可以根据样本A1和样本B1中每个移动终端的用户性别和整体性别维度值的对应关系进行聚类,聚类方法可以采用K-means聚类算法,通常选择占比在30%-70%的类。如果有多个类满足条件,对其进行合并。模型训练单元430适于从选出的类中取出第一模型子样本A11和第一待测子样本B11,并从第一模型子样本A11中选取一部分样本作为训练样本,对所述构建好的分类模型进行训练。根据一个实施例,服务器400还可以包括模型校验单元(图中未示出),适于从第一模型子样本A11中另选一部分样本作为校验样本;将改检验样本中的移动终端的性别维度值输入到训练好的分类模型中,输出得到该移动终端的用户性别预测结果;以及根据每个移动终端的真实用户性别对预测结果进行检验,得到该第一模型子样本A1'的性别预测准确度。性别预测单元440适于根据第一待测子样本B11的第二设备信息及所述训练好的分类模型,预测得到该样本中每个移动终端的用户性别。此时,校验样本的性别预测准确度就可以近似作为第一待测子样本B1'的性别预测准确度。样本更新单元450适于将已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到第一模型样本A1中,得到第二模型样本A2,以及从剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2。当然,如果第一待测子样本B11的性别预测准确度偏低,则将其继续保留在原样本中。另外,选取第二待测样本B2时,仍然是先从整体待测样本B中进行随机选取,并从选取结果中选出第一置信度大于第三阈值且第二置信度大于第四阈值的样本作为第二待测样本B2。其中,第三阈值和第四阈值可以与第一阈值和第二阈值相同,也可以不相同;在后续样本选取中,还可以根据数据情况,如模型样本中的终端数目,对第三阈值和第四阈值的数值进行调整。循环迭代单元460适于在第二模型样本A2和第二待测样本B2的基础上,重复上述样本聚类、模型训练和性别预测的操作,以预测得到第二待测子样本B22中移动终端的用户性别;还适于重复上述样本更新和性别预测操作,直到处理了整体待测样本B中的所有移动终端为止。根据一个实施例,服务器400中还可以包括模型构建单元(图中为示出),该模型构建单元适于通过组合第一模型样本A1中每个移动终端的用户性别和应用信息,生成应用列表;从应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数;将该样本A1中的所有应用按照性别倾向指数的大小划分为多个分组,并计算该样本中的每个移动终端在各个分组的单组性别维度值;以及根据每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型。其中,分类模型包括随机森林模型、支持向量机模型或卷积神经网络模型等常规分类模型的任意一种,本发明对此不作限制。根据本发明的性别预测服务器400,其具体细节已在基于图1-图3的描述中详细公开,在此不再赘述。根据本发明的技术方案,采用了半监督的学习方法,在通过模型样本对整体待测样本进行性别预测时,先随机选出一部分样本,并从中选出置信度达标的第一待测样本与模型样本进行聚类。之后,从聚类结果中选出第一待测样本和第一模型样本都分布较为均匀的类,及该类中的子待测样本和子模型样本。将子模型样本分为两部分,一部分用来训练构建好的分类模型,一部分用来校验模型预测的准确度。之后,利用训练的好的分类模型来预测子待测样本中的移动终端的用户性别,并将该预测过性别的子待测样本从整体待测样本中移入到模型样本,得到第二模型样本,进而从更新后的样本中重新选取新的第二待测样本进行处理,得到其用户性别。之后,重复上述操作直到处理了整体待测样本的所有移动终端为止。通过这种方法,使得模型在从小样本推广到整体样本的时候,尽可能消除抽样偏差对预测结果的影响。另外,本发明还有效地降低了数据维度,通过统计模型样本中的每个移动终端的应用信息和用户性别,计算得到每个应用的性别倾向指数。再根据该性别倾向指数的大小,将很大维度的终端和应用的组合信息,降低为例如为100维的应用分组。之后,又进一步降低了男性和女性维度这两个维度。这样,可以在尽可能不损失信息的前提下将维度大幅度减小,极大的提高了计算效率,也降低了对硬件的设备要求。A9、如A8所述的方法,还包括:如果所述第一模型子样本A11的性别预测准确度小于第五阈值,则在步骤5中将所述第一待测子样本B11继续保留在所述整体待测样本B中;以及在步骤6中从含有该第一待测子样本B11的整体待测样本B中进行第二次随机样本选取,并从选取结果中取出第一置信度大于第三阈值且第二置信度大于第四阈值的第二待测样本B2。A10、如A3所述的方法,所述第一设备信息还包括移动终端的机型信息,该方法还包括步骤:统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数;以及基于所述每个机型的性别倾向指数计算该机型的性别维度值;所述计算移动终端的整体性别维度值的步骤还包括:如果所述机型的性别维度值偏向女性维度,则将该机型的性别维度值加入到该移动终端的偏女性维度值中,反之则加入到该移动终端的偏男性维度值中。A11、如A4或A9中所述的方法,所述步骤6还包括:根据模型样本中所含移动终端的数量,对所述第三阈值和所述第四阈值的数值进行调整。A12、如A2所述的方法,其中,所述将所述应用按照性别倾向指数的大小划分为多个分组的步骤包括:计算所述性别倾向指数的最大值和最小值之间的差值,根据所述差值将所述应用均分为多个分组;所述计算移动终端的应用在每个分组内的单组性别维度值的步骤包括:统计每个分组内所含的该移动终端的应用数目,并结合每个分组的权值来计算该移动终端在每个分组的单组性别维度值。B14、如B13所述的服务器,所述第一模型样本A1的第一设备信息包括其中每个移动终端的用户性别和应用信息,所述服务器中包括模型构建单元,所述模型构建单元适于:通过组合该第一模型样本A1中每个移动终端的用户性别和应用信息,生成应用列表;从所述应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数;将该样本A1中的所有应用按照性别倾向指数的大小划分为多个分组,并计算该样本中的每个移动终端在各个分组的单组性别维度值;以及根据所述每个移动终端的用户性别及其单组性别维度值,构建所述用于预测用户性别的分类模型。B15、如B14所述的服务器,所述模型构建单元进一步适于:根据所述单组性别维度值计算得到该移动终端的整体性别维度值,所述整体性别维度值包括偏女性维度值和偏男性维度值;以及根据所述每个移动终端的用户性别及其整体性别维度值,构建所述用于预测用户性别的分类模型。B16、如B13-B15中任一项所述的服务器,所述样本选取单元适于:计算所述整体待测样本B中的每个待测移动终端的单组性别维度值和整体性别维度值;以及计算该样本B中每个待测移动终端的第一置信度和第二置信度,并从该样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为所述第一待测样本B1。B17、如B16所述的服务器,所述样本选取单元进一步适于:从所述整体待测样本B中进行第一次随机样本选取,并从选取结果中取出第一置信度大于第一阈值且第二置信度大于第二阈值的样本作为第一待测样本B1;所述步骤6包括:对所述剔除了第一待测子样本B11后的整体待测样本B进行第二次随机样本选取,并从选取结果中取出第一置信度大于第三阈值且第二置信度大于第四阈值的第二待测样本B2。B18、如B13-B15中任一项所述的服务器,所述样本聚类单元适于:根据所述第一模型样本A1和第一待测样本B1中每个移动终端的用户性别和整体性别维度值的对应关系进行聚类,并从聚类结果中选取所述第一模型样本A1的移动终端数目占比在30%-70%的类。B19、如B13所述的服务器,所述样本聚类单元适于:当所述聚类结果中有多个类的第一模型样本A1的移动终端数目占比在一定范围时,将这多个类中属于第一模型样本A1的样本进行合并,作为所述第一模型子样本A11,并将这多个类中属于第一待测样本B1的样本进行合并,作为所述第一待测子样本B11。B20、如B13所述的服务器,还包括模型校验单元,适于:从所述第一模型子样本A11中另选一部分样本作为校验样本;将所述检验样本中的移动终端的性别维度值输入到所述训练好的分类模型中,输出得到该移动终端的用户性别预测结果;以及根据所述每个移动终端的真实用户性别对预测结果进行检验,得到该第一模型子样本A1'的性别预测准确度,并将该性别预测准确度近似作为所述第一待测子样本B1'的性别预测准确度。B21、如B20所述的服务器,所述样本更新单元适于:当所述第一模型子样本A11的性别预测准确度小于第五阈值时,将所述第一待测子样本B11继续保留在所述整体待测样本B中;以及从含有该第一待测子样本B11的整体待测样本B中进行第二次随机样本选取,并从选取结果中取出第一置信度大于第三阈值且第二置信度大于第四阈值的第二待测样本B2。B22、如B15所述的服务器,所述第一设备信息还包括移动终端的机型信息,所述模型构建单元适于:统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数;以及根据所述机型的性别倾向指数计算该机型的性别维度值;如果所述机型的性别维度值偏向女性维度,则将该机型的性别维度值加入到该移动终端的偏女性维度值中,反之则加入到该移动终端的偏男性维度值中。B23、如B16或B21中所述的服务器,所述样本选取单元还适于根据模型样本中所含移动终端的数量,对所述第三阈值和所述第四阈值的数值进行调整。B24、如B14所述的服务器,所述模型构建单元适于根据以下方法计算所述单组性别维度值:计算所述性别倾向指数的最大值和最小值之间的差值,根据所述差值将所述应用均分为多个分组;以及统计每个分组内所含的该移动终端的应用数目,并结合该分组的权值计算得到该移动终端的在该分组的单组性别维度值。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本
技术领域
内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1