用户属性预测平台和方法

文档序号:9217216阅读:327来源:国知局
用户属性预测平台和方法
【技术领域】
[0001]本发明涉及互联网领域,尤其涉及一种用户属性预测平台和方法。
【背景技术】
[0002]在现有的互联网领域,用户属性很大程度上决定了用户的意图和习惯,知晓它们对于满足用户的潜在需求具有重大意义。现有技术中,简单通过注册用户的资料填写获取得到的用户属性信息往往覆盖率和准确率都无法得到保证,难以达到应用需求。特别是对于用户粘性不够高的产品来说,普遍存在注册比例低、登录用户少、乱填个人资料、使用默认选项、多人共用电脑等诸多问题。因此,通过机器学习的方式根据用户历史行为数据来预测其属性信息显得尤为重要。尽管在机器学习中可选的算法有很多,但是这些算法都需要面对一些共同的问题:1)如何获取高置信度训练语料;2)选取哪些类型的用户行为来训练和预测;3)从不同类型的用户行为中怎样抽取出特征;4)如何优选出区分度高且有足够覆盖率的特征;5)模型效果如何来评价。更具体地,就算法中传统的用户属性提取模型来看,由于其大多将用户的多条行为看作一条独立的个体,分别进行属性分析,然后将每一条分析出的结果汇总到一起,得到整个用户的属性信息,由此忽略了用户相邻行为之间的上下文关系,难以达到较好的预测效果。
[0003]因此,希望可以提出一种用于解决上述问题的用户属性预测平台和方法。

【发明内容】

[0004]本发明的目的是提供一种用户属性预测平台和方法,可以有效地对互联网领域用户的属性进行预测。
[0005]根据本发明的一个方面,提供了一种用户属性预测平台,包括以下模块:
[0006]信息获取模块,用于获取包括用户属性信息和历史行为信息在内的原始训练语料;
[0007]训练特征生成模块,用于根据所述原始训练语料,生成相应的备选特征,计算与备选特征对应的各项指标,并根据各项指标筛选出训练所用特征;
[0008]训练模型形成模块,用于根据所述原始训练语料和所述训练所用特征,生成训练模型;
[0009]属性预测模块,基于所述训练模型,对待预测的用户对象进行属性预测。
[0010]根据本发明的另一个方面,还提供了一种用户属性预测方法,该方法包括:
[0011]获取包括用户属性信息和历史行为信息在内的原始训练语料;
[0012]根据所述原始训练语料,生成相应的备选特征,计算与备选特征对应的各项指标,并根据各项指标筛选出训练所用特征;
[0013]根据所述原始训练语料和所述训练所用特征,生成训练模型;
[0014]基于所述训练模型,对待预测的用户对象进行属性预测。
[0015]与现有技术相比,本发明具有以下优点:本发明提供的用户属性预测平台,基于对各种用户属性提供从训练到预测整个流程的处理,产生多套属性模型,并支持行为、特征和属性等各种用户相关信息的可视化和人工标注机制,较大地简化了各种用户属性的获取过程和用户属性模型的调优过程。
【附图说明】
[0016]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0017]图1为根据本发明一个优选实施例的用户属性预测平台的示意性框图;
[0018]图2为根据本发明另一个优选实施例的用户属性预测方法流程图。
【具体实施方式】
[0019]下面结合附图对本发明作进一步详细描述。
[0020]根据本发明的一个方面,提供了一种用户属性预测平台。
[0021]请参考图1,图1为根据本发明一个优选实施例的用户属性预测平台的示意性框图。
[0022]如图1所示,本发明提供的用户属性预测平台包括以下模块:
[0023]信息获取模块101,用于获取包括用户属性信息和历史行为信息在内的原始训练语料;
[0024]训练特征生成模块102,用于根据所述原始训练语料,生成相应的备选特征,计算与备选特征对应的各项指标,并根据各项指标筛选出训练所用特征;
[0025]训练模型形成模块103,用于根据所述原始训练语料和所述训练所用特征,生成训练丰吴型;
[0026]属性预测模块104,基于所述训练模型,对待预测的用户对象进行属性预测。
[0027]下文将对上述各模块的主要功能进行详述。
[0028]具体地,所述信息获取模块101所获取的用户属性信息主要指以用户为粒度的各种标签信息,包括自然属性、社会属性和兴趣属性等在内的各种信息。其中,自然属性信息包括性别、年龄等信息,社会属性信息包括职业、婚姻状况等信息,兴趣属性信息包括汽车购买需求、运动喜好等信息。而用户的历史行为信息主要包括用户在互联网上的各种搜索、浏览和点击行为信息。
[0029]进一步地,上述用户属性信息和历史行为信息一起构成用户属性预测平台的原始训练语料,这些原始训练语料可以基于自身特点,通过从用户自身产品日志提取、第三方数据关联以及基于行为的人工标注中至少一种方式获取。例如,从百度即时通信软件的注册信息中提取某个用户的性别、年龄信息等;又如,从浏览日志中发现某个用户对应的社区账号(典型地,如新浪微博账号),再通过该社区账号去对应的社区中自动查询该用户的性别信息;还如,通过查看某个用户的历史行为信息,通过人工判断确定该用户的性别信息。优选地,还可以定制数据清洗规则,设定或/和调整样本分布,对所述原始训练语料进一步加工成置信度更高的训练集。通过清洗,可以过滤其中的异常数据,比如,过于密集的行为数据和属性资料都填的默认选项信息等。
[0030]获取各种原始训练语料后,由所述训练特征生成模块102生成与其中的用户属性信息和历史行为信息相对应的备选特征。其中,所述备选特征包括所述历史行为信息本身和从所述行为信息中所抽取的关键词、分类项等信息。例如,针对某个男性用户而言,其对应的原始训练语料包括的历史行为信息本身有:搜索过魔兽世界怎么玩、男士手表推荐和近期上海天气;浏览过网站“京东商城”的首页和“新浪军事”新闻页。针对这些行为信息,从中抽取如下关键词:魔兽世界、男士手表、上海天气、京东浏览和军事浏览,作为备选特征。就其中的分类项而言,典型地如,某个用户的一条行为数据为:点击了某条广告,从而可以提取该条广告的分类特征作为本实施例的分类项数据,例如,提取的分类特征为体育用品或食品等,则将其作为所述备选特征中的分类项。其中,所述指标主要指反映特征区分度和覆盖程度的指标。
[0031]进一步地,针对不同备选特征,由所述训练特征生成模块102设定相应的指标类型,并计算各个备选特征在对应指标类型上的指标值。例如,针对上述男性用户的备选特征,设定的指标类型包括用户覆盖率、覆盖男女用户比等类型,则计算上述各个备选特征“魔兽世界、男士手表、上海天气、京东浏览和军事浏览”等在所述指标类型上“用户覆盖率、覆盖男女用户比”等类型的指标值。更进一步地,根据所计算的指标值筛选出区分度较高的备选特征作为训练所用特征。例如,筛选出“性别”区分度较高的“魔兽世界、男士手表和军事浏览”等备选特征作为训练所用特征。
[0032]进一步地,基于上述原始训练语料和已筛选得到的训练所用特征,由训练模型形成模块103生成训练模型。具体地,通过诸如SVM(支持向量机)、决策树、LR(逻辑回归)、最大熵等训练算法产生供用户属性预测时加载的模型(model)文件。所述模型文件主要包括各个特征及对应的权重信息。此处的权重信息主要指具有某个特征的用户属于某个分类类别的可能性值或可能性区间,例如,某个用户具有的特征为“dota(—种游戏名)”,则对应的年龄类别的可能性为15岁-25岁之间,则可以将计算所得的可能性值作为特征“dota”对应的权重信息。在本实施例中,用户基于所述训练模型形成模块103既可通过配置指定已有算法,也可以通过预设的接口实现自定义算法。
[0033]优选地,本实施例所提供的用户属性预测平台还可以包括训练模型评估模块,用于评估所述已生成训练模型的预测效果。所述训练模型评估模块具体评估的步骤包括:
[0034]I)建立用户属性标准验证集;
[0035]其中,所述标准验证集的结构和上述训练语料的结构一致,包括用户的真实属性信息和对应的历史行为数据,用于验证所生成的训练模型预测的属性信息是否与真实属性信息相一致。
[0036]2)加载各用户属性对应的训练模型,基于所述标准验证集中用户的历史行为信息进行用户属性预测,并将所述预测结果与所述标准验证集中用户的真实属性信息进行对t匕,验证所述训练模型的预测效果。
[0037]优选地,本实施例所提供的用户属性预测平台还包括:训练模型筛选模块,用于筛选出预测效果达到预设阈值的训练模型。具体地,通过上述训练模型评估模块的验证,设定预测效果的一定阈值,从而筛选出其中预测效果达到所述阈值的训练模型,作为本实施例最终用于预测用户属性的训练模型。
[0038]获取训练模型后,由所述属性预测模块型104基于用户的行为数据和相应特征对用户的属性进行预测。
[0039]更具体地,例如,由信息获取模块和训练特征生成模块获取一定期限内(如前N天,N可以取任意值)所有用户行为数据和训练所用特征后,以所述数据和特征为输入,由训练特征生成模块或/和训练模型形成模块抽取出每一天的用户特征;
[0040]将所述一定期限内的特征信息合并,生成一份用户历史特征集;
[0041]加载各属性训练好的预测模型,基于所述历史特征集,调用相应的预测算法预测用户属性信息。
[0042]其中,上文所述的历史特征集是指对原始训练语料中的历史行为信息经过去噪和降维处理所提取的具有用户属性区分度的特征信息集合。
[0043]优选地,本实施例将经过训练模型评估模块所验证过的预测效果达到一定阈值的训练模型推到线上,对任意未知用户的属性进行预测,将预测出的用户属性信息应用于信息投放、信息推荐等各个领域。
[0044]实际上,所述用户属性预测平台可以每天定时启动用户属性预测。
[0045]和现有技术相比,本实施例提供的用户属性预测平台具有以下优点:
[0046]I)由于本发明所提供的用户属性预测方法并不是针对特定一种用户属性的预测而设计,而是试图解决各种用户属性预测所存在的通用问题,因此,基于该平台,新增或新建任何一种属性的预测模型将变得异常简单;
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1