一种用户自然属性的确定方法和装置制造方法

文档序号:6551439阅读:150来源:国知局
一种用户自然属性的确定方法和装置制造方法
【专利摘要】本发明实施例提供了一种用户自然属性的确定方法和装置,该方法包括:根据第一用户的自然属性和行为,确定包含第一用户的自然属性和第一用户的用户特征向量的样本;对第一用户的用户特征向量中的特征进行归一化处理;通过包含归一化处理后的第一用户的用户特征向量的样本,获得每个自然属性对应的逻辑回归机器学习模型;根据第二用户的行为,确定第二用户的用户特征向量,其中,第二用户为待确定自然属性的用户;对第二用户的用户特征向量中的特征进行归一化处理;将归一化处理后的第二用户的用户特征向量应用到每个自然属性对应的逻辑回归机器学习模型中,确定出第二用户的自然属性。本申请提高了确定用户自然属性的准确性。
【专利说明】-种用户自然属性的确定方法和装置

【技术领域】
[0001] 本发明涉及计算机【技术领域】,特别是涉及一种用户自然属性的确定方法和装置。

【背景技术】
[0002] 互联网公司及其产品是以服务用户为基础的,因此,只有提高对来访用户的认知, 才能更好地服务用户,提高用户忠诚度,最终留住用户。然而,互联网公司的用户是亿为 单位来计算的,并且,注册用户比例非常低,无法覆盖足够用户。因此,需要通过技术手段获 知非注册用户的自然属性,以便更好的服务用户。
[0003] 现有技术中,对用户的认知方法包括:通过模型获取与已知用户的年龄或性别等 自然属性相关的搜索行为和网页;根据与已知用户的自然属性相关的搜索行为和网页,建 立预测模型;使用预测模型预测未知用户的自然属性。
[0004] 在实现本发明的过程中,发明人发现,由于互联网的用户很多,每个用户的行为都 是不一样的,如果将每个用户的每种行为都用来进行预测,计算量非常大,预测效率很低, 有时甚至无法预测出结果。
[0005] 另外,现有技术中,在现有技术中,直接使用用户行为对应的特征的原始值来预测 用户的自然属性,这些原始值不能体现出特征对自然属性的影响,因此,预测的准确度较 低。
[0006] 因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何提高确定用 户自然属性的准确性。


【发明内容】

[0007] 本发明实施例所要解决的技术问题是提供一种用户自然属性的确定方法,以便提 高确定用户自然属性的准确性。
[0008] 相应的,本发明实施例还提供了一种用户自然属性的确定装置,用以保证上述方 法的实现及应用。
[0009] 为了解决上述问题,本发明公开了一种用户自然属性的确定方法,包括:根据第一 用户的自然属性和行为,确定包含所述第一用户的自然属性和所述第一用户的用户特征向 量的样本,其中,所述第一用户为已知自然属性的用户,所述第一用户的用户特征向量中的 特征是根据所述第一用户的行为确定的;对所述第一用户的用户特征向量中的特征进行归 一化处理;通过包含归一化处理后的所述第一用户的用户特征向量的样本,获得每个自然 属性对应的逻辑回归机器学习模型;根据第二用户的行为,确定所述第二用户的用户特征 向量,其中,所述第二用户为待确定自然属性的用户;对所述第二用户的用户特征向量中的 特征进行归一化处理;将归一化处理后的所述第二用户的用户特征向量应用到每个自然属 性对应的逻辑回归机器学习模型中,确定出所述第二用户的自然属性。
[0010] 优选地,对所述第一用户的用户特征向量中的特征进行归一化处理,包括:
[0011] 使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理:
[0012]
[0013] 其中,s i gmo i d 函数为λ% moid(A·):

【权利要求】
1. 一种用户自然属性的确定方法,其特征在于,包括: 根据第一用户的自然属性和行为,确定包含所述第一用户的自然属性和所述第一用户 的用户特征向量的样本,其中,所述第一用户为已知自然属性的用户,所述第一用户的用户 特征向量中的特征是根据所述第一用户的行为确定的; 对所述第一用户的用户特征向量中的特征进行归一化处理; 通过包含归一化处理后的所述第一用户的用户特征向量的样本,获得每个自然属性对 应的逻辑回归机器学习模型; 根据第二用户的行为,确定所述第二用户的用户特征向量,其中,所述第二用户为待确 定自然属性的用户; 对所述第二用户的用户特征向量中的特征进行归一化处理; 将归一化处理后的所述第二用户的用户特征向量应用到每个自然属性对应的逻辑回 归机器学习模型中,确定出所述第二用户的自然属性。
2. 根据权利要求1所述的方法,其特征在于, 对所述第一用户的用户特征向量中的特征进行归一化处理,包括: 使用以下公式对所述第一用户的用户特征向量中的特征进行归一化处理:
其中,tf\为所述第一用户使用第一特征的频次,Sum_freqi为所述第一用户的所有特 征的频次之和,t〇tal_user是用户总数,user_uv表示第一特征被user_uv个用户覆盖到, scoreUSOT,fMtura为所述第一特征归一化之后的取值; 对所述第二用户的用户特征向量中的特征进行归一化处理,包括: 使用以下公式对所述第二用户的用户特征向量中的特征进行归一化处理:
其中,tf为所述第二用户使用第一特征的频次,SUm_freq为所述第二用户的所有特征 的频次之和。
3. 根据权利要求1所述的方法,其特征在于, 在对所述第一用户的用户特征向量中的特征进行归一化处理之前,所述方法还包括: 确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的Μ个特 征,其中,所述Ν为0?1之间的浮点数,Μ为正整数;滤除所述第一用户的用户特征向量中 除所述Μ个特征之外的特征; 在对所述第二用户的用户特征向量中的特征进行归一化处理之前,所述方法还包括: 滤除所述第二用户的用户特征向量中除所述Μ个特征之外的特征。
4. 根据权利要求3所述的方法,其特征在于,确定所述第一用户的用户特征向量中覆 盖率超过Ν的特征中自然属性区分度最高的Μ个特征,包括: 通过以下公式,确定所述用户向量中的每个特征的覆盖率c〇VfeatUM,并过滤掉其中 c〇vfeatura小于N的特征:
其中,是此特征覆盖的用户数,uvall是用户总数; 通过以下公式,确定所述第一用户的用户特征向量中覆盖率超过N的特征中每个特征 的自然属性区分度discrifeature DMfile : =
其中,i的取值为1?N,uVi为当前特征在当前自然属性的第i个取值上的覆盖人数, ratei为当前自然属性第i个取值在所有用户中所占的比例; 选择自然属性区分度最高的Μ个特征作为所述第一用户的用户特征向量中覆盖率超 过Ν的特征中自然属性区分度最高的Μ个特征。
5. 根据权利要求1至4中任一项所述的方法,其特征在于, 所述第一用户为注册用户,所述注册用户的自然属性是通过所述注册用户的注册信息 得到的;所述行为包括:观影行为和搜索行为。
6. -种用户自然属性的确定装置,其特征在于,包括: 第一确定模块,用于根据第一用户的自然属性和行为,确定包含所述第一用户的自然 属性和所述第一用户的用户特征向量的样本,其中,所述第一用户为已知自然属性的用户, 所述第一用户的用户特征向量中的特征是根据所述第一用户的行为确定的; 第一归一化处理模块,用于对所述第一用户的用户特征向量中的特征进行归一化处 理; 获取模块,用于通过包含归一化处理后的所述第一用户的用户特征向量的样本,获得 每个自然属性对应的逻辑回归机器学习模型; 第二确定模块,用于根据第二用户的行为,确定所述第二用户的用户特征向量,其中, 所述第二用户为待确定自然属性的用户; 第二归一化处理模块,用于对所述第二用户的用户特征向量中的特征进行归一化处 理; 第三确定模块,用于将归一化处理后的所述第二用户的用户特征向量应用到每个自然 属性对应的逻辑回归机器学习模型中,确定出所述第二用户的自然属性。
7. 根据权利要求6所述的装置,其特征在于, 所述第一归一化处理模块用于使用以下公式对所述第一用户的用户特征向量中的特 征进行归一化处理:
其中,sigmoid 凼数为s/gmoul(x) =---1 - l + e-·' 其中,tf\为所述第一用户使用第一特征的频次,SUm_freqi为所述第一用户的所有特 征的频次之和,t〇tal_user是用户总数,user_uv表示第一特征被user_uv个用户覆盖到, scoreUSOT,fMtura为所述第一特征归一化之后的取值; 所述第二归一化处理模块用于使用以下公式对所述第二用户的用户特征向量中的特 征讲行归一化#理: 其中,tf为所述第二用户使用第一特征的频次,SUm_freq为所述第二用户的所有特征 的频次之和。
8. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 第四确定模块,用于在对所述第一用户的用户特征向量中的特征进行归一化处理之 前,确定所述第一用户的用户特征向量中覆盖率超过N的特征中自然属性区分度最高的Μ 个特征,其中,所述Ν为0?1之间的浮点数,Μ为正整数; 滤除模块,用于在对所述第一用户的用户特征向量中的特征进行归一化处理之前,滤 除所述第一用户的用户特征向量中除所述Μ个特征之外的特征;在对所述第二用户的用户 特征向量中的特征进行归一化处理之前,滤除所述第二用户的用户特征向量中除所述Μ个 特征之外的特征。
9. 根据权利要求8所述的装置,其特征在于,所述第四确定模块用于: 通过以下公式,确定所述用户向量中的每个特征的覆盖率c〇VfeatUM,并过滤掉其中 c〇vfeatura小于N的特征:
其中,是此特征覆盖的用户数,uvall是用户总数; 通过以下公式,确定所述第一用户的用户特征向量中覆盖率超过N的特征中每个特征 的自然属性区分度discrifP!(t,," mnfilp :
其中,i的取值为1?N,uVi为当前特征在当前自然属性的第i个取值上的覆盖人数, ratei为当前自然属性第i个取值在所有用户中所占的比例; 选择自然属性区分度最高的Μ个特征作为所述第一用户的用户特征向量中覆盖率超 过Ν的特征中自然属性区分度最高的Μ个特征。
10. 根据权利要求6至9中任一项所述的装置,其特征在于, 所述第一用户为注册用户,所述注册用户的自然属性是通过所述注册用户的注册信息 得到的;所述行为包括:观影行为和搜索行为。
【文档编号】G06F19/00GK104102819SQ201410302923
【公开日】2014年10月15日 申请日期:2014年6月27日 优先权日:2014年6月27日
【发明者】何飞, 傅一峰 申请人:北京奇艺世纪科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1