一种性别识别的方法及装置的制造方法

文档序号:9375787阅读:170来源:国知局
一种性别识别的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机处理技术领域,尤其涉及一种性别识别的方法及装置。
【背景技术】
[0002] 目前,app应用中包括多种社交类的软件,而由于不同性别的用户的偏好差别较 大,因此各种社交类软件通常会根据用户的性别去推送一些个性化的产品及应用等,因此 识别出用户的性别至关重要。
[0003]目前,识别用户性别的方法主要包括:通过语音、用户图像及用户偏好数据等用户 个性化方面的数据,可识别出用户的性别。然而,现有用户的个性化数据只包括语音数据或 图像数据,然而同一个终端的语音数据或图像数据可由多个用户发出,因此该终端对应的 用户的性别很难被确定。

【发明内容】

[0004] 针对现有技术终端中用户个性化数据缺乏,导致终端对应的用户性别很难确定的 缺陷,本发明提供一种性别识别的方法及装置。
[0005] 第一方面,本发明提供了一种性别识别的方法,该方法包括:
[0006] 获取第一预设时间段内多个终端的语音数据,并根据所述语音数据,对所述多个 终端对应的用户的性别进行识别;
[0007] 获取第二预设时间段内已识别出用户性别的多个终端的出行数据;
[0008] 将所述多个终端的出行数据作为训练语料进行二分类训练,得到用于性别预测的 二分类预测模型;
[0009] 根据所述二分类预测模型,以及终端的出行数据,对终端对应的用户性别进行预 测。
[0010] 优选地,所述根据所述语音数据,对所述多个终端对应的用户的性别进行识别,包 括:
[0011] 若一终端的语音数据包括一种性别的语音数据,则将该性别作为所述终端对应的 用户的性别;
[0012] 若一终端的语音数据包括两种性别的语音数据,则过滤掉该终端对应的语音数 据。
[0013] 优选地,所述出行数据为周出行频率、出行时间段分布、出行目的地POI分布及频 率、用户积分商城兑换数据、给予小费金额、给予小费频率、用券比例及用券平均值中的一 种或多种。
[0014] 优选地,所述根据所述语音数据,对所述多个终端对应的用户的性别进行识别之 后,还包括:
[0015] 获取已识别出用户性别的终端对应的用户好友关系;
[0016] 根据所述好友关系,获得与所述用户互为好友且预设优先级最高的第一用户;
[0017] 判定所述第一用户与所述已识别出性别的用户互为异性。
[0018] 优选地,所述得到用于性别预测的二分类预测模型为:
[0019]
[0020]
[0021] 其中,X表示的用户出行数据,y = 1表示预测为男性,y = 0表示预测为女性,w 表示系数。
[0022] 第二方面,本发明提供了一种性别识别的装置,该装置包括:
[0023] 第一性别识别单元,用于获取第一预设时间段内多个终端的语音数据,并根据所 述语音数据,对所述多个终端对应的用户的性别进行识别;
[0024] 获取单元,用于获取第二预设时间段内已识别出用户性别的多个终端的出行数 据;
[0025] 预测模型建立单元,用于将所述多个终端的出行数据作为训练语料进行二分类训 练,得到用于性别预测的二分类预测模型;
[0026] 性别预测单元,用于根据所述二分类预测模型,以及终端的出行数据,对终端对应 的用户性别进行预测。
[0027] 优选地,所述第一性别识别单元,用于:
[0028] 若一终端的语音数据包括一种性别的语音数据,则将该性别作为所述终端对应的 用户的性别;
[0029] 若一终端的语音数据包括两种性别的语音数据,则过滤掉该终端对应的语音数 据。
[0030] 优选地,所述出行数据为周出行频率、出行时间段分布、出行目的地POI分布及频 率、用户积分商城兑换数据、给予小费金额、给予小费频率、用券比例及用券平均值中的一 种或多种。
[0031] 优选地,所述装置还包括第二性别识别单元,用于:
[0032] 获取已识别出用户性别的终端对应的用户好友关系;
[0033] 根据所述好友关系,获得与所述用户互为好友且预设优先级最高的第一用户;
[0034] 判定所述第一用户与所述已识别出性别的用户互为异性。
[0035] 优选地,所述用于性别测试的二分类预测模型为:
[0036]
[0037]
[0038] 其中,X表示的用户出行数据,y = 1表示预测为男性,y = 0表示预测为女性,w 表示系数。。
[0039] 由上述技术方案可知,本发明提供一种性别识别的方法及装置,根据语音数据对 部分终端对应的用户的性别进行识别,根据这部分终端的出行数据训练得到二分类模型, 对其它没有语音数据的终端对应的用户的性别进行识别。本发明综合语音、出行数据及好 友关系确定了终端对应的用户的性别,分析全面,且准确性较高。从而进一步根据不同性别 的偏好,为不同性别的用户推送不同的个性化产品或应用。
【附图说明】
[0040] 为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些图获得其他的附图。
[0041] 图1是本公开一实施例提供的一种性别识别的方法的流程示意图;
[0042] 图2是本公开另一实施例提供的一种性别识别的装置的结构示意图。
【具体实施方式】
[0043] 下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于 本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本公开保护的范围。
[0044] 如图1所示,为本公开一实施例提供的一种性别识别的方法的流程示意图,该方 法包括如下步骤:
[0045] Sl :获取第一预设时间段内多个终端的语音数据,并根据所述语音数据,对所述多 个终端对应的用户的性别进行识别。
[0046] 其中,终端指安装有社交类应用的终端,如手机、个人电脑等。举例来说,语音数 据可为打车系统中的语音叫单数据。将语音数据从数据库中提取出来后,按照预设的语 音识别程序的格式要求对语音数据进行格式转换,然后采用预设的语音识别程序对语音 数据进行处理,得到语音数据对应的用户的识别。则在打车系统中,所述终端为提供服务 方,如交通工具叫车服务中的司机,所使用的用于接单的移动终端或个人计算机(Personal Computer,简称PC)等设备。例如智能手机、个人数码助理(PDA)、平板电脑、笔记本电脑、车 载电脑(carputer)、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增 强设备(如 Google Glass、Oculus Rift、Hololens、Gear VR)等。
[0047] S2:获取第二预设时间段内已识别出用户性别的多个终端的出行数据。
[0048] 具体来说,根据步骤Sl识别出多个终端对应的用户的性别后,进一步获取上述多 个终端的出行数据,用于训练二分类模型。
[0049] 举例来说,在打车系统中,所述出行数据可为周出行频率、出行时间段分布、出行 目的地POI分布及频率、用户积分商城兑换数据、给予小费金额、给予小费频率、用券比例 及用券平均值中的一种或多种。
[0050] S3:将所述多个终端的出行数据作为训练语料进行二分类训练,得到用于性别预 测的二分类预测模型。
[0051] 其中,本步骤中的二分类是指逻辑回归,具体训练方法是:
[0052] 将语音数据的性别预测结果作为训练输入数据;将通过语音数据确定好性别的每 个人的出行数据作为一行训练样本,利用逻辑回归训练程序进行常规的模型训练即可。
[0053] 具体来说,将性别预测结果作为训练输入数据y,将出行数据作为训练样本x对式 (1)所示的逻辑回归目标函数进行训练,求得系数《,从而得到二分类预测模型:
[0054]
[0055]
[0056] 其中,X表示的用户出行数据,y = 1表示预测为男性,y = 0表示预测为女性,w 表示系数。
[0057] S4 :根据所述二分类预测模型,以及终端的出行数据,对终端对应的用户的性别进 行预测。
[0058] 具体来说,根据得到的二分类预测模型,以及任一终端的出行数据,即可对终端对 应的用户性别进行预测。
[0059] 本实施例提供了一种性别识别的方法,根据语音数据对部分终端对应的用户的性 别进行识别,根据这部分终端的出行数据训练得到二分类模型,对其它没有语音数据的终 端对应的用户的性别进行识别。本发明综合语音、出行数据及好友关系确定了终端对应的 用户的性别,分析全面,且准确性较高。从而进一步根据不同性别的偏好,为不同性别的用 户推送不同的个性化产品或应用。
[0060] 本实施例中,步骤Sl中根据所述语音数据,对所述多个终端对应的用户的性别进 行识别,具体包括:
[0061] Sll :若一终端的语音数据包括一种性别的语音数据,则将该性别作为所述终端对 应的用户的性别;
[0062] S12 :若一终端的语音数据包括两种性别的语音数据,则过滤掉该终端对应的语音 数据。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1