性别预测方法、装置和计算机可读存储介质与流程

文档序号:20920346发布日期:2020-05-29 14:04阅读:177来源:国知局
性别预测方法、装置和计算机可读存储介质与流程
本发明涉及数据处理领域,特别涉及一种性别预测方法、装置和计算机可读存储介质。
背景技术
:在用户性别预测的相关研究中,基于规则的判断方法简单快捷,但准确率有限。用户在注册账号时通常不会填写完整的个人信息,直接使用注册性别作为用户真实性别往往覆盖率较低,真实程度也有较大的不确定性。通过身份证号解析得到性别数据,可靠性较高,但身份证号作为敏感数据,覆盖率通常会更低。目前用户性别预测研究多集中在社交媒体领域,根据用户的发言和互动内容对性别进行预测。而电商领域中,只有少量用户会对商品留言评价。因此,社交平台中的用户性别预测方法无法直接推广至电商应用中。技术实现要素:发明人经过分析后发现,在电商平台中,大部分用户性别画像是指某一个注册账号的性别。但是在实际应用场景中,会存在一个注册账号同时登录多个不同设备的情况,即多人共同使用一个注册账号。例如,某家庭中,夫妻双方在各自的手机设备上都登录了同一个账号进行商品浏览和购买等行为。数据调研发现,有超过1/3的注册账号会在多个设备上登录。因此,目前性别预测的准确率较低。本发明实施例所要解决的一个技术问题是:如何提高性别预测的准确率。根据本发明一些实施例的第一个方面,提供一种性别预测方法,包括:根据待测设备对应的历史数据生成待测数据;将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。在一些实施例中,在登录待测设备的用户账号为同一个用户账号的情况下,根据待测设备上未登录用户产生的历史数据以及待测设备对应的用户账号产生的历史数据,生成待测数据。在一些实施例中,在登录待测设备的用户账号包括多个用户账号的情况下,根据待测设备对应的同一用户账号产生的历史数据,获取同一用户账号对应的待测数据;将同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对待测设备对应的同一用户账号的性别预测结果。在一些实施例中,根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据;将待测数据输入预先训练的、比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。在一些实施例中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,待测数据包括第一商品内容特征和用户行为特征;用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;第一商品内容特征包括对操作的商品标题中的分词的操作次数。在一些实施例中,在待测设备对应的历史数据中的预设操作次数不大于预设值的情况下,待测数据包括第二商品内容特征,第二商品内容特征根据历史操作商品的标题的分词的词向量确定。在一些实施例中,性别预测方法还包括:根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据;根据设备级别用户的历史数据生成训练数据,训练数据的标记值为设备级别用户的性别信息;采用训练数据和标记值训练模型,获得性别预测模型,以便采用性别预测模型对设备的用户性别进行预测。在一些实施例中,设备级别用户对应的设备上登录同一个用户账号。根据本发明一些实施例的第二个方面,提供一种性别预测装置,包括:待测数据生成模块,被配置为根据待测设备对应的历史数据生成待测数据;性别预测模块,被配置为将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。在一些实施例中,待测数据生成模块进一步被配置为在登录待测设备的用户账号为同一个用户账号的情况下,根据待测设备上未登录用户产生的历史数据以及待测设备对应的用户账号产生的历史数据,生成待测数据。在一些实施例中,待测数据生成模块进一步被配置为在登录待测设备的用户账号包括多个用户账号的情况下,根据待测设备对应的同一用户账号产生的历史数据,获取同一用户账号对应的待测数据;性别预测模块进一步被配置为将同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对待测设备对应的同一用户账号的性别预测结果。在一些实施例中,待测数据生成模块进一步被配置为根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据;性别预测模块进一步被配置为将待测数据输入预先训练的、比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。在一些实施例中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,待测数据包括第一商品内容特征和用户行为特征;用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;第一商品内容特征包括对操作的商品标题中的分词的操作次数。在一些实施例中,在待测设备对应的历史数据中的预设操作次数不大于预设值的情况下,待测数据包括第二商品内容特征,第二商品内容特征根据历史操作商品的标题的分词的词向量确定。在一些实施例中,性别预测装置还包括:模型训练模块,被配置为根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据;根据设备级别用户的历史数据生成训练数据,训练数据的标记值为设备级别用户的性别信息;采用训练数据和标记值训练模型,获得性别预测模型,以便采用性别预测模型对设备的用户性别进行预测。在一些实施例中,设备级别用户对应的设备上登录同一个用户账号。根据本发明一些实施例的第三个方面,提供一种性别预测装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种性别预测方法。根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种性别预测方法。上述发明中的一些实施例具有如下优点或有益效果:本发明的实施例可以基于设备级别用户的历史数据进行模型训练,从而可以使训练数据标记的性别更准确,提高了性别预测模型的准确率。同时,在进行预测时,也可以针对待测设备对应的历史数据,准确地预测出用户的性别。从而,提高了性别预测的准确率。通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本发明一些实施例的性别预测方法的流程示意图。图2a和2b为根据本发明另一些实施例的性别预测方法的流程示意图。图3为根据本发明一些实施例的性别预测模型训练方法的流程示意图。图4为根据本发明另一些实施例的性别预测模型训练方法的流程示意图。图5为根据本发明又一些实施例的性别预测方法的流程示意图。图6为根据本发明一些实施例的性别预测装置的结构示意图。图7为根据本发明另一些实施例的性别预测装置的结构示意图。图8为根据本发明又一些实施例的性别预测装置的结构示意图。图9为根据本发明再一些实施例的性别预测装置的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。图1为根据本发明一些实施例的性别预测方法的流程示意图。如图1所示,该实施例的性别预测方法包括步骤s102~s104。在步骤s102中,根据待测设备对应的历史数据生成待测数据。待测设备对应的历史数据是指用户在待测设备上使用目标网站或应用而产生的数据,例如用户在电商网站进行下单、收藏、浏览等操作时产生的数据。若无特殊说明,后文中提到的历史数据、设备产生的数据均指目标网站或应用对应的数据。历史数据可以包括用户的操作数据和操作的商品数据,操作数据例如包括用户的浏览数据、购买数据、收藏数据等等,操作的商品数据例如包括用户操作的商品的名称、类别、属性、描述等等。根据这些历史数据,可以根据性别预测模型输入数据所包括的特征来生成待测数据。在一些实施例中,可以按照预设的每个特征维度对应的数据类型,将历史数据组织为多维数据。在步骤s104中,将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。设备级别用户是指仅在同一个设备进行登录的用户账号,从而可以排除多个人使用各自的设备登录同一个账号的情况,使用户对应的性别更准确。在一些实施例中,可以在用户设备向服务器发送数据时,向其中添加用户使用的设备标识,从而服务器可以确定每个用户账号所登录的设备。在进行训练时,设备级别用户充分考虑了用户使用的设备,因此可以使得同一条训练数据中的信息都是来自同一个使用者,使得同一条训练数据对应的用户性别更准确。在预测出用户性别后,可以基于预测结果对用户进行个性化的信息推荐,例如向用户发送性别对应的商品信息、活动信息等数据。通过上述实施例的方法,可以基于设备级别用户的历史数据进行模型训练,从而可以使训练数据标记的性别更准确,提高了性别预测模型的准确率。同时,在进行预测时,也可以针对待测设备对应的历史数据,准确地预测出用户的性别。从而,提高了性别预测的准确率。对于账号和设备一一对应、多人共用一个账号、多个账号登录同一个设备等情况,本发明均可以对用户的性别进行准确的预测。下面参考图2a和2b描述本发明性别预测方法的实施例。图2a为根据本发明另一些实施例的性别预测方法的流程示意图。如图2a所示,该实施例的性别预测方法包括步骤s202~s204。在该实施例中,登录待测设备的用户账号为同一个用户账号,即用户账号和待测设备一一对应、或者多人采用各自的设备共用同一个用户账号。在步骤s202中,根据待测设备上未登录用户产生的历史数据以及待测设备对应的用户账号产生的历史数据,生成待测数据。在步骤s204中,将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果。如果一个设备仅登录过一个用户账号,说明该设备被多人共用的概率非常小。此时,即使用户在电商网站浏览时没有登录用户账号,待测设备上未登录用户产生的历史数据也很可能是由登录过待测设备的用户账号产生的。通过上述实施例的方法,可以根据未登录用户的数据和登录的用户账号的数据共同预测使用待测设备的用户的性别,丰富了待测数据的数据量,提高了性别预测的准确性。图2b为根据本发明另一些实施例的性别预测方法的流程示意图。如图2b所示,该实施例的性别预测方法包括步骤s212~s214。在该实施例中,登录待测设备的用户账号包括多个用户账号。在步骤s212中,根据待测设备对应的同一用户账号产生的历史数据,获取同一用户账号对应的待测数据。在步骤s214中,将同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对待测设备对应的同一用户账号的性别预测结果。如果一个设备上登录过多个用户账号,则需要根据该设备上每个用户账号的历史数据预测设备-用户账号对应的性别。通过上述实施例的方法,可以覆盖多人共用一个设备的情况,从而可以针对更多的场景进行性别预测。图2a和图2b实施例的方法可以单独使用,也可以结合使用。表1为一个应用场景中的不同设备上的用户账号登录情况。表1设备设备上登录的账号设备p1用户账号id1设备p2用户账号id2设备p3用户账号id1,用户账号id3从而,在一些实施例中,基于设备p1上的全部历史数据,可以预测设备p1的使用者的性别;基于设备p2上的全部历史数据,可以预测设备p2的使用者的性别;基于设备p3上用户账号id1的历史数据,可以预测通过设备p3登录用户账号id1的使用者的性别,以及通过设备p3登录用户账号id3的使用者的性别。本发明还提供了性别预测模型的训练方法。下面参考图3描述本发明性别预测模型的训练方法的实施例。图3为根据本发明一些实施例的性别预测模型训练方法的流程示意图。如图3所示,该实施例的训练方法包括步骤s302~s306。在步骤s302中,根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据,设备级别用户对应的用户账号在同一设备使用。当用户在设备上登录电商网站的账号后,在设备与电商网站后台进行数据交互时,后台可以记录用户的操作以及相应的用户账号和设备信息。在一些实施例中,设备级别用户对应的用户账号在同一设备使用,但是一个设备可以登录多个用户账号。例如,用户u1的用户账号为id1,用户u2的用户账号为id2。用户u1和用户u2均仅在设备p1上登录时,设备p1上的用户账号id1以及设备p1上的用户账号id2的性别可以确定。在一些实施例中,设备级别用户对应的用户账号在同一设备使用,设备级别用户对应的设备上登录同一个用户账号。即,采用和设备一一对应的用户账号的历史数据进行训练。例如,用户账号id1仅在设备p1上登录、设备p1也仅有用户账号id1登录时,设备p1对应的性别可以确定。如果用户账号id1既在设备p1上登录、又在设备p2上登录,说明可能是用户u1和用户u2共用账号id1,此时无法判别设备p1和设备p2对应的用户的性别。这样的用户账号关联的历史数据无法作为训练数据使用。因此在本发明的训练数据中,排除了共用账号的相关数据。在步骤s304中,根据设备级别用户的历史数据生成训练数据,训练数据的标记值为设备级别用户的性别信息。在步骤s306中,采用训练数据和标记值训练模型,获得性别预测模型,以便采用性别预测模型对设备的用户性别进行预测。该模型例如可以为神经网络模型。在一些实施例中,模型可以由输入层、隐含层、输出层构成。通过softmax激活函数计算用户被判定为男性或女性的概率。例如,对于训练数据模型的最大化对数似然函数可以表示为其中,xn是第n个设备级别用户的特征向量,yn是该设备级别用户的标记值,m是特征权重矩阵,f(·)为softmax函数。在训练过程中,可以使用随机梯度下降法和基于线性衰减的学习率,来预测设备级别用户的性别及对应的概率值。概率值越接近1,表示使用该设备的用户性别标签预测结果置信度越高。由于设备级别用户对应的用户账号仅在同一设备使用,即不存在多人共用的情况,因此用户账号的性别即为设备级别用户的性别。从而可以准确地确定训练数据的标记值,提高了性别预测模型的预测准确率。由于不同用户的登录、浏览、购买等操作的次数存在差异,因此部分用户的数据较多、部分用户的数据较少。为了进一步提升预测的准确性,本发明设计了不同特征尺度的训练数据以训练不同的模型。下面参考图4描述本发明性别预测模型训练方法的实施例。图4为根据本发明另一些实施例的性别预测模型训练方法的流程示意图。如图4所示,该实施例的训练方法包括步骤s402~s406。在步骤s402中,根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据。在步骤s404中,根据设备级别用户对预设操作的历史操作次数与预设阈值的比较结果生成不同类型的训练数据,训练数据的标记值为设备级别用户的性别信息。预设操作可以为预设的用于衡量用户行为是否稀疏的操作。例如,可以将用户在一年内的下单次数、浏览次数、登录次数、收藏次数等等与预设阈值进行比较。在一些实施例中,如果设备级别用户对预设操作的历史操作次数大于预设阈值,例如一年内的下单次数超过3次,则该设备级别用户为操作丰富的用户,反之则为操作稀疏的用户。对于操作丰富的用户,例如可以采用用户行为特征和商品内容特征进行训练;对于操作稀疏的用户,例如可以采用商品内容特征进行训练。从而可以提升预测的准确率。不同类型的训练数据可以是具有不同的特征构成的数据。从而可以利用用户操作的丰富程度来选择能够代表此类用户特点的特征构成训练数据。在步骤s406中,采用同一类型的训练数据和标记值训练比较结果对应的模型,获得比较结果对应的性别预测模型。例如,可以采用操作丰富的用户对应的训练数据训练操作丰富的性别预测模型,采用操作稀疏的用户对应的训练数据训练操作稀疏的性别预测模型。并且,在进行预测时,可以根据待测设备对应的历史数据的情况选择相应的模型进行预测。通过上述实施例的方法,可以根据用户操作是否稀疏训练不同类型的性别预测模型。从而可以进一步提升性别预测的准确度。在一些实施例中,在设备级别用户对预设操作的历史操作次数大于预设值的情况下,训练数据包括第一商品内容特征和用户行为特征。用户行为特征例如可以包括以下至少一种:设备级别用户操作每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息。下面示例性地介绍两种用户行为特征。第一种示例性的用户行为特征为统计用户点击和购买的每个类目和品牌下商品的总数、总价和均价。根据商品类别和属性,可以将商品划分为多种一级类目,并继续细分为二级类目、三级类目。男性用户和女性用户在购买商品类目和品牌上会存在不同的兴趣。例如,在汽车用品、五金工具等商品类目中,或者在男装专营品牌中,男性用户的行为会更为丰富。在香水美妆、珠宝首饰等商品类目中,或者在女装专营品牌中,女性用户会表现得更为活跃。通过统计用户在不同类目和品牌下的预设时间段内的点击和购买情况,可以刻画出用户的购物偏好。此类特征主要是基于类目和品牌维度,在较粗的粒度上生成统计类特征,覆盖率高、特征维度较高并且比较稀疏。第二种示例性的用户行为特征为用户点击、购买的男性/女性/中性商品的次数和比例。一般情况下,男性用户会对男性商品有着更为丰富的互动,女性则相反。因此,用户对男性/女性商品的点击和购买行为的次数和比例,是判断用户性别的直接信号。而冰箱、洗衣机等中性商品则对用户性别的判断无明显作用。此类特征虽然特征维度低、覆盖率有限,但是可以用于统计用户对所有商品的性别偏好。第一商品内容特征例如可以包括设备级别用户对操作的商品标题中的分词的操作次数。例如,可以将设备级别用户点击或购买的商品标题进行分词,并统计各个分词的出现次数,然后将各个分词的出现次数作为训练数据中的特征值。在使用商品标题中的分词前可以对分词结果数据进行过滤,例如去除标点符号、停用词等等,以减少无关信息的干扰。例如,设某设备级别用户点击过两个商品标题分别为“女士长款风衣”、“女士短款袜子”,则未归一化的标题分词特征可以如表2所示。表2女士长款风衣短款袜子21111商品标题是用户获得的商品信息的关键内容。商品标题数据覆盖率全、质量较高,并且包含有商品名和相关修饰词,这些分词在不同程度上体现了性别倾向。根据标题分词结果,可以获得与性别直接相关的分词,例如:男鞋、女包、妈妈装等;以及获得非显性性别词、但有明显的性别指向的分词,例如:剃须刀、连衣裙、高跟鞋等;此外还可以获得具有隐含性别色彩的分词,如:电钻、蕾丝、粉色等。在一些实施例中,可以分别统计每个用户对不同标题分词的点击和购买次数,将次数进行归一化后作为每个设备级别用户的特征值。此类特征主要是基于商品维度,信息丰富、覆盖率高、特征维度很高并且比较稀疏。在一些实施例中,在设备级别用户对预设操作的历史操作次数不大于预设值的情况下,训练数据包括第二商品内容特征,第二商品内容特征根据设备级别用户历史操作商品的标题分词的词向量确定。例如,可以根据用户有过点击行为的标题分词的词向量的平均值确定。例如,设备级别用户点击的商品标题中包括分词“男士”、“纯棉”、“字母”、“圆领”、“短袖”,各个分词的词向量为:男士=[0.8,0,0,0,0],纯棉=[0.2,0,0,0,0],字母=[0,0.5,0,0,0],圆领=[0,0,0.5,0,0],短袖=[0,0,0,0.5,0.5]。则该设备级别用户对应的第二商品内容特征为求以上五个向量的均值,结果为[0.2,0.1,0.1,0.1,0.1]。行为比较稀疏的用户的统计信息难以明显体现用户的特征,所以例如可以使用用户预设时间内点击商品的标题数据构建由相关商品标题所组成的文本集合。在统计此类用户的特征数据时,发现用户点击的大部分高频分词数据与性别的相关性较低。基于以上原因,本发明不在第二商品内容特征中体现每个分词的点击次数信息。在一些实施例中,可以使用词袋模型和有监督的学习方法确定每个分词的词向量,从而可以更凸显性别相关词语的所起到的作用,提升了最终性别预测结果的准确率。下面示例性地介绍一种词向量的确定方法。假设用于训练词向量的训练样本集合中一共有k个商品分词。第n个用户的特征、即训练数据归一化后可以表示为其中,若用户对分词i有点击或购买行为,则xi=1,否则xi=0。第n个用户的性别标签为yn,即用户特征的标记值。k表示商品分词的标识。在n个用户组成的训练集中,最大似然函数表示为其中,a=[v0,v1……vk-1]t,vk为第k个分词的词向量,f(·)为激活函数,b为性别预测模型模型参数。通过最小化可以得到参数a和b的解,从而获得词向量和性别预测模型参数。在进行性别预测的阶段,也可以根据待测设备对应的历史数据中的预设操作次数来采用不同模型进行训练。下面参考图5描述本发明性别预测方法的实施例。图5为根据本发明又一些实施例的性别预测方法的流程示意图。如图5所示,该实施例的性别预测方法包括步骤s502~s504。在步骤s502中,根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据。在一些实施例中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,待测数据包括第一商品内容特征和用户行为特征。用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;第一商品内容特征包括对操作的商品标题中的分词的操作次数。在一些实施例中,在待测设备对应的历史数据中的预设操作次数不大于预设值的情况下,待测数据包括第二商品内容特征,第二商品内容特征根据历史操作商品的标题的分词的词向量确定。在步骤s504中,将待测数据输入预先训练的、比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。通过上述实施例的方法,可以根据用户操作是否稀疏采用不同的性别预测模型进行预测。从而可以进一步提升性别预测的准确度。下面参考图6描述本发明一些实施例的性别预测装置。图6为根据本发明一些实施例的性别预测装置的结构示意图。如图6所示,该实施例的性别预测装置60包括:待测数据生成模块610,被配置为根据待测设备对应的历史数据生成待测数据;性别预测模块620,被配置为将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。在一些实施例中,待测数据生成模块610进一步被配置为在登录待测设备的用户账号为同一个用户账号的情况下,根据待测设备上未登录用户产生的历史数据以及待测设备对应的用户账号产生的历史数据,生成待测数据。在一些实施例中,待测数据生成模块610进一步被配置为在登录待测设备的用户账号包括多个用户账号的情况下,根据待测设备对应的同一用户账号产生的历史数据,获取同一用户账号对应的待测数据;性别预测模块620进一步被配置为将同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对待测设备对应的同一用户账号的性别预测结果。在一些实施例中,待测数据生成模块610进一步被配置为根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据;性别预测模块620进一步被配置为将待测数据输入预先训练的、比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。在一些实施例中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,待测数据包括第一商品内容特征和用户行为特征;用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;第一商品内容特征包括对操作的商品标题中的分词的操作次数。在一些实施例中,在待测设备对应的历史数据中的预设操作次数不大于预设值的情况下,待测数据包括第二商品内容特征,第二商品内容特征根据历史操作商品的标题的分词的词向量确定。下面参考图7描述本发明一些实施例的性别预测装置。图7为根据本发明另一些实施例的性别预测装置的结构示意图。如图7所示,该实施例的性别预测装置70包括待测数据生成模块710和性别预测模块720,其具体实施方式可以分别参考图6实施例中的待测数据生成模块610和性别预测模块620。此外,性别预测装置70还包括模型训练模块730,被配置为根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据;根据设备级别用户的历史数据生成训练数据,训练数据的标记值为设备级别用户的性别信息;采用训练数据和标记值训练模型,获得性别预测模型,以便采用性别预测模型对设备的用户性别进行预测。在一些实施例中,设备级别用户对应的设备上登录同一个用户账号。图8为根据本发明又一些实施例的性别预测装置的结构示意图。如图8所示,该实施例的性别预测装置80包括:存储器810以及耦接至该存储器810的处理器820,处理器820被配置为基于存储在存储器810中的指令,执行前述任意一个实施例中的性别预测方法。其中,存储器810例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(bootloader)以及其他程序等。图9为根据本发明再一些实施例的性别预测装置的结构示意图。如图9所示,该实施例的性别预测装置90包括:存储器910以及处理器920,还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930,940,950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为sd卡、u盘等外置存储设备提供连接接口。本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种性别预测方法。本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1