一种用户性别估算方法和系统与流程

文档序号:12272759阅读:301来源:国知局
一种用户性别估算方法和系统与流程

本发明涉及互联网技术领域,具体涉及一种用户性别估算方法和系统。



背景技术:

随着互联网技术的发展,各种即时通信和社交应用也如雨后春笋般应运而生。即时通信和社交应用中所涉及的大量用户数据,比如用户的喜好、年龄和性别等等,对于信息的投放,如广告的投放有着极大的意义。

在传统的技术中,用户性别的确定,一般都依赖于用户的自行填写,或者,通过关联的其他应用中性别的填写来确定,但是,这种方式最多只能覆盖50%的用户,仍然存在有大量无法确认其性别的用户,而且,可信度也不高,从而导致后续无法实现信息的准确投放。为此,现有技术又提出了一种性别估算方案,在该方案中,可以获取用户的公众号订阅行为、以及阅读行为,然后依据该公众号订阅行为、以及阅读行为来对用户的性别进行估算,从而实现确定用户性别的目的。

在对现有技术的研究和实践过程中,本发明的发明人发现,现有的用户性别估算方案虽然在一定程度中可以估算出用户的性别,但是,其可估算的用户的覆盖率较低,比如,对于没有公众号订阅行为、以及阅读行为的这部分用户而言,便无法确认其性别,等等。



技术实现要素:

本发明实施例提供一种用户性别估算方法和系统,不仅可以提高用户性别估算的准确性,而且可提高可估算用户的覆盖率。

本发明实施例提供一种用户性别估算方法,包括:

识别用户关联的兴趣群;

获取所述兴趣群的群成员关系链数据;

根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;

基于所述预估性别确定所述用户的性别。

相应的,本发明实施例还提供一种用户性别估算系统,包括:

识别单元,用于识别用户关联的兴趣群;

获取单元,用于获取所述兴趣群的群成员关系链数据;

估算单元,用于根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;

确定单元,用于基于所述预估性别确定所述用户的性别。

本发明实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的用户性别估算方法的场景示意图;

图1b是本发明实施例提供的用户性别估算方法的流程图;

图2是本发明实施例提供的用户性别估算方法的另一流程图;

图3a是本发明实施例提供的用户性别估算系统的结构示意图;

图3b是本发明实施例提供的用户性别估算系统的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种用户性别估算方法和系统。

参见图1a,该用户性别估算系统可以根据大数定律,通过利用用户的兴趣群中群成员关系链数据、以及群成员性别的分布数据等进行分析筛选,然后将群成员中占比最大的性别对用户自身的性别进行近似迁移,从而对未知的用户性别作出较为准确的估计。

比如,图1a中用户所关联的兴趣群为兴趣群A、兴趣群B和兴趣群C等,则可以根据这些兴趣群中的群成员关系链数据,分别估算这些兴趣群中占比最大的性别,得到兴趣群对应的预估性别,比如兴趣群A对应的预估性别为男性,兴趣群B对应的预估性别为男性,等等,然后基于这些预估性别确定该用户的性别,比如,由于占最大占比的性别为男性,则确定该用户的性别为男性,等等。

该用户性别估算系统可以作为独立的实体存在,也可以作为信息投放系统的一部分,以便后续协助信息投放系统进行精准信息投放,如广告投放,等等。

以下将分别进行详细说明。

实施例一、

在本实施例中,将从用户性别估算系统的角度进行描述,该用户性别估算系统具体可以集成在服务器等设备中。

一种用户性别估算方法,包括:识别用户关联的兴趣群,获取该兴趣群的群成员关系链数据,根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别,基于该预估性别确定该用户的性别。

如图1b所示,该用户性别估算方法的具体流程可以如下:

101、识别用户关联的兴趣群。

其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。

可选的,可以将识别出的兴趣群添加到同一个集合,比如将识别出的兴趣群的群标识(ID,Identity)添加到同一兴趣群列表中,并建立该集合如兴趣群列表与用户标识之间的映射关系,以便后续进行查找。

102、获取该兴趣群的群成员关系链数据。

例如,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。

比如,以在步骤101中已经得到了用户的兴趣群列表为例,则此时可以根据该兴趣群列表确定当前需要处理的兴趣群,然后根据该当前需要处理的兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,然后执行步骤103,得到该当前需要处理的兴趣群所对应的预估性别,并返回执行根据该兴趣群列表确定当前需要处理的兴趣群的步骤,直至得到该兴趣群列表中所有兴趣群所对应的预估性别为止。

其中,群成员关系链数据,指的是在即时通讯软件,如QQ和/或微信等应用中,与用户在同一兴趣群内的各个群成员之间的关系链。

比如,与用户在同一QQ兴趣群内的甲和乙,其中,甲的QQ与微信关联,而乙的QQ与微博关联,则甲在QQ上所公开的数据,以及甲在微信上所公开的数据,以及乙在QQ上所公开的数据,以及乙在微博上所公开的数据,均属于该群成员关系链数据之一,在此不再赘述。

由于该方案的实现需要基于群成员关系链数据,因此,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费过多的计算资源,可选的,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群进行删除,即在步骤“获取该兴趣群的群成员关系链数据”之前,该用户性别估算方法还可以包括:

确定该兴趣群是否存在除用户之外的其他群成员,若存在,则执行获取该兴趣群的群成员关系链数据的步骤,即执行步骤102;若不存在,则删除该兴趣群。

103、根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。

例如,可以根据该群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该已知性别用户集合中用户的性别估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。

比如,如果该兴趣群中有15位群成员,其中,已知有12个群成员的性别为男性,1个群成员的性别为女性,另外两位群成员的性别为未知,则此时可以确定该兴趣群对应的预估性别为男性。

104、基于该预估性别确定该用户的性别。

例如,可以对用户关联的所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为该用户的性别。

比如,以该用户关联了兴趣群A、兴趣群B、兴趣群C和兴趣群D为例,若兴趣群A、兴趣群B和兴趣群D的预估性别均为男性,只有兴趣群C的预估性别均为女性,则可以确定该用户的性别为男性,以此类推,在此不再赘述。

可选的,为了提高预估的准确率,在基于该预估性别确定用户的性别之前,还可以包括:

对该预估性别的准确率进行评估;若评估结果高于预置阈值,则执行基于该预估性别确定该用户的性别的步骤。

否则,若评估结果低于预置阈值,则可以忽略该兴趣群的预估性别,比如,还是以该用户关联了兴趣群A、兴趣群B、兴趣群C和兴趣群D为例,若兴趣群A的评估结果低于预置阈值,则在确定用户的性别时,可以只以兴趣群B、兴趣群C和兴趣群D的预估性别作为参考。

其中,对预估性别的准确率进行评估的方式可以多种,比如,可以采用上述用户性别的估算方法对已知性别的用户进行估算,然后将估算得到性别与已知性别进行对比,便可得到其准确率,具体可以如下:

从该已知性别用户集合中确定评估样本,将该评估样本作为用户,并返回执行识别用户关联的兴趣群的步骤(即步骤101),以得到该评估样本的估算性别,将该评估样本的估算性别与该评估样本的已知性别进行比较,根据比较结果统计准确率,得到该预估性别的准确率。

其中,该评估样本至少为一个,其数量越多,所得到的评估结果的准确性越高。

由上可知,本实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近(根据不同分类群组的群成员方差分析结论可知,兴趣群的群成员性别较为接近),而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。总而言之,该方法不仅可以大大提高其估算的准确性,而且也可以大大提高可估算用户的覆盖率,有利于提高后续信息推广,如广告推广的精确性。

实施例二、

根据实施例一所描述的方法,以下将举例作进一步详细说明。

在本实施例中,将以估算用户K的性别,且用户K所关联的兴趣群为兴趣群A、兴趣群B、兴趣群C和兴趣群D为例进行说明。

如图2所示,一种用户性别估算方法,具体流程可以如下:

201、用户性别估算系统识别用户K关联的兴趣群,得到用户K对应的兴趣群列表。

比如,若用户K关联的兴趣群为兴趣群A、兴趣群B、兴趣群C和兴趣群D,则此时可以将兴趣群A、兴趣群B、兴趣群C和兴趣群D添加到该用户K对应的兴趣群列表中。

其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。

202、用户性别估算系统根据该兴趣群列表确定当前需要处理的兴趣群,比如兴趣群A,然后根据该当前需要处理的兴趣群的群标识获取该兴趣群的群成员关系链数据。

例如,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。

可选的,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费过多的计算资源,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群在该兴趣群列表中进行删除。

203、用户性别估算系统根据该群成员关系链数据估算该当前需要处理的兴趣群中占比最大的性别,得到该当前需要处理的兴趣群对应的预估性别。

例如,以该兴趣群为兴趣群A为例,则用户性别估算系统可以根据兴趣群A的群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该 已知性别用户集合中用户的性别估算兴趣群A中占比最大的性别,得到兴趣群A对应的预估性别。

比如,如果兴趣群A中有15位群成员,其中,已知有12个群成员的性别为男性,1个群成员的性别为女性,另外两位群成员的性别为未知,则此时可以确定兴趣群A对应的预估性别为男性,等等。

204、用户性别估算系统确定用户K对应的兴趣群列表中是否还存在尚未处理的兴趣群,若是,则返回执行步骤202,若否,则执行步骤205。

例如,在得到兴趣群A的预估性别之后,由于该兴趣群列表中是否还存在有兴趣群B、兴趣群C和兴趣群D尚未处理,因此,此时用户性别估算系统可以确定下一个兴趣群,如兴趣群B作为当前需要处理的兴趣群,然后获取兴趣群B的群成员关系链数据,详见步骤202;而若该兴趣群列表中的所有兴趣群都处理完毕,即已得到这些兴趣群的预估性别,则可以执行步骤205。

205、用户性别估算系统对该兴趣群列表中所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为该用户的性别。

比如,若兴趣群A、兴趣群B和兴趣群D的预估性别均为男性,只有兴趣群C的预估性别均为女性,则可以确定该用户的性别为男性,以此类推,在此不再赘述。

可选的,为了提高预估的准确率,在基于该预估性别确定用户的性别之前,还可以对该预估性别的准确率进行评估,若评估结果高于预置阈值,才执行步骤205(即基于该预估性别确定该用户的性别的步骤)。

否则,若评估结果低于预置阈值,则可以忽略该兴趣群的预估性别,比如,还是以该用户关联了兴趣群A、兴趣群B、兴趣群C和兴趣群D为例,若兴趣群A的评估结果低于预置阈值,则在确定用户的性别时,可以只以兴趣群B、兴趣群C和兴趣群D的预估性别作为参考。

其中,对预估性别的准确率进行评估的方式可以多种,比如,可以采用上述用户性别的估算方法对已知性别的用户进行估算,然后将估算得到性别与已 知性别进行对比,便可得到其准确率,详见实施例一,在此不再赘述。

由上可知,本实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。总而言之,该方法不仅可以大大提高其估算的准确性,而且也可以大大提高可估算用户的覆盖率,有利于提高后续信息推广,如广告推广的精确性。

实施例三、

为了更好地实施以上方法,本发明实施例还提供一种用户性别估算系统,如图3a所示,该用户性别估算系统包括识别单元301、获取单元302、估算单元303和确定单元304,如下:

识别单元301,用于识别用户关联的兴趣群。

其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。

获取单元302,用于获取该兴趣群的群成员关系链数据。

例如,获取单元302,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。

估算单元303,用于根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。

例如,估算单元303,具体可以用于根据该群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该已知性别用户集合中用户的性别估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。

比如,如果该兴趣群中有15位群成员,其中,已知有12个群成员的性别为男性,1个群成员的性别为女性,另外两位群成员的性别为未知,则此时可以确定该兴趣群对应的预估性别为男性。

确定单元304,用于基于该预估性别确定该用户的性别。

例如,确定单元304,具体可以用于对用户关联的所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为该用户的性别。

可选的,为了提高预估的准确率,在基于该预估性别确定用户的性别之前,还可以对该预估性别的准确率进行评估,在评估结果高于预置阈值时,才作为确定该用户的性别的参考,即如图3b所示,该用户性别估算系统还可以包括评估单元305,如下:

评估单元305,可以用于对该预估性别的准确率进行评估。

则此时,确定单元304,具体可以用于在该评估单元305得到的评估结果高于预置阈值时,基于该预估性别确定该用户的性别。

其中,对预估性别的准确率进行评估的方式可以多种,比如,可以采用上述用户性别的估算方法对已知性别的用户进行估算,然后将估算得到性别与已知性别进行对比,便可得到其准确率,即:

评估单元305,具体可以用于从该已知性别用户集合中确定评估样本,将该评估样本作为用户,并触发识别单元执行识别用户关联的兴趣群的操作,以得到该评估样本的估算性别,将该评估样本的估算性别与该评估样本的已知性别进行比较,根据比较结果统计准确率,得到该预估性别的准确率。

其中,该评估样本至少为一个,其数量越多,所得到的评估结果的准确性越高。

此外,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费 过多的计算资源,可选的,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群进行删除,即如图3b所示,该用户性别估算系统还可以包括清洗单元306,如下:

清洗单元306,可以用于确定该兴趣群是否存在除用户之外的其他群成员;若存在,则触发获取单元执行获取该兴趣群的群成员关系链数据的操作,若不存在,则删除该兴趣群。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

需说明的是,该用户性别估算系统可以作为独立的实体存在,也可以作为其他系统,如信息投放系统的一部分来实现,以便后续协助信息投放系统进行精准信息投放,如广告投放,等等。该用户性别估算系统具体可以集成在服务器等设备中。

由上可知,本实施例的用户性别估算系统可以由识别单元301识别用户关联的兴趣群,然后由获取单元302获取这些兴趣群的群成员关系链数据,并由估算单元303根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,由确定单元304基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。总而言之,该方法不仅可以大大提高其估算的准确性,而且也可以大大提高可估算用户的覆盖率,有利于提高后续信息推广,如广告推广的精确性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种用户性别估算方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1