一种用户分类方法及装置与流程

文档序号:15164536发布日期:2018-08-14 17:18阅读:209来源:国知局

本发明涉及计算机技术领域,特别是涉及一种用户分类方法及装置。



背景技术:

通常属于不同分类的用户对运营商提供的各种不同信息的关注度不同,例如,属于不同分类的用户感兴趣的广告类型不同、视频类型不同、新闻类型不同等等。基于上述情况,运营商在向用户推送信息之前,希望获得用户的分类,然后根据用户的分类有针对性的向用户推送信息。

现有技术中,一般会预先设置用户类型的匹配规则,一个用户类型的匹配规则中定义了属于这一用户类型的用户具有的特征,获得待分类用户的分类时,先获得待分类用户的特征,然后查找与待分类用户的特征相匹配的匹配规则,查找到的规则所对应的用户类型即为待分类用户的分类。

例如,大学生这一用户分类的匹配规则为:年龄在18-22岁之间的用户属于大学生用户。

然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:由于上述预先设置的用户类型的匹配规则一般是工作人员对各种类型的用户进行分析而生成的,这样可能由于工作人员的经验、所选择用户具有的特征是否具有典型性等因素的影响,导致上述用户类型的匹配规则准确度低,进而采用这些用户类型的匹配规则对用户进行分类时,准确率低。



技术实现要素:

本发明实施例的目的在于提供一种用户分类方法及装置,以提高对用户进行分类的准确率。

具体技术方案如下:

第一方面,本发明实施例提供了一种用户分类方法,所述方法包括:

获取待分类用户针对预设特征的特征值;

将所获取的特征值输入至预先训练得到的分类模型对所述待分类用户进行分类,获得所述待分类用户的分类结果;

其中,所述分类模型为:采用各个样本用户的训练信息对预设的第一模型进行训练得到的模型,一个样本用户的训练信息包括:该样本用户针对所述预设特征的特征值和该样本用户的标注分类,所述各个样本用户的训练信息为:由不同数据源提供的用户信息确定的信息。

一种实现方式中,所述分类模型是通过以下方式训练得到的:

获得不同数据源提供的用户信息,其中,一个数据源提供的一个用户的用户信息包括:该数据源提供的该用户的标注分类,作为第一分类;

根据第一分类,从目标用户中确定正样本用户,并确定正样本用户的标注分类,其中,目标用户为:所获得的用户信息对应的用户;

确定负样本用户,并确定负样本用户的标注分类;

采用正样本用户和负样本用户分别针对所述预设特征的特征值、正样本用户的标注分类和负样本用户的标注分类,对所述预设的第一模型进行训练,得到所述分类模型。

一种实现方式中,所述根据第一分类,从目标用户中确定正样本用户,并确定正样本用户的标注分类的步骤,包括:

利用目标用户中每一用户的分类信息,计算每一用户的标注分类,一个用户的分类信息包括:该用户的第一分类、提供该用户的第一分类的数据源的置信度;

计算每一用户的标注分类的置信度;

根据每一用户的标注分类的置信度,从目标用户中选择每一标注分类的正样本用户。

一种实现方式中,所述利用目标用户中每一用户的分类信息,计算每一用户的标注分类的步骤,包括:

计算每一用户的目标数据源的置信度和,其中,一个用户的目标数据源为:提供该用户的同一第一分类的数据源;

将每一用户的目标分类确定为每一用户的标注分类,其中,一个用户的目标分类为:该用户目标数据源的置信度和最大的第一分类。

一种实现方式中,所述计算每一用户的标注分类的置信度的步骤,包括:

根据以下公式,计算每一用户的标注分类的威尔逊区间,并将每一用户的标注分类的威尔逊区间下限值,确定为每一用户的标注分类的置信度:

其中,n表示提供一个用户的第一分类的各个数据源的置信度的总和,表示第一数值与n的比值,所述第一数值为:一个用户目标数据源的置信度和的最大值,表示对应α的z统计量,α表示置信水平。

一种实现方式中,所述确定负样本用户,并确定负样本用户的标注分类的步骤包括:

采用以下方式获得每一标注分类的负样本用户:

获取第二分类的候选负样本用户,其中,所述第二分类是各标注分类中的一个标注分类;

在第二分类的正样本用户中抽取预设比例的用户,获得第二分类的验证用户;

设置负例样本用户的标注分类为第三分类,其中,第三分类为:用于表示非第二分类的分类,负例样本用户为:第二分类的候选负样本用户和验证用户;

采用正例样本用户和负例样本用户分别针对所述预设特征的特征值、正例样本用户的标注分类、负例样本用户的标注分类,对预设的第二模型进行训练,得到标注分类的二分类模型,其中,正例样本用户为:第二分类的正样本用户中除验证样本用户之外的正样本用户;

利用所述二分类模型对负例样本用户进行分类,获得各个负例样本用户的分类结果的置信度;

根据验证样本用户分类结果的置信度,获得负样本选择阈值;

根据负样本选择阈值,从候选负样本用户中选择第二分类的负样本用户。

一种实现方式中,所述负样本选择阈值为:所获得的验证样本用户分类结果的置信度中最小的置信度。

一种实现方式中,用户是设备级用户或者账号级用户。

一种实现方式中,其特征在于,所述预设特征是以下特征中的至少一种:

用户的年龄、用户的位置、用户观看视频的类型、用户阅读电子书的类型、用户观看视频的时间、用户阅读电子书的时间、用户加入的群组特征、用户使用的特定功能。

第二方面,本发明实施例提供了一种用户分类装置,所述装置包括:

特征值获取模块,用于获取待分类用户针对预设特征的特征值;

用户分类模块,用于将所获取的特征值输入至预先训练得到的分类模型对所述待分类用户进行分类,获得所述待分类用户的分类结果;

其中,所述分类模型为:采用各个样本用户的训练信息对预设的第一模型进行训练得到的模型,一个样本用户的训练信息包括:该样本用户针对所述预设特征的特征值和该样本用户的标注分类,所述各个样本用户的训练信息为:由不同数据源提供的用户信息确定的信息。

一种实现方式中,所述装置还包括:

分类模型获得模块,用于获得所述分类模型;

其中,所述分类模型获得模块,包括:

用户信息获得子模块,用于获得不同数据源提供的用户信息,其中,一个数据源提供的一个用户的用户信息包括:该数据源提供的该用户的标注分类,作为第一分类;

正样本用户确定子模块,用于根据第一分类,从目标用户中确定正样本用户,并确定正样本用户的标注分类,其中,目标用户为:所获得的用户信息对应的用户;

负样本用户确定子模块,用于确定负样本用户,并确定负样本用户的标注分类;

模型训练子模块,用于采用正样本用户和负样本用户分别针对所述预设特征的特征值、正样本用户的标注分类和负样本用户的标注分类,对所述预设的第一模型进行训练,得到所述分类模型。

一种实现方式中,所述正样本用户确定子模块,包括:

标注分类计算单元,用于利用目标用户中每一用户的分类信息,计算每一用户的标注分类,一个用户的分类信息包括:该用户的第一分类、提供该用户的第一分类的数据源的置信度;

标注分类置信度计算单元,用于计算每一用户的标注分类的置信度;

正样本用户选择单元,用于根据每一用户的标注分类的置信度,从目标用户中选择每一标注分类的正样本用户。

一种实现方式中,所述标注分类计算单元,包括:

置信度和计算子单元,用于计算每一用户的目标数据源的置信度和,其中,一个用户的目标数据源为:提供该用户的同一第一分类的数据源;

标注分类确定子单元,用于将每一用户的目标分类确定为每一用户的标注分类,其中,一个用户的目标分类为:该用户目标数据源的置信度和最大的第一分类。

一种实现方式中,所述标注分类置信度计算单元,具体用于:根据以下公式,计算每一用户的标注分类的威尔逊区间,并将每一用户的标注分类的威尔逊区间下限值,确定为每一用户的标注分类的置信度:

其中,n表示提供一个用户的第一分类的各个数据源的置信度的总和,表示第一数值与n的比值,所述第一数值为:一个用户目标数据源的置信度和的最大值,表示对应α的z统计量,α表示置信水平。

一种实现方式中,所述负样本用户确定子模块,具体用于获得每一标注分类的负样本用户;

其中,所述负样本用户确定子模块,包括:

候选负样本用户获取单元,用于获取第二分类的候选负样本用户,其中,所述第二分类是各标注分类中的一个标注分类;

验证用户获取单元,用于在第二分类的正样本用户中抽取预设比例的用户,获得第二分类的验证用户;

标注分类设置单元,用于设置负例样本用户的标注分类为第三分类,其中,第三分类为:用于表示非第二分类的分类,负例样本用户为:第二分类的候选负样本用户和验证用户;

模型训练单元,用于采用正例样本用户和负例样本用户分别针对所述预设特征的特征值、正例样本用户的标注分类、负例样本用户的标注分类,对预设的第二模型进行训练,得到标注分类的二分类模型,其中,正例样本用户为:第二分类的正样本用户中除验证样本之外的正训练样本;

负例样本置信度获得单元,用于利用所述二分类模型对负例样本用户进行分类,获得各个负例样本用户的分类结果的置信度;

负样本选择阈值获得单元,用于根据验证样本用户分类结果的置信度,获得负样本选择阈值;

负样本用户选择单元,用于根据负样本选择阈值,从候选负样本用户中选择第二分类的负样本用户。

一种实现方式中,所述负样本选择阈值为:所获得的验证样本用户分类结果的置信度中最小的置信度。

一种实现方式中,用户是设备级用户或者账号级用户。

一种实现方式中,所述预设特征是以下特征中的至少一种:

用户的年龄、用户的位置、用户观看视频的类型、用户阅读电子书的类型、用户观看视频的时间、用户阅读电子书的时间、用户加入的群组特征、用户使用的特定功能。

第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一所述的方法步骤。

在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的用户分类方法。

在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的用户分类方法。

由以上可见,本发明实施例提供的方案中,在确定样本用户时采用的用户信息是由多个数据源提供,使得到的样本数据更加全面,且更容易得到具有典型性特征的用户信息;采用更加全面的样本数据对预设模型进行训练得到的分类模型会具有更强的鲁棒性,分类模型会具有更好的分类稳定性,分类效果更好;同时,通过分类模型对用户进行分类,不再需要工作人员根据经验设置用户类型的匹配规则,从而避免了因为工作人员的经验不足等原因带来的影响。相对于现有技术,采用本发明实施例中得到的分类模型对用户进行分类可以使分类结果的准确率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种用户分类方法的流程示意图。

图2为本发明实施例提供的第一种分类模型训练方法的流程示意图。

图3为本发明实施例提供的第二种分类模型训练方法的流程示意图。

图4为本发明实施例提供的第三种分类模型训练方法的流程示意图。

图5为本发明实施例提供的第四种分类模型训练方法的流程示意图。

图6为本发明实施例提供的一种用户分类装置的结构示意图。

图7为本发明实施例提供的第一种分类模型训练装置的结构示意图。

图8为本发明实施例提供的第二种分类模型训练装置的结构示意图。

图9为本发明实施例提供的第三种分类模型训练装置的结构示意图。

图10为本发明实施例提供的第四种分类模型训练装置的结构示意图。

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

现有技术中,对用户进行分类时,由于所使用的用户类型的匹配规则一般是工作人员对各种类型的用户进行分析而生成的,这样可能由于工作人员的经验、所选择用户具有的特征是否具有典型性等因素的影响,导致上述用户类型的匹配规则准确度低,进而采用这些用户类型的匹配规则对用户进行分类时,准确率低。

为了解决现有技术中存在的问题,本发明实施例提供了一种用户分类方法,该方法包括:

获取待分类用户针对预设特征的特征值;

将所获取的特征值输入至预先训练得到的分类模型对该待分类用户进行分类,获得该待分类用户的分类结果;

其中,上述分类模型为:采用各个样本用户的训练信息对预设的第一模型进行训练得到的模型,一个样本用户的训练信息包括:该样本用户针对上述预设特征的特征值和该样本用户的标注分类,上述各个样本用户的训练信息为:由不同数据源提供的用户信息确定的信息。

由以上可见,本发明实施例提供的方案中,在确定样本用户时采用的用户信息是由多个数据源提供,使得到的样本数据更加全面,且更容易得到具有典型性特征的用户信息;采用更加全面的样本数据对预设模型进行训练得到的分类模型会具有更强的鲁棒性,分类模型会具有更好的分类稳定性,分类效果更好;同时,通过分类模型对用户进行分类,不再需要工作人员根据经验设置用户类型的匹配规则,从而避免了因为工作人员的经验不足等原因带来的影响。相对于现有技术,采用本发明实施例中得到的分类模型对用户进行分类可以使分类结果的准确率更高。

如图1所示,为本发明实施例提供的一种用户分类方法的流程示意图,该方法包括:

s101:获取待分类用户针对预设特征的特征值;

一种实现方式中,预设特征可以是以下特征中的至少一种:用户的年龄、用户的位置、用户观看视频的类型、用户阅读电子书的类型、用户观看视频的时间、用户阅读电子书的时间、用户加入的群组特征、用户使用的特定功能等。

其中,上述用户的年龄可以是以年龄段的形式表示的,例如,18-25岁、10-18岁、25岁以上等;

用户的位置可以是用户使用服务商提供的各类应用功能时所处的地理位置,例如,用户所处的位置是校园、工作场所或者居住地等;

用户观看视频的类型可以是由用户所观看视频的类别、视频的标签、视频发布时间、视频涉及的人物等信息确定的,例如,用户观看的视频类型可以是教育类型、娱乐类型、法制类型等;

用户阅读电子书的类型可以是由用户阅读的电子书的类别、电子书的出版时间等信息确定的,例如,用户阅读电子书的类型可以是穿越类型、玄幻类型、言情类型等;

用户观看视频的时间可以是用户在预设时间内观看视频的时长,例如,用户每天观看视频的时长等;也可以是用户观看视频的时间段,例如,用户在每天的哪个时间段内观看视频等;

用户阅读电子书的时间可以是用户在预设时间内阅读电子书的时长,例如,用户每天阅读电子书的时长等;也可以是用户阅读电子书的时间段,例如,用户在每天的哪个时间段内阅读电子书等;

用户加入的群组可以通过用于表示用户是否加入了某个群组的标识来表示;也可以通过用户加入的群组具有的标签来表示,例如,上述群组可以是爱奇艺泡泡圈子、明星的爱奇艺泡泡圈子等;

用户使用的特定功能可以是用户是否使用了服务商提供的某种功能,例如,用户是否使用了“超级课程表”功能、用户是否是爱奇艺奇秀直播用户等。

需要说明的是,本发明仅仅以上述为例说明预设特征的内容,并不对本发明实施例构成限定,当然,预设特征还可以包括其他特征,例如:用户使用的是否是教育网ip等。

s102:将所获取的特征值输入至预先训练得到的分类模型对该待分类用户进行分类,获得该待分类用户的分类结果;

其中,上述分类模型为:采用各个样本用户的训练信息对预设的第一模型进行训练得到的模型,一个样本用户的训练信息包括:该样本用户针对上述预设特征的特征值和该样本用户的标注分类,上述各个样本用户的训练信息为:由不同数据源提供的用户信息确定的信息。

从不同的角度对用户进行分类,可以得到多种不同的用户分类形式,例如,可以按照性别将用户分为男性用户和女性用户,也可以按照年龄将用户分为未成年用户、青年用户、中年用户和老年用户,还可以按照用户是否在上学将用户分为中学生用户、大学生用户和非学生用户。

因此,在应用本发明实施例提供的用户分类方法时,技术人员需要首先根据实际应用的需要确定用户分类形式,进而根据确定的用户分类形式确定上述分类模型是几分类模型,例如,当用户分类形式是将用户分为男性用户和女性用户时,上述分类模型是二分类模型,分类结果是用户为男性用户,或用户为女性用户;当用户分类形式是将用户分为未成年用户、青年用户、中年用户和老年用户时,上述分类模型是四分类模型,分类结果是用户为未成年用户、青年用户、中年用户或老年用户。

上述样本用户的标注分类是表明样本用户的类别的标注信息;

数据源是能够提供用户信息的信息来源,例如,可以是运营商用户注册系统,这种情况下数据源提供的是用户注册账号时填写的用户信息;也可以是用户使用运营商提供的客户端时,客户端向运营商的管理服务器提供的客户端日志,这种情况下,数据源提供的信息是客户端日志中记录的用户使用客户端的应用信息;在本发明实施例中,任一能够提供用户信息的信息来源都可以作为数据源来提供用户信息,本发明不对数据源的类型进行限定。

由以上可见,本发明实施例提供的方案中,在确定样本用户时采用的用户信息是由多个数据源提供,使得到的样本数据更加全面,且更容易得到具有典型性特征的用户信息;采用更加全面的样本数据对预设模型进行训练得到的分类模型会具有更强的鲁棒性,分类模型会具有更好的分类稳定性,分类效果更好;同时,通过分类模型对用户进行分类,不再需要工作人员根据经验设置用户类型的匹配规则,从而避免了因为工作人员的经验不足等原因带来的影响。相对于现有技术,采用本发明实施例中得到的分类模型对用户进行分类可以使分类结果的准确率更高。

一种实现方式中,如图2所示,上述分类模型可以通过以下方式训练得到,该方式包括:

s201:获得不同数据源提供的用户信息,其中,一个数据源提供的一个用户的用户信息包括:该数据源提供的该用户的标注分类,作为第一分类;

其中,用户的标注分类是数据源提供的表明用户类别的信息,由于不同的数据源的特点不同,不同的数据源提供的用户信息可能存在差异,因此不同的数据源提供的标注分类可能相同,也可能不同,将一个数据源提供的一个用户信息中的标注分类作为该用户的第一分类,对于同一个用户,有几个数据源提供了该用户包含标注分类的用户信息,该用户就具有几个第一分类。

s202:根据第一分类,从目标用户中确定正样本用户,并确定正样本用户的标注分类,其中,目标用户为:所获得的用户信息对应的用户;

s203:确定负样本用户,并确定负样本用户的标注分类;

在应用本发明实施例提供的用户分类方法时,技术人员已经按照实际应用的需要确定了用户分类形式,也就是已经确定了用户被分为哪几个类别,为每一个类别的用户设置一个标注分类,该标注分类是用来表示用户是哪个类别的用户的信息。

分类模型的获得是通过采用样本用户的训练信息对预设模型进行训练得到的,因此,为了得到对应于上述用户分类形式的分类模型,需要在不同数据源提供的用户信息对应的用户中确定各类别用户的样本用户,也就是确定各个标注分类的样本用户。

由于用户分类形式的特点以及不同数据源提供的用户信息的特点,在有些用户分类形式的情况下,并不是所有标注分类的样本用户都可以通过对上述不同数据源提供的用户信息进行分析后直接得到的,这些不能直接得到的标注分类的样本用户需要采用其他方式获得。

为了对上述通过不同方式获得的样本用户进行区分,将可以通过对不同数据源提供的用户信息进行分析后直接得到的样本用户作为正样本用户,并将获得的正样本用户按照标注分类进行分类,具有同一标注分类的正样本用户为同一类别的正样本用户,该标注分类表示了这些正样本用户的类别,为该标注用户的正样本用户。可见,正样本用户中包括了多个标注分类的正样本用户。

将通过其他方式获得的样本用户,作为负样本用户,并为得到的负样本用户设置一个标注分类,该设置的标注分类表示了负样本用户的类别。

对于同一个分类模型,上述获得的正样本用户和负样本用户组成了该分类模型采用的用户分类形式中的所有类别的用户的样本用户。

s204:采用正样本用户和负样本用户分别针对预设特征的特征值、正样本用户的标注分类和负样本用户的标注分类,对预设的第一模型进行训练,得到上述分类模型。

一种实现方式中,如图3所示,s202根据第一分类,从目标用户中确定正样本用户,并确定正样本用户的标注分类,包括:

s2021:利用目标用户中每一用户的分类信息,计算每一用户的标注分类,一个用户的分类信息包括:该用户的第一分类、提供该用户的第一分类的数据源的置信度;

其中,目标用户为获得的用户信息对应的用户,上述用户信息是由不同数据源提供的。由于不同数据源获得用户信息的途径和方式不同,不同数据源提供的用户信息对应的用户可能是相同的,也可能是不同的,不同数据源提供的同一用户的用户信息可能是相同的,也可能是不同的。

因此,目标用户中的一个用户会有多个不同数据源提供的第一分类,这些不同数据源提供的第一分类可能是不同的,例如,采用的用户分类形式中用户类别为中学生、大学生、非学生三类,共有a、b、c、d四个不同的数据源提供了同一用户x的用户信息,其中,a数据源提供的第一分类为中学生,b数据源提供的第一分类为大学生;c数据源提供的第一分类为中学生;d数据源提供的第一分类为非学生。

为了从目标用户中确定正样本用户,并确定正样本用户的标注分类,而每一个正样本用户的标注分类只能是某一个第一分类,因此需要对同一用户的不同数据源提供的第一分类进行处理,为该用户确定一个第一分类作为标注分类。

不同数据源的特点不同,因此不同数据源提供的用户信息的可靠度也就不同,这个可靠度可以用置信度来表示。

基于此,可以利用不同数据源提供的一个用户的第一分类,以及提供该用户的第一分类的数据源的置信度计算该用户的标注分类,也就是利用目标用户中每一用户的分类信息,计算每一用户的标注分类。

s2022:计算每一用户的标注分类的置信度;

根据上述方法,虽然得到了每一用户的标注分类,但是因为每一用户的标注分类是通过该用户的第一分类和提供该用户的第一分类的数据源的置信度计算得到的,因此,每一用户的标注分类的可靠程度可能存在较大的差异,并不是属于一个分类标注的所有用户都可以作为该标注分类的正样本用户。为了使训练得到的分类模型对用户的分类结果更加准确,需要挑选标注分类的可靠性较高的用户作为该标注分类的正样本用户,而一个用户的标注分类的可靠性是通过该用户的标注分类的置信度表示的。

一种实现方式中,可以通过以下方法计算每一用户的标注分类的置信度:

具体的,该方法是:根据以下公式,计算每一用户的标注分类的威尔逊区间,并将每一用户的标注分类的威尔逊区间下限值,确定为每一用户的标注分类的置信度:

其中,n表示提供一个用户的第一分类的各个数据源的置信度的总和,表示第一数值与n的比值,所述第一数值为:一个用户目标数据源的置信度和的最大值,表示对应α的z统计量,α表示置信水平。

s2023:根据每一用户的标注分类的置信度,从目标用户中选择每一标注分类的正样本用户。

其中,上述正样本用户的选择方法可以是:首先根据目标用户的标注分类,将目标用户进行分类,然后根据预设的每一标注分类的置信度阈值,选择每一标注分类的目标用户中标注分类的置信度不小于该标注分类的置信度阈值的目标用户为每一标注分类的正样本用户,上述每一标注分类的置信度阈值是技术人员根据实际应用的需要设定的,不同标注分类的置信度阈值可以是相同的,也可以是不同的,此外,可以在每一次选择正样本用户的时候确定每一标注分类的置信度阈值,也可以预先设定置信度阈值,每次选择正样本用户时直接采用上述预先设定的置信度阈值,本申请不对每一标注分类的置信度阈值的大小关系和确定方法进行限定;

还可以是:首先根据目标用户的标注分类,将目标用户进行分类,然后将每一标准分类的用户按照置信度由大到小的顺序进行排列,根据预设的每一标注分类的正样本用户的数量,从每一标注分类的用户中置信度最大的用户开始获取,直到获得的用户满足预设的数量,所获取的用户即为每一标注分类的正样本用户。

需要说明的是,本发明实施例仅以上述为例说明根据每一用户的标注分类的置信度,从目标用户中选择每一标注分类的正样本用户的方法,并不对本发明实施例构成限定。

由以上可见,正样本用户是根据用户的标注分类的置信度确定的,因此确定了正样本用户,也就确定了正样本用户的标注分类。

一种实现方式中,如图4所示,s2021:利用目标用户中每一用户的分类信息,计算每一用户的标注分类,包括:

s2021a:计算每一用户的目标数据源的置信度和,其中,一个用户的目标数据源为:提供该用户的同一第一分类的数据源;

由于各个数据的特点不同,各个数据源提供的一个用户的第一分类可能相同,也可能不同,将提供一个用户的相同的第一分类的数据源作为目标数据源,并将这些数据源的置信度相加,得到的置信度和为目标数据源的置信度和,置信度和代表了该置信度和对应的第一分类是用户的标注分类的可靠程度,置信度和越大,置信度和对应的第一分类是用户的标注分类的可靠程度越高。

例如,假设上述实例中,a数据源的置信度为8,b数据源的置信度为6,c数据源的置信度为9,d数据源的置信度为7。因此,用户x的第一分类为中学生时,目标数据源的置信度和为17(8+9);x的第一分类为大学生时,目标数据源的置信度和为6;x的第一分类为非学生时,目标数据源的置信度和为7;

s2022b:将每一用户的目标分类确定为每一用户的标注分类,其中,一个用户的目标分类为:该用户目标数据源的置信度和最大的第一分类。

例如上述实例中,用户x的目标数据源的置信度和最大的第一分类为中学生,因此用户x的目标分类为中学生,将目标分类确定为用户x的标注分类,因此,用户x的标注分类为中学生。

一种实现方式中,如图5所示,s203:确定负样本用户,并确定负样本用户的标注分类,包括:

采用以下方式获得每一标注分类的负样本用户:

s2031:获取第二分类的候选负样本用户,其中,第二分类是各标注分类中的一个标注分类;

例如,在对爱奇艺用户进行分类时,将用户分为中学生、大学生、非学生三类,同时设定中学生用户的年龄在10-18岁,大学生用户的年龄在18-25岁,25岁以上的用户均为非学生用户。

其中,只有中学生、大学生的样本用户可以直接通过对不同数据源提供的用户信息进行处理之后获得,而非学生的样本用户需要通过其他方式获得。因此,其中的中学生样本用户和大学生样本用户为训练分类模型时采用的正样本用户,非学生样本用户为训练分类模型时采用的负样本用户。

中学生和大学生分别为一个第二分类,为了便于更好的理解本实现方式,以大学生作为一个第二分类进行说明。

获取第二分类的候选负样本用户为:获得与大学生对应的候选非学生样本用户。也就是从不同的数据源提供的用户信息对应的用户中随机选取预设数量的年龄在18-25岁的用户,这些用户为大学生的候选非学生样本用户。

s2032:在第二分类的正样本用户中抽取预设比例的用户,获得第二分类的验证用户;

通常情况下,上述预设比例为15%,当然也可以是其他满足需要的预设比例,例如10%等。

以上述实例继续进行说明,也就是在已经获得的大学生样本用户中随机抽取预设比例的样本用户,例如10%,这些被抽取出来的样本用户称之为验证用户。

s2033:设置负例样本用户的标注分类为第三分类,其中,第三分类为:用于表示非第二分类的分类,负例样本用户为:第二分类的候选负样本用户和验证用户;

其中,负例样本的标注分类不是根据负例样本的用户信息进行确定的,而是设置得到的。

以上述实例继续进行说明,将抽取到的验证用户和随机选取大学生的候选非学生样本用户组合在一起,作为负例样本用户,并将这些负例样本用户的标注分类都设置为非学生,该设置的非学生标注分类就是第三分类。

s2034:采用正例样本用户和负例样本用户分别针对所述预设特征的特征值、正例样本用户的标注分类、负例样本用户的标注分类,对预设的第二模型进行训练,得到标注分类的二分类模型,其中,正例样本用户为:第二分类的正样本用户中除验证样本用户之外的正样本用户;

以上述实例继续进行说明,剩余的90%的大学生样本用户为正例样本用户,采用这些正例样本用户和上述得到的负例样本用户分别针对预设特征的特征值,以及各自的标注分类对预设的第二模型进行训练,从而得到一个二分类模型,其中,正例样本用户的标注分类为大学生,负例样本用户的标注分类为非学生,得到的二分类模型用户将用户分为大学生用户或者非学生用户。

s2035:利用上述二分类模型对负例样本用户进行分类,获得各个负例样本用户的分类结果的置信度;

以上述实例继续进行说明,根据得到的负例样本用户针对预设特征的特征值,可以利用上述得到的二分类模型对负例样本用户进行分类,可以得到每一个负例样本用户的分类结果。一个负例样本用户的分类结果代表着该负例样本用户是大学生样本用户的可靠程度,并通过分类结果的置信度来表示,置信度越高,表示该负例是大学生样本用户的可靠程度越高;当然一个负例样本用户的分类结果代表着该负例样本用户是非学生样本用户的可靠程度,并通过分类结果的置信度来表示,置信度越高,表示该负例是非学生样本用户的可靠程度越高。

s2036:根据验证样本用户分类结果的置信度,获得负样本选择阈值;

由于负例样本用户中的验证样本用户是从已经获得的正样本用户中抽取得到的,因此,是可以从得到的负例样本用户的分类结果的置信度中获取到这些验证样本用户分类结果的置信度的。

一种实现方式中,当负例样本用户分类结果的置信度表示的是负例样本用户是大学生用户的可靠程度时,负样本选择阈值可以是所获得的验证样本用户分类结果的置信度中最小的置信度。

另一种实现方式中,当负例样本用户分类结果的置信度表示的是负例样本用户是非学生用户的可靠程度时,负样本选择阈值可以是所获得的验证样本用户分类结果的置信度中最大的置信度。

以上述实例继续进行说明,假设,负例样本用户分类结果的置信度表示的是负例样本用户是大学生用户的可靠程度。由于,验证样本用户是已知的大学生样本用户,因此,这些验证样本用户中分类结果的数值最低的置信度表明了在这些负例样本用户中一个负例样本用户为大学生用户的最低的可能性,而当某一个负例样本用户的分类结果的置信度低于上述数值最低的置信度时,说明这个负例样本用户很大程度上不可能为大学生样本用户,因此将验证样本用户中分类结果的置信度中最小的置信度作为负样本选择阈值。

s2037:根据负样本选择阈值,从候选负样本用户中选择第二分类的负样本用户。

一种实现方式中,当负例样本用户分类结果的置信度表示的是负例样本用户是大学生用户的可靠程度时,上述选择第二分类的负样本用户的方法可以是:选择各个负例样本用户的分类结果的置信度小于负样本选择阈值的候选负样本用户作为负样本用户。

另一种实现方式中,当负例样本用户分类结果的置信度表示的是负例样本用户是非学生用户的可靠程度时,上述选择第二分类的负样本用户的方法可以是:选择各个负例样本用户的分类结果的置信度大于负样本选择阈值的候选负样本用户作为负样本用户。

一种实现方式中,用户可以是设备级用户,也可以是账号级用户。

当用户为设备级用户时,将用户信息与使用者所使用的设备关联在一起,获得的用户信息是整合了该设备使用者的信息之后得到的综合的用户信息,根据该用户信息来确定样本用户以及对待分类用户进行分类,可以使分类结果更好的覆盖所有设备使用者,以保证在进行信息推广时能够更好的兼顾到所有使用该设备的使用者的需求。

当用户为账号级用户时,将用户信息与使用者所使用的账号关联在一起,获得的信息是账号对应的使用者的信息,这些信息包括了账号使用者在不同设备上使用时产生的信息,根据该用户信息来确定样本用户以及对待分类用户进行分类,可以使分类模型效果更好,分类结果更准确。

为了更好的理解上述用户分类方法,通过以下的具体实例进行具体的说明:

假设,爱奇艺公司开发了一款面向中学生的新节目,想要通过对爱奇艺用户进行分类来确定中学生用户群体,从而可以针对性地向中学生群体推广该节目,其中用户为账号级用户。

首先将爱奇艺用户分为了中学生、大学生和非学生三个类别,其中,设定中学生用户的年龄在10-18岁,大学生用户的年龄在18-25岁,25岁以上的用户均为非学生用户,并将各用户的预设特征设置为是否使用教育网ip、观看视频时所处的位置、每天观看视频的时间点,需要获取各类别的样本用户各5000个。

第一步,从用户注册账号时填写的个人信息、用户使用爱奇艺商城时填写的收货地址以及用户使用爱奇艺“海外购”功能时提供的身份证信息三个数据源获得大量用户的用户信息,并获得各个数据源提供的用户的第一分类,其中,上述三个数据源的置信度分别为5、7、10,第一分类可以是大学生、中学生或非学生;

第二步,分别计算为每个用户提供大学生、中学生或非学生的数据源的置信度,并将计算得到的置信度和最大第一分类作为各个用户的标注分类。

第三步,计算上述获得的标注分类为大学生/中学生的用户的标注分类的威尔逊区间,并将计算得到的威尔逊区间的下限作为标注分类为大学生/中学生的用户的标注分类的置信度。

第四步,按照上述获得的标注分类,将各个用户中的标注分类分别为中学生和大学生的用户挑选出来,并分成中学生和大学生两部分,并在每一部分中按照各个用户的标注分类的置信度由大到小的顺序对每一部分的用户进行排序,分别从每一部分中标注分类的置信度最高的用户处开始获取用户,直至分别获得5000个用户,保证获取的用户的标注分类的置信度的最小值大于剩余的用户的标准分类的置信度的最大值。从而获取的5000个标注分类为中学生的用户以及5000个标注分类为大学生的用户分别是中学生样本用户和大学生样本用户,上述中学生样本用户和大学生样本用户为正样本用户。

第五步,获得大学生样本用户的负样本用户。

1)从上述数据源提供的用户信息对应的用户中随机获取5000个年龄特征为18-25岁的用户作为大学生样本用户的候选负样本用户,从上述5000个大学生样本用户中随机抽取10%的用户作为验证用户。

2)将上述抽取到的验证用户和候选负样本用户的标注分类设置为非学生。

3)将剩余大学生样本用户作为正例样本用户,将候选负样本用户和验证用户作为负例样本用户,采用这些样本分别针对上述预设特征的特征值和各自的标注分类,对预设的第二模型进行训练,得到二分类模型,该模型可以将待分类用户分为大学生或非学生两类。

4)利用上面得到的二分类模型,对上述负例样本用户进行分类,分别获得这些用户的分类结果的置信度,其中,该置信度表示负例样本用户是大学生样本用户的可靠程度。

5)获取上述验证样本用户的分类结果的置信度中的最小值,将该最小值作为负样本选择阈值;

6)选取上述候选负样本用户中分类结果的置信度小于负样本选择阈值的候选负样本用户作为大学生样本用户的负样本用户。

第六步,获得中学生样本用户的负样本用户。

采用与第五步相同的方法,获取中学生样本用户的负样本用户。

第七步,随机获取1000个年龄在25岁以上的用户作为非学生用户候选负样本用户。

第八步,将上述大学生样本用户的负样本用户、中学生样本用户的负样本用户和非学生用户候选负样本用户组合在一起,从中随机抽取5000个样本用户,作为负样本用户。

第九步,利用上述获得的正样本用户和负样本用户分别针对上述预设特征的特征值以及各自的标注分类,对预设的第一模型进行训练,得到一个三分类模型,该三分类模型可以将待分类用户分为中学生、大学生、非学生三类用户。

最后,获得待分类用户针对上述预设特征的特征值,并将获得的特征值输入上述三分类模型中,根据分类模型得到的结果,对该待分类用户进行分类。

如图6所示,为本发明实施例的一种用户分类装置的结构示意图,该装置包括:

特征值获取模块610,用于获取待分类用户针对预设特征的特征值;

用户分类模块620,用于将所获取的特征值输入至预先训练得到的分类模型对该待分类用户进行分类,获得该待分类用户的分类结果;

其中,分类模型为:采用各个样本用户的训练信息对预设的第一模型进行训练得到的模型,一个样本用户的训练信息包括:该样本用户针对上述预设特征的特征值和该样本用户的标注分类,各个样本用户的训练信息为:由不同数据源提供的用户信息确定的信息。

由以上可见,本发明实施例提供的方案中,可以通过对多个数据源提供的用户信息进行处理来确定样本用户的训练信息,采用获得的样本用户的训练信息对预设的模型进行训练得到分类模型,通过将待分类用户针对预设特征的特征值输入到该分类模型,从而对该待分类用户进行分类,得到分类记过。因为该分类模型的训练样本的训练信息来源于不同数据源,因此训练样本的训练信息具有更高的置信度,从而使得得到的分类模型具有更好的分类效果,获得的分类结果的准确度更高。

一种实现方式中,如图7所示,为本发明实施例提供的第一种分类模型训练装置的结构示意图,该装置包括:分类模型获得模块,用于获得上述分类模型。

具体的,上述分类模型获得模块,包括:

用户信息获得子模块710,用于获得不同数据源提供的用户信息,其中,一个数据源提供的一个用户的用户信息包括:该数据源提供的该用户的标注分类,作为第一分类;

正样本用户确定子模块720,用于根据第一分类,从目标用户中确定正样本用户,并确定正样本用户的标注分类,其中,目标用户为:所获得的用户信息对应的用户;

负样本用户确定子模块730,用于确定负样本用户,并确定负样本用户的标注分类;

模型训练子模块740,用于采用正样本用户和负样本用户分别针对预设特征的特征值、正样本用户的标注分类和负样本用户的标注分类,对预设的第一模型进行训练,得到上述分类模型。

一种实现方式中,如图8所示,为本发明实施例提供的第二种分类模型训练装置的结果示意图,其中,上述正样本用户确定子模块720,包括:

标注分类计算单元7201,用于利用目标用户中每一用户的分类信息,计算每一用户的标注分类,一个用户的分类信息包括:该用户的第一分类、提供该用户的第一分类的数据源的置信度;

标注分类置信度计算单元7202,用于计算每一用户的标注分类的置信度;

正样本用户选择单元7203,用于根据每一用户的标注分类的置信度,从目标用户中选择每一标注分类的正样本用户。

一种实现方式中,如图9所示,为本发明实施例提供的第三种分类模型训练装置的结构示意图,其中,上述标注分类计算单元7201,包括:

置信度和计算子单元7201a,用于计算每一用户的目标数据源的置信度和,其中,一个用户的目标数据源为:提供该用户的同一第一分类的数据源;

标注分类确定子单元7201b,用于将每一用户的目标分类确定为每一用户的标注分类,其中,一个用户的目标分类为:该用户目标数据源的置信度和最大的第一分类。

一种实现方式中,上述标注分类置信度计算单元7202,具体用于:根据以下公式,计算每一用户的标注分类的威尔逊区间,并将每一用户的标注分类的威尔逊区间下限值,确定为每一用户的标注分类的置信度:

其中,n表示提供一个用户的第一分类的各个数据源的置信度的总和,表示第一数值与n的比值,所述第一数值为:一个用户目标数据源的置信度和的最大值,表示对应α的z统计量,α表示置信水平。

一种实现方式中,如图10所示,为本发明实施例提供的第四种分类模型训练装置的结构示意图,其中,上述负样本用户确定子模块230具体用于获得每一标注分类的负样本用户,具体的,上述负样本用户确定子模块230,包括:

,候选负样本用户获取单元2301,用于获取第二分类的候选负样本用户,其中,第二分类是各标注分类中的一个标注分类;

验证用户获取单元2302,用于在第二分类的正样本用户中抽取预设比例的用户,获得第二分类的验证用户;

标注分类设置单元2303,用于设置负例样本用户的标注分类为第三分类,其中,第三分类为:用于表示非第二分类的分类,负例样本用户为:第二分类的候选负样本用户和验证用户;

模型训练单元2304,用于采用正例样本用户和负例样本用户分别针对预设特征的特征值、正例样本用户的标注分类、负例样本用户的标注分类,对预设的第二模型进行训练,得到标注分类的二分类模型,其中,正例样本用户为:第二分类的正样本用户中除验证样本用户之外的正样本用户;

负例样本置信度获得单元2305,用于利用上述二分类模型对负例样本用户进行分类,获得各个负例样本用户的分类结果的置信度;

负样本选择阈值获得单元2306,用于根据验证样本用户分类结果的置信度,获得负样本选择阈值;

负样本用户选择单元2307,用于根据负样本选择阈值,从候选负样本用户中选择第二分类的负样本用户。

一种实现方式中,上述负样本选择阈值可以是所获得的验证样本用户分类结果的置信度中最小的置信度。

一种实现方式中,上述用户是设备级用户或者账号级用户。

一种实现方式中,上述预设特征是以下特征中的至少一种:

用户的年龄、用户的位置、用户观看视频的类型、用户阅读电子书的类型、用户观看视频的时间、用户阅读电子书的时间、用户加入的群组特征、用户使用特定功能的特征。

本发明实施例还提供了一种电子设备,如图11所示,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信,

存储器1130,用于存放计算机程序;

处理器1110,用于执行存储器1130上所存放的程序时,实现如下步骤:

获取待分类用户针对预设特征的特征值;

将所获取的特征值输入至预先训练得到的分类模型对上述待分类用户进行分类,获得上述待分类用户的分类结果;

其中,上述分类模型为:采用各个样本用户的训练信息对预设的第一模型进行训练得到的模型,一个样本用户的训练信息包括:该样本用户针对上述预设特征的特征值和该样本用户的标注分类,上述各个样本用户的训练信息为:由不同数据源提供的用户信息确定的信息。

需要说明的是,上述处理器1110执行存储器1130上存放的程序而实现的用户分类方法的其他实现方式,与前述方法实施例部分提供的用户分类方法实施例相同,这里不再赘述。

由以上可见,本发明实施例提供的方案中,电子设备可以通过对多个数据源提供的用户信息进行处理来确定样本用户的训练信息,采用获得的样本用户的训练信息对预设的模型进行训练得到分类模型,通过将待分类用户针对预设特征的特征值输入到该分类模型,从而对该待分类用户进行分类,得到分类记过。因为该分类模型的训练样本的训练信息来源于不同数据源,因此训练样本的训练信息具有更高的置信度,从而使得得到的分类模型具有更好的分类效果,获得的分类结果的准确度更高。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用户分类方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用户分类方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和包含指令的计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1