一种目标用户确定方法、装置及电子设备与流程

文档序号:15639851发布日期:2018-10-12 21:55阅读:156来源:国知局

本发明涉及广告投放技术领域,特别是涉及一种目标用户确定方法、装置及电子设备。



背景技术:

目前,在网站中投放广告,作为一种商业模式,已经被各个大型互联网公司所使用,各个大型互联网公司都有其广告投放平台,广告主可以通过广告投放平台提交自己的广告需求,然后广告投放平台会根据广告主的广告需求寻找出目标用户,进而向该目标用户投放广告。

具体的,广告主在向广告平台发布广告需求时,会提供种子用户,广告平台通过该种子用户,寻找符合该广告需求的目标用户,进而向该目标用户投放与该广告需求对应的广告。

然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:当广告主提供的种子用户数量较少时,通过现有技术很可能无法确定出合适的目标用户。



技术实现要素:

本发明实施例的目的在于提供一种目标用户确定方法、装置及电子设备,以实现根据广告主提供的较少的种子用户,确定合适的目标用户。具体技术方案如下:

在本发明实施的一个方面,本发明实施例提供了一种目标用户确定方法,该方法包括:

获取种子用户样本和非种子用户样本;

从种子用户样本中选择第一预设数量的第一用户样本,并将第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集;

获取负样本集的第一样本标签、负样本集中每个样本的第一特征向量、正样本集的第二样本标签和正样本集中每个样本的第二特征向量,并使用第一特征向量、第一样本标签、第二样本标签和第二特征向量对预设第一逻辑回归模型进行训练,得到训练后的第一逻辑回归模型;

通过训练后的第一逻辑回归模型和第一特征向量,计算负样本集中所有样本的样本值;

获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户,其中,目标用户数量条件为:按照从大到小的顺序,第一样本值排序处于前k位,或者,大于或等于第一样本值阈值,k为大于或等于1的整数。

可选的,获取种子用户样本和非种子用户样本,包括:

获取种子用户样本,并判断种子用户样本是否为预设用户数据库中的用户样本;

在种子用户样本为预设用户数据库中的用户样本时,将预设用户数据库中除种子用户样本之外的用户样本作为非种子用户样本;

在种子用户样本不是预设用户数据库中的用户样本时,将预设用户数据库中的所有用户样本作为非种子用户样本。

可选的,第一预设数量=种子用户样本数量*15%。

可选的,获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户,包括:

获取第二样本值阈值和所有样本的样本值中非种子用户样本的第一样本值,从第一样本值中选择小于第二样本值阈值的第二样本值,并将与第二样本值对应的非种子用户样本作为高可靠负样本集;

获取种子用户样本的第三样本标签、种子用户样本中每个样本的第三特征向量、高可靠负样本集的第四样本标签和高可靠负样本集中每个样本的第四特征向量,并通过第三样本标签、第三特征向量、第四样本标签和第四特征向量对预设第二逻辑回归模型进行训练,得到训练后的第二逻辑回归模型;

获取非种子用户样本的第五特征向量,并通过训练后的第二逻辑回归模型和第五特征向量,计算非种子用户样本中每个样本的第三样本值;

获取目标用户数量条件,从所有非种子用户样本的第三样本值中,选择满足目标用户数量条件的第三样本值,并将与满足目标用户数量条件的第三样本值对应的非种子用户作为目标用户。

可选的,获取第二样本值阈值,包括:

获取所有样本的样本值中,第一用户样本的第四样本值,并将第四样本值中最小的样本值作为第二样本值阈值。

在本发明实施的又一方面,本发明实施例还提供了一种目标用户确定装置,该装置包括:

获取模块,用于获取种子用户样本和非种子用户样本;

样本集处理模块,用于从种子用户样本中选择第一预设数量的第一用户样本,并将第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集;

第一逻辑回归模训练模块,用于获取负样本集的第一样本标签、负样本集中每个样本的第一特征向量、正样本集的第二样本标签和正样本集中每个样本的第二特征向量,并使用第一特征向量、第一样本标签、第二样本标签和第二特征向量对预设第一逻辑回归模型进行训练,得到训练后的第一逻辑回归模型;

所有样本值计算模块,用于通过训练后的第一逻辑回归模型和第一特征向量,计算负样本集中所有样本的样本值;

目标用户确定模块,用于获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户,其中,目标用户数量条件为:按照从大到小的顺序,第一样本值排序处于前k位,或者,大于或等于第一样本值阈值,k为大于或等于1的整数。

可选的,获取模块,包括:

判断子模块,用于获取种子用户样本,并判断种子用户样本是否为预设用户数据库中的用户样本;

非种子用户样本确定子模块,用于在种子用户样本为预设用户数据库中的用户样本时,将预设用户数据库中除种子用户样本之外的用户样本作为非种子用户样本;

非种子用户样本确定子模块,还用于在种子用户样本不是预设用户数据库中的用户样本时,将预设用户数据库中的所有用户样本作为非种子用户样本。

可选的,第一预设数量=种子用户样本数量*15%。

可选的,目标用户选择模块,包括:

高可靠负样本集确定子模块,用于获取第二样本值阈值和所有样本的样本值中非种子用户样本的第一样本值,从第一样本值中选择小于第二样本值阈值的第二样本值,并将与第二样本值对应的非种子用户样本作为高可靠负样本集;

第二逻辑回归模型训练子模块,用于获取种子用户样本的第三样本标签、种子用户样本中每个样本的第三特征向量、高可靠负样本集的第四样本标签和高可靠负样本集中每个样本的第四特征向量,并通过第三样本标签、第三特征向量、第四样本标签和第四特征向量对预设第二逻辑回归模型进行训练,得到训练后的第二逻辑回归模型;

第三样本值计算子模块,用于获取非种子用户样本的第五特征向量,并通过训练后的第二逻辑回归模型和第五特征向量,计算非种子用户样本中每个样本的第三样本值;

目标用户确定子模块,用于获取目标用户数量条件,从所有非种子用户样本的第三样本值中,选择满足目标用户数量条件的第三样本值,并将与满足目标用户数量条件的第三样本值对应的非种子用户作为目标用户。

可选的,高可靠负样本集确定子模块,具体用于:

获取所有样本的样本值中,第一用户样本的第四样本值,并将第四样本值中最小的样本值作为第二样本值阈值。

在本发明实施的又一方面,本发明实施例还提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一所述的一种目标用户确定方法。

在本发明实施的又一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的一种目标用户确定方法。

在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的一种目标用户确定方法。

本发明实施例提供的一种目标用户确定方法、装置及电子设备,在获取到种子用户样本和非种子用户样本后,通过将第一预设数量的第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集,使得可以采用该负样本集和正样本集对预设的第一逻辑回归模型进行训练,以训练得到能够寻找目标用户的训练后的第一逻辑回归模型,在得到训练后的第一逻辑回归模型后,可以通过训练后的第一逻辑回归模型和负样本集中每个样本的第一特征向量,计算该负样本集中所有样本的样本值。样本值越大,则说明越有可能成为目标用户,因此,可以从所有样本的样本值中非种子用户样本的第一样本值中,按照样本值从大到小的顺序,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。从而可以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的一种目标用户确定方法第一种实施方式的流程图;

图2为本发明实施例的一种目标用户确定方法第二种实施方式的流程图;

图3为本发明实施例的一种目标用户确定方法第三种实施方式的流程图;

图4为本发明实施例的一种目标用户确定方法第四种实施方式的流程图;

图5为本发明实施例的一种目标用户确定装置的结构示意图;

图6为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

为了解决现有技术存在的问题,本发明实施例提供了一种目标用户确定方法、装置及电子设备,以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。进而可以向该目标用户投放与该广告需求对应的广告,提高广告投放效果。

下面,首先对本发明实施例的一种目标用户确定方法进行说明,如图1所示,为本发明实施例的一种目标用户确定方法第一种实施方式的流程图,在图1中,该方法可以包括:

s110,获取种子用户样本和非种子用户样本。

具体的,当广告主向广告投放平台发送广告需求时,会提供种子用户信息、广告内容和与广告内容对应的广告展示次数、广告投放位置要求等广告需求。广告投放平台在接收到广告主提供的种子用户信息、广告内容和与广告内容对应的广告展示次数、广告投放位置要求等广告需求后,可以触发应用本发明实施例的一种目标用户确定方法的目标用户确定装置,因此,上述的目标用户确定装置可以从广告投放平台上获取到种子用户信息,并将获取到的与种子用户信息对应的种子用户作为种子用户样本。

在一些示例中,上述的种子用户信息可以包括种子用户的标识信息、种子用户的特征向量信息等。其中,该特征向量信息可以包括:年龄特征向量和性别特征向量等。

在一些示例中,上述的广告投放平台可以在接收到广告主提供的种子用户信息后,判断种子用户信息中种子用户的数量是否小于预设种子用户阈值,在判断种子用户信息中种子用户的数量小于预设种子用户阈值时,触发上述的目标用户确定装置。

在一些示例中,上述的广告投放平台触发上述的目标用户确定装置后,该目标用户确定装置还可以从广告投放平台上获取非种子用户样本。

具体的,上述的广告投放平台本地可以记录有点击投放后的广告的历史用户信息,该历史用户信息可以包括:历史用户的标识信息、历史用户的年龄、性别、历史用户点击的广告类型等信息。并可以将该历史用户的年龄、性别、历史用户点击的广告类型等信息预先转换为历史用户年龄特征向量、历史用户性别特征向量和历史用户的广告类型特征向量等。因此,上述的目标用户确定装置可以从广告投放平台上获取到历史用户的标识信息,并将与该历史用户的标识信息对应的历史用户确定为非种子用户样本。

在一种可能的实现方式中,上述的目标用户确定装置可以设置在上述的广告投放平台内部,也可以与上述的广告投放平台分别独立设置。

s120,从种子用户样本中选择第一预设数量的第一用户样本,并将第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集。

具体的,上述的目标用户确定装置在获取到种子用户样本和非种子用户样本后,为了能够根据种子用户确定出目标用户,在本发明实施例中,可以从获取到的种子用户样本中,选择第一预设数量的第一用户样本,并将第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集。

在一些示例中,上述的目标用户确定装置在从种子用户样本中选择第一预设数量的第一用户样本时,可以随机从种子用户样本中选择第一预设数量的第一用户样本,也可以按照各个种子用户样本的顺序,依次从种子用户样本中选择第一预设数量的第一用户样本。

其中,该第一预设数量可以根据经验预先设置,例如,可以将第一预设数量设置为10、30或50等,在一些示例中,该第一预设数量可以为:种子用户样本数量*15%。需要说明的是,本发明实施例中的“*”表示乘以。

例如,假设上述的目标用户确定装置获取到的种子用户样本为:用户样本1、用户样本2、用户样本3和用户样本4,非种子用户样本为:用户样本5、用户样本6、用户样本7、用户样本8、用户样本9和用户样本10。假设第一预设数量为2。则上述的目标用户确定装置可以随机选择用户样本1和用户样本3,然后将用户样本1、用户样本3、用户样本5、用户样本6、用户样本7、用户样本8、用户样本9和用户样本10作为负样本集,将用户样本2和用户样本4作为正样本集。

这里的4个种子用户样本和6个非种子用户样本仅仅为了说明本发明实施例,在实际应用中,种子用户样本的数量可以是1万、5万或者10万等,非种子用户样本的数量可以是5万、10万或者50万等。

s130,获取负样本集的第一样本标签、负样本集中每个样本的第一特征向量、正样本集的第二样本标签和正样本集中每个样本的第二特征向量,并使用第一特征向量、第一样本标签、第二样本标签和第二特征向量对预设第一逻辑回归模型进行训练,得到训练后的第一逻辑回归模型。

在一些示例中,上述的目标用户确定装置可以预先对负样本集设置一个第一样本标签,对正样本集设置一个第二样本标签,例如,该第二样本标签可以是1,第一样本标签可以是0,也可以是-1。

在一些示例中,第一特征向量可以包括第一用户样本的特征向量和非种子用户的特征向量,第二特征向量可以包括种子用户样本中除第一用户样本外的种子用户样本的特征向量。

在一些示例中,上述的预设第一逻辑回归模型可以是公式(1)所示的公式:

其中,g(xi)=w0+w1xi1+…+wjxij…+wnxin,xij表示第i个用户样本的第j个特征向量。i≥1,n≥j≥1,n≥1。p(yk=1|xi)表示第i个用户样本的样本标签为1的概率,k=1或0。第i个用户样本的样本标签为0的概率为公式(2):

假设,上述的目标用户确定装置获取到的种子用户样本和非种子用户样本的总数为m,由于m个用户样本之间相互独立,因此,所有用户样本的联合分布为各个用户样本边缘分布的乘积,即公式(3):

然后,上述的目标用户确定装置可以采用现有技术中计算最大似然估计的方法计算出g(xi)中的各个参数:w0,w1,…,wj,…,wn,使得l(w)取得最大值。这里对计算最大似然估计的方法不作过多介绍。

在一些示例中,上述的目标用户确定装置可以将第一特征向量、第一样本标签、第二样本标签和第二特征向量代入上述公式(3),计算出满足各个用户样本的参数:w0,w1,…,wj,…,wn。从而可以得到训练后的第一逻辑回归模型。

应当理解的是,上述的目标用户确定装置得到的训练后的第一逻辑回归模型中的各个参数:w0,w1,…,wj,…,wn均为已知参数。

例如,假设,用户样本1、用户样本3、用户样本5、用户样本6、用户样本7、用户样本8、用户样本9和用户样本10为负样本集中的样本,用户样本2和用户样本4为正样本集中的样本,则上述的目标用户确定装置可以分别获取用户样本1的特征向量、用户样本3的特征向量、用户样本5的特征向量、用户样本6的特征向量、用户样本7的特征向量、用户样本8的特征向量、用户样本9的特征向量和用户样本10的特征向量,分别获取用户样本2的特征向量和用户样本4的特征向量。

然后通过负样本集中的用户样本1的特征向量、用户样本3的特征向量、用户样本5的特征向量、用户样本6的特征向量、用户样本7的特征向量、用户样本8的特征向量、用户样本9的特征向量和用户样本10的特征向量,正样本集中的用户样本2的特征向量和用户样本4的特征向量,对预设的第一逻辑回归模型进行训练,即通过上述公式(3)计算出满足上述10个用户样本的参数:w0,w1,…,wj,…,wn,从而可以得到训练后的第一逻辑回归模型。

通过本发明实施例,将第一用户和非种子用户作为负样本集,再采用正样本集和负样本集对预设第一逻辑回归模型进行训练,可以使得得到的训练后的第一逻辑回归模型能够区分出正样本和负样本。提高通过后续步骤选择目标用户的准确性。

s140,通过训练后的第一逻辑回归模型和第一特征向量,计算负样本集中所有样本的样本值。

在一些示例中,在训练后的第一逻辑回归模型中,p(yk=1|xi)可以表示第i个用户样本的样本标签为1的概率,样本标签为1的概率越大,则可以说明越合适作为目标用户。因此,上述的目标用户确定装置可以在得到训练后的第一逻辑回归模型后,获取负样本集中每个样本的第一特征向量,然后通过该训练后的第一逻辑回归模型,计算负样本集中每个样本的样本标签为1的概率,并将每个样本的样本标签为1的概率作为该样本的样本值,从而可以得到负样本集中所有样本的样本值。

其中,该负样本集中可以包括第一用户样本和非种子用户样本。

s150,获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。

其中,目标用户数量条件为:按照从大到小的顺序,第一样本值排序处于前k位,或者,大于或等于第一样本值阈值,k为大于或等于1的整数。

在一些示例中,当广告主向广告投放平台发送广告需求时,还可以发送目标用户数量条件,因此,上述的目标用户确定装置可以从广告投放平台中获取目标用户数量条件。

在一些示例中,当广告主向广告投放平台发送广告需求时,还可以发送目标用户数量要求,上述的广告投放平台还可以根据广告主发送的目标用户数量要求,确定出目标用户数量条件,因此,上述的目标用户确定装置可以从上述的广告投放平台获取到目标用户数量条件。

在一些示例中,上述的目标用户确定装置可以从广告投放平台获取目标用户数量要求,然后根据目标用户数量要求,在本地确定出目标用户数量条件。

具体的,上述的目标用户确定装置在获取到目标用户数量条件后,可以获取所有样本的样本值中非种子用户样本的第一样本值。

例如,假设上述的目标用户确定装置计算出了负样本集中用户样本1的样本值为0.6、用户样本3的样本值为0.7、用户样本5的样本值为0.65、用户样本6的样本值为0.3、用户样本7的样本值为0.55、用户样本8的样本值为0.4、用户样本9的样本值为0.75和用户样本10的样本值为0.2。在本步骤中,可以获取非种子用户样本的第一样本值,即:用户样本5的样本值、用户样本6的样本值、用户样本7的样本值、用户样本8的样本值、用户样本9的样本值和用户样本10的样本值。

再假如,目标用户数量条件为:按照从大到小的顺序,第一样本值排序处于前3位。则上述的目标用户确定装置可以按照第一样本值从大到小的顺序,选择处于前3位的第一样本值:0.75、0.65和0.55,对应的用户样本分别为:用户样本9、用户样本5和用户样本7。

最后,可以确定出与用户样本9对应的非种子用户、与用户样本5对应的非种子用户和与用户样本7对应的非种子用户为目标用户。

在一些示例中,上述的目标用户确定装置在确定出目标用户后,可以将确定出的目标用户的标识信息发送给上述的广告投放平台,该广告投放平台可以向与该目标用户的标识信息对应的终端设备投放广告。

通过本发明实施例的一种目标用户确定方法,在获取到种子用户样本和非种子用户样本后,通过将第一预设数量的第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集,使得可以采用该负样本集和正样本集对预设的第一逻辑回归模型进行训练,以训练得到能够寻找目标用户的训练后的第一逻辑回归模型,在得到训练后的第一逻辑回归模型后,可以通过训练后的第一逻辑回归模型和负样本集中每个样本的第一特征向量,计算该负样本集中所有样本的样本值。样本值越大,则说明越有可能成为目标用户,因此,可以从所有样本的样本值中非种子用户样本的第一样本值中,按照样本值从大到小的顺序,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。从而可以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。

在本发明实施例一种可选的实施例中,在图1所示的一种目标用户确定方法的基础上,本发明实施例还提供了一种可能的实现方式,如图2所示,为本发明实施例的一种目标用户确定方法第二种实施方式的流程图,在图2中,s110,获取种子用户样本和非种子用户样本,可以包括:

s111,获取种子用户样本,并判断种子用户样本是否为预设用户数据库中的用户样本。

在本发明实施例的一种可能的实现方式中,广告主提供的种子用户可能是上述的广告投放平台中的用户,也可能不是上述的广告投放平台中的用户。当广告主提供的种子用户为上述的广告投放平台中的用户时,若直接根据种子用户,会出现寻找到的目标用户中包含有种子用户,影响应用本发明实施例的一种目标用户确定方法寻找目标用户的效果。

为了提高寻找目标用户的效果,避免出现寻找到的目标用户中包含种子用户的现象,上述的目标用户确定装置可以获取各个种子用户样本的种子用户信息。然后判断该种子用户信息是否为广告投放平台中的用户。

在一些示例中,上述的广告投放平台可以在本地预先建立一个用户数据库,该用户数据库可以用于存储点击广告的历史用户的用户样本信息。因此,上述的目标用户确定装置可以从广告投放平台中获取预先建立的用户数据库中的用户样本信息,并与种子用户样本的用户信息进行对比,以判断种子用户样本是否为预设用户数据库中的用户样本。

当种子用户信息与预设数据库中的用户信息相同时,则可以说明种子用户样本为预设用户数据库中的用户样本,可以执行步骤s112,当种子用户信息与预设数据库中的用户信息不同时,则可以说明种子用户样本不是预设数据库中的用户样本,可以执行步骤s113。

s112,将预设用户数据库中除种子用户样本之外的用户样本作为非种子用户样本。

具体的,当种子用户信息与预设数据库中的用户信息相同时,则可以说明该预设数据库中包括种子用户样本,上述的目标用户确定装置可以将预设用户数据库中除种子用户样本外的用户样本作为非种子用户样本。

s113,将预设用户数据库中的所有用户样本作为非种子用户样本。

具体的,当种子用户信息与预设数据库中的用户信息不同时,则可以说明该预设数据库中不包括种子用户样本,上述的目标用户确定装置可以将预设用户数据库中的所有用户样本作为非种子用户样本。

通过对种子用户进行判断,可以在种子用户为预设用户数据库中的用户时,将预设用户数据库中除种子用户之外的用户作为非种子用户样本,在种子用户不是预设用户数据库中的用户时,将预设用户数据库中的所有用户作为非种子用户样本。从而可以在根据种子用户寻找目标用户时,避免将预设数据库中的种子用户作为非种子用户,提高应用本发明实施例的一种目标用户确定方法确定目标用户的准确度。

在本发明实施例一种可选的实施例中,在图2所示的一种目标用户确定方法的基础上,本发明实施例还提供了一种可能的实现方式,如图3所示,为本发明实施例的一种目标用户确定方法第三种实施方式的流程图,在图3中,s150,获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户,可以包括:

s151,获取第二样本值阈值和所有样本的样本值中非种子用户样本的第一样本值,从第一样本值中选择小于第二样本值阈值的第二样本值,并将与第二样本值对应的非种子用户样本作为高可靠负样本集。

其中,该第二样本值阈值可以是预先设置的,并存储在上述的目标用户确定装置本地的阈值。

上述的目标用户确定装置在计算得到负样本集中所有样本的样本值后,可以在本地获取该第二样本值阈值和该所有样本的样本值中非种子用户样本的第一样本值。

例如,假设上述的目标用户确定装置计算出了负样本集中用户样本1的样本值为0.6、用户样本3的样本值为0.7、用户样本5的样本值为0.65、用户样本6的样本值为0.3、用户样本7的样本值为0.55、用户样本8的样本值为0.4、用户样本9的样本值为0.75和用户样本10的样本值为0.2。在本步骤中,可以获取非种子用户样本的第一样本值,即:用户样本5、用户样本6、用户样本7、用户样本8、用户样本9和用户样本10的样本值。

在本发明实施例的一种可能的实现方式中,为了降低寻找目标用户的时间开销,提高寻找目标用户的效率和寻找到的目标用户的准确度,可以对第一样本值中的非种子用户样本的样本值进行筛选。

具体的,上述的目标用户确定装置可以在第一样本值中选择小于第二样本值阈值的第二样本值,然后将与该第二样本值对应的非种子用户样本作为高可靠负样本集。

假设,第二样本值阈值为0.60,则上述的目标用户确定装置可以选择用户样本6的样本值0.3、用户样本7的样本值0.55、用户样本8的样本值0.4和用户样本10的样本值0.2为第二样本值。然后将用户样本6、用户样本7、用户样本8、和用户样本10作为高可靠高负样本集。

通过对第一样本值中的非种子用户样本的样本值进行筛选,可以提高后续步骤中训练得到的第二逻辑回归模型的准确度,进而可以提高通过该第二逻辑回归模型寻找目标用户的准确度,还可以降低寻找目标用户的时间开销,提高应用本发明实施例的一种目标用户确定方法寻找目标用户的效率。

s152,获取种子用户样本的第三样本标签、种子用户样本中每个样本的第三特征向量、高可靠负样本集的第四样本标签和高可靠负样本集中每个样本的第四特征向量,并通过第三样本标签、第三特征向量、第四样本标签和第四特征向量对预设第二逻辑回归模型进行训练,得到训练后的第二逻辑回归模型。

具体的,上述的目标用户确定装置可以将种子用户样本作为第一正样本集,将与第二样本值对应的非种子用户样本作为高可靠负样本集,然后可以采用第一正样本集和高可靠负样本集对预设第二逻辑回归模型进行训练。

在一些示例中,上述的目标用户确定装置还可以预先对种子用户样本设置一个第三样本标签,对高可靠负样本集预先设置一个第四样本标签,例如,该第三样本标签可以是1,第四样本标签可以是0,也可以是-1。

在一些示例中,该预设第二逻辑回归模型可以是如公式(1)所示的公式。

在一些示例中,上述的目标用户确定装置为了使用训练后的第二逻辑回归模型寻找目标用户,在本步骤中,可以通过第三样本标签、第三特征向量、第四样本标签和第四特征向量训练预设第二逻辑回归模型。

具体的,上述的目标用户确定装置可以通过第三样本标签、第三特征向量、第四样本标签和第四特征向量计算出预设第二逻辑回归模型中,使得l(w)取得最大值的g(xi)中的各个参数:w0,w1,…,wj,…,wn,从而可以得到训练后的第二逻辑回归模型。

例如,上述的目标用户确定装置可以将用户样本6、用户样本7、用户样本8、和用户样本10作为高可靠高负样本集,将用户样本1、用户样本2、用户样本3和用户样本4作为第一正样本集对预设第二逻辑回归模型进行训练。

通过本发明实施例,将与第二样本值对应的非种子用户样本作为高可靠负样本集,将种子用户样本作为第一正样本集。再采用第一正样本集和高可靠负样本集训练预设第二逻辑回归模型,可以使得得到的训练后的第二逻辑回归模型能够更好的区分出正样本和负样本。进一步提高通过后续步骤选择目标用户的准确度。

s153,获取非种子用户样本的第五特征向量,并通过训练后的第二逻辑回归模型和第五特征向量,计算非种子用户样本中每个样本的第三样本值。

在一些示例中,上述的目标用户确定装置在得到训练后的第二逻辑回归模型后,可以在非种子用户样本中确定目标用户样本。

具体的,上述的目标用户确定装置可以首先获取非种子用户样本第五特征向量,然后通过训练后的第二逻辑回归模型和第五特征向量,计算非种子用户样本中每个样本的样本标签为1的概率。再将该样本的样本标签为1的概率作为该样本的样本值,从而可以得到负样本集中所有样本的样本值,其中,该第五特征向量可以是所有非种子用户样本的特征向量。

例如,上述的目标用户确定装置可以通过训练后的第二逻辑回归模型和用户样本5的特征向量、用户样本6的特征向量、用户样本7的特征向量、用户样本8的特征向量、用户样本9的特征向量、用户样本10的特征向量,计算非种子用户样本中用户样本5的第三样本值、用户样本6的第三样本值、用户样本7的第三样本值、用户样本8的第三样本值、用户样本9的第三样本值和用户样本10的第三样本值。

s154,获取目标用户数量条件,从所有非种子用户样本的第三样本值中,选择满足目标用户数量条件的第三样本值,并将与满足目标用户数量条件的第三样本值对应的非种子用户作为目标用户。

具体的,上述的目标用户确定装置在计算得到每个非种子用户样本的样本值后,可以获取预先设置的目标用户数量条件,然后从所有非种子用户样本的第三样本值中,选择满足目标用户数量条件的第三样本值,进而将与满足目标用户数量条件的第三样本值对应的非种子用户作为目标用户,从而可以实现根据少量的种子用户确定出更可靠的非种子用户作为目标用户。

例如,假设上述的目标用户确定装置计算出的非种子用户样本中用户样本5的第三样本值为0.69、用户样本6的第三样本值为0.25、用户样本7的第三样本值为0.61、用户样本8的第三样本值为0.35、用户样本9的第三样本值为0.80和用户样本10的第三样本值为0.15。

再假设,目标用户数量条件为:大于或等于第一样本值阈值,该第一样本值阈值为0.5,则上述的目标用户确定装置可以选择用户样本5的第三样本值、用户样本7的第三样本值和用户样本9的第三样本值,并将与用户样本5对应的非种子用户、与用户样本7对应的非种子用户和与用户样本9对应的非种子用户作为目标用户。

通过本发明实施例的一种目标用户确定方法,可以使用种子用户样本和高可靠的非种子用户样本对预设第二逻辑回归模型进行训练,进而使用训练后的第二逻辑回归模型在非种子用户样本中选择目标用户,从而可以提高应用本发明实施例的一种目标用户确定方法确定目标用户的准确度,并且可以降低确定目标用户的时间开销,提高确定目标用户的效率。

在本发明实施例一种可选的实施例中,在图3所示的一种目标用户确定方法的基础上,本发明实施例还提供了一种可能的实现方式,如图4所示,为本发明实施例的一种目标用户确定方法第四种实施方式的流程图,在图4中,s151,获取第二样本值阈值,可以包括:

s1511,获取所有样本的样本值中,第一用户样本的第四样本值,并将第四样本值中最小的样本值作为第二样本值阈值。

在一些示例中,该第二样本值阈值可以是根据经验预先设置的阈值。

在一些示例中,为了提高根据第二样本阈值在非种子用户样本中选择高可靠负样本的精确度,进一步提高应用本发明实施例的一种目标用户确定方法确定目标用户的准确度,本发明实施例还提供了一种第二样本值阈值的获取方法。

具体的,上述的目标用户确定装置可以从通过训练后的第一逻辑回归模型计算出的所有样本的样本值中,获取第一用户样本的第四样本值,并将第四样本值中最小的样本值作为第二样本值阈值。

例如,假设上述的目标用户确定装置计算出的负样本集中用户样本1的样本值为0.6、用户样本3的样本值为0.7,在本步骤中,可以将用户样本1的样本值0.6作为第二样本值阈值。

通过将第四样本值中最小的样本值作为第二样本值阈值,可以在确定高可靠负样本集时,将非种子用户样本中低于第四样本值中最小的样本值的非种子用户样本作为高可靠负样本集中的样本,从而可以提高训练后的第二逻辑回归模型的精确度,进一步提高应用本发明实施例的一种目标用户确定装置确定目标用户的准确度。

相应于上述的方法实施例,本发明实施例还提供了一种目标用户确定装置,如图5所示,为本发明实施例的一种目标用户确定装置的结构示意图,在图5中,本发明实施例的一种目标用户确定装置可以包括:

获取模块510,用于获取种子用户样本和非种子用户样本;

样本集处理模块520,用于从种子用户样本中选择第一预设数量的第一用户样本,并将第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集;

第一逻辑回归模训练模块530,用于获取负样本集的第一样本标签、负样本集中每个样本的第一特征向量、正样本集的第二样本标签和正样本集中每个样本的第二特征向量,并使用第一特征向量、第一样本标签、第二样本标签和第二特征向量对预设第一逻辑回归模型进行训练,得到训练后的第一逻辑回归模型;

所有样本值计算模块540,用于通过训练后的第一逻辑回归模型和第一特征向量,计算负样本集中所有样本的样本值;

目标用户确定模块550,用于获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户,其中,目标用户数量条件为:按照从大到小的顺序,第一样本值排序处于前k位,或者,大于或等于第一样本值阈值,k为大于或等于1的整数。

通过本发明实施例的一种目标用户确定装置,在获取到种子用户样本和非种子用户样本后,通过将第一预设数量的第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集,使得可以采用该负样本集和正样本集对预设的第一逻辑回归模型进行训练,以训练得到能够寻找目标用户的训练后的第一逻辑回归模型,在得到训练后的第一逻辑回归模型后,可以通过训练后的第一逻辑回归模型和负样本集中每个样本的第一特征向量,计算该负样本集中所有样本的样本值。样本值越大,则说明越有可能成为目标用户,因此,可以从所有样本的样本值中非种子用户样本的第一样本值中,按照样本值从大到小的顺序,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。从而可以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。

具体的,获取模块510,包括:

判断子模块,用于获取种子用户样本,并判断种子用户样本是否为预设用户数据库中的用户样本;

非种子用户样本确定子模块,用于在种子用户样本为预设用户数据库中的用户样本时,将预设用户数据库中除种子用户样本之外的用户样本作为非种子用户样本;

非种子用户样本确定子模块,还用于在种子用户样本不是预设用户数据库中的用户样本时,将预设用户数据库中的所有用户样本作为非种子用户样本。

具体的,第一预设数量=种子用户样本数量*15%。

具体的,目标用户确定模块550,包括:

高可靠负样本集确定子模块,用于获取第二样本值阈值和所有样本的样本值中非种子用户样本的第一样本值,从第一样本值中选择小于第二样本值阈值的第二样本值,并将与第二样本值对应的非种子用户样本作为高可靠负样本集;

第二逻辑回归模型训练子模块,用于获取种子用户样本的第三样本标签、种子用户样本中每个样本的第三特征向量、高可靠负样本集的第四样本标签和高可靠负样本集中每个样本的第四特征向量,并通过第三样本标签、第三特征向量、第四样本标签和第四特征向量对预设第二逻辑回归模型进行训练,得到训练后的第二逻辑回归模型;

第三样本值计算子模块,用于获取非种子用户样本的第五特征向量,并通过训练后的第二逻辑回归模型和第五特征向量,计算非种子用户样本中每个样本的第三样本值;

目标用户确定子模块,用于获取目标用户数量条件,从所有非种子用户样本的第三样本值中,选择满足目标用户数量条件的第三样本值,并将与满足目标用户数量条件的第三样本值对应的非种子用户作为目标用户。

具体的,高可靠负样本集确定子模块,具体用于:

获取所有样本的样本值中,第一用户样本的第四样本值,并将第四样本值中最小的样本值作为第二样本值阈值。

本发明实施例还提供了一种电子设备,如图6所示,为本发明实施例的一种电子设备的结构示意图,该电子设备可以包括处理器610、通信接口620、存储器630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信,

存储器630,用于存放计算机程序;

处理器610,用于执行存储器630上所存放的程序时,实现如下步骤:

获取种子用户样本和非种子用户样本;

从种子用户样本中选择第一预设数量的第一用户样本,并将第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集;

获取负样本集的第一样本标签、负样本集中每个样本的第一特征向量、正样本集的第二样本标签和正样本集中每个样本的第二特征向量,并使用第一特征向量、第一样本标签、第二样本标签和第二特征向量对预设第一逻辑回归模型进行训练,得到训练后的第一逻辑回归模型;

通过第一逻辑回归模型和第一特征向量,计算负样本集中所有样本的样本值;

获取目标用户数量条件和所有样本的样本值中非种子用户样本的第一样本值,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户,其中,目标用户数量条件为:按照从大到小的顺序,第一样本值排序处于前k位,或者,大于或等于第一样本值阈值,k为大于或等于1的整数。

通过本发明实施例的一种电子设备,在获取到种子用户样本和非种子用户样本后,通过将第一预设数量的第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集,使得可以采用该负样本集和正样本集对预设的第一逻辑回归模型进行训练,以训练得到能够寻找目标用户的训练后的第一逻辑回归模型,在得到训练后的第一逻辑回归模型后,可以通过训练后的第一逻辑回归模型和负样本集中每个样本的第一特征向量,计算该负样本集中所有样本的样本值。样本值越大,则说明越有可能成为目标用户,因此,可以从所有样本的样本值中非种子用户样本的第一样本值中,按照样本值从大到小的顺序,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。从而可以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种目标用户确定方法。

通过本发明实施例的一种计算机可读存储介质,在获取到种子用户样本和非种子用户样本后,通过将第一预设数量的第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集,使得可以采用该负样本集和正样本集对预设的第一逻辑回归模型进行训练,以训练得到能够寻找目标用户的训练后的第一逻辑回归模型,在得到训练后的第一逻辑回归模型后,可以通过训练后的第一逻辑回归模型和负样本集中每个样本的第一特征向量,计算该负样本集中所有样本的样本值。样本值越大,则说明越有可能成为目标用户,因此,可以从所有样本的样本值中非种子用户样本的第一样本值中,按照样本值从大到小的顺序,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。从而可以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种目标用户确定方法。

通过本发明实施例的一种包含指令的计算机程序产品,在获取到种子用户样本和非种子用户样本后,通过将第一预设数量的第一用户样本和非种子用户样本作为负样本集,将种子用户样本中除第一用户样本之外的用户样本作为正样本集,使得可以采用该负样本集和正样本集对预设的第一逻辑回归模型进行训练,以训练得到能够寻找目标用户的训练后的第一逻辑回归模型,在得到训练后的第一逻辑回归模型后,可以通过训练后的第一逻辑回归模型和负样本集中每个样本的第一特征向量,计算该负样本集中所有样本的样本值。样本值越大,则说明越有可能成为目标用户,因此,可以从所有样本的样本值中非种子用户样本的第一样本值中,按照样本值从大到小的顺序,选择满足目标用户数量条件的第一样本值,并将与满足目标用户数量条件的第一样本值对应的非种子用户作为目标用户。从而可以实现根据广告主提供的较少的种子用户,确定出合适的目标用户。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1