受众扩散方法、装置、设备及计算机可读介质与流程

文档序号:29036555发布日期:2022-02-25 19:03阅读:68来源:国知局
受众扩散方法、装置、设备及计算机可读介质与流程

1.本技术涉及大数据技术领域,尤其涉及一种受众扩散方法、装置、设备及计算机可读介质。


背景技术:

2.随着电子商务平台的发展让中小企业进入消费者视野,大型企业广告主面临业务增长放缓和收入下降的危机。因此,品牌广告主开始更加关注在线广告对销售转化的贡献以及实际广告带来的收入。同时,大数据技术的出现颠覆了整个广告行业的运营模式与传统的评估广告效果的方法。通过分析和对海量用户行为数据进行建模,广告主可以准确到达目标消费者。因此,如何更好地利用广告监控数据,以优化广告服务和提高营销转化率成为重要课题。提高营销转化率一个典型的方式就是做受众扩展,也就是说,识别并触达跟种子受众具有相似兴趣的新受众。
3.目前,相关技术中,主要是通过受众的人口统计学信息,比如年龄、性别和所在地区的相似性来进行定位,比如某款化妆品种子受众是18-24岁的女性,那么就把种子受众以外的18-24岁女性当作新目标受众。然而,用户填写的人口统计学信息未必是真实的,甚至存在很多缺失,这就导致采用人口统计学信息进行受众扩散的方式会出现受众扩散不准确的问题,而且只根据人口统计学信息进行受众扩散的条件比较单一且笼统,即使根据准确、完整的人口统计学信息进行受众扩散,扩散结果也会存在很大的偏差。
4.针对受众扩散不准确的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本技术提供了一种受众扩散方法、装置、设备及计算机可读介质,以解决受众扩散不准确的技术问题。
6.根据本技术实施例的一个方面,本技术提供了一种受众扩散方法,包括:
7.获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;
8.利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;
9.将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
10.可选地,将特征向量输入预设的受众识别模型进行识别之前,所述方法还包括按照如下方式获取受众识别模型:
11.获取具有标记信息的第一正样本集、第二正样本集以及不具有标记信息的待选样本集,其中,标记信息用于指示所标记的受众为种子受众,第一正样本集、第二正样本集的样本数量少于待选样本集的样本数量;
12.利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确
定负样本集;
13.使用第二正样本集和负样本集继续训练二分类模型,得到受众识别模型。
14.可选地,利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确定负样本集包括:
15.将第一正样本集划分为第一子集和第二子集;
16.将待选样本集划分为多个子集,并随机选出一个或多个子集与第一子集组成验证集;
17.将第二子集和待选样本集的剩余子集作为训练集,迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集,其中,在迭代训练的过程中待选样本集的剩余子集的规模逐渐缩减。
18.可选地,使用训练集迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集包括:
19.从待选样本集的剩余子集中随机选取一个或多个子集作为负样本集,并使用负样本集和第二子集训练二分类模型;
20.使用二分类模型对验证集和除负样本集外的待选样本集进行识别;
21.基于待选样本集的识别结果从待选样本集中选出可疑负样本集;
22.从可疑负样本集中选出新的负样本集来与第二子集继续训练二分类模型;
23.再次使用二分类模型对验证集和除负样本集外的可疑负样本集进行识别;
24.在相邻两次对验证集的识别结果指示二分类模型收敛的情况下,将最后一次使用的负样本集确定为最终的负样本集;
25.在相邻两次对验证集的识别结果指示二分类模型未收敛的情况下,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集来对二分类模型继续训练,直至二分类模型对验证集相邻两次的识别结果指示二分类模型收敛。
26.可选地,基于待选样本集的识别结果从待选样本集中选出可疑负样本集包括:根据二分类模型对除负样本集外的待选样本集的识别结果,确定待选样本集中各个待选样本与种子受众的行为相似度;按照行为相似度对各个待选样本进行排序;将排序结果中处于目标区间的待选样本组成可疑负样本集,其中,目标区间的待选样本与种子受众的行为相似度小于预设阈值;
27.可选地,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集包括:根据二分类模型对除负样本集外的可疑负样本集的识别结果,确定可疑负样本集中各个可疑负样本与种子受众的行为相似度;按照行为相似度对各个可疑负样本进行排序;将排序结果中处于目标区间的可疑负样本组成新的可疑负样本集,其中,目标区间的可疑负样本与种子受众的行为相似度小于预设阈值。
28.可选地,获取待选样本集之后,所述方法还包括:
29.确定扰动范围的最大值、最小值以及扰动位置;
30.确定待选样本集中各个待选样本的与扰动位置匹配的向量元素;
31.在扰动范围内对各个向量元素进行随机扰动。
32.可选地,将特征向量输入预设的受众识别模型进行识别之后,所述方法还包括:
33.将待定受众的人口统计学数据输入受众识别模型进行识别;
34.将人口统计学数据的识别结果与第一置信度相乘,将行为数据的识别结果与第二置信度相乘,其中,第一置信度、第二置信度为预先根据种子受众的大数据爬取结果确定的,第一置信度小于第二置信度,第一置信度与第二置信度之和为1;
35.在乘积之和所表示的待定受众属于种子受众的扩散受众的概率大于或等于目标阈值的情况下,将待定受众确定为种子受众的扩散受众。
36.根据本技术实施例的另一方面,本技术提供了一种受众扩散装置,包括:
37.数据获取模块,用于获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;
38.向量构建模块,用于利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;
39.受众识别模块,用于将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
40.根据本技术实施例的另一方面,本技术提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
41.根据本技术实施例的另一方面,本技术还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
42.本技术技术方案可以应用于营销智能技术领域中进行受众预测和优化。本技术实施例提供的上述技术方案与相关技术相比具有如下优点:
43.本技术技术方案为获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。本技术通过分析用户对所曝光广告的实际点击行为来进行受众扩散,相比分析可能存在缺失、虚假的人口统计学数据能够更加真实、准确地找到种子受众的扩散受众,解决受众扩散不准确的技术问题。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
45.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
46.图1为根据本技术实施例提供的一种可选的受众扩散方法硬件环境示意图;
47.图2为根据本技术实施例提供的一种可选的受众扩散方法流程图;
48.图3为根据本技术实施例提供的一种可选的受众扩散装置框图;
49.图4为本技术实施例提供的一种可选的电子设备结构示意图。
具体实施方式
50.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
52.相关技术中,受众扩散主要是通过受众的人口统计学信息,比如年龄、性别和所在地区的相似性来进行定位,比如某款化妆品种子受众是18-24岁的女性,那么就把种子受众以外的18-24岁女性当作新目标受众。然而,用户填写的人口统计学信息未必是真实的,甚至存在很多缺失,这就导致采用人口统计学信息进行受众扩散的方式会出现受众扩散不准确的问题,而且只根据人口统计学信息进行受众扩散的条件比较单一且笼统,即使根据准确、完整的人口统计学信息进行受众扩散,扩散结果也会存在很大的偏差。
53.为了解决背景技术中提及的问题,根据本技术实施例的一方面,提供了一种受众扩散方法的实施例。
54.可选地,在本技术实施例中,上述受众扩散方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如种子受众的大数据爬取服务、受众识别模型的训练服务、扩散受众的识别服务等),可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于pc、手机、平板电脑等。
55.本技术实施例中的一种受众扩散方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
56.步骤s202,获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为。
57.本技术实施例中,基于广告媒体的曝光和点击行为来识别待定受众是否为种子受众的扩散受众。种子受众是指已经确定的某一商品的销售对象、某一服务的接受对象以及某一事物的接受对象等。种子受众的扩散受众是指与种子受众具有相似兴趣的新受众,待定受众是指还未确定兴趣趋势的受众。待定受众的行为数据用于表示广告的曝光行为和对广告的点击行为,其中,广告的曝光行为是待定受众的被动行为,即广告主向待定受众曝光某广告一定次数的行为,广告的点击行为是待定受众的主动行为,即待定受众接受上述一定次数的广告曝光的过程中不点击、点击一次或多次的行为。
58.本技术实施例中,行为数据包括广告主向待定受众曝光的广告的识别标识、曝光的次数、每次曝光的具体时间以及该待定受众点击该广告的次数等。
59.步骤s204,利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征。
60.本技术实施例中,利用行为数据构建特征向量以便受众识别模型分析该待定受众的行为特征,进一步分析出兴趣趋势,预测是否为种子受众的扩散受众。特征向量包括该待
定受众被曝光的不同广告的曝光次数和点击次数,特征向量是高维稀疏的,如表一所示:
61.表一
62.userad1_clickad1_impressionad2_clickad2_impression

标签a0313

1b1201

未知
63.在此样例中,受众a的标签为1,即a为种子受众,a被曝光过3次id为1和3次id为2的广告,只点击过1次id为2的广告;受众b为未标记样本,即待定受众,b被曝光过2次id为1和1次id为2的广告,只点击过1次id为1的广告。
64.步骤s206,将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
65.本技术实施例中,通过受众识别模型对待定受众的特征向量进行分析,可以分析出该带定受众的兴趣趋势,即计算待定受众与种子受众的行为相似度,行为相似度大于或等于预设阈值的情况下,即判定该待定受众与种子受众的兴趣趋势一致或相似,进而预测该待定受众为种子受众的扩散受众,否则行为相似度小于预设阈值,判定该待定受众与种子受众的兴趣趋势有较大差别,进而预测该待定受众不是种子受众的扩散受众。该预设阈值可以根据实际需要进行设置。
66.通过步骤s202至s206,本技术通过分析用户对所曝光广告的实际点击行为来进行受众扩散,相比分析可能存在缺失、虚假的人口统计学数据能够更加真实、准确地找到种子受众的扩散受众,解决受众扩散不准确的技术问题。
67.本技术还提供了该受众识别模型的训练方法,下面对受众识别模型的训练方法进行详细说明。
68.可选地,将特征向量输入预设的受众识别模型进行识别之前,所述方法还包括按照如下方式获取受众识别模型:
69.步骤1,获取具有标记信息的第一正样本集、第二正样本集以及不具有标记信息的待选样本集,其中,标记信息用于指示所标记的受众为种子受众,第一正样本集、第二正样本集的样本数量少于待选样本集的样本数量;
70.步骤2,利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确定负样本集;
71.步骤3,使用第二正样本集和负样本集继续训练二分类模型,得到受众识别模型。
72.本技术实施例中,先使用第一正样本集和待选样本集对二分类模型进行预训练,从而从待选样本集中选择出适量的负样本集,再使用选出的负样本集和第二正样本集对预训练后的二分类模型继续训练,从而优化二分类模型的识别效果。二分类模型在预训练阶段结束后就已经具有较高的识别准确度,且经过预训练阶段选择出来的负样本集虽然未进行标注,但基本都是与正样本即种子受众的兴趣趋势差别较大的样本,通过这样的负样本集和第二正样本集优化二分类模型,能够进一步提升二分类模型的识别准确度,从而达到受众识别模型的标准。不仅如此,预训练阶段结束后,能够得到样本数量适中的负样本集,因为待选样本集的数量级往往在十亿级,正样本集的数量级则只有十万级,极度不平衡的数据样本造成了负样本集的选择和标注十分困难,而预训练阶段结束的条件是二分类模型
收敛,此时的负样本集的样本数量是最适合该二分类模型的。
73.本技术实施例中,二分类模型可以是逻辑回归模型、分解因子机以及多层感知机等分类模型。
74.可选地,通过进行预训练来从待选样本集中选出负样本集,即利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确定负样本集包括:
75.步骤1,将第一正样本集划分为第一子集和第二子集;
76.步骤2,将待选样本集划分为多个子集,并随机选出一个或多个子集与第一子集组成验证集;
77.步骤3,将第二子集和待选样本集的剩余子集作为训练集,迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集,其中,在迭代训练的过程中待选样本集的剩余子集的规模逐渐缩减。
78.本技术实施例中,验证集用于评估二分类模型的识别效果,待选样本集选出验证集后,剩余的待选样本集与第一正样本集的第二子集组成训练集对二分类模型进行迭代训练,迭代训练的过程中,正样本均使用该第一正样本集的第二子集,待选样本集的规模则逐渐缩减,最终在二分类模型收敛时得到最终的负样本集。
79.可选地,使用训练集迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集包括:
80.步骤1,从待选样本集的剩余子集中随机选取一个或多个子集作为负样本集,并使用负样本集和第二子集训练二分类模型;
81.步骤2,使用二分类模型对验证集和除负样本集外的待选样本集进行识别;
82.步骤3,基于待选样本集的识别结果从待选样本集中选出可疑负样本集;
83.步骤4,从可疑负样本集中选出新的负样本集来与第二子集继续训练二分类模型;
84.步骤5,再次使用二分类模型对验证集和除负样本集外的可疑负样本集进行识别;
85.步骤6,在相邻两次对验证集的识别结果指示二分类模型收敛的情况下,将最后一次使用的负样本集确定为最终的负样本集;在相邻两次对验证集的识别结果指示二分类模型未收敛的情况下,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集来对二分类模型继续训练,直至二分类模型对验证集相邻两次的识别结果指示二分类模型收敛。
86.本技术实施例中,可以从选出验证集的剩余待选样本集中随机挑选n个样本作为负样本,与第二子集的正样本训练二分类模型,接着用训练后的二分类模型对验证集和选出负样本的待选样本集进行预测,再基于对待选样本集的预测结果选出可疑负样本。对待选样本集的预测结果是,待选样本集中每个样本属于种子受众的扩散受众的概率。根据该预测概率选出更不像扩散受众的样本来组成可疑负样本集,进一步从可疑负样本中选出n个样本作为负样本与第二子集继续训练二分类模型,接着再用训练后的二分类模型对验证集和选出负样本的可疑负样本集进行预测,若先后相邻两次对验证集的预测结果指示模型效果没有增加,即收敛的情况下,将最后一次训练二分类模型使用的负样本集作为最终的负样本,若模型仍未收敛,则继续基于可疑负样本集的预测结果选出新的可疑负样本集,并重复上述选择负样本进行训练的过程,直至模型收敛。
87.本技术实施例中,选出最终的负样本集后,即可用该负样本集和第二正样本集对
预训练后的二分类模型进行优化训练,以进一步提升二分类模型的识别准确度,从而达到受众识别模型的标准。
88.可选地,基于待选样本集的识别结果从待选样本集中选出可疑负样本集包括:根据二分类模型对除负样本集外的待选样本集的识别结果,确定待选样本集中各个待选样本与种子受众的行为相似度;按照行为相似度对各个待选样本进行排序;将排序结果中处于目标区间的待选样本组成可疑负样本集,其中,目标区间的待选样本与种子受众的行为相似度小于预设阈值;
89.可选地,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集包括:根据二分类模型对除负样本集外的可疑负样本集的识别结果,确定可疑负样本集中各个可疑负样本与种子受众的行为相似度;按照行为相似度对各个可疑负样本进行排序;将排序结果中处于目标区间的可疑负样本组成新的可疑负样本集,其中,目标区间的可疑负样本与种子受众的行为相似度小于预设阈值。
90.本技术实施例中,基于待选样本集的识别结果从待选样本集中选出可疑负样本集,以及基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集可以是先对计算得到的每个样本与种子受众的行为相似度进行排序。行为相似度可以通过向量分析得到。从排序结果中选出相似度小于预设阈值的样本作为可疑负样本,还可以是选出排名后90%的样本作为可疑负样本。
91.可选地,还可以对预测得到的每个样本属于扩散受众的概率进行排序。从排序结果中选出概率小于概率阈值的样本作为可疑负样本,还可以是选出排名后90%的样本作为可疑负样本,该概率阈值可以根据实际需要进行设置。
92.另外,由于广告曝光和点击的特征本身具备一定的随机性,因为品牌广告的曝光属于受众的被动行为,因此受众点击了曝光到自己的广告也不一定代表就有兴趣,因此本技术可以对待选样本集中的原始特征向量进行随机扰动,从而弱化随机事件对预测效果的影响。对原始特征向量进行随机扰动包括:
93.步骤1,确定扰动范围的最大值、最小值以及扰动位置;
94.步骤2,确定待选样本集中各个待选样本的与扰动位置匹配的向量元素;
95.步骤3,在扰动范围内对各个向量元素进行随机扰动。
96.可选地,将特征向量输入预设的受众识别模型进行识别之后,所述方法还包括:
97.将待定受众的人口统计学数据输入受众识别模型进行识别;
98.将人口统计学数据的识别结果与第一置信度相乘,将行为数据的识别结果与第二置信度相乘,其中,第一置信度、第二置信度为预先根据种子受众的大数据爬取结果确定的,第一置信度小于第二置信度,第一置信度与第二置信度之和为1;
99.在乘积之和所表示的待定受众属于种子受众的扩散受众的概率大于或等于目标阈值的情况下,将待定受众确定为种子受众的扩散受众。
100.本技术实施例中,可以结合人口统计学数据的预测结果,进一步提升受众扩散的准确率。由于人口统计学数据中存在数据缺失、虚假填写等情况,可以根据种子受众的大数据爬取结果设置人口统计学数据识别结果和行为数据识别结果的置信度,行为数据相对能够更真实的反映用户兴趣偏好,则行为数据识别结果的置信度可以设置得比人口统计学数据识别结果的置信度要高,如上述第一置信度可以设置为0.2,第二置信度可以设置为0.8。
由此,将人口统计学数据结合行为数据共同分析待定受众是否属于种子受众的扩散受众,可以进一步提升受众扩散的准确率。
101.根据本技术实施例的又一方面,如图3所示,提供了一种受众扩散装置,包括:
102.数据获取模块301,用于获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;
103.向量构建模块303,用于利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;
104.受众识别模块305,用于将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
105.需要说明的是,该实施例中的数据获取模块301可以用于执行本技术实施例中的步骤s202,该实施例中的向量构建模块303可以用于执行本技术实施例中的步骤s204,该实施例中的受众识别模块305可以用于执行本技术实施例中的步骤s206。
106.此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
107.可选地,该受众扩散装置,还包括受众识别模型训练模块,用于:
108.获取具有标记信息的第一正样本集、第二正样本集以及不具有标记信息的待选样本集,其中,标记信息用于指示所标记的受众为种子受众,第一正样本集、第二正样本集的样本数量少于待选样本集的样本数量;
109.利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确定负样本集;
110.使用第二正样本集和负样本集继续训练二分类模型,得到受众识别模型。
111.可选地,该受众识别模型训练模块,还包括负样本集选择模块,用于:
112.将第一正样本集划分为第一子集和第二子集;
113.将待选样本集划分为多个子集,并随机选出一个或多个子集与第一子集组成验证集;
114.将第二子集和待选样本集的剩余子集作为训练集,迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集,其中,在迭代训练的过程中待选样本集的剩余子集的规模逐渐缩减。
115.可选地,该负样本集选择模块,具体用于:
116.从待选样本集的剩余子集中随机选取一个或多个子集作为负样本集,并使用负样本集和第二子集训练二分类模型;
117.使用二分类模型对验证集和除负样本集外的待选样本集进行识别;
118.基于待选样本集的识别结果从待选样本集中选出可疑负样本集;
119.从可疑负样本集中选出新的负样本集来与第二子集继续训练二分类模型;
120.再次使用二分类模型对验证集和除负样本集外的可疑负样本集进行识别;
121.在相邻两次对验证集的识别结果指示二分类模型收敛的情况下,将最后一次使用的负样本集确定为最终的负样本集;
122.在相邻两次对验证集的识别结果指示二分类模型未收敛的情况下,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集来对二分类模型继续训练,直至二分类模型对验证集相邻两次的识别结果指示二分类模型收敛。
123.可选地,该负样本集选择模块,还包括第一可疑负样本集选择单元,用于:
124.根据二分类模型对除负样本集外的待选样本集的识别结果,确定待选样本集中各个待选样本与种子受众的行为相似度;按照行为相似度对各个待选样本进行排序;将排序结果中处于目标区间的待选样本组成可疑负样本集,其中,目标区间的待选样本与种子受众的行为相似度小于预设阈值;
125.可选地,该负样本集选择模块,还包括第二可疑负样本集选择单元,用于:根据二分类模型对除负样本集外的可疑负样本集的识别结果,确定可疑负样本集中各个可疑负样本与种子受众的行为相似度;按照行为相似度对各个可疑负样本进行排序;将排序结果中处于目标区间的可疑负样本组成新的可疑负样本集,其中,目标区间的可疑负样本与种子受众的行为相似度小于预设阈值。
126.可选地,该受众识别模型训练模块,还包括向量扰动单元,用于:
127.确定扰动范围的最大值、最小值以及扰动位置;
128.确定待选样本集中各个待选样本的与扰动位置匹配的向量元素;
129.在扰动范围内对各个向量元素进行随机扰动。
130.可选地,该受众扩散装置,还包括加权识别模块,用于:
131.将待定受众的人口统计学数据输入受众识别模型进行识别;
132.将人口统计学数据的识别结果与第一置信度相乘,将行为数据的识别结果与第二置信度相乘,其中,第一置信度、第二置信度为预先根据种子受众的大数据爬取结果确定的,第一置信度小于第二置信度,第一置信度与第二置信度之和为1;
133.在乘积之和所表示的待定受众属于种子受众的扩散受众的概率大于或等于目标阈值的情况下,将待定受众确定为种子受众的扩散受众。
134.根据本技术实施例的另一方面,本技术提供了一种电子设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。
135.上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
136.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
137.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,
简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
138.根据本技术实施例的又一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例的步骤。
139.可选地,在本技术实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
140.获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;
141.利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;
142.将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
143.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
144.本技术实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
145.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
146.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
147.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
148.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
149.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
150.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
151.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
152.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
153.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1