本公开涉及计算机,尤其涉及一种点击率预估方法、装置、电子设备及可读存储介质。
背景技术:
1、点击率(click-through-rate,ctr)预估技术是计算广告领域的核心环节,利用点击率预估技术,对某广告位上所投放的广告的点击率进行预估,以供广告主根据预估的点击率来制定预订广告位的决策。
2、随着深度学习技术的发展,深度学习模型在近些年持续向更精准的方向迭代更新。但是对于计算广告来说,不仅要关注模型的排序能力,更需关注点击率预估模型预估的点击率的准确性。由于样本选择偏差、线上线下不一致等原因,可能会导致点击率预估模型预估的点击率的准确度较低。
技术实现思路
1、为克服相关技术中存在的问题,本公开提供一种点击率预估方法、装置、电子设备及可读存储介质。
2、根据本公开实施例的第一方面,提供一种点击率预估方法,包括:
3、响应于接收到点击率预估请求,则获取待预估媒体内容相关的特征数据;
4、将所述特征数据输入点击率预估模型,得到所述点击率预估模型输出的所述待预估媒体内容的初始预估点击率;
5、根据所述初始预估点击率,从校准数据库中确定所述待预估媒体内容对应的目标校准系数;
6、根据所述目标校准系数和所述初始预估点击率,确定所述待预估媒体内容的目标预估点击率。
7、可选地,所述校准数据库通过以下方式生成:
8、获取所述点击率预估模型在预设历史时间段内预估的每一历史媒体内容的历史数据,所述历史数据包括所述历史媒体内容的初始预估点击率和实际点击率;
9、将多个历史数据划分为n个历史数据段,并分别确定每一历史数据段对应的平均初始预估点击率和第一平均实际点击率,n为大于1的整数;
10、利用保序回归算法,根据每一历史数据段对应的平均初始预估点击率和第一平均实际点击率,确定每一历史数据段对应的第二平均实际点击率;
11、根据每一所述历史数据段对应的第二平均实际点击率和平均初始预估点击率,确定每一所述历史数据段对应的校准系数;
12、根据n个历史数据段和n个历史数据段各自对应的校准系数,生成校准数据库。
13、可选地,所述根据n个历史数据段和n个历史数据段各自对应的校准系数,生成校准数据库,包括:
14、针对每一历史数据段,确定所述历史数据段对应的预估点击率区间,并将所述历史数据段对应的校准系数确定为所述预估点击率区间对应的校准系数;
15、根据每一历史数据段对应的预估点击率区间和每一预估点击率区间对应的校准系数,生成校准数据库。
16、可选地,所述根据每一所述历史数据段对应的第二平均实际点击率和平均初始预估点击率,确定每一所述历史数据段对应的校准系数,包括:
17、针对每一所述历史数据段,将所述历史数据段对应的第二平均实际点击率与所述平均初始预估点击率的比值,确定为所述历史数据段对应的校准系数。
18、可选地,所述针对每一历史数据段,确定所述历史数据段对应的预估点击率区间,包括:
19、针对每一历史数据段,分别确定所述历史数据段包括的最小初始预估点击率和最大初始预估点击率,并将所述最小初始预估点击率和所述最大初始预估点击率的区间确定为所述历史数据段对应的预估点击率区间。
20、可选地,所述将多个历史数据划分为n个历史数据段,包括:
21、根据多个历史数据包括的初始预估点击率大小,对所述多个历史数据进行排序;
22、根据排序结果将所述多个历史数据划分为n个历史数据段。
23、可选地,所述校准数据库包括多个预估点击率区间和每一预估点击率区间对应的校准系数,所述根据所述初始预估点击率,从校准数据库中确定所述待预估媒体内容对应的目标校准系数,包括:
24、根据所述初始预估点击率和所述校准数据库中包括的多个预估点击率区间,确定所述初始预估点击率所属的目标预估点击率区间;
25、将所述目标预估点击率区间对应的校准系数确定为所述待预估媒体内容对应的目标校准系数。
26、可选地,所述点击率预估模型通过以下训练方式得到:
27、获取样本数据,所述样本数据包括样本媒体内容相关的特征数据和实际点击率;
28、按照目标采样方式,对所述样本数据进行采样,得到采样后的样本数据,所述目标采样方式包括以下中的至少一者:随机负采样、预设规则采样、马尔科夫蒙特卡洛采样法和重要性采样法;
29、根据采样后的样本数据对神经网络模型进行训练,得到点击率预估模型。
30、根据本公开实施例的第二方面,提供一种点击率预估装置,包括:
31、第一获取模块,被配置为响应于接收到点击率预估请求,则获取待预估媒体内容相关的特征数据;
32、输入模块,被配置为将所述特征数据输入点击率预估模型,得到所述点击率预估模型输出的所述待预估媒体内容的初始预估点击率;
33、第一确定模块,被配置为根据所述初始预估点击率,从校准数据库中确定所述待预估媒体内容对应的目标校准系数;
34、第二确定模块,被配置为根据所述目标校准系数和所述初始预估点击率,确定所述待预估媒体内容的目标预估点击率。
35、可选地,所述装置还包括:
36、第二获取模块,被配置为获取所述点击率预估模型在预设历史时间段内预估的每一历史媒体内容的历史数据,所述历史数据包括所述历史媒体内容的初始预估点击率和实际点击率;
37、划分模块,被配置为将多个历史数据划分为n个历史数据段,并分别确定每一历史数据段对应的平均初始预估点击率和第一平均实际点击率,n为大于1的整数;
38、第三确定模块,被配置为利用保序回归算法,根据每一历史数据段对应的平均初始预估点击率和第一平均实际点击率,确定每一历史数据段对应的第二平均实际点击率;
39、第四确定模块,被配置为根据每一所述历史数据段对应的第二平均实际点击率和平均初始预估点击率,确定每一所述历史数据段对应的校准系数;
40、生成模块,被配置为根据n个历史数据段和n个历史数据段各自对应的校准系数,生成校准数据库。
41、可选地,所述生成模块包括:
42、第一确定子模块,被配置为针对每一历史数据段,确定所述历史数据段对应的预估点击率区间,并将所述历史数据段对应的校准系数确定为所述预估点击率区间对应的校准系数;
43、生成子模块,被配置为根据每一历史数据段对应的预估点击率区间和每一预估点击率区间对应的校准系数,生成校准数据库。
44、可选地,所述第四确定模块被配置为:针对每一所述历史数据段,将所述历史数据段对应的第二平均实际点击率与所述平均初始预估点击率的比值,确定为所述历史数据段对应的校准系数。
45、可选地,所述第一确定子模块被配置为:针对每一历史数据段,分别确定所述历史数据段包括的最小初始预估点击率和最大初始预估点击率,并将所述最小初始预估点击率和所述最大初始预估点击率的区间确定为所述历史数据段对应的预估点击率区间。
46、可选地,所述划分模块包括:
47、排序子模块,被配置为根据多个历史数据包括的初始预估点击率大小,对所述多个历史数据进行排序;
48、划分子模块,被配置为根据排序结果将所述多个历史数据划分为n个历史数据段。
49、可选地,所述校准数据库包括多个预估点击率区间和每一预估点击率区间对应的校准系数,所述第一确定模块303包括:
50、第二确定子模块,被配置为根据所述初始预估点击率和所述校准数据库中包括的多个预估点击率区间,确定所述初始预估点击率所属的目标预估点击率区间;
51、第三确定子模块,被配置为将所述目标预估点击率区间对应的校准系数确定为所述待预估媒体内容对应的目标校准系数。
52、可选地,所述装置还包括:
53、第三获取模块,被配置为获取样本数据,所述样本数据包括样本媒体内容相关的特征数据和实际点击率;
54、采样模块,被配置为按照目标采样方式,对所述样本数据进行采样,得到采样后的样本数据,所述目标采样方式包括以下中的至少一者:随机负采样、预设规则采样、马尔科夫蒙特卡洛采样法和重要性采样法;
55、训练模块,被配置为根据采样后的样本数据对神经网络模型进行训练,得到点击率预估模型。
56、根据本公开实施例的第三方面,提供一种电子设备,包括:
57、处理器;
58、用于存储处理器可执行指令的存储器;
59、其中,所述处理器被配置为:
60、响应于接收到点击率预估请求,则获取待预估媒体内容相关的特征数据;
61、将所述特征数据输入点击率预估模型,得到所述点击率预估模型输出的所述待预估媒体内容的初始预估点击率;
62、根据所述初始预估点击率,从校准数据库中确定所述待预估媒体内容对应的目标校准系数;
63、根据所述目标校准系数和所述初始预估点击率,确定所述待预估媒体内容的目标预估点击率。
64、根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。
65、本公开的实施例提供的技术方案可以包括以下有益效果:
66、采用上述技术方案,在得到点击率预估模型输出的待预估媒体内容的初始预估点击率之后,进一步根据该初始预估点击率确定待预估媒体内容对应的目标校准系数,并根据目标校准系数和初始预估点击率,得到待预估媒体内容的目标预估点击率。如此,减小了最终得到的目标预估点击率与实际点击率的偏差,提高对待预估媒体内容的点击率的预估准确度。
67、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。