本申请涉及数据处理领域,尤其涉及点击概率确定方法、装置及计算机可读存储介质。
背景技术:
1、在互联网领域中,推荐系统向用户推荐项目后,为确定用户对该项目的点击概率,现有的方案通常是基于深度学习模型确定用户的点击概率。
2、然而,由于深度学习模型不具备自解释能力,从而导致确定点击概率的模型的可解释性较差。
技术实现思路
1、本申请提供一种点击概率确定方法、装置及计算机可读存储介质,能够提升确定点击概率的模型的可解释性。
2、为达到上述目的,本申请采用如下技术方案:
3、第一方面,提供了一种点击概率确定方法,方法包括:获取目标用户的特征数据集合;特征数据集合包括多个特征数据,多个特征数据用于确定目标用户的点击概率;将特征数据集合输入目标点击概率确定模型,得到目标用户的点击概率和每个特征数据的一个或多个注意力得分;目标点击概率确定模型包括子叠加注意力机制模型和子点击概率确定模型。
4、基于该方案,通过获取目标用户的特征数据集合,并基于特征数据集合和目标点击概率确定模型,能够得到目标用户的点击概率和每个特征数据的一个或多个注意力得分。与现有的解释性较差的模型相比,本申请的方案中由于目标点击概率确定模型包括子叠加注意力机制模型和子点击概率确定模型,从而在确定目标用户的点击概率的同时,能够确定每个特征数据的一个或多个注意力得分,从而能够提升定点击概率的模型的可解释性。
5、结合第一方面,在第一方面的某些实施方式中,方法还包括:获取多个用户中每个用户的历史数据集合;历史数据集合包括点击结果和特征数据集合;基于每个用户的历史数据集合对原始点击概率确定模型进行训练,得到目标点击概率确定模型;目标点击概率确定模型的精度评估指标满足预设条件。
6、基于该方案,通过获取多个用户中每个用户的历史数据集合,并基于每个用户的历史数据集合对原始点击概率确定模型进行训练,能够得到目标点击概率确定模型,以方便后续确定目标用户的点击概率。
7、结合第一方面,在第一方面的某些实施方式中,获取目标用户的特征数据集合,包括:获取目标用户的原始数据集合;原始数据集合包括多个原始数据,多个原始数据用于确定目标用户的点击概率;对原始数据集合中的目标原始数据进行缺失值处理,得到第一中间数据集合;目标原始数据的值缺失;对第一中间数据集合中的每个第一中间数据进行独热编码,得到第二中间数据集合;对第二中间数据集合中的每个目标第二中间数据进行标准化和归一化处理,得到特征数据集合;目标第二中间数据的值为数值。
8、基于该方案,通过获取目标用户的原始数据集合,对原始数据集合进行缺失值处理、独热编码、标准化和归一化处理,能够实现数据的统一化,方便后续通过目标点击概率确定模型,得到目标用户的点击概率和每个特征数据的一个或多个注意力得分。
9、结合第一方面,在第一方面的某些实施方式中,在每个特征数据的注意力得分的数量为一个的情况下,每个特征数据的注意力得分为子叠加注意力机制模型中最后一层注意力层输出的注意力得分;或者,每个特征数据的注意力得分为子叠加注意力机制模型的多层注意力层中每层注意力层输出的注意力得分的平均值;或者,每个特征数据的注意力得分为子叠加注意力机制模型的多层注意力层中每层注意力层输出的注意力得分的加权和。
10、第二方面,提供了一种点击概率确定装置用于实现上述第一方面的点击概率确定方法。该点击概率确定装置包括实现上述方法相应的模块、单元、或手段(means),该模块、单元、或means可以通过硬件实现,软件实现,或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。
11、结合第二方面,在第二方面的某些实施方式中,点击概率确定装置包括:获取模块和处理模块;获取模块,用于获取目标用户的特征数据集合;特征数据集合包括多个特征数据,多个特征数据用于确定目标用户的点击概率;处理模块,用于将特征数据集合输入目标点击概率确定模型,得到目标用户的点击概率和每个特征数据的一个或多个注意力得分;目标点击概率确定模型包括子叠加注意力机制模型和子点击概率确定模型。
12、结合第二方面,在第二方面的某些实施方式中,处理模块,还用于:获取多个用户中每个用户的历史数据集合;历史数据集合包括点击结果和特征数据集合;基于每个用户的历史数据集合对原始点击概率确定模型进行训练,得到目标点击概率确定模型;目标点击概率确定模型的精度评估指标满足预设条件。
13、结合第二方面,在第二方面的某些实施方式中,获取模块,具体用于:获取目标用户的原始数据集合;原始数据集合包括多个原始数据,多个原始数据用于确定目标用户的点击概率;对原始数据集合中的目标原始数据进行缺失值处理,得到第一中间数据集合;目标原始数据的值缺失;对第一中间数据集合中的每个第一中间数据进行独热编码,得到第二中间数据集合;对第二中间数据集合中的每个目标第二中间数据进行标准化和归一化处理,得到特征数据集合;目标第二中间数据的值为数值。
14、结合第二方面,在第二方面的某些实施方式中,在每个特征数据的注意力得分的数量为一个的情况下,每个特征数据的注意力得分为子叠加注意力机制模型中最后一层注意力层输出的注意力得分;或者,每个特征数据的注意力得分为子叠加注意力机制模型的多层注意力层中每层注意力层输出的注意力得分的平均值;或者,每个特征数据的注意力得分为子叠加注意力机制模型的多层注意力层中每层注意力层输出的注意力得分的加权和。
15、第三方面,提供了一种点击概率确定装置,包括:至少一个处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面及其任一种可能的实施方式所提供的方法。
16、第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由点击概率确定装置的处理器执行时,使得点击概率确定装置能够执行如第一方面及其任一种可能的实施方式所提供的方法。
17、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面及其任一种可能的实施方式所提供的方法。
18、第六方面,提供了一种芯片系统,包括:处理器和接口电路;接口电路,用于接收计算机程序或指令并传输至处理器;处理器用于执行计算机程序或指令,以使该芯片系统执行如上述第一方面及其任一种可能的实施方式所提供的方法。
19、其中,第二方面至第六方面中任一种实施方式所带来的技术效果可参见上述第一方面不同实施方式所带来的技术效果,在此不再赘述。
1.一种点击概率确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述获取目标用户的特征数据集合,包括:
4.根据权利要求1或2所述的方法,其特征在于,在所述每个特征数据的注意力得分的数量为一个的情况下,所述每个特征数据的注意力得分为所述子叠加注意力机制模型中最后一层注意力层输出的注意力得分;
5.一种点击概率确定装置,其特征在于,所述点击概率确定装置包括:获取模块和处理模块;
6.根据权利要求5所述的点击概率确定装置,其特征在于,所述处理模块,还用于:
7.根据权利要求5或6所述的点击概率确定装置,其特征在于,所述获取模块,具体用于:
8.根据权利要求5或6所述的点击概率确定装置,其特征在于,在所述每个特征数据的注意力得分的数量为一个的情况下,所述每个特征数据的注意力得分为所述子叠加注意力机制模型中最后一层注意力层输出的注意力得分;
9.一种点击概率确定装置,其特征在于,所述点击概率确定装置包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序或指令,当所述程序或指令被所述处理器执行时,使得所述装置执行如权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被执行时使得计算机执行如权利要求1至4中任一项所述的方法。