一种数据有效性的验证方法和装置与流程

文档序号:17479527发布日期:2019-04-20 06:21阅读:175来源:国知局
一种数据有效性的验证方法和装置与流程
本公开涉及大数据
技术领域
,特别涉及一种数据有效性的验证方法和装置。
背景技术
:随着互联网技术的飞速发展,整个社会被强行推入“大数据”时代。不管人们是否愿意,我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。与此同时,用户数据亦是危险的“潘多拉之盒”,数据一旦泄漏,用户的隐私将被侵犯。近年来,已经发生了多起用户隐私泄露事件,公民的个人的隐私数据保护遇到了严峻的挑战。大数据带来的整体性变革,使得个体用户很难对抗个人隐私被全面暴露的风险。面对频发的隐私泄露事件,隐私保护问题需要得到有效的解决。在实际业务当中,我们可能遇到这样的场景:需要借助第三方渠道的变量数据来提升现有模型的效果,仅当这些数据对我们建模会有帮助的时候,才购买相应的第三方数据。因此,我们需要在不获取第三方数据的情况下预先评判其有效性,并且在这个过程中不能泄露我方用户的隐私数据。技术实现要素:有鉴于此,本说明书一个或多个实施例提供一种数据有效性的验证方法和装置,以在确定外部数据有效性的同时保护内部数据隐私。具体地,本说明书一个或多个实施例是通过如下技术方案实现的:第一方面,提供一种数据有效性的验证方法,所述方法应用于验证第二数据方拥有的第二数据是否有效;所述方法由第一数据方执行,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述方法包括:根据所述训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;根据所述测试样本的标签和所述预测值,得到所述测试样本对应的残差;基于所述训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量iv;将所述残差发送至第二数据方,以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量;接收所述第二数据方返回的信息量,以通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。第二方面,提供一种数据有效性的验证方法,该方法由第二数据方执行,包括:接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;接收所述第一数据方发送的训练样本的样本标识,并根据所述样本标识进行样本匹配获得用于计算信息量的第二数据;根据所述残差计算所述第二数据对应的信息量;将所述第二数据对应的信息量返回给第一数据方,以使得第一数据方通过比较所述训练样本中的未入模变量对应的信息量与第二数据的信息量来确定第二数据的数据有效性。第三方面,提供一种数据有效性的验证装置,所述装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述装置包括:模型训练模块,用于根据所述训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;模型预测模块,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;残差计算模块,用于根据所述测试样本的标签以及所述预测值,得到所述测试样本对应的残差;iv计算模块,用于基于所述训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量iv;信息发送模块,用于将所述残差发送至第二数据方,以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量;验证处理模块,用于接收所述第二数据方返回的信息量,以通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。第四方面,提供一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:根据所述训练样本中的入模变量和标签,训练所述机器学习模型;所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;根据所述测试样本的标签以及所述预测值,得到所述测试样本对应的残差;基于所述训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量iv;将所述残差发送至第二数据方,以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量;接收所述第二数据方返回的信息量,以通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。第五方面,提供一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;接收所述第一数据方发送的训练样本的样本标识,并根据所述样本标识进行样本匹配获得用于计算信息量的第二数据;根据所述残差计算所述第二数据对应的信息量;将所述第二数据对应的信息量返回给第一数据方,以使得第一数据方通过比较所述训练样本中的未入模变量对应的信息量与第二数据的信息量来确定第二数据的数据有效性。本说明书一个或多个实施例的数据有效性的验证方法和装置,通过在第一数据方和第二数据方之间传输建模的残差和变量的iv而非用户的隐私数据,因此能够在双方交互过程中不泄露用户的任何隐私数据,并且,还可以根据变量的iv评测数据有效性,实现了在保护内部数据隐私的同时评测外部数据有效性。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书一个或多个实施例提供的第一数据示意图;图2为本说明书一个或多个实施例提供的一种数据有效性的验证方法;图3为本说明书一个或多个实施例提供的一种数据有效性的验证装置。具体实施方式为了使本
技术领域
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在实际业务当中,可能遇到这样的场景:数据方a拥有自有的数据,想要评测如果借助数据方b的数据,能否对自身的模型效果有所提升。例如,假设数据方a利用自身拥有数据训练了一个机器学习模型m,但是,在模型测试时发现,该模型的预测效果不太理想,与预期预测值具有一定的差距。如果使用数据方b的数据参与模型m的训练和优化,可以使得模型m的效果有所提升,那么可以选择购买数据方b的数据来辅助建模。在上述的场景中,将涉及到一个问题即:如何确定数据方b是否有效,如果数据方b的数据对模型m的建模有帮助,有助于提升模型m的效果,则确认数据方b的数据是有效的。而采用何种方式验证数据方b的数据有效性,将是本说明书至少一个实施例要描述的内容,并且,在数据有效性的验证方法中,将实现:数据方a不获取数据方b的数据,且数据方a不泄露自身的拥有数据。如下以数据方a和数据方b为例,描述数据有效性的验证方法,且该方法要验证数据方b的数据是否有效。例如,可以将数据方a称为第一数据方,将数据方b称为第二数据方。首先,请参见图1所示,第一数据方拥有的数据可以称为第一数据。该第一数据中可以包括:机器学习模型的训练集和测试集。其中,训练集用于机器学习模型的训练,例如,该训练集中的训练样本da(xa,ya)中,xa是变量,ya是标签。所述标签ya表示上述变量xa通过所述机器学习模型的预期预测值,相当于一种有监督的模型。测试集用于机器学习模型的预测,例如,测试集中的测试样本db(xb,yb)同样包括变量和标签。例如,上述的训练样本和测试样本的变量,可以均包括“入模变量”和“未入模变量”。其中,训练样本中的入模变量参与了模型的训练,且测试样本中的入模变量参与了模型预测,而未入模变量没有参与模型的训练和预测。举例如下:以判断某个用户是优质用户或者劣质用户为例,该用户可以用多个变量表示,比如,年龄、住址、工作年限、年收入等。假设一个用户可以用8个变量表示,u{f1,f2,f3,f4…….f8}即为一个用户u包括f1至f8这八个变量。在训练模型时,可以先使用其中的五个变量f1至f5,而f6至f8暂时先不参与模型的训练。那么,在训练样本da(xa,ya)中,可以包括多个用户样本,比如,用户u1、用户u2、用户u3等。每一个用户样本都是da(xa,ya),包括变量和标签,其中的变量xa可以包括上述的用户的五个变量f1至f5,每个用户样本中的变量都是这五个变量,变量值可以不同;而所述的标签ya可以是该用户是优质用户或者劣质用户,比如,优质用户用11表示,劣质用户用00表示。用于机器学习模型的预测的测试样本db(xb,yb)同样包括变量和标签,在进行模型预测时,db使用的变量包括用户的五个变量f1至f5,f6至f8未参与预测,标签是该用户是优质用户或者劣质用户。测试集在预测时,是将测试样本的入模变量输入训练好的模型,并判断模型的输出结果是否与标签一致。如下可以通过表1示例训练样本、测试样本、以及其中的入模变量和未入模变量。如表1所示,u1、u2和u3这些样本将参与模型的训练,可以称为训练集。但是,在参与模型训练时,只有其中的f1至f5变量参与,可以称为入模变量,而f6至f8变量暂时并未参与模型训练,称为未入模变量。ya是标签。再如,测试集中的u7和u8这些样本是用于模型的预测,将将这些测试样本中的入模变量输入训练好的模型,并得到模型的输出结果。同样的,u7和u8在输入模型时,也是只有f1至f5变量参与,f6至f8变量未参与。如下表1仅是示例,实际实施中并不局限于此,各个样本中包括的变量可以变更。表1第一数据da(xa,ya)而第二数据方拥有的数据可以称为第二数据。通过如下表2示例第二数据。这里需要说明的是,第二数据可以是与表1中的训练样本具有相同的样本标识,比如,表1和表2都包括用户u1的数据,都是用户id为0011(该用户id可以作为样本标识)的用户的数据,区别只是第一数据包括该用户u1的f1至f8变量,而第二数据包括该用户u1的f9至f11变量,变量不同;或者,其他例子中,第一数据和第二数据也可以是包括相同的变量但变量值不同。表2第二数据db(xb)用户f9f10f11u1******u3******在上述的例子中,使用表1中的测试样本对模型进行测试时,发现模型的效果不太理想,那么,第一数据方a是选择自身拥有的数据(比如,u1至u3中的f6至f8)来继续优化模型,还是选择第二数据方b的数据(比如,f9至f11)来优化模型呢,第二数据方b也同样拥有u1至u3的数据,只是拥有的变量可能不同,数据方b拥有的是用户的f9至f11。比如,数据方a拥有某用户的工作年限和年收入变量,而数据方b拥有该同一用户的同事、家庭成员等变量。采用不同的变量训练优化模型,也许对模型效果的影响会存在差异。在本例子中,如果使用数据方b的变量f9至f11中的至少一个来优化模型,相比于使用数据方a自身的变量f6至f8优化模型更能提升模型效果,那么将可以确定数据方b的数据是有效的,否则,如果数据方a自身的变量优化模型的效果更为明显,则数据方b的数据是无效的。即数据的有效性可以通过数据方a和数据方b两方对模型效果的提升比较来衡量。此外,还需要说明的是,上述表1和表2只是示例,实际实施中并不局限于此。比如,数据方b可以包括与数据方a相同的变量,例如,可以也包括f7和f8,只是与数据方a具有不同的变量值。图2描述了本说明书至少一个实施例提供的数据有效性的验证方法,该方法可以包括如下处理,具体实施中不限制各步骤的执行顺序:在步骤200中,根据训练样本训练机器学习模型。本步骤可以使用训练样本中的入模变量和标签训练模型。例如,可以用表1中的u1、u2和u3的数据训练模型,其中的u1、u2和u3是用户样本,每个用户样本可以包括八个变量,而在训练时,可以使用其中的f1至f5五个变量。在步骤202中,将测试样本中的入模变量输入机器学习模型得到预测值。例如,表1中的测试样本u7和u8并未参与模型的训练,但是可以用于模型的测试。可以将测试样本中的f1至f5五个变量作为输入,输入步骤200中训练完成的模型中,得到的模型输出结果即预测值。所述测试样本中的标签表示测试样本的入模变量输入机器学习模型的预期预测值。在步骤204中,根据预测值和测试样本中的标签,得到所述测试样本对应的残差。例如,u7和u8对应的标签是表1中的ya7和ya8,而残差可以是预测值与标签之间的差,该残差可以用于表示模型的实际输出结果与期望输出结果之间的差异,从而可以用于衡量模型的预测效果。在步骤206中,基于训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量iv。本步骤中,在计算iv之间,先说明如下两个概念:woe:weightofevidence,证据权重。woe可以用来刻画一个属性区分正负样本的能力刻画,通过计算该属性的正负样本分布占比的比值来量化这种区分力,woe是对该比值取对数。iv:informationvalue,信息量。在建模的变量选择过程中,是一个重要的衡量指标,其思想来源于信息论,公式与信息熵接近。iv衡量的是变量的信息量,其定义基于woe,相当于是自变量woe值的加权求和。原始的基于分类问题的iv值计算公式如下:woei=ln(py1/py0)=ln[(#bi/#bt)/(#gi/#gt)]………(1)ivi=(#bi/#bt-#gi/#gt)*woei………...(2)iv=∑ivi…………………………………(3)其中,在上述的公式(1)至(3)中,woei是对变量的第i个分箱,计算该段正负样例分布比例的比值的对数值。#bi表示第i个分箱中正样本的个数,#bt表示训练集中正样本的个数,#gi表示第i个分箱中负样本的个数,#gt表示训练集中负样本的个数。ivi是对woei的一个修正,使得最终各箱求和的时候指标为非负,且考虑到每箱在总样本的占比,而不单是考虑响应比的差异。本例子对woe和iv的计算公式进行了修正,主要是将#bi替换为∑|yres,i|是残差绝对值的和,用来衡量未入模变量对于当前模型残差的预测力,同理,∑|1-yres,i|则替换原始的#gi。修正后的公式如下:woei=ln(py1/py0)=ln{(∑|yres,i|/∑|yres,t|)/(∑|1-yres,i|/∑|1-yres,t|)}…(4)ivi=(∑|yres,i|/∑|yres,t|-∑|1-yres,i|/∑|1-yres,t|)*woei;………(5)iv=∑ivi…………………………………(6)其中,woei是所述分箱对应的证据权重,∑|yres,i|是该分箱中的各个残差的绝对值的和;∑|yres,t|是所有分箱的所有残差的绝对值的和;ivi是所述分箱对应的信息量。由表1可以看到,训练集和测试集可以包括多个用户样本,比如,u1、u2、u7和u8等,并且,每个用户样本中也可以包括多个未入模变量,比如,f6是一个未入模变量,f7是另一个未入模变量,f8是又一个未入模变量。在计算iv时,是分别计算未入模变量中的每个变量对应的iv。比如,可以计算f6对应的iv,计算f7对应的iv,等。例如,以变量f6为例,可以先确定该变量的多个分箱。比如,变量f6是年收入,可以分成三个分箱,分别是:“0~2万”一个分箱,“2~5万”一个分箱,“5~15万”一个分箱。接着,根据所述多个分箱,将测试集中的测试样本划分到对应的各个分箱中。本步骤是根据未入模变量的各个分箱将测试集中的各个样本进行分组,划分到所属的各个分箱中。如下以表3为例,示例各个分箱的划分:表3各个分箱变量f6测试样本中的f6的取值对应的残差0~2万u7r72~5万u8r85~15万…..每个测试样本的入模变量都会输入模型得到一个预测值,将预测值与标签得到一个对应的残差。如上述表3,将变量f6划分为多个分箱后,根据测试样本中的该变量f6的取值,可以将各个测试样本划分到不同的分箱中。比如,测试样本u7被划分到“0~2万”的分箱,用户样本u8被划分到“2~5万”的分箱。相应的,该测试样本对应的残差也会被分到该分箱中。如表3,u7对应的残差r7在“0~2万”的分箱,u8对应的残差r8在“2~5万”的分箱。每个分箱中,可以包括多个测试样本,那么对应的,每个分箱中可以包括多个残差,该多个残差可以分别对应于不同的测试样本。对于每个分箱,根据划分到所述分箱中的测试样本对应的残差,得到所述分箱对应的信息量iv。本步骤中可以按照公式(4)和公式(5)执行,例如,将“2~5万”这个分箱中的各个残差的绝对值求和,就可以得到∑|yres,i|。在得到分箱的ivi之后,就可以将各个分箱的iv加和,得到所述变量对应的信息量。比如,在公式(8)中可以加和,最终得到变量f6对应的iv。同理,例如,还可以计算f7对应的iv、f8对应的iv。如上,本步骤中计算iv,是分别计算各个变量对应的iv,每个变量都可以有自己的iv。比如,f7对应的iv,f8对应的iv。每个变量的iv在计算时,都是在该变量的多个分箱的基础上,划分测试样本入各个分箱,相应的也将测试样本对应的残差分到了各个分箱,最终根据每个分箱中的残差得到分箱的iv,进而加和得到该变量最终的iv。即,未入模变量的iv的计算,得到的是各个变量分别对应的iv。在步骤208中,将所述残差发送至第二数据方,还发送训练样本的样本标识。本步骤可以将数据方a的测试样本对应的残差发送至数据方b,还将训练样本的样本标识发送给数据方b。例如,该样本标识可以是u1至u3的用户id。在步骤210中,第二数据方根据所述样本标识进行样本匹配,获得用于计算信息量iv的第二数据。例如,数据方b可以根据u1至u3的用户id进行样本匹配,获得用于计算信息量iv的第二数据。比如,可以参见上述的表2,得到数据方b拥有的u1和u3中的变量f9至f11。在步骤212中,第二数据方基于第二数据中的变量,根据所述残差计算该变量对应的信息量。本步骤计算iv的处理可以参见步骤206的处理,不再赘述。该第二数据也可以包括多个变量,也是分别计算每个变量对应的iv。需要说明的是,上述的表1中的测试样本中可以包括第二数据中的变量,以根据第二数据中的变量将测试集中的各个样本划分到各个分箱中。在步骤214中,第二数据方将所述第二数据中的变量对应的信息量返回给第一数据方。此外,数据方b还可以获取第二数据的如下至少一项参数:样本匹配率和变量缺失率。其中,所述的样本匹配率可以理解为数据方b能够找到多大比率的数据方a要求的数据,比如,数据方a传给数据方b的样本标识有八个,即要求数据方b提供八个用户的用户样本。而数据方b只有6个,那么样本匹配率可以是6/8*100%=75%。所述的变量缺失率可以理解为:数据方b能够找到数据方a要求的某个变量,只是变量值有些缺失。比如,数据方b侧有10个用户样本的数据,这10个用户样本都还有变量f10,但是其中有两个用户在f10处的变量值是空,即出现了变量缺失,变量缺失率可以是20%。数据方b可以将第二数据的iv返回给数据方a,还可以将所述样本匹配率和变量缺失率中的至少一项返回给数据方a,以使得第一数据方结合iv、所述样本匹配率和变量缺失率确定第二数据的有效性。在步骤216中,第一数据方通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。本步骤中,数据方a可以单独根据iv的比较,确定第二数据的有效性。比如,可以将第二数据的变量对应的iv与原有未入模变量的iv相对比,给出数据方b的数据是否有效的判断。或者,也可以综合考虑样本匹配率、变量缺失率和基于残差计算的iv,对数据方b的数据有效性进行判断。对于数据有效性的原则,数据方a可以灵活设定多种原则。例如,可以为样本匹配率和样本缺失率设定阈值,低于阈值的第二数据不论iv如何,都可以认定为无效数据。例如,将第二数据的变量对应的iv与原有未入模变量的iv相对比,若第二数据的变量对应的iv均大于未入模变量的iv,或者大部分(如,80%)的第二数据的变量对应的iv大于未入模变量的iv,则确定为第二数据有效。又例如,还可以关注其中的一些重点变量,若重点变量的iv高于阈值,其他的变量对应的iv稍微低一些也没关系。此外,本步骤的数据有效性的判断,可以是计算机自动执行,也可以是人工执行,比如,数据方b在将样本匹配率、样本缺失率和iv返回给数据方a后,由数据方a的管理人员根据这些返回的指标进行判断,以确定数据方b的数据是否有效,是否值得购买。本说明书一个或多个实施例的数据有效性的验证方法,数据方a只是将建模的残差发送给数据方b,数据方b也只是将变量的iv返回给数据方a,数据方交互的是建模残差和变量iv值,并非用户的隐私数据,因此能够在双方交互过程中不泄露用户的任何隐私数据。并且,还可以根据数据方b返回的iv评测数据方b的数据有效性,实现了在保护内部数据隐私的同时评测外部数据有效性。此外,该方案将内部的未入模变量的iv与外部数据iv进行比价,考虑了自身拥有的数据,只在外部数据较优于内部数据时(比如数据方b的数据由于数据方a的数据,所述的优可以是更能提升模型效果)才选择使用外部数据,从而最大限度的节省成本。图3是本说明书至少一个实施例提供的数据有效性的验证装置,该装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本。如图3所示,该装置可以包括:模型训练模块31、模型预测模块32、残差计算模块33、iv计算模块34、信息发送模块35和验证处理模块36。模型训练模块31,用于根据所述训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;模型预测模块32,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;残差计算模块33,用于根据所述测试样本的标签以及所述预测值,得到所述测试样本对应的残差;iv计算模块34,用于基于所述训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量iv;信息发送模块35,用于将所述残差发送至第二数据方,以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量;验证处理模块36,用于接收所述第二数据方返回的信息量,以通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。在一个例子中,iv计算模块34,具体用于:对于其中一个所述未入模变量,确定基于所述未入模变量的多个分箱;根据所述多个分箱,将所述测试集中的测试样本划分到对应的各个分箱中,所述测试样本同样包括所述入模变量和未入模变量;对于每个分箱,根据划分到所述分箱中的测试样本对应的残差,得到所述分箱对应的信息量;将各个分箱的信息量加和,得到所述未入模变量对应的信息量。本说明书至少一个实施例还提供了一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:根据所述训练样本中的入模变量和标签,训练所述机器学习模型;所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;根据所述测试样本的标签以及所述预测值,得到所述测试样本对应的残差;基于所述训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量iv;将所述残差发送至第二数据方,以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量;接收所述第二数据方返回的信息量,以通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。本说明书至少一个实施例还提供了一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;接收所述第一数据方发送的训练样本的样本标识,并根据所述样本标识进行样本匹配获得用于计算信息量的第二数据;根据所述残差计算所述第二数据对应的信息量;将所述第二数据对应的信息量返回给第一数据方,以使得第一数据方通过比较所述训练样本中的未入模变量对应的信息量与第二数据的信息量来确定第二数据的数据有效性。上述方法实施例中所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据采集设备或者数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1