数据交换方法、数据交换装置及计算装置与流程

文档序号:14100080阅读:184来源:国知局
数据交换方法、数据交换装置及计算装置与流程

本发明总体地涉及数据交换技术,具体说来,涉及一种针对机器学习任务在数据的提供方和获取方之间进行数据交换的数据交换方法、数据交换装置及计算装置。



背景技术:

随着大数据、云计算和人工智能等技术的发展,机器学习被广泛地用来从海量数据中挖掘其中隐藏的有用信息。

为了应用机器学习,通常需要从给定的训练数据集中学习出一个由函数和参数组成的模型,当新数据到来时,可以针对该新数据应用这个模型。为了更好地学习或应用模型,往往还需要来自外部的数据参与到模型的学习(例如,训练)或应用,这些数据可从外部购买或以其它方式从外部获得。

例如,当银行希望通过数据挖掘技术来预测用户申请信用卡的欺诈风险时,可将过往大量用户在申请信用卡时填写的各项信息及其相应的真实信用记录作为历史数据,通过机器学习算法训练欺诈风险预测模型。这样,当新的用户申请信用卡时,可基于新用户填写的各项信息,利用预测模型来预测新用户申请信用卡的欺诈风险。

然而,在某些情况下,用户填写的各项信息并不足以精细地刻画出用户的形象,相应地,仅依据银行所拥有的用户数据,不能够精确地判断出用户是否有欺诈动机。为此,银行需要结合各种外部数据来进行模型的训练,作为示例,外部数据可包括:移动互联网行为数据(包括手机号码、通讯录数据、手机型号、生产厂商、硬件信息、经常使用的APP、社交分享的内容等等)、移动设备通信数据(包括手机号码、通讯录数据和通话记录)、移动运营商数据(包括手机号码、上网浏览行为和APP使用行为)。

应注意的是,在以明文(或者加密)进行上述数据的交换时,很容易泄露用户的隐私信息或其它不适于披露的信息,并且,明文交换的数据很容易在未经授权的情况下被再次使用或出售,难以从技术上保障数据的合法使用。例如,当数据提供方将上述外部数据提供给银行使用时,会担心用户的隐私被无端泄露,也会担心数据不经授权而被再次使用或出售。



技术实现要素:

根据本发明示例性实施例的一个方面,提供了一种在提供方与获取方之间针对机器学习进行数据交换的方法,所述方法包括:(a)获得提供方机器学习模型;(b)利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;(c)将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。

进一步地,根据本发明示例性实施例所述的方法,其中,步骤(a)包括:基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。

进一步地,根据本发明示例性实施例所述的方法,其中,输出数据样本包括提供方训练样本,并且,在步骤(b)中,对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的方法,其中,在步骤(b)中,对于不作为提供方训练样本的输出数据样本,利用学习完毕的提供方机器学习模型,将输出数据样本分别变换为相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的方法,其中,交换样本能够被获取方用于获得获取方机器学习模型,或者,交换样本能够被获取方用于利用获取方机器学习模型进行预测。

进一步地,根据本发明示例性实施例所述的方法,其中,所述方法由提供方执行,并且,所述方法还包括:(d)将交换样本提供给获取方以应用于机器学习;或者,所述方法由除了提供方和获取方之外的第三方执行,并且,所述提供方训练样本和/或所述输出数据样本的各个特征是经过哈希变换的,并且,所述方法还包括:(d)将交换样本提供给获取方以应用于机器学习;或者,所述方法由获取方执行,并且,所述提供方训练样本和/或所述输出数据样本是经过加密的,其中,获取方通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密并执行步骤(a)和步骤(b)。

进一步地,根据本发明示例性实施例所述的方法,其中,在步骤(b)中,将每条输出数据样本输入提供方机器学习模型,并将提供方机器学习模型针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的方法,其中,提供方机器学习模型基于深度神经网络算法,并且,在步骤(b)中,将提供方机器学习模型针对每条输出数据样本的中间层和/或输出层的节点值作为与所述每条输出数据样本相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的方法,在步骤(a)中用于获得提供方机器学习模型的机器学习算法与获取方用于获得获取方机器学习模型的机器学习算法相同。

进一步地,根据本发明示例性实施例所述的方法,其中,所述交换样本能够被获取方与其相应的本地数据样本进行组合以应用于机器学习。

进一步地,根据本发明示例性实施例所述的方法,其中,在步骤(a)之前,所述方法还包括:(e)获取来自获取方的至少一部分数据样本的标识符以及所述来自获取方的至少一部分数据样本针对机器学习目标问题的标注,并且,在步骤(a)中,获取提供方的数据样本之中具有在步骤(e)获取的标识符的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本,基于提供方训练样本的集合,根据有监督机器学习算法来训练提供方机器学习模型。

进一步地,根据本发明示例性实施例所述的方法,其中,所述交换样本被获取方应用于针对所述机器学习目标的机器学习。

进一步地,根据本发明示例性实施例所述的方法,其中,来自获取方的至少一部分数据样本的标识符与提供方的数据样本的标识符经过同样的哈希变换。

进一步地,根据本发明示例性实施例所述的方法,其中,步骤(e)还包括获取与所述标注对应的标注产生时间,并且,在步骤(a)中,获取提供方的数据样本之中具有在步骤(e)获取的标识符且样本的产生时间适用于相应的标注产生时间的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本。

进一步地,根据本发明示例性实施例所述的方法,其中,在步骤(c)中,将变换后的输出特征向量、相应的标识符和相应的输出数据样本产生时间组合成交换样本。

根据本发明示例性实施例的另一方面,提供一种在提供方与获取方之间针对机器学习进行数据交换的数据交换装置,包括:提供方机器学习模型获得单元,用于获得提供方机器学习模型;输出特征向量变换单元,用于利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;以及交换样本生成单元,用于将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,提供方机器学习模型获得单元基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,输出数据样本包括提供方训练样本,并且,输出特征向量变换单元对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,输出特征向量变换单元对于不作为提供方训练样本的输出数据样本,利用学习完毕的提供方机器学习模型,将输出数据样本分别变换为相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,交换样本能够被获取方用于获得获取方机器学习模型,或者,交换样本能够被获取方用于利用获取方机器学习模型进行预测。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,所述数据交换装置应用于提供方,并且,所述数据交换装置还包括:提供单元,用于将交换样本提供给获取方以应用于机器学习;或者,所述数据交换装置应用于除了提供方和获取方之外的第三方,并且,所述提供方训练样本和/或所述输出数据样本的各个特征是经过哈希变换的,并且,所述数据交换装置还包括:提供单元,用于将交换样本提供给获取方以应用于机器学习;或者,所述数据交换装置应用于获取方,并且,所述提供方训练样本和/或所述输出数据样本是经过加密的,其中,提供方机器学习模型获得单元还通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密,并且,提供方机器学习模型获得单元和输出特征向量变换单元通过调用所述服务执行操作。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,输出特征向量变换单元将每条输出数据样本输入提供方机器学习模型,并将提供方机器学习模型针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,提供方机器学习模型基于深度神经网络算法,并且,输出特征向量变换单元将提供方机器学习模型针对每条输出数据样本的中间层和/或输出层的节点值作为与所述每条输出数据样本相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,提供方机器学习模型获得单元用于获得提供方机器学习模型的机器学习算法与获取方用于获得获取方机器学习模型的机器学习算法相同。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,所述交换样本能够被获取方与其相应的本地数据样本进行组合以应用于机器学习。

进一步地,根据本发明示例性实施例所述的数据交换装置,还包括:获取单元,用于获取来自获取方的至少一部分数据样本的标识符以及所述来自获取方的至少一部分数据样本针对机器学习目标问题的标注,并且,提供方机器学习模型获得单元获取提供方的数据样本之中具有由获取单元获取的标识符的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本,基于提供方训练样本的集合,根据有监督机器学习算法来训练提供方机器学习模型。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,所述交换样本被获取方应用于针对所述机器学习目标的机器学习。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,来自获取方的至少一部分数据样本的标识符与提供方的数据样本的标识符经过同样的哈希变换。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,获取单元还获取与所述标注对应的标注产生时间,并且,提供方机器学习模型获得单元获取提供方的数据样本之中具有由获取单元获取的标识符且样本的产生时间适用于相应的标注产生时间的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本。

进一步地,根据本发明示例性实施例所述的数据交换装置,其中,交换样本生成单元将变换后的输出特征向量、相应的标识符和相应的输出数据样本产生时间组合成交换样本。

根据本发明示例性实施例的另一方面,提供一种在提供方与获取方之间针对机器学习进行数据交换的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:提供方机器学习模型获得步骤,用于获得提供方机器学习模型;输出特征向量变换步骤,用于利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;以及交换样本生成步骤,用于将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。

进一步地,根据本发明示例性实施例所述的计算装置,其中,提供方机器学习模型获得步骤包括:基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。

进一步地,根据本发明示例性实施例所述的计算装置,其中,输出数据样本包括提供方训练样本,并且,在输出特征向量变换步骤中,对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的计算装置,其中,在输出特征向量变换步骤中,对于不作为提供方训练样本的输出数据样本,利用学习完毕的提供方机器学习模型,将输出数据样本分别变换为相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的计算装置,其中,交换样本能够被获取方用于获得获取方机器学习模型,或者,交换样本能够被获取方用于利用获取方机器学习模型进行预测。

进一步地,根据本发明示例性实施例所述的计算装置,其中,所述计算装置应用于提供方,并且,当所述计算机可执行指令集合被所述处理器执行时,还执行下述步骤:提供步骤,用于将交换样本提供给获取方以应用于机器学习;或者,所述计算装置应用于除了提供方和获取方之外的第三方,并且,所述提供方训练样本和/或所述输出数据样本的各个特征是经过哈希变换的,并且,当所述计算机可执行指令集合被所述处理器执行时,还执行下述步骤:提供步骤,用于将交换样本提供给获取方以应用于机器学习;或者,所述计算装置应用于获取方,并且,所述提供方训练样本和/或所述输出数据样本是经过加密的,其中,获取方通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密并执行提供方机器学习模型获得步骤和输出特征向量变换步骤。

进一步地,根据本发明示例性实施例所述的计算装置,其中,在输出特征向量变换步骤中,将每条输出数据样本输入提供方机器学习模型,并将提供方机器学习模型针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的计算装置,其中,提供方机器学习模型基于深度神经网络算法,并且,在输出特征向量变换步骤中,将提供方机器学习模型针对每条输出数据样本的中间层和/或输出层的节点值作为与所述每条输出数据样本相应的输出特征向量。

进一步地,根据本发明示例性实施例所述的计算装置,其中,在提供方机器学习模型获得步骤中用于获得提供方机器学习模型的机器学习算法与获取方用于获得获取方机器学习模型的机器学习算法相同。

进一步地,根据本发明示例性实施例所述的计算装置,其中,所述交换样本能够被获取方与其相应的本地数据样本进行组合以应用于机器学习。

进一步地,根据本发明示例性实施例所述的计算装置,其中,当所述计算机可执行指令集合被所述处理器执行时,在提供方机器学习模型获得步骤之前,还执行下述步骤:获取步骤,用于获取来自获取方的至少一部分数据样本的标识符以及所述来自获取方的至少一部分数据样本针对机器学习目标问题的标注,并且,在提供方机器学习模型获得步骤中,获取提供方的数据样本之中具有在获取步骤获取的标识符的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本,基于提供方训练样本的集合,根据有监督机器学习算法来训练提供方机器学习模型。

进一步地,根据本发明示例性实施例所述的计算装置,其中,所述交换样本被获取方应用于针对所述机器学习目标的机器学习。

进一步地,根据本发明示例性实施例所述的计算装置,其中,来自获取方的至少一部分数据样本的标识符与提供方的数据样本的标识符经过同样的哈希变换。

进一步地,根据本发明示例性实施例所述的计算装置,其中,获取步骤还包括获取与所述标注对应的标注产生时间,并且,在提供方机器学习模型获得步骤中,获取提供方的数据样本之中具有在获取步骤获取的标识符且样本的产生时间适用于相应的标注产生时间的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本。

进一步地,根据本发明示例性实施例所述的计算装置,其中,在交换样本生成步骤中,将变换后的输出特征向量、相应的标识符和相应的输出数据样本产生时间组合成交换样本。

根据本发明实施例的数据交换方法、数据交换装置和计算装置,利用机器学习算法将待交换数据变换为不可还原但对机器学习具有意义的输出特征向量,该输出特征向量可以是原始数据特征在机器学习算法下的精选、转换和/或组合等,从而可被数据获取方应用于机器学习等。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:

图1示出了根据本发明一个实施例的数据交换方法1000的总体流程图。

图2示出了根据本发明实施例的数据交换方法2000在数据提供方侧执行情况的顺序图。

图3a-3b示出了根据本发明实施例的数据交换方法3000在第三方执行的情况的顺序图。

图4示出了根据本发明实施例的数据交换方法4000在获取方执行的情况的顺序图。

图5示出了根据本发明另一实施例的数据交换装置5000的功能框图。

图6示出了根据本发明实施例的计算装置6000的配置框图。

具体实施方式

为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。

图1示出了根据本发明一个实施例的数据交换方法1000的总体流程图。

在图1所示的方法中,“交换”是指为了使用数据而进行的共享行为,包括但不限于将数据从提供方发送到获取方的过程。这里,提供方是指待交换数据的提供者,可以是待交换数据的直接或间接来源;获取方是指期望获取待交换数据的一方,可以是直接使用待交换数据的直接使用者或经由其它方来使用待交换数据的间接使用者。应注意,反向交换同样成立,其中,提供方将执行获取方的处理,而获取方将执行提供方的处理。

在下面的描述中,为便于理解,可将下面情况作为应用示例而非限制性描述:数据提供方为移动数据提供商,数据获取方为银行,在特定情况下,还可以存在不同于数据提供方和数据获取方的第三方,例如第三方可指示作为中间媒介协助此数据交换过程得以实现的软件服务提供商。应理解,数据提供方可包括直接或间接的数据发送方,而数据获取方可包括直接或间接的数据接收方。

该数据交换方法可由专门的数据交换装置或通用的计算装置来执行。该装置可以放置在数据提供方、数据获取方和第三方中任一处,或者由这三者中任一者控制。作为一种示例,数据交换方法在数据获取方侧执行,或者说所述装置由数据获取方(连同第三方)控制,例如所述装置应用于放置在银行机房内的机器,此时移动数据提供商的数据要暂时存在于银行的机器上,在数据交换方法执行完毕后得到的数据(下文中称之为交换样本)可以直接存储在银行的机器本地。作为另一示例,数据交换方法在第三方执行,或者说所述装置由第三方例如软件服务提供商来控制,此时,移动数据提供商(或者银行和移动数据提供商两者)将数据提供给第三方,由第三方执行数据交换方法,然后由第三方将交换样本提供给银行。作为又一示例,数据交换方法在数据提供方侧执行,或者说所述装置由数据提供方控制,此时,由数据提供方执行数据交换方法,然后将交换样本提供给银行。

如图1所示,在步骤S1100中,获得提供方机器学习模型,这里,所述提供方机器学习模型用于对待交换数据进行变换,以得到机器学习算法下经过精选、转换和/或组合等运算后的特征向量,该特征向量具有不可还原性,从而确保了待交换数据不会暴露原文,而且,变换后的特征向量能够被获取方自己或经由其它方用来进行机器学习,确保了数据交换的目的。应注意,本发明中所述的机器学习泛指任何与机器学习相关或类似的数据使用方式(例如,数据统计、数据挖掘等),而非受限于机器学习的字面含义。

根据本发明的示例性实施例,可通过任何适当的方式获得与获取方应用机器学习的方式相关联的提供方机器学习模型,只要提供方机器学习模型的变换结果能够适用于获取方的机器学习即可。

作为示例,可将在应用场景、预测内容和/或其他方面与获取方的数据使用具有相似性或相关性的关联模型作为“提供方机器学习模型”。关联模型可以是事先基于与待交换数据相似的数据集训练出的模型,或者,关联模型可以是基于专家规则或业务规则等获得的模型。其中,关联模型所针对的场景可与获取方所面对的场景相同或相似(例如,涉及相同或相似内容的个性化推荐)。或者,关联模型所预测的内容可与获取方的机器学习目标问题相同或相似(例如,均涉及某用户对某项内容感兴趣(例如,会点击展示的内容)的概率)。其中,关联模型涉及的特征可以与提供方的数据样本的特征存在交集或关联性。这样的关联模型可由提供方、获取方或其它方面获取或产生。

作为另一示例,也可基于来自提供方的数据样本来学习出提供方机器学习模型,例如,在步骤S1100中,基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。

本领域技术人员应理解,数据样本具有相应的各个特征,所述特征可源自数据样本的属性字段,例如,所述特征可以是单个属性字段、部分属性字段、单个属性字段和/或部分属性字段的组合,还可以是通过对上述各项进行数值处理(例如,离散化、取对数、取整等)所获得的结果。此外,数据样本还可以具有标识符,该标识符可以是起到样本标识作用的字段或关键字(key),例如,可以是用户的手机号码或身份证号码等标识信息。通过所述标识符,来自不同方面的数据样本(或数据样本中的一部分,例如,标注、特征等)可通过标识符的一致性或对应性来进行拼接。

这里,可基于来自提供方的至少一部分数据样本来形成提供方训练样本,以用于学习出“提供方机器学习模型”,“提供方机器学习模型”用于对待交换数据样本进行变换,以输出可供获取方应用于机器学习的特征向量。作为应用于机器学习的示例,获取方可使用这样的特征向量来学习“获取方机器学习模型”,或将这样的特征向量输入学习出的“获取方机器学习模型”以获得模型应用的结果。作为示例,获取方在使用所述特征向量时,可结合来自其本地和/或其它方面的数据样本的各个特征。

用于学习“提供方机器学习模型”的机器学习算法可以依据需要来选取,可以是有监督机器学习算法,也可以是无监督机器学习算法,还可以是两者的结合(例如,半监督机器学习算法)等。

关于有监督机器学习算法,作为例子,可以为深度神经网络(DNN)、决策树、支持向量机等。关于无监督机器学习算法,作为例子,可以为深度神经网络、受限玻尔兹曼机、聚类算法例如k近邻法KNN等。关于半监督机器学习算法,作为例子,可以为深度神经网络等。

这里,在有监督机器学习算法的情况下,为了训练出机器学习模型,除了数据样本的各个特征之外,还需要获得数据样本针对机器学习目标问题的标注,这里的标注是指历史上相关数据样本针对机器学习目标问题的目标值。例如,在训练关于客户欺诈的机器学习模型时,所述标注用于标识出各个客户的历史样本是否存在欺诈行为。标注的取得方式不受限制,例如可以来自于数据获取方(例如银行),也可以来自于数据提供方(例如移动数据提供商),或者还可以来自于其它方面(例如警察系统)。

相应地,需要将提供方数据样本的特征与相应的标注进行拼接,以获取用于训练针对机器学习目标问题的“提供方机器学习模型”的提供方训练样本,这里,特征与标注可基于标识符来进行拼接。例如,银行可具有大量客户的历史欺诈记录,但这些客户在银行登记的信息并不充足,而移动数据提供商能够提供关于这些客户的补充属性信息。在这种情况下,可基于客户数据样本的标识符将来自银行的客户标注与来自移动数据提供商的客户特征进行拼接,以获取完整的提供方训练样本。

具体说来,在步骤S1100之前,所述方法还可包括以下步骤:获取来自获取方的至少一部分数据样本的标识符以及所述来自获取方的至少一部分数据样本针对机器学习目标问题的标注。相应地,在步骤S1100中,获取提供方的数据样本之中具有在上述步骤获取的标识符的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本,基于提供方训练样本的集合,根据有监督机器学习算法来训练提供方机器学习模型。这里,可获取具有对应标注的部分或全部数据样本,以产生提供方训练样本。

此外,作为优选方式,本发明的示例性实施例可防止用不当的数据样本(时间上不适于进行训练的提供方数据样本)来训练“提供方机器学习模型”。具体说来,根据本发明的示例性实施例,可限定提供方训练样本的特征产生时间应适于标注的产生时间,从而防止时间在后的特征结合时间在前的目标来进行模型训练(或者说可防止用时间较新的特征来学习如何预测旧目标)。

具体说来,获取标注的步骤还可包括获取与所述标注对应的标注产生时间,并且,在步骤S1100中,获取提供方的数据样本之中具有获取的标识符且样本的产生时间适用于相应的标注产生时间(例如,早于相应的标注产生时间)的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本。这里,针对有监督机器学习而言,训练出的“提供方机器学习模型”能够将期望输出的待交换数据变换为不可还原的仅针对目标问题具有意义的输出特征向量。

在步骤S1200中,利用“提供方机器学习模型”,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量。具体说来,可将期望提供给获取方的输出数据样本输入“提供方机器学习模型”,并将模型输出的结果作为输出特征向量。这里,“提供方机器学习模型”可将输入的数据样本变换为不可还原的输出特征向量,而且这样的输出特征向量特别适合于特定使用场景,例如与提供方机器学习模型所针对的场景相同或相似的场景。

作为示例,输出特征向量可以是中间结果、最终结果、或由中间结果和最终结果拼接成的向量。

在一个示例中,可将每条输出数据样本输入“提供方机器学习模型”,并将“提供方机器学习模型”针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。

例如,在提供方机器学习模型基于深度神经网络算法的情况下,可将“提供方机器学习模型”针对输入的每条输出数据样本的中间层(隐含层)的节点值作为与所述每条输出数据样本相应的输出特征向量,也可以将输出层的节点值作为与所述每条输出数据样本相应的输出特征向量,还可以将中间层和输出层的节点值进行拼接以作为与所述每条输出数据样本相应的输出特征向量。

例如,在提供方机器学习模型基于决策树算法的情况下,可将“提供方机器学习模型”针对输入的每条输出数据样本从根节点到目标叶子节点的路径(叶节点)编码,以作为与所述每条输出数据样本相应的输出特征向量。

例如,在提供方机器学习模型基于支持向量机算法的情况下,可将“提供方机器学习模型”针对输入的每条输出数据样本的primal形式解的权重作为与所述每条输出数据样本相应的输出特征向量。

这里,提供方的输出数据样本可以是用于学习出“提供方机器学习模型”的数据样本,还可以是其它期望交换的数据样本,这些数据样本在变换后可被获取方用于进行相应的机器学习,例如,模型学习或模型应用等。

这里,在输出数据样本不是提供方训练样本的情况下,可利用学习完毕的“提供方机器学习模型”,将输出数据样本分别变换为相应的输出特征向量。也就是说,在“提供方机器学习模型”的训练等学习过程完成之后,才将输出数据样本应用于模型,从而得到相应的输出特征向量。

然而,有些时候,会存在样本量不足等问题,获取方还需要使用训练出“提供方机器学习模型”的那一部分数据样本,然而,这部分数据样本的变换结果难以有效地应用于获取方的机器学习。针对这一问题,作为优选方式,当提供方训练样本作为输出数据样本时,需要在模型学习的过程中将其变换为相应的输出特征向量,也就是说,当输出数据样本包括提供方训练样本时,在步骤S1200中,对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。例如,可在基于某提供方训练样本的运算结果更新模型参数之前,即利用当前学习到的提供方机器学习模型先将该提供方训练样本变换为相应的输出特征向量,并在此之后完成模型参数的更新。

在步骤S1300中,将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。具体说来,交换样本能够被获取方用于获得“获取方机器学习模型”,或者,交换样本能够被获取方用于利用“获取方机器学习模型”进行预测。作为示例,所述交换样本能够被获取方与其它数据样本进行组合以应用于机器学习。这里的其它数据样本可以是与交换样本相应的获取方的本地数据样本,或者是与交换样本相应的来自其它方面的数据样本,还可以是两者的组合。

这里,获取方在应用机器学习时,可针对与提供方相同或不同的机器学习目标问题。例如,在提供方应用了有监督机器学习的情况下,所述交换样本可被获取方应用于针对同样机器学习目标的有监督机器学习。在提供方应用了无监督机器学习的情况下,所述交换样本既可被获取方应用于无监督机器学习,也可被获取方应用于有监督机器学习或半监督机器学习。

作为示例,由学习出“提供方机器学习模型”的提供方训练样本的标识符与相应的输出特征向量组合成的交换样本能够被获取方用于学习“获取方机器学习模型”。

相应地,例如,获取方可基于上述交换样本的标识符将交换样本与其本地数据样本进行拼接,并利用拼接后的完整训练样本来学习“获取方机器学习模型”。

优选地,用于获得提供方机器学习模型的机器学习算法与获取方用于获得获取方机器学习模型的机器学习算法相同,这样提供方和获取方的机器学习逻辑更加一致,使得变换后的原始数据能够更好地在获取方得以应用,即,更加有效地完成数据交换的目的。

这里,在“提供方获取模型”基于有监督学习算法而训练出的情况下,获取方(例如,银行)可在获取交换样本之后,基于交换样本的标识符,搜索出本地(或来自其它方面)的对应历史数据样本,将历史数据样本的标注以及从变换样本和对应历史数据样本抽取出的特征组合为完整训练样本,以基于客户的充足特征来训练“获取方机器学习模型”。其中,在对特征进行组合时,可对特征进行各种线性组合和/或非线性变换。这里,所述交换样本可被获取方应用于针对同样机器学习目标的机器学习,即,获取方利用完整训练样本,针对“提供方机器学习模型”的机器学习目标问题,训练出“获取方机器学习模型”。

此外,提供方还可提供其它的输出数据样本,这些输出数据样本的标识符与相应的输出特征向量组合成的交换样本同样能够被获取方用于进行模型学习(在获取方具有相应标注的情况下),而且还能够进行模型应用,即,获取方可使用这样的输出特征向量学习“获取方机器学习模型”,或将其输入学习出的“获取方机器学习模型”以获得模型的输出结果。也就是说,根据需要,可利用提供方训练样本的变换结果来学习“获取方机器学习模型”,也可利用其它输出数据样本的变换结果来学习“获取方机器学习模型”,还可根据上述两者来共同学习“获取方机器学习模型”等,这里,根据本发明的示例性实施例,在确定了交换机制的情况下,具体交换哪些数据样本以及作何用途可根据实际情况来设定。

相应地,例如,获取方可基于模型应用的交换样本的标识符,将交换样本与其本地数据样本进行拼接,并将拼接后的完整应用样本输入学习出的“获取方机器学习模型”。

这里,再次以关于银行欺诈的有监督机器学习为例,在银行获得了“获取方机器学习模型”之后,可以针对新的客户样本,使用该“获取方机器学习模型”,进行预测。这种情况下,银行可利用交换样本与本地数据的组合作为预测样本。作为示例,具体过程可以例如如下:对于一个新的客户,银行将该客户的标识符(例如手机号)提供给移动数据提供商,移动数据提供商基于该客户的标识符获取该客户的移动数据,将该移动数据输入到“提供方机器学习模型”,然后得到了变换后的输出特征向量;将如此变换后的输出特征向量连同客户的标识符组合为交换样本提供给银行;银行将该交换样本结合本地客户数据输入到先前获得的“获取方机器学习模型”,由此得到该客户是否欺诈的预测结果。

作为优选方式,在步骤S1300中,除了标识符和输出特征向量之外,交换样本还包括输出数据样本产生时间,以此标识出输出数据样本涉及的相关属性字段的生成时间,具体说来,可将变换后的输出特征向量、相应的标识符和相应的输出数据样本产生时间组合成交换样本。这样,获取方能够根据输出数据样本产生时间来确定是否适于使用该交换样本,从而确保应用机器学习的时效性。

根据上述示例性实施例,待交换的原始数据被变换为不可还原但可应用于机器学习的向量信息,使得一方面能够保障有效地使用数据进行机器学习,另一方面能够防止原始数据被不经授权地使用、出售或泄露。

作为示例,上述方法可由提供方来执行,相应地,在步骤S1300之后,所述方法还包括:将交换样本提供给获取方以应用于机器学习。

作为另一示例,所述方法可由除了提供方和获取方之外的第三方执行,在这种情况下,为了进一步确保提供方数据的安全性,提供方训练样本和/或输出数据样本的各个特征是经过哈希变换的,这样,第三方无法得到提供方数据的原文,并仍旧可将其变换为有效的输出特征向量。相应地,在步骤S1300之后,所述方法还包括:将交换样本提供给获取方以应用于机器学习。

作为又一示例,所述方法可由获取方执行,在这种情况下,为了进一步确保提供方数据的原文不被暴露,提供方训练样本和/或输出数据样本是经过加密的,其中,获取方通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密并执行步骤S1100和步骤S1200。可以看出,解密处理、模型训练处理、数据变换处理虽然在获取方执行,但由于是通过调用第三方服务来执行的,所以提供方的原始数据既不会暴露给获取方,也不会被第三方取走,确保了数据的安全性。

此外,不论图1的方法在哪一方执行,由于数据样本常常涉及客户信息,相应的标识符一般会指示客户标识信息项,例如,手机号码、身份证号码等隐私信息,为了保证用户的隐私不被泄露,来自获取方的至少一部分数据样本的标识符与提供方的数据样本的标识符需经过同样的哈希变换,这样对于没有完成拼接的数据样本,相应的用户标识信息也不会被暴露。

下面结合附图分别描述数据交换方法在提供方、第三方和获取方侧执行情况的示例。应注意,本发明的示例性实施例并不受限于以下附图中示出的具体实施方式,而是可以根据需要在数据样本的选取、交换时机的设置、数据的使用方式、模型的学习或应用方式等各个方面进行相应的变型、省略或替代。

图2示出了根据本发明实施例的数据交换方法2000在数据提供方侧执行情况的顺序图。

首先,以基于提供方的数据学习进行有监督机器学习而获得“提供方机器学习模型”的情况为例,在步骤S2100中,数据获取方将数据样本针对机器学习目标问题的标注连同数据样本的标识符发送给提供方。

例如,这里的目标问题标注可指示机器学习所要预测的目标值。数据获取方可将各个历史样本的标注(label)以及与各个label对应的标识符(ID)提供给数据提供方。例如,假设银行期望利用机器学习模型预测客户是否会实施欺诈,银行会期望从外部(例如,移动数据提供商)获取用户的补充信息,从而完善机器学习模型的训练特征。为此,银行作为数据获取方可将已有的各个历史欺诈样本(包括正样本和负样本)的标注值以及相应的标识符(例如,用户的手机号码)发送给移动数据提供商(数据提供方)。

这里,标识符用于在数据提供方与数据获取方之间完成数据样本的特征和/或标注的拼接,然而,并非所有的数据样本都存在可拼接的对应样本,因此,为了避免数据提供方泄露数据获取方的样本标识信息,数据获取方可以将历史样本的标识符进行哈希变换,然后将经过哈希变换的样本标识符连同对应的目标问题标注发送给数据提供方。例如,为了避免用户的隐私信息泄露,银行可将经过哈希变换的用户手机号码提供给移动数据提供商。

在一个示例中,作为优选方式,数据获取方还向数据提供方发送与所述标注对应的标注产生时间,以标识出客户欺诈记录的产生时间。这是因为,为了确保模型训练的结果,可将标注的产生时间限制为不应早于训练样本的特征产生时间,即,避免使用时间较新的特征来学习如何预测旧学习目标。

接下来,在步骤S2200中,数据提供方基于接收的样本标识符,在提供方的数据样本之中搜索对应的数据样本,将搜索到的样本特征与目标问题标注组合,得到提供方训练样本。

这里,在所接收的获取方样本标识符经过哈希变换的情况下,数据提供方为了进行样本标识符配对,需要对自身的数据样本的标识符进行同样的哈希变换,然后才能从例如本地或远程数据库中取得与获取方的标注对应的提供方数据样本。

另外,这里还可以对匹配的数据样本进一步优化筛选,例如在数据提供方获得到了与标注对应的标注产生时间之后,针对与标识符匹配的提供方数据样本,可以将标注产生时间与匹配样本的产生时间进行对比,仅保留样本产生时间不晚于标注产生时间的样本。

然后,在步骤S2300中,数据提供方基于得到的提供方训练样本,进行提供方机器学习模型训练。

例如,移动数据提供商基于拼接出的提供方训练样本,使用深度神经网络算法进行模型训练,以确定深度神经网络的结构和参数,例如隐含层的层数,节点的权重等等。这里,深度神经网络为深度机器学习方法的典型算法,根据本发明的示例性实施例,可将其适用于对数据进行一定程度的变换,使得变换的结果仍旧可适用于相应的机器学习。

在训练出提供方机器学习模型之后,在步骤S2400中,利用提供方机器学习模型将输出数据样本变换为输出特征向量。

这里,如上所述,输出数据样本可以是提供方训练样本,此时,需要在模型的训练过程中对其进行变换。此外,输出数据样本也可以其它未参与提供方机器学习模型训练的数据样本,也就是说,对于具有匹配标注的提供方数据样本,可仅利用其中的一部分进行“提供方机器学习模型”训练,而将另一部分变换后用于“获取方机器学习模型”训练,此时,可在模型训练完毕之后对所述另一部分进行变换。当然,输出数据样本也可包括上述两者的全部或一部分。

作为示例,在采用深度神经网络算法作为机器学习算法的情况下,可以通过以下操作得到输出数据样本的输出特征向量:将每个输出数据样本的各个特征输入深度神经网络模型,这样深度神经网络的每个中间层(也称隐含层)的每个节点都具有对应的节点值,其输出层的每个节点也具有对应的节点值。可以将所有中间层节点的节点值作为输出特征向量的各个维度的特征分量值。例如,作为简化示例,假设有第一、第二、第三中间层这3个中间层,它们分别有10、20、15个节点,即,一共可以得到10+20+15=45个中间层节点的节点值,相应地,这些节点值可组合为45维的输出特征向量。作为替代,也可以将中间层节点的节点值连同输出层节点的节点值一起作为输出特征向量,例如,上面的例子中有45个中间层节点,此外,还存在10个输出层节点,即,中间层和输出层节点数目共55个,相应地,可以得到55维的输出特征向量。另外,作为替代,可以选取中间层的节点和/或输出层的节点中的部分节点值来组成输出特征向量。

接下来,在步骤S2500中,据提供方将输出特征向量和相应的标识符组合为第一交换样本。

视需要,数据提供方还可以提供输出数据样本产生时间,例如将输出数据样本的标识符、输出数据样本产生时间与相应的输出特征向量组合成第一交换样本。

然后,在步骤S2600中,数据提供方将第一交换样本发送给获取方。

上面结合图2以有监督的机器学习为例说明了在数据提供方侧执行根据本发明实施例的数据交换方法,不过这仅为示例,根据需要,在数据提供方也可以通过无监督式机器学习,对输出数据样本进行特征学习和归类的工作,此时无需从获取方接收样本的标注值。

图2的后续步骤S2700-S2960描述了根据本发明一实施例的获取方在获取第一交换样本之后可以进行的操作示例。

在步骤S2700中,数据获取方基于第一交换样本自身或第一交换样本和获取方样本的拼接,获得获取方训练样本。

具体说来,获取方(例如,银行)可在接收到第一交换样本之后,基于第一交换样本的标识符,搜索出本地(或来自其它方面)的对应历史数据样本,将对应历史数据样本的标注以及从第一变换样本(或连同对应历史数据样本)抽取出的特征组合为完整的获取方训练样本。

然后,在步骤S2800中,数据获取方基于获取方训练样本,进行获取方机器学习模型训练。

优选地,数据获取方可基于同样的机器学习目标来进行机器学习模型训练。例如,前面示例中,移动数据提供商以判断用户是否进行欺诈为学习目标来进行提供方机器学习模型训练;这里,作为数据获取方,银行同样以预测用户是否进行欺诈为学习目标来进行获取方机器学习模型训练。通过这种方式,数据获取方可利用变换样本取得良好的效果,这是因为交换样本是利用所述学习目标的机器学习模型转换而来的,因而对此学习目标更具有针对性。

优选地,数据获取方采用的机器学习算法的类型与数据提供方的机器学习算法的类型相同,不过,这并非必须的,两者可以不同。

在步骤S2900中,获取方将期望预测的样本的标识符发送给提供方。

例如,在训练出获取方机器学习模型之后,当银行想预测一个新的客户是否会进行欺诈时,会期望结合该客户的外部数据(例如,来自数据提供方的交换数据)进行预测,相应地,银行可将该客户的标识符(例如手机号码)发送给移动数据提供商。类似地,为了防止隐私泄露,该标识符也可经过哈希变换。

在步骤S2910中,数据提供方基于接收的样本标识符,获取对应的输出数据样本。

例如,移动数据提供商基于接收的客户的标识符,在移动数据提供商的数据样本之中搜索对应的该客户样本。类似地,在所接收的获取方样本标识符经过哈希变换的情况下,移动数据提供商也需要对自身的样本标识符进行同样的哈希变换以搜索匹配的客户样本。

在步骤S2920中,利用之前训练出的提供方机器学习模型将搜索到的输出数据样本的特征变换为输出特征向量。

例如,移动数据提供商将该新客户的特征输入到先前训练的深度神经网络,然后按照先前获取训练用的输出特征向量的规则来得到预测用的输出特征向量。

在步骤S2930中,提供方将输出特征向量和相应的标识符组合为第二交换样本。

在步骤S2940中,提供方将第二交换样本发送给获取方。

在步骤S2950中,按照与步骤S2700类似的方式,获取方基于第二交换样本自身或第二交换样本和自身样本的拼接,获得获取方预测样本。

在步骤S2960中,获取方利用先前训练得到的获取方机器学习模型,针对该获取方预测样本进行预测。

例如,银行将客户的获取方预测样本的特征数据输入到训练得到的获取方机器学习模型中,得到客户是否会发生欺诈的预测值。

图2以有监督的学习算法为例说明了在数据提供方侧执行数据交换方法的顺序图。此仅为示例,可以根据需要和实际情况对有些步骤进行删除、修改或增加。

例如,在无监督式学习算法的情况下,可以省去步骤S2100中关于目标问题标注的传送。此外,在上述情况下,也可一次性请求数据提供方将其所有数据样本经过归类等方式变换为特征向量,并将变换后的交换样本全部发送到数据获取方以供后续使用。在这种情况下,步骤S2100则完全可以省略。此外,在不指定样本标识符的情况下,在步骤S2200中也可以由数据提供方进行样本的选取,选取时可以参考数据获取方提出的一些限制,例如职业、收入区间、住房情况等。

下面参考图3a-3b描述根据本发明实施例的数据交换方法3000在第三方执行的情况的示例。

对比图3a-3b与图2可见,数据交换方法在第三方执行与数据交换方法在数据提供方执行的主要区别在于,在第三方执行时,有关的数据和信息要从获取方和/或提供方传递给第三方,第三方执行提供方机器学习模型训练,以及第三方作为中介在获取方和提供方之间传递信息和数据。以下,对于相同的技术细节将省略描述。

在步骤S3100中,获取方将目标问题标注和相应的标识符发送给第三方。这里,为防止数据样本的标识符泄露给第三方,获取方可以事先对标识符进行哈希变换。此时,获取方应该和提供方事先约好,二者采用相同的哈希变换算法,这样标识符仍然能够帮助完成拼接,只是第三方或者其它方面无法获取标识符的原始信息内容。

在步骤S3200中,第三方将接收到的样本标识符发送给数据提供方。

在步骤S3300中,数据提供方基于接收的样本标识符,获取对应的待交换数据样本。

在步骤S3400中,数据提供方将获取的数据样本以及相应的标识符发送给第三方。

这里,为了确保发送给第三方的数据样本不原文暴露给第三方,所述数据样本的特征可经过哈希变换,例如,可以在步骤S3300中获取数据样本之后对其各个特征分别进行哈希变换,当然也可以在更早即对样本的各个特征进行哈希变换。这样,第三方即使获得了数据样本,也不知道样本特征的含义。但是,这样的经过哈希变换的样本特征仍然可以进行有意义的机器学习,这是本发明实施例的通过机器学习算法进行数据变换然后交换数据的特别优越之处。

需要说明的是,可以对标识符和样本特征均进行哈希变换,也可以只对标识符或只对样本特征进行哈希变换;以及在对样本特征进行哈希变换时,可以只对部分重要特征进行哈希变换。

在步骤S3500中,第三方将接收到的数据样本及其标识符与对应的目标问题标注组合,得到提供方训练样本。

在步骤S3600中,第三方基于提供方训练样本,进行提供方机器学习模型训练。

在步骤S3700中,第三方利用提供方机器学习模型将提供方训练样本作为输出数据样本变换为输出特征向量。这里,为了确保输出特征向量可应用于获取方的机器学习,需要在提供方机器学习模型的训练过程中对提供方训练样本进行变换。

在步骤S3800中,第三方将输出特征向量和相应的标识符组合为第一交换样本。

在步骤S3900中,第三方将第一交换样本发送给获取方。

上面结合图3a以有监督的机器学习为例说明了在第三方执行根据本发明实施例的数据交换算法,不过这仅为示例,根据需要,在第三方也可以通过无监督式机器学习,对待交换样本进行特征学习和归类的工作,此时无需从获取方接收样本的标注值。

图3b可以视为图3a的继续,描述了根据本发明一实施例的获取方在获取第一交换样本之后可以进行的操作示例。

在步骤S3910中,获取方基于第一交换样本自身或第一交换样本和自身样本的拼接,获得获取方训练样本。

在步骤S3920中,获取方利用获取方训练样本进行获取方机器学习模型训练。

在步骤S3930中,获取方将期望样本的标识符发送给第三方。这里,期望样本可以是单纯期望利用“获取方机器学习模型”进行预测的样本。

此外,作为替代方式,期望样本也可以是期望用于训练“获取方机器学习模型”的样本和期望应用“获取方机器学习模型”的样本两者的集合。在这种情况下,作为示例,还可考虑省略步骤S3700到S3920(或仅省略步骤S3910和S3920),并完全基于以下描述的“第二交换样本”来执行“获取方机器学习模型”的训练和应用两者,其中,第二交换样本中既包括训练样本也包括预测样本。

在步骤S3940中,第三方将期望样本的标识符发送给提供方。

在步骤S3950中,提供方基于接收的样本标识符,获取对应的输出数据样本。

在步骤S3960中,提供方将获取的输出数据样本连同相应的标识符发送给第三方。

在步骤S3970中,第三方利用之前训练出的提供方机器学习模型将所述输出数据样本的特征变换为输出特征向量。

在步骤S3980中,第三方将输出特征向量和相应的标识符组合为第二交换样本。

在步骤S3990中,第三方将第二交换样本发送给获取方。

在步骤S3991中,获取方基于第二交换样本自身或第二交换样本和自身样本的拼接,获得获取方预测样本。

此外,在上述替代方式下,获取方还可基于具有对应标注的第二交换样本自身或第二交换样本和自身样本的拼接,获得获取方训练样本并基于这些获取方训练样本(或连同之前获取的第一交换样本一起)进行模型训练。

在步骤S3992中,获取方利用获取方机器学习模型,针对获取方预测样本进行预测。

关于步骤S3910到S3992,样本标识符和样本特征同样可以经过哈希变换,以防止信息被第三方明文获取。

图3a和3b以有监督的学习算法为例说明了在第三方执行数据交换方法的顺序图。此仅为示例,可以根据需要和实际情况对有些步骤进行删除、修改或增加。例如,可以利用无监督的学习算法在第三方执行数据交换方法。

例如,在无监督式学习算法的情况下,可以省去步骤S3100中关于目标问题标注的传送。此外,在上述情况下,也可一次性请求数据提供方将其所有数据样本经过归类等方式变换为特征向量,并将变换后的交换样本全部发送到数据获取方以供后续使用。在这种情况下,步骤S3100则完全可以省略。此外,在不指定样本标识符的情况下,可由提供方自主决定将哪些样本的数据提供给获取方。例如,在步骤S3100和步骤S3200中,可以传送由获取方指定的交换数据筛选条件,这里作为示例,所述条件例如为职业、收入区间、户籍所在地、住房情况等。

此外,即使针对依据标识符来匹配数据样本的情况,也可采用可替代的其它方式。例如,图3a-图3b中,由获取方将期望的标识符通过第三方发送到提供方,由提供方依据接收的标识符从自己的数据样本中搜索出相应的待交换数据样本。然而,也可约定由提供方一次性提供或持续提供所有可交换的数据样本的标识符给第三方或获取方,由第三方或获取方完成数据的筛选,从而确定实际将进行交换的训练用数据样本和预测用数据样本。

在上述示例中,尽管获取方可借助受信任的第三方完成数据交换,但是实践中,往往还希望所述数据交换方法直接在获取方执行,例如,在银行的机房执行,在这种情况下,能够真正确保银行数据不会外泄。

下面,参考图4描述根据本发明实施例的数据交换方法4000在获取方执行的情况的示例。相同的细节将不再一一赘述。

在步骤S4100中,获取方将目标问题标注以及相应的标识符发送给提供方,这里的目标问题标注和标识符用于搜索出提供方机器学习模型的训练样本。在步骤S4200中,提供方基于接收的样本标识符,获取对应的数据样本。在步骤S4300中,提供方将获取的数据样本的特征以及相应的标识符发送给获取方。

类似地,图4的上述步骤中的标识符和/或特征均可以经过哈希变换,以确保数据的安全性。此外,应注意,与图3a和图3b的情况类似,可采用由提供方首先提供可交换的数据样本的标识符的方式来代替由获取方首先提供感兴趣样本的标识符的方式。

在此基础上,由于数据交换方法在获取方执行,为了确保提供方的数据更加安全,在将数据样本提供给获取方之前,提供方可以对数据样本进行加密处理。

在一个示例中,待交换数据在加密之前还经过哈希变换。

在步骤S4400中,获取方基于接收的标识符,将接收到的数据样本的特征与相应的目标问题标注组合,得到提供方训练样本。

当数据样本的特征经过加密时,获取方可在不知晓解密方法的情况下通过调用第三方的服务来对接收的数据样本进行解密,从而得到提供方训练样本。这里,由于第三方的解密服务在获取方执行且解密后的数据后续也将在获取方通过第三方的服务来进行变换,因此,无论是第三方还是获取方均不会得到交换数据的原文数据。这样,数据获取方和/或第三方无法泄露或滥用这些待交换数据。

在步骤S4500中,数据获取方调用第三方的服务以基于提供方训练样本,进行提供方机器学习模型训练。

在步骤S4600中,获取方调用第三方的服务以利用训练出的提供方机器学习模型将提供方训练样本作为输出数据样本变换为输出特征向量。这里,需要在模型训练的过程中进行变换。

在步骤S4700中,获取方基于输出特征向量及其标识符,获取对应的目标问题标注,可选地连同获取方自身的对应样本的特征,获得获取方训练样本。这里,获取方在得到输出特征向量之后,需参照其标识符来最终得到获取方训练样本,上述过程可视为获取方将待交换数据样本的标识符与相应的特征输出向量在物理上或逻辑上组合成了交换样本以应用于机器学习。

在步骤S4800中,获取方进行获取方机器学习模型训练。

在步骤S4900中,获取方将期望样本的标识符发送给提供方。在执行了上述步骤S4700和S4800的情况下,这里的期望样本可仅指示预测样本。

此外,作为替代方式,在可交换的样本充足的情况下,步骤S4600以及步骤S4700和步骤S4800可省略。也就是说,在尚未执行获取方机器学习模型的训练步骤的情况下,这里的期望样本可同时包括获取方的训练样本和预测样本两者。

在步骤S4910中,提供方基于接收的样本标识符,获取对应的待交换数据样本。在步骤S4920中,提供方将获取的数据样本和相应的标识符发送给获取方。在步骤S4930中,获取方利用训练出的提供方机器学习模型将所述数据样本的特征变换为输出特征向量。在步骤S4940中,获取方基于输出特征向量自身或输出特征向量和自身样本的拼接,获得获取方预测样本。

此外,在替代方式下,获取方可基于具有对应标注的输出特征向量自身或输出特征向量和自身样本的拼接,连同相应的标注而首先获得获取方训练样本,并基于这些获取方训练样本进行模型训练。此外,获取方再基于预测用的输出特征向量自身,或输出特征向量和自身样本的拼接,获得获取方预测样本。

在步骤S4950中,获取方利用获取方机器学习模型,针对获取方预测样本进行预测。这里,应注意,优选地,在步骤S4800到步骤S4950中,针对标识符、待交换数据样本等可进行类似的哈希变换和/或加密处理,并借由第三方服务来完成解密和预测等处理。

图4以有监督的学习算法为例说明了在获取方执行的数据交换方法的顺序图,此仅为示例,可以根据需要和实际情况对有些步骤进行删除、修改或增加,例如,可以利用无监督的学习算法在获取方执行数据交换方法。

利用根据本发明实施例的数据交换方法,提供方机器学习模型能够将输入的待交换数据变换为不可还原、对于机器学习具有意义而对于其它使用场景缺乏有效信息量的输出特征向量,从而既保证交换数据能够用于数据获取方的使用目的,又防止交换数据被数据获取方或其它恶意方泄露或滥用。作为示例,该输出特征向量可以是中间预测结果、最终预测结果、或由中间预测结果和最终预测结果拼接成的向量。另外,需要说明的是,不管哪种情况,提供方都可以事先将数据样本的特征进行哈希变换,经过哈希变换的特征可以直接用于训练提供方机器学习模型。

图5示出了根据本发明另一实施例的数据交换装置5000的功能框图。所述数据交换装置包括:提供方机器学习模型获得单元5100,用于获得提供方机器学习模型;输出特征向量变换单元5200,用于利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;以及交换样本生成单元5300,用于将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。

应注意,上述数据交换装置可完全依赖计算机程序的运行来实现相应的功能,即,各个单元作为计算机程序的功能架构中与方法流程图的各步骤相应的模块,使得整个装置通过专门的软件包(例如,lib库)而被调用,以实现以上参照方法流程图描述的各个步骤中限定的功能或操作。

另一方面,上述各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于进行所需的任务的程序代码或者码段可以存储在诸如存储介质的计算机可读介质中,处理器可以进行所需的任务。

这里,本发明实施例可以实现为计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行上述数据交换方法。

图6示出了根据本发明实施例的计算装置6000的配置框图。

如图6所示,计算装置6000包括中央处理单元6100、存储器6300、显示器6400、网络接口6500、以及可以经由有线或无线方式连接的输入设备6600。存储器6300、显示器6400、网络接口6500、输入设备6600经由总线6200连接到中央处理单元6100。存储器6300包括内存6310和外部存储器6320,在计算装置6100正常运行中,内存6310中驻留有操作系统和各种应用程序;外存6320可以为ROM、硬盘或固态盘,上面可以存储BIOS、数据、应用程序等。

存储器中存储有能够实施本发明实施例的数据交换方法的计算机指令集,当该计算机指令集被中央处理单元执行时,使得执行根据本发明实施例的数据交换方法。应注意,这里的中央处理单元可以是物理上或逻辑上分布的计算集群,而不限于单机的计算设备。

具体说来,根据本发明的一实施例,提供了一种在提供方与获取方之间针对机器学习进行数据交换的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:提供方机器学习模型获得步骤,用于获得提供方机器学习模型;输出特征向量变换步骤,用于利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;以及交换样本生成步骤,用于将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。应注意,所述计算机可执行指令集合可被配置为执行以上参照方法流程图描述的所有操作和功能,在此不一一赘述。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1