生成样本数据的方法和装置与流程

文档序号:26142271发布日期:2021-08-03 14:27阅读:120来源:国知局
生成样本数据的方法和装置与流程

本申请涉及人工智能技术领域,尤其涉及一种生成样本数据的方法和装置。



背景技术:

在金融服务平台经常会涉及到一些借贷业务。为了能够减少借贷风险,经常需要对申请借贷业务的借贷人进行风险评估。

较为常见的风险评估方式为基于借贷人的历史借贷行为,并利用训练好的风险评估模型来评估该借贷人的借贷风险。由于不同借贷业务所适用的场景以及具体借贷方式等都存在较大的差异性,因此,针对不同场景下的借贷业务需要分别训练适用于该借贷业务的风险评估模型。

在训练一款借贷业务适用的借贷风险评估模型,需要用到与该借贷业务相关的大量的历史借贷数据样本。然而,随着金融业务的不断发展,经常会出现一些新场景下的借贷业务,而这类借贷业务并没有足够多的借贷数据,也就无法准确构建出适用于该类借贷业务的风险评估模型。因此,如何针对新场景下的借贷业务生成用于训练风险评估模型的数据样本是本领域技术人员迫切需要解决的技术问题。



技术实现要素:

有鉴于此,本申请提供了一种生成样本数据的方法和装置,以在借贷业务用于训练风险评估模型的数据样本不足的情况下,能够生成用于训练风险模型的数据样本。

为实现上述目的,一方面,本申请提供了一种生成样本数据的方法,包括:

获得借贷业务相关的至少一个真实借贷样本,所述真实借贷样本为表征所述借贷业务中用户的历史借贷行为的数据样本,且所述真实借贷样本为用于训练适用于所述借贷业务的借贷风险识别模型的样本;

生成至少一个第一随机噪声数据;

基于所述至少一个真实借贷样本和所述至少一个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型,得到训练出的生成式对抗网络中的生成模型;

生成至少一个第二随机噪声数据;

基于所述至少一个真实借贷样本和所述至少一个第二随机噪声数据,利用训练出的所述生成模型生成至少一个候选借贷样本;

将生成的所述至少一个候选借贷样本存储为训练所述借贷风险识别模型的样本。

在一种可能的实现方式中,所述生成至少一个第一随机噪声数据,包括:

生成符合正态分布的多个第一随机噪声数据;

所述基于所述至少一个真实借贷样本和所述至少一个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型,包括:

对所述至少一个真实借贷样本进行归一化,得到归一化后的至少一个真实借贷样本;

基于归一化后的至少一个真实借贷样本以及所述多个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型。

在一种可能的实现方式中,所述生成至少一个第二随机噪声数据,包括:

生成符合正态分布的多个第二随机噪声数据;

所述基于所述至少一个真实借贷样本和所述至少一个第二随机噪声数据,利用训练出的所述生成模型生成至少一个候选借贷样本,包括:

基于归一化后的至少一个真实借贷样本和所述多个第二随机噪声数据,利用训练出的所述生成模型生成多个候选借贷样本;

所述将生成的所述至少一个候选借贷样本存储为训练所述借贷风险识别模型的样本,包括:

基于所述多个借贷样本的均值和方差,分别对每个所述借贷样本进行反归一化,得到反归一化后的多个候选借贷样本;

将反归一化后的多个候选借贷样本存储为训练所述借贷风险识别模型的样本。

在一种可能的实现方式中,所述基于归一化后的至少一个真实借贷样本以及所述多个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型,包括:

将归一化后的至少一个真实借贷样本和所述多个随机噪声数据输入生成式对抗网络中的生成模型,得到所述生成模型生成多个伪借贷样本;

基于所述多个伪借贷样本以及所述归一化后的至少一个真实借贷样本,确定所述生成模型的第一损失函数值;

利用所述生成式对抗网络中的判别模型对所述归一化后的至少一个真实借贷样本和所述多个伪借贷样本进行真实性判别,得到判别结果;

基于所述判别结果,确定所述判别模型的第二损失函数值;

基于所述第一损失函数值和第二损失函数值,并结合设定的训练算法,优化所述生成式对抗网络中的生成模型和判别模型,直至达到训练目标。

在一种可能的实现方式中,所述基于所述多个伪借贷样本以及所述归一化后的至少一个真实借贷样本,确定所述生成模型的第一损失函数值,包括:

计算所述多个伪借贷样本与所述归一化后的至少一个真实借贷样本的相对熵,将所述相对熵确定为所述生成模型的第一损失函数值。

在一种可能的实现方式中,还包括:

利用所述至少一个候选借贷样本以及所述至少一个真实借贷样本,训练神经网络模型,将训练出的神经网络模型确定为借贷风险识别模型。

又一方面,本申请还提供了一种生成样本数据的装置,包括:

样本获得单元,用于获得借贷业务相关的至少一个真实借贷样本,所述真实借贷样本为表征所述借贷业务中用户的历史借贷行为的数据样本,且所述真实借贷样本为用于训练适用于所述借贷业务的借贷风险识别模型的样本;

第一噪声生成单元,用于生成至少一个第一随机噪声数据;

生成模型训练单元,用于基于所述至少一个真实借贷样本和所述至少一个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型,得到训练出的生成式对抗网络中的生成模型;

第二噪声生成单元,用于生成至少一个第二随机噪声数据;

样本生成单元,用于基于所述至少一个真实借贷样本和所述至少一个第二随机噪声数据,利用训练出的所述生成模型生成至少一个候选借贷样本;

样本存储单元,用于将生成的所述至少一个候选借贷样本存储为训练所述借贷风险识别模型的样本。

在一种可能的实现方式中,所述第一噪声生成单元,具体为,用于生成符合正态分布的多个第一随机噪声数据;

所述生成模型训练单元,包括:

样本归一化单元,用于对所述至少一个真实借贷样本进行归一化,得到归一化后的至少一个真实借贷样本;

模型综合训练单元,用于基于归一化后的至少一个真实借贷样本以及所述多个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型。

优选的,所述第二噪声生成单元,具体为,用于生成符合正态分布的多个第二随机噪声数据;

所述样本生成单元具体为,用于基于归一化后的至少一个真实借贷样本和所述多个第二随机噪声数据,利用训练出的所述生成模型生成多个候选借贷样本;

所述样本存储单元,包括:

反归一化子单元,用于基于所述多个借贷样本的均值和方差,分别对每个所述借贷样本进行反归一化,得到反归一化后的多个候选借贷样本;

样本存储子单元,用于将反归一化后的多个候选借贷样本存储为训练所述借贷风险识别模型的样本。

在一种可能的实现方式中,所述生成模型训练单元,包括:

数据输入单元,用于将归一化后的至少一个真实借贷样本和所述多个随机噪声数据输入生成式对抗网络中的生成模型,得到所述生成模型生成多个伪借贷样本;

第一损失确定单元,用于基于所述多个伪借贷样本以及所述归一化后的至少一个真实借贷样本,确定所述生成模型的第一损失函数值;

模型判别单元,用于利用所述生成式对抗网络中的判别模型对所述归一化后的至少一个真实借贷样本和所述多个伪借贷样本进行真实性判别,得到判别结果;

第二损失确定单元,用于基于所述判别结果,确定所述判别模型的第二损失函数值;

模型优化单元,用于基于所述第一损失函数值和第二损失函数值,并结合设定的训练算法,优化所述生成式对抗网络中的生成模型和判别模型,直至达到训练目标。

由以上内容可知,本申请在获得借贷业务相关的至少一个真实借贷样本之后,可以利用随机生成的至少一个随机噪声数据和该至少一个真实借贷样本训练生成式对抗网络模型的生成模型和判别模型。而通过不断训练生成式对抗网络的生成模型和判别模型,可以使得生成模型能够生成接近于真实借贷样本的样本数据,因此,利用训练出的生成模型能够生成与接近于该真实借贷样本且能够训练该借贷业务对应的风险识别模型的借贷样本,从而可以在借贷业务的借贷样本不足的情况下,可以扩展出能够训练该借贷业务的风险识别模型所需的借贷样本,减少了由于借贷业务的借贷样本不足而无法训练风险识别模型的情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例提供的生成样本数据的方法的一种流程示意图;

图2示出了本申请实施例提供的生成样本数据的方法的又一种流程示意图;

图3示出了本申请实施例提供的生成样本数据的方法的一种流程示意图;

图4示出了本申请实施例提供的生成样本数据的装置的一种组成结构示意图。

具体实施方式

本申请的方案能够扩展出用于训练借贷业务的风险识别模型所需的借贷数据样本,从而减少由于借贷业务的借贷数据样本不足,而导致无法训练或者无法准确训练风险识别模型的情况。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,其示出了本申请一种生成样本数据的方法的一种组成结构示意图,本实施例的方法可以应用于任意具备数据处理的计算机设备,如个人计算机,服务器或者服务器集群等等。

本实施例的方法可以包括:

s101,获得借贷业务相关的至少一个真实借贷样本。

其中,该真实借贷样本为表征该借贷业务中用户的历史借贷行为的数据样本,且真实借贷样本为用于训练该借贷业务对应的借贷风险识别模型的样本。

可以理解的是,针对一个借贷业务而言,借贷业务中能够训练借贷风险识别模型的数据样本是指存在借贷业务的用户历史上的借贷行为相关的数据。如,历史借贷行为可以包括:是否存在借款、借款次数、借款金额以及是否按期反馈等等信息中的部分或者全部。

针对不同种类的借贷业务,借贷业务所涉及到的数据样本中所表征出的借贷行为数据也会有所差别,对此不加限制。

可以理解的是,由于训练模型所采用的数据需要为计算机可识别的数据形式,因此,在本申请中借贷样本为表征历史借贷行为的借贷特征样本,即,本申请中提到的借贷样本为一个借贷样本的矩阵或者向量形式。

在本申请中为了便于区分,将获得的该借贷业务已有的借贷样本称为真实借贷样本。

s102,生成至少一个第一随机噪声数据。

随机噪声数据是指随机生成的随机数。

为了便于区分,将用于训练生成式对抗模型的随机噪声数据称为第一随机噪声数据。

s103,基于至少一个真实借贷样本和至少一个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型,得到训练出的生成式对抗网络中的生成模型。

可以理解的是,生成式对抗网络(generativeadversarialnetworks,gan)包括生成模型(也称为生成器)和判别模型(也称为判别器)两部分。

其中,基于至少一个真实借贷样本和至少一个第一随机噪声数据训练生成式对抗网络的过程中,通过生成模型和判别模型的不断博弈,会使得生成模型生成的伪借贷样本越来越接近真实借贷样本,直到判别模型无法区分出生成模型生成的伪借贷样本与真实借贷样本。

由此可知,通过训练生成式对抗网络中的生成模型和判别模型,可以使得生成模型能够生成与真实借贷样本接近的借贷样本,因此,可以利用生成模型生成的借贷样本作为训练风险识别模型的借贷样本。

可以理解的是,训练生成式对抗网络的具体方式可以有多种,本申请对于具体训练过程不加限制。

s104,生成至少一个第二随机噪声数据。

该第二随机噪声数据为随机生成的,用于输入训练出的生成模型,以生成借贷样本的噪声数据。

s105,基于至少一个真实借贷样本和至少一个第二随机噪声数据,利用训练出的生成模型生成至少一个候选借贷样本。

如,将该至少一个真实借贷样本和至少一个第二随机噪声数据输入到已训练出的生成模型,则生成模型可以输出至少一个候选借贷样本。

为了便于区分,将训练好的生成模型所输出的借贷样本称为候选借贷样本。

可以理解的是,生成模型生成的候选借贷样本的数量与该至少一个第二随机噪声数据的数量相同,如,假设步骤s104生成了100个第二随机噪声数据,则生成模型可以生成与100个随机噪声数据对应的100个候选借贷样本。

s106,将生成的至少一个候选借贷样本存储为训练借贷风险识别模型的样本。

可以理解的是,生成模型生成的候选借贷样本可以作为该借贷业务的数据样本,以用于训练该借贷业务的借贷风险识别模型。

在一种可选方式中,在利用生成模型生成借贷样本与已有的真实借贷样本的数量足够多的情况下,则可以进行借贷风险识别模型的训练。具体的,可以利用该至少一个候选借贷样本以及至少一个真实借贷样本,训练神经网络模型,将训练出的神经网络模型确定为借贷风险识别模型。

可以理解的是,训练借贷风险识别模型所采用的借贷样本可以分为正例借贷样本和负例借贷样本,正例借贷样本可以为标注为不存在借贷风险的借贷样本,而负例借贷样本可以为标注为存在借贷风险的借贷样本。在本申请中,可以分别训练用于生成正例借贷样本的生成模型,以及用于生成负例借贷样本的生成模型。

如,在正例借贷样本不足的情况下,本申请步骤s101可以是获得标注为属于正例借贷样本的至少一个真实借贷样本,在该种情况下,本申请训练得到的生成模型为用于生成属于正例借贷样本的生成模型,在此基础上,步骤s105利用生成模型生成的候选借贷样本实际上属于不存在借贷风险的借贷样本。

类似的,在负例借贷样本不足的情况下,本申请步骤s101可以是获得标注为属于负例借贷样本的至少一个真实借贷样本,在该种情况下,本申请训练得到的生成模型为用于生成属于负例借贷样本的生成模型,在此基础上,步骤s105利用生成模型生成的候选借贷样本实际上属于存在借贷风险的借贷样本。

在以上基础上,本申请可以获得生成的候选借贷样本以及已有的真实借贷样本,利用这些借贷样本以及其对应的借贷风险类别,来训练神经网络模型,而训练出的神经网络模型就是借贷业务对应的风险识别模型。

其中,训练风险识别模型所采用的神经网络模型的具体类型可以不加限制,而训练该神经网络模型的具体方式可以有多种可能,本申请对此不加限制。

由以上内容可知,本申请在获得借贷业务相关的至少一个真实借贷样本之后,可以利用随机生成的至少一个随机噪声数据和该至少一个真实借贷样本训练生成式对抗网络模型的生成模型和判别模型。而通过不断训练生成式对抗网络的生成模型和判别模型,可以使得生成模型能够生成接近于真实借贷样本的样本数据,因此,利用训练出的生成模型能够生成与接近于该真实借贷样本且能够训练该借贷业务对应的风险识别模型的借贷样本,从而可以在借贷业务的借贷样本不足的情况下,可以扩展出能够训练该借贷业务的风险识别模型所需的借贷样本,减少了由于借贷业务的借贷样本不足而无法训练风险识别模型的情况。

可以理解的是,为了能够提高生成式对抗网络中生成模型的精准度,训练生成式对抗网络所采用的样本数据可以是符合正态分布的样本数据,基于此,本申请,可以在获得至少一个真实借贷样本之后,对该至少一个真实借贷样本数据分别进行归一化,从而使得归一化之后的至少一个真实借贷样本符合正态分布。相应的,可以生成符合正态分布的多个第一随机噪声数据。

可选的,基于符合正态分布的至少一个真实借贷样本和第一随机噪声数据训练出生成模型之后,可以是基于生成的符合正态分布的第二随机噪声数据,并利用生成模型生成候选借贷样本。

下面结合流程图对该种情况进行说明。

如图2所示,其示出了本申请一种生成样本数据的方法的又一种流程示意图,本实施例的方法可以包括:

s201,获得借贷业务相关的至少一个真实借贷样本。

其中,该真实借贷样本为表征该借贷业务中用户的历史借贷行为的数据样本,且真实借贷样本为用于训练该借贷业务对应的借贷风险识别模型的样本。

可以理解的是,在实际应用中,真实借贷样本一般可以为多个。

s202,分别对每个真实借贷样本进行归一化,得到归一化后的至少一个真实借贷样本。

其中,对真实借贷样本归一化的方式可以为:确定该至少一个真实借贷样本的均值和方差,然后,计算每个真实借贷样本与均值的差,并将该差与该均值作为该真实借贷样本对应的归一化后的真实借贷样本。

可以理解的是,真实借贷样本表示为一个特征向量,因此,真实借贷样本的归一化为对该特征向量的归一化。

如,真实借贷样本x归一化之后得到的特征向量为x”可以通过如下公式一得到:

其中,x”为归一化后的真实借贷样本,即归一化后的真实借贷样本的特征向量。μ为该至少一个真实借贷样本的均值,即至少一个真实借贷样本的特征向量的均值。而该σ为该至少一个真实借贷样本的方差,即该至少一个真实借贷样本的特征向量的方差。

通过对至少一个真实借贷样本进行归一化,可以使得归一化后的真实借贷样本更贴近噪声样本分布。

s203,生成符合正态分布的多个第一随机噪声数据。

s204,基于归一化后的至少一个真实借贷样本以及该多个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型。

该步骤可以本申请其他实施例的相关介绍,在此不再赘述。

s205,生成符合正态分布的多个第二随机噪声数据。

为了使得生成模型生成能够更加接近真实借贷样本的借贷样本,本申请中生成的多个第二随机噪声数据同样符合正态分布。

s206,基于归一化后的至少一个真实借贷样本和多个第二随机噪声数据,利用训练出的生成模型生成多个候选借贷样本。

s207,基于多个候选借贷样本的均值和方差,分别对每个候选借贷样本进行反归一化,得到反归一化后的多个候选借贷样本。

可以理解的是,由于生成模型是基于符合正态分布的多个第二随机噪声数据生成的多个候选借贷样本,因此,该多个候选借贷样本同样符合正态分布。在此基础上,为了能够使得候选借贷样本能够符合真实借贷样本的分布情况,本申请还可以对多个候选借贷样本进行反归一化。

其中,反归一化就是归一化的逆过程。

如,对该多个候选借贷样本分别进行反归一化可以是:先确定出该多个候选借贷样本的均值以及方差;然后,针对每个候选借贷样本,将该候选借贷样本乘以方差再加上该均值。

可以理解的是,该步骤s207为可选步骤,在实际应用中可以根据需要选择执行或者不执行。

s208,将反归一化后的多个候选借贷样本存储为训练该借贷风险识别模型的样本。

可以理解的是,在本申请中训练生成式对抗网络中生成模型和判别模型的具体方式可以有多种可能。

在一种可选方式中,为了提高训练精准度,如果训练该生成式对抗网络的数据样本符合正态分布,本申请在训练生成式对抗网络模型的过程中,结合真实借贷样本的分布以及生成的伪借贷样本的分布之间的相似程度来判断训练是否完成的依据。下面结合一种训练方式进行说明。

如图3所示,其示出了本申请一种生成样本数据的方法的又一个流程示意图,本实施例的方法包括:

s301,获得借贷业务相关的至少一个真实借贷样本。

其中,该真实借贷样本为表征该借贷业务中用户的历史借贷行为的数据样本,且真实借贷样本为用于训练该借贷业务对应的借贷风险识别模型的样本。

可以理解的是,在实际应用中,真实借贷样本一般可以为多个。

s302,分别对每个真实借贷样本进行归一化,得到归一化后的至少一个真实借贷样本。

s303,生成符合正态分布的多个第一随机噪声数据。

以上步骤可以参见前面实施例的相关介绍,在此不再赘述。

s304,将归一化后的至少一个真实借贷样本和该多个随机噪声数据输入生成式对抗网络中的生成模型,得到生成模型生成多个伪借贷样本。

为了便于区分,将训练生成模型的过程中,该生成模型生成的借贷样本称为伪借贷样本。

s305,基于该多个伪借贷样本以及归一化后的至少一个真实借贷样本,确定该生成模型的第一损失函数值。

在一种示例中,可以计算该多个伪借贷样本与归一化后的至少一个真实借贷样本的相对熵,将该相对熵确定为该生成模型的第一损失函数值。

其中,相对熵也称为kl(kullback-leibler)距离,而训练该生成模型的目标就是使得相对熵最小,该训练目标θ*可以表示为如下公式二:

θ*=argminkl(pdate(x)||pg(x,θ))(公式二)

其中,pdate(x)表示真实借贷样本的分布,而pg(x,θ)表示为伪借贷样本的分布,由于伪借贷样本是由生成模型中的参数θ决定,因此,将伪随机借贷样本表示为pg(x,θ)。kl(pdate(x)||pg(x,θ))表示至少一个真实借贷样本的分布与该多个伪借贷样本的分布之间的kl距离。

可以理解的是,此处仅仅是以一种确定第一损失函数值的情况为例说明,对于通过其他方式获得该生成模型的第一损失函数的情况同样适用于本申请。

s306,利用该生成式对抗网络中的判别模型对归一化后的至少一个真实借贷样本和多个伪借贷样本进行真实性判别,得到判别结果。

其中,真实性判别是指判别模型判别输入的每个借贷样本(真实借贷样本或者伪借贷样本)是否为真实借贷样本,并得到判别结果。由此可知,借贷样本对应的判别结果表征该判别模型判别出的该借贷样本是否属于真实借贷样本的结果。

如,针对某个借贷样本,如果判别模型判别出该借贷样本为真实借贷样本,则输出1;否则,则输出0。

s307,基于判别结果,确定该判别模型的第二损失函数值。

可以理解的是,由于各个借贷样本是否为真实借贷样本是已知的,因此,根据判别模型判别出的该借贷样本是否属于真实借贷样本的判别结果,以及各借贷样本实际是否属于真实借贷样本,可以得到该判别模型输出的判别结果的准确度。

其中,判别结果的准确度可以通过计算判别模型的损失函数值来确定,其中,计算该损失函数值的损失函数可以根据需要设定,本申请对此不加限制。

为了便于区分,本申请将判别模型的损失函数值称为第二损失函数值。

在一个示例中,本申请可以的第二损失函数值v(g,d)可以通过如下公式三计算得到:

其中,x表示一个借贷样本,其中,d(x)为判别模型输出的该借贷样本属于真实借贷样本的概率。其中,x~pdate表示借贷样本属于真实借贷样本,表示借贷样本实际为真实借贷样本的情况下的损失函数值,x~pg表示借贷样本属于伪借贷样本,表示借贷样本实际为伪借贷样本的情况下的损失函数值。

可见,如果x实际为一个伪借贷样本,则需要利用来计算损失函数值,如果x实际为一个真实借贷样本,则需要利用来计算损失函数。

s308,基于该第一损失函数值和第二损失函数值,并结合设定的训练算法,优化该生成式对抗网络中的生成模型和判别模型,直至达到训练目标。

如,如果第一损失函数值和第二损失函数值收敛,则确定训练完成;如果第一损失函数和第二损失函数尚未收敛,则会调整生成式对抗网络中生成模型和判别模型中的参数,并重新返回步骤s303以继续训练生成式对抗网络。

s309,生成符合正态分布的多个第二随机噪声数据。

s310,基于归一化后的至少一个真实借贷样本和该多个第二随机噪声数据,利用训练出的生成模型生成多个候选借贷样本。

s311,基于多个候选借贷样本的均值和方差,分别对每个候选借贷样本进行反归一化,得到反归一化后的多个候选借贷样本。

s312,将反归一化后的多个借贷样本存储为训练该借贷风险识别模型的样本。

以上步骤s309到s312可以参见前面实施例的相关介绍,在此不再赘述。

对应本申请的一种生成样本数据的方法,本申请还提供了一种生成样本数据的装置。

如图4所示,其示出了本申请一种生成样本数据的装置的一种组成结构示意图,本实施例的装置可以包括:

样本获得单元401,用于获得借贷业务相关的至少一个真实借贷样本,所述真实借贷样本为表征所述借贷业务中用户的历史借贷行为的数据样本,且所述真实借贷样本为用于训练适用于所述借贷业务的借贷风险识别模型的样本;

第一噪声生成单元402,用于生成至少一个第一随机噪声数据;

生成模型训练单元403,用于基于所述至少一个真实借贷样本和所述至少一个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型,得到训练出的生成式对抗网络中的生成模型;

第二噪声生成单元404,用于生成至少一个第二随机噪声数据;

样本生成单元405,用于基于所述至少一个真实借贷样本和所述至少一个第二随机噪声数据,利用训练出的所述生成模型生成至少一个候选借贷样本;

样本存储单元406,用于将生成的所述至少一个候选借贷样本存储为训练所述借贷风险识别模型的样本。

在一种可能的实现方式中,所述第一噪声生成单元,具体为,用于生成符合正态分布的多个第一随机噪声数据;

所述生成模型训练单元,包括:

样本归一化单元,用于对所述至少一个真实借贷样本进行归一化,得到归一化后的至少一个真实借贷样本;

模型综合训练单元,用于基于归一化后的至少一个真实借贷样本以及所述多个第一随机噪声数据,训练生成式对抗网络中的生成模型和判别模型。

在一种可选方式中,所述第二噪声生成单元,具体为,用于生成符合正态分布的多个第二随机噪声数据;

所述样本生成单元具体为,用于基于归一化后的至少一个真实借贷样本和所述多个第二随机噪声数据,利用训练出的所述生成模型生成多个候选借贷样本;

所述样本存储单元,包括:

反归一化子单元,用于基于所述多个借贷样本的均值和方差,分别对每个所述借贷样本进行反归一化,得到反归一化后的多个候选借贷样本;

样本存储子单元,用于将反归一化后的多个候选借贷样本存储为训练所述借贷风险识别模型的样本。

在一种可能的实现方式中,所述生成模型训练单元,包括:

数据输入单元,用于将归一化后的至少一个真实借贷样本和所述多个随机噪声数据输入生成式对抗网络中的生成模型,得到所述生成模型生成多个伪借贷样本;

第一损失确定单元,用于基于所述多个伪借贷样本以及所述归一化后的至少一个真实借贷样本,确定所述生成模型的第一损失函数值;

模型判别单元,用于利用所述生成式对抗网络中的判别模型对所述归一化后的至少一个真实借贷样本和所述多个伪借贷样本进行真实性判别,得到判别结果;

第二损失确定单元,用于基于所述判别结果,确定所述判别模型的第二损失函数值;

模型优化单元,用于基于所述第一损失函数值和第二损失函数值,并结合设定的训练算法,优化所述生成式对抗网络中的生成模型和判别模型,直至达到训练目标。

在一种可选方式中,第一损失确定单元,包括:计算所述多个伪借贷样本与所述归一化后的至少一个真实借贷样本的相对熵,将所述相对熵确定为所述生成模型的第一损失函数值。

在又一种可能的实现方式中,该装置还包括:

风险识别训练单元,用于利用所述至少一个候选借贷样本以及所述至少一个真实借贷样本,训练神经网络模型,将训练出的神经网络模型确定为借贷风险识别模型。

另一方面,本申请还提供了一种存储介质,该存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中的生成样本数据的方法。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1