数据处理方法和数据处理装置与流程

文档序号:29971523发布日期:2022-05-11 11:33阅读:66来源:国知局
数据处理方法和数据处理装置与流程

1.本技术涉及人工智能领域,尤其涉及一种数据处理方法和数据处理装置。


背景技术:

2.随着信用卡业务的授信总额不断攀升,银行资金投放力度不断加大,投放渠道不断拓宽,信用卡业务的风险问题值得关注。虽然信用卡的授信总额的增加,可以给银行带来更多的收入,但是逾期未偿还信贷总额以及期末应偿信贷总额的增加无疑也加大了信用卡风险发生的概率。银行对每名持卡人(即用户)的用卡情况实时监控难度大,一旦出现问题,导致银行利益受损,甚至引发系统性的风险。
3.目前,对信用风险进行量化评估采用的是非深度学习类的逻辑回归模型,但由于该逻辑回归模型为线性回归模型,很难去拟合数据的真实分布,导致存在违约预测效率准确率低的问题。


技术实现要素:

4.本技术提供一种数据处理方法和数据处理装置,提高了违约预测的准确率。
5.第一方面,提供了一种数据处理方法,包括:获取待预测交易数据,该待预测交易数据包括至少一笔待预测交易的数据;将该待预测交易数据输入至违约预测模型中,输出上述至少一笔待预测交易在未来时间段内的违约概率,其中,该违约预测模型是利用历史交易数据对时间卷积网络tcn模型进行训练获得的;基于上述违约概率判断上述至少一笔待预测交易数据的违约风险等级。
6.在本技术中,数据处理设备可以通过历史交易数据训练时间卷积网络tcn模型,获得违约预测模型。由于该违约预测模型与传统非深度学习类模型相比为非线性模型,可以避免传统违约预测模型,很难去拟合数据的真实分布,导致存在违约预测结果准确率不高的问题,进而降低引发系统性的风险。
7.结合第一方面,在第一方面的某种实现方式中,上述违约预测模型包括至少一个tcn块层和至少一个全连接层;相应地,上述将上述待预测交易数据输入至违约预测模型中,输出上述至少一笔待预测交易在未来时间段内的违约概率,包括:将上述待预测交易数据输入至上述至少一个tcn块层,输出上述待预测交易数据的特征值;将上述特征值输入至上述至少一个全连接层,输出上述违约概率。
8.结合第一方面,在第一方面的某种实现方式中,在获取待预测交易数据之前,上述方法还包括:获取按照时序排列的历史交易数据;对上述历史交易数据进行数据预处理,获得处理后的数据;将上述处理后的数据输入至上述tcn模型,对上述tcn模型的参数进行训练,获得上述违约预测模型。
9.结合第一方面,在第一方面的某种实现方式中,上述对历史交易数据进行数据预处理,获得处理后的数据,包括:对上述历史交易数据进行特征标准化,获得上述处理后的数据。
10.结合第一方面,在第一方面的某种实现方式中,在上述获得处理后的数据之前,上述方法还包括:对上述历史数据进行分类型变量处理、特征分布修正、缺失值处理或者异常值处理中的至少一个。
11.结合第一方面,在第一方面的某种实现方式中,上述方法还包括:确定上述违约预测模型的预测准确率;在上述预测准确率小于或等于第一预设阈值的情况下,采用自适应动量估计算法和早停算法,获得更新后的参数;基于上述更新后的参数,获得优化后的违约预测模型。
12.在本技术中,在确定上述预测准确率小于或等于第一预设阈值的情况下,可以确实违约预测模块的预测准确率过低,数据处理设备可以对上述违约预测模型进行优化,直到上述违约预测模型的预测准确率大于上述第一预设阈值,避免预测准确率过低导致的利益受损。
13.第二方面,提供了一种数据处理装置,包括:获取模块和处理模块,其中上述获取模块用于:获取待预测交易数据,该待预测交易数据包括至少一笔待预测交易的数据;上述处理模块用于:将该待预测交易数据输入至违约预测模型中,输出上述至少一笔待预测交易在未来时间段内的违约概率,其中,该违约预测模型是利用历史交易数据对时间卷积网络tcn模型进行训练获得的;以及,基于上述违约概率判断上述至少一笔待预测交易数据的违约风险等级。
14.结合第二方面,在第二方面的某些实现方式中,上述违约预测模型包括至少一个tcn块层和至少一个全连接层;相应地,上述处理模块用于:将上述待预测交易数据输入至上述至少一个tcn块层,输出上述待预测交易数据的特征值;将上述特征值输入至上述至少一个全连接层,输出上述违约概率。
15.结合第二方面,在第二方面的某些实现方式中,上述获取模块用于:获取按照时序排列的历史交易数据;上述处理模块用于:对上述历史交易数据进行数据预处理,获得处理后的数据;以及,将上述处理后的数据输入上述tcn模型,对上述tcn模型的参数进行训练,获得违约预测模型。
16.结合第二方面,在第二方面的某些实现方式中,上述处理模块用于:对上述历史交易数据进行特征标准化,获得上述处理后的数据。
17.结合第二方面,在第二方面的某些实现方式中,上述处理模块用于:对上述历史数据进行分类型变量处理、特征分布修正、缺失值处理或者异常值处理中的至少一个。
18.结合第二方面,在第二方面的某些实现方式中,上述处理模块用于:确定上述违约预测模型的预测准确率;在上述预测准确率小于或等于第一预设阈值的情况下,采用自适应动量估计算法和早停算法,获得更新后的参数;基于上述更新后的参数,获得优化后的违约预测模型。
19.第三方面,提供了一种处理器,包括:输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号,并通过输出电路发射信号,使得处理器执行上述第一方面中任一种可能实现方式中的方法。
20.在具体实现过程中,上述处理器可以为芯片,输入电路可以为输入管脚,输出电路可以为输出管脚,处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的,输出电路所输出的信号可
以是例如但不限于输出给发射器并由发射器发射的,且输入电路和输出电路可以是同一电路,该电路在不同的时刻分别用作输入电路和输出电路。本技术实施例对处理器及各种电路的具体实现方式不做限定。
21.第四方面,提供了一种处理装置,包括处理器和存储器。该处理器用于读取存储器中存储的指令,并可通过接收器接收信号,通过发射器发射信号,以执行上述第一方面中任一种可能实现方式中的方法。
22.可选地,处理器为一个或多个,存储器为一个或多个。
23.可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。
24.在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,rom),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本技术实施例对存储器的类型以及存储器与处理器的设置方式不做限定。
25.上述第四方面中的处理装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
26.第五方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
27.第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
附图说明
28.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1是本技术实施例提供的数据处理方法的示意性流程图;
30.图2是本技术实施例提供的数据预处理方法的示意性流程图;
31.图3是本技术实施例提供的tcn模型的示意图;
32.图4是本技术实施例提供的数据处理方法的示意性流程图;
33.图5是本技术实施例提供的一个tcn块层中的丢弃层的输出采用残差连接方式的示意图;
34.图6是本技术实施例提供的又一数据处理方法的示意性流程图;
35.图7是本技术实施例提供的数据处理装置的示意性框图;
36.图8是本技术实施例提供的又一数据处理装置的示意性框图。
具体实施方式
37.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在根据本实施例的启示下做出的所有其他实施例,都属于本技术保护的范围。
38.需要说明的是,本公开的数据处理方法和数据处理装置可用于人工智能领域,也可用于除人工智能领域以外的任意领域。本公开的数据处理方法和数据处理装置对应用领域不作限定。
39.随着信用卡业务的授信总额不断攀升,银行资金投放力度不断加大,投放渠道不断拓宽,信用卡业务的风险问题值得关注。虽然信用卡的授信总额的增加,可以给银行带来更多的收入,但是逾期未偿还信贷总额以及期末应偿信贷总额的增加无疑也加大了信用卡风险发生的概率。银行对每名持卡人的用卡情况实时监控难度大,一旦出现问题,损失转化为现实风险,导致银行利益受损,甚至引发系统性的风险。
40.目前,对信用风险进行量化评估采用的是非深度学习类的逻辑回归模型,但由于该逻辑回归模型为线性回归模型,很难去拟合数据的真实分布,导致存在违约预测效率准确率低的问题。
41.有鉴于此,本技术提供了一种数据处理方法和数据处理装置,违约预测模型是将历史交易数据输入至时间卷积网络tcn模型中,对该tcn模型的参数进行训练获得的,避免了线性的违约预测模型,很难去拟合数据的真实分布,导致存在违约预测结果准确率不高的问题。此外,本技术提供的违约预测模型可以直接使用交易数据进行违约预测,以解决传统违约预测模型不能直接使用交易数据进行违约预测,导致存在违约预测效率低的问题,即本技术提高了风险预测的准确性和效率。
42.在介绍本技术实施例提供的方法及装置之前,先做出以下几点说明。
43.第一,在下文示出的实施例中,各术语及英文缩略语均为方便描述而给出的示例性举例,不应对本技术构成任何限定。本技术并不排除在已有或未来的协议中定义其它能够实现相同或相似功能的术语的可能。
44.第二,在下文示出的实施例中第一、第二以及各种数字编号仅为描述方便进行的区分,并不用来限制本技术实施例的范围。
45.第三,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或b,或c,或a和b,或a和c,或b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
46.为了使本技术的目的、技术方案更加清楚直观,下面将结合附图及实施例,对本技术提供的数据处理方法和数据处理装置进行详细说明。应理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
47.图1是本技术实施例中的数据处理方法100的示意性流程图。该方法可以由数据处理设备执行。如图1所示,该方法100可以包括下列步骤:
48.s101、数据处理设备获取按照时序排列的历史交易数据。
49.可选地,该历史交易数据包括第一历史时间段内至少一笔交易的交易金额、该至少一笔交易的交易时间、该至少一笔交易的交易地点、该至少一笔交易对应的用户的账龄、以及在上述第一历史时间段内存在违约的用户对应的交易的逾期天数。
50.可选地,上述用户可以包括活跃用户和非活跃用户中的至少一种,活跃用户表示在预设时间段内交易次数大于第二预设阈值的用户,非活跃用户表示在上述预设时间段内交易次数小于或等于第三预设阈值的用户,上述第二预设阈值可以大于或等于上述第三预设阈值。
51.应理解,上述预设时间段、第二预设阈值和第三预设阈值可以是预设的,也可以在使用过程中调整。
52.示例性地,第二预设阈值为5,则在一个月内交易次数大于5次的用户可以被认为活跃用户。
53.示例性地,第三预设阈值为5,则在一个月内交易次数小于或者等于5次的用户可以被认为非活跃用户。
54.示例性地,上述历史交易数据是从信用卡的交易流水数据中抽样获得的,无需客户的其他输入、无需人工耗时。由于交易流水数据量大,难以伪造,提升了模型开发、维护和应用的自动化程度和速度。采用交易流水抽样可以有效暴露高风险持卡人的长期特征,也可以降低数据中的噪音,并极大降低了模型应用时的计算成本。
55.在一种可能的实现方式中,对于某月没有交易的非活跃用户持卡人,可以提取账单日时点的数据作为训练数据。对于开户时间不满12个月的非活跃用户持卡人,可以在时序数据中补0,并通过在训练时在损失计算时加入掩码避免填充的0被用于更新模型权重。
56.s102、数据处理设备对上述历史交易数据进行数据预处理,获得处理后的数。
57.可选地,该数据预处理包括缺失值处理、异常值处理、特征分布修正、分类型变量处理、或者特征标准化中的至少一个。
58.示例性地,异常值处理的一种可能实现方式为:采用梯度提升决策树(gradient boosting decision tree,gbdt)对于上述历史交易数据中的异常值进行重新赋值。
59.数据处理设备可以通过以下公式对上述历史交易数据中的异常值进行重新赋值。
[0060][0061]
其中,s1,s2,

,sk为上述历史交易数据在上述gbdt对应的分裂点,且为升序排列,x为上述历史交易数据中原来的异常值,为转换后的值,即x重新赋值后的值。
[0062]
示例性地,特征分布修正的一种可能实现方式为:使用box-cox变换对上述历史交易数据进行特征分布修正,使数据的特征分布更接近正态分布(偏度=0)。
[0063]
示例性地,分类型变量处理的一种可能实现方式为:使用拉普拉斯平滑(laplace smoothing)技术将上述历史交易数据中的非量化数据(如交易地点)转化为量值。
[0064]
s103、数据处理设备将处理后的数据输入至时间卷积网络tcn模型,对该tcn模型的参数进行训练,获得违约预测模型。
[0065]
应理解,该违约预测模型的预测结果为交易在未来时间段内的违约概率,该tcn模型包括至少一个tcn块层和至少一个全连接层,上述tcn块层包括卷积层、归一化层以及丢弃层,该丢弃层的输出采用残差连接的方式表示。
[0066]
在本技术实施例中,数据处理设备可以通过历史交易数据训练时间卷积网络tcn模型,获得违约预测模型,相较于传统线性的违约预测模型(例如逻辑回归模型)更易拟合数据的真实分布,即预测结果的准确率更高。此外,本技术实施例的数据处理方法可以直接基于底层的历史流水数据来预测中长期信用卡发生违约的概率,无需人工维护,大大降低了人工成本。由于长期交易的历史流水数据难以伪造也无需校验信息正确性,极大提升了模型开发、维护、应用的自动化程度和速度。
[0067]
针对上述s102,图2示出了本技术实施例提供的一种数据预处理方法200。如图2所示,该方法200包括以下步骤:
[0068]
s201、数据处理设备对上述历史交易数据进行缺失值处理,得到缺失值处理后的数据。
[0069]
s202、数据处理设备对缺失值处理后的数据进行异常值处理,得到异常值处理后的数据。示例性地,数据处理设备可以采用梯度提升决策树(gradient boosting decision tree,gbdt)对于上述缺失值处理后的数据中的异常值进行重新赋值。
[0070]
s203、数据处理设备对异常值处理后的数据进行特征分布修正处理,得到特征分布修正处理后的数据。示例性地,数据处理设备可以使用box-cox变换对异常值处理后的数据进行特征分布修正。
[0071]
s204、数据处理设备对缺失值处理后的数据进行分类型变量处理,得到分类型变量处理后的数据。示例性地,数据处理设备可以使用拉普拉斯平滑技术将上述缺失值处理后的数据中的非量化数据(如交易地点)转化为量值。
[0072]
s205、数据处理设备对特征分布修正处理后的数据和分类型变量处理后的数据进行特征标准化处理,得到最终处理后的数据。
[0073]
应理解,上述数据预处理的顺序仅仅为示例性的,本技术对此不作限定。
[0074]
针对上述s103,图3示出了本技术提供的tcn模型300,如图3所示tcn模型包括两个tcn块层(第一tcn块层和第二tcn块层)和三个全连接层(第一全连接层、第二全连接层和第三全连接层),其中,第一tcn块层的输出与第二tcn块层的输入连接,第二tcn块层的输出与第一全连接层的输入连接,第二全连接层的输出与第三全连接层的输入连接。
[0075]
此外,上述两个tcn块层中的每个tcn块层中可以包括一个卷积层、一个归一化层(也可以称为标准化层)以及一个丢弃(dropout)层,如图3所示,卷积层的输出与归一化层的输入连接,归一化层的输出与丢弃层的输入连接。
[0076]
其中,上述tcn块层可以用于简化上述tcn模型的运算,同时保持或者提高tcn模型的泛化能力。卷积层由若干卷积单元组成,每个卷积单元的参数都可以通过反向传播算法最佳化得到。卷积运算的目的是提取输入的不同特征,第一层卷积层可能提取一些低级的特征,即卷积层越多,tcn模型能从低级特征中迭代提取更复杂的特征。归一化层用于重新调整数据分布,解决在训练过程中中间层数据分布发生改变的问题,以防止梯度消失或爆炸。丢弃层用来提升tcn模型的泛化能力,以及通过残差连接提升tcn模型的稳定性。
[0077]
上述全连接层中的每个全连接层是由神经元组成(如1
×
4096的平铺结构,图中未
示出),全连接层在上述tcn模型中起到分类器的作用,可以将学到的分布式特征表示映射到样本标记空间。
[0078]
示例性地,上述全连接层可以采用激活(sigmod)函数进行了非线性映射。
[0079]
应理解,上述tcn模型的层数、神经元数等参数可以使用贝叶斯优化自动调参。
[0080]
下面结合图4对本技术提供的上述tcn模型的训练过程进行进一步描述。如图4所示,数据处理设备可以将上述历史交易数据预处理,并将预处理后的数据输入到上述违约预测模型,通过上述数据提供上述多个tcn块层和多个全连接层,使得tcn模型可以学习到上述数据中的第一历史时间段内至少一笔交易的交易金额、该至少一笔交易的交易时间、该至少一笔交易的交易地点、该至少一笔交易对应的用户的账龄、以及在该第一历史时间段内存在违约的用户对应的交易的逾期天数等特征,通过这些特征进行tcn模型中的参数训练,输出违约概率,从而完成对该tcn模型的训练,获得上述违约预测模型。
[0081]
在上述图3和图4中,丢弃层的输出可以采用残差连接的方式表示,如图5所示,假设第一tcn块层的输入为x,通过卷积层、归一化层和丢弃层的处理之后,输出f(x),由于加入残差连接,输出可以变为x+f(x)。因为增加了一项x,那么该层网络对x求偏导的时候,多了一个常数项,所以在反向传播过程中,梯度连乘,避免了梯度消失的问题。
[0082]
应理解,上述图3和图4中的第二tcn块层中丢弃层的输出也采用残差连接方式,为避免重复,此处不再赘述。
[0083]
可选地,上述历史交易数据还可以分为训练数据集和测试数据集,示例性地,训练数据集可以占历史交易数据的80%,测试数据集可以占历史交易数据的20%。
[0084]
对应上述s102,数据处理设备可以对训练数据集进行数据预处理,获得处理后的数据,进而根据该处理后的数据,获得上述违约预测模型。
[0085]
在上述历史交易数据分为训练数据集和测试数据集的情况下,本技术的数据处理设备可以基于测试数据集确定上述违约预测模型的预测准确率。
[0086]
示例性地,数据处理设备可以利用上述测试集数据,采用基尼(gini)系数和召回率(recall)作为评估指标,确定上述违约预测模型的预测准确率。
[0087]
其中,基尼系数是绝对公平线和洛伦兹曲线围城的面积与绝对公平线以下面积的比例。召回率是针对数据集中的所有正例而言,模型正确判断出的正例占数据集中所有正例的比例。二者指标皆是值越大,表明模型的风险区分能力越强。
[0088]
作为一个可选的实施例,在获得违约预测模型之后,数据处理设备还可以确定上述违约预测模型的预测准确率,避免预测准确率过低导致的利益受损。
[0089]
在确定预测准确率大于第一预设阈值的情况下,可以认为当前违约预测模型性能较优,可以用于预估违约概率,降低银行利益受损的问题。
[0090]
在确定上述预测准确率小于或等于第一预设阈值的情况下,可以确实违约预测模块的预测准确率过低,数据处理设备可以对上述违约预测模型进行优化,直到上述违约预测模型的预测准确率大于上述第一预设阈值。
[0091]
示例性地,数据处理设备可以采用自适应动量估计(adaptive moment estimation,adam)算法和早停算法,获得更新后的参数,并基于该更新后的参数,获得优化后的违约预测模型。
[0092]
其中,adam是基于动量的算法,利用了梯度的历史信息,对梯度的一阶矩估计(即
梯度的均值)和二阶矩估计(即梯度的未中心化的方差)进行综合考虑,计算出更新步长。早停法用于防止训练中过度表达的模型泛化性能差,通过确定迭代次数提高模型的泛化性能,不需要对特定值进行手动设置。应理解,在优化过程中,需要注意批处理的数据量(batch)的大小(即一批样本里持卡人的数目)。
[0093]
应理解,数据处理设备还可以通过其他算法优化上述违约预测模型,本技术对此不作限定。
[0094]
上面结合图1至图5描述了本技术的模型训练过程,下面结合图6描述本技术的模型使用过程。
[0095]
作为一个可选的实施例,在获得上述违约预测模型之后,本技术还可以将待预测交易数据输入至上述违约预测模型中,通过上述至少一个tcn块层获得上述待预测交易数据的特征值,并通过上述至少一个全连接层对该特征值进程处理,以获得至少一笔待预测交易在未来时间段内的违约概率。换句话说,数据处理设备可以基于该违约概率,预估至少一笔交易是否会违约(逾期),进而可以提前干预提醒,避免违约实际发生导致的利益受损。
[0096]
图6示出了本技术实施例提供的又一数据处理方法600,如图6所示,该方法600包括以下步骤:
[0097]
s601、数据处理设备获取待预测交易数据,该待预测交易数据包括至少一笔待预测交易的数据。
[0098]
可选地,上述待预测交易数据可以包括待预测时间段内至少一笔待预测交易的交易金额、该至少一笔待预测交易的交易时间、该至少一笔待预测交易的交易地点该至少一笔待预测交易对应的用户的账龄、或者在该待预测时间段内存在违约的用户对应的交易的逾期天数等数据,本技术对此不作限定。
[0099]
示例性地,上述待预测交易数据可以包括当前时刻前一个月内的所有交易的交易金额、所有交易的交易时间、所有交易的交易地点、所有交易对应的用户的账龄、以及在该一个月内存在违约的用户对应的交易的逾期天数。
[0100]
同上,上述用户可以包括活跃用户或非活跃用户。
[0101]
s602、数据处理设备将上述待预测交易数据输入至违约预测模型中,输出上述至少一笔待预测交易在未来时间段内的违约概率,其中,该违约预测模型是利用历史交易数据对上述tcn模型进行训练获得的。
[0102]
应理解,上述未来时间段可以是预设的,本技术对此不作限定。
[0103]
示例性地,数据处理设备将上述待预测交易数据输入至违约预测模型中,获得上述至少一笔待预测交易在未来一个月内或者一年等时间段内的违约概率。
[0104]
s603、基于上述违约概率判断上述至少一笔待预测交易数据的违约风险等级。
[0105]
在本技术中,违约预测模型是利用历史交易数据对时间卷积网络tcn模型进行训练获得的,避免了现有技术中线性模型,很难去拟合数据的真实分布,导致违约预测结果的准确率不高的问题,进而降低引发系统性的风险。此外,数据处理设备可以将该待预测交易数据输入至上述违约预测模型中,获得该所有交易在未来时间段内的违约概率,避免了现有技术中不能直接基于该交易数据进行违约概率预测的问题,提高违约预测的效率。
[0106]
可选地,若发现上述所有交易中的至少一笔交易的违约概率高于预设阈值,数据处理设备还可以提前发现用户财务状况的微小变化并发出提醒,以使相关人员在必要时可
以通过降低信用额度等措施减少违约发生时的损失。
[0107]
可选地,上述数据处理设备还可以在获得上述至少一笔待预测交易在未来时间段内的违约概率之后,再获取上述违约预测模型的预测准确率,进而判断上述至少一笔待预测交易在未来时间段内的违约概率是否准确。
[0108]
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0109]
为了实现上述本技术实施例提供的方法中的各功能,数据处理设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
[0110]
上文中结合图1至图6,详细描述了本技术实施例提供的数据处理方法,下面将结合附图7和图8,详细描述本技术实施例提供的数据处理装置。
[0111]
图7示出了本技术实施例提供的数据处理装置700,包括:获取模块701和处理模块702。
[0112]
其中,获取模块701用于:获取待预测交易数据,该待预测交易数据包括至少一笔待预测交易的数据;处理模块702用于:将该待预测交易数据输入至违约预测模型中,输出上述至少一笔待预测交易在未来时间段内的违约概率,其中,该违约预测模型是利用历史交易数据对时间卷积网络tcn模型进行训练获得的,基于上述违约概率判断上述至少一笔待预测交易数据的违约风险等级。
[0113]
可选地,上述违约预测模型包括至少一个tcn块层和至少一个全连接层;相应地,该处理模块702用于:将上述待预测交易数据输入至上述至少一个tcn块层,输出上述待预测交易数据的特征值;将上述特征值输入至上述至少一个全连接层,输出上述违约概率。
[0114]
可选地,该获取模块701用于:获取按照时序排列的历史交易数据;该处理模块702用于:对上述历史交易数据进行数据预处理,获得处理后的数据;以及,将上述处理后的数据输入上述tcn模型,对上述tcn模型的参数进行训练,获得违约预测模型。
[0115]
可选地,该处理模块702用于:对上述历史交易数据进行特征标准化,获得上述处理后的数据。
[0116]
可选地,该处理模块702用于:对上述历史数据进行分类型变量处理、特征分布修正、缺失值处理或者异常值处理中的至少一个。
[0117]
可选地,该处理模块702用于:确定上述违约预测模型的预测准确率;在上述预测准确率小于或等于第一预设阈值的情况下,采用自适应动量估计算法和早停算法,获得更新后的参数;基于上述更新后的参数,获得优化后的违约预测模型。
[0118]
应理解,这里的装置700以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit,asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中,本领域技术人员可以理解,装置700可以具体为上述实施例中的数据处理设备,或者,上述实施例中数据处理设备的功能可以集成在装置700中,装置700可以用于执行上述方法实施例中与数据处理设备对应的各个流程和/或步骤,为避免重复,在此不再赘述。
[0119]
上述装置700具有实现上述方法中数据处理设备执行的相应步骤的功能;上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
[0120]
在本技术的实施例,图7中的装置700也可以是芯片或者芯片系统,例如:片上系统(system on chip,soc)。
[0121]
图8示出了本技术实施例提供的另一数据处理装置800。该装置800包括:处理器801、存储器802、通信接口803以及总线804。其中,存储器802用于存储指令,该处理器801用于执行该存储器802存储的指令。处理器801、存储器802和通信接口803通过总线804实现彼此之间的通信连接。
[0122]
其中,处理器801用于:获取待预测交易数据,该待预测交易数据包括至少一笔待预测交易的数据;将该待预测交易数据输入至违约预测模型中,输出上述至少一笔待预测交易在未来时间段内的违约概率,其中,该违约预测模型是利用历史交易数据对时间卷积网络tcn模型进行训练获得的;以及,基于上述违约概率判断上述至少一笔待预测交易数据的违约风险等级。
[0123]
可选地,上述违约预测模型包括至少一个tcn块层和至少一个全连接层;相应地,该处理器801用于:将上述待预测交易数据输入至上述至少一个tcn块层,输出上述待预测交易数据的特征值;将上述特征值输入至上述至少一个全连接层,输出上述违约概率。
[0124]
可选地,该处理器801用于:获取按照时序排列的历史交易数据;对上述历史交易数据进行数据预处理,获得处理后的数据;以及,将上述处理后的数据输入上述tcn模型,对上述tcn模型的参数进行训练,获得违约预测模型。
[0125]
可选地,该处理器801用于对上述历史交易数据进行特征标准化,获得上述处理后的数据。
[0126]
可选地,该处理器801用于:对上述历史数据进行分类型变量处理、特征分布修正、缺失值处理或者异常值处理中的至少一个。
[0127]
可选地,该处理器801用于:上述处理模块用于:确定上述违约预测模型的预测准确率;在上述预测准确率小于或等于第一预设阈值的情况下,采用自适应动量估计算法和早停算法,获得更新后的参数;基于上述更新后的参数,获得优化后的违约预测模型。
[0128]
应理解,装置800可以具体为上述实施例中的数据处理设备,或者,上述实施例中数据处理设备的功能可以集成在装置800中,装置800可以用于执行上述方法实施例中与数据处理设备对应的各个步骤和/或流程。可选地,该存储器803可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器801可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与数据处理设备对应的各个步骤和/或流程。
[0129]
应理解,在本技术实施例中,该处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0130]
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0131]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0132]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0133]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0134]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0135]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0136]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1