一种用于金融场景中存贷用户特征数据的计算方法及装置与流程

文档序号:23727828发布日期:2021-01-26 17:52阅读:101来源:国知局
一种用于金融场景中存贷用户特征数据的计算方法及装置与流程

[0001]
本申请涉及大数据领域,尤其涉及一种用于金融场景中存贷用户特征数据的计算方法及装置。


背景技术:

[0002]
在金融领域中(如银行、保险、信托等领域),风险控制是金融系统非常重要的一项工作。风险控制需要对大量的原始数据进行特征提取。随着互联网金融的发展,风险控制工作变得愈加重要时。目前,互联网金融领域的风险控制通常需要风险控制数据专家进行人工分析、设计和清洗生成特征变量,但人工处理费时费力,并且人工经验也可能会使得特征不能被统计得比较完整。因此,有必要采用大数据分析的方式完成特征提取的工作,尤其是对金融场景中存贷用户的特征数据进行处理。


技术实现要素:

[0003]
有鉴于此,本申请提出了一种用于金融场景中存贷用户特征数据的计算方法及装置,以提高存贷用户特征数据计算的效率和全面性。
[0004]
根据本申请的一个方面,提出了一种用于金融场景中存贷用户特征数据的计算方法,该方法包括:根据存贷用户标识对存贷用户数据进行分组,形成第一数据块;对第一数据块进行字段扩充,形成扩充后的第一数据块;根据存贷用户状态和/或存贷用户行为发生的时间对扩充后的第一数据块进行分组,得到第二数据块;根据第二数据块以及扩充后的第一数据块进行计算存贷用户特征数据;其中,所述存贷用户数据包括存贷用户标识、存贷用户状态、存贷用户行为发生的时间以及与存贷用户行为相关的数据。
[0005]
优选地,所述对第一数据块进行字段扩充包括行间扩充、列间扩充以及单列扩充中的至少一者。
[0006]
优选地,所述列间扩充包括:针对是连续变量的所述与存贷用户行为相关的数据执行四则运算之一,生成新的字段;针对是离散变量的所述与存贷用户行为相关的数据执行拼接操作,生成新的字段。
[0007]
优选地,所述行间扩充包括:针对是连续变量的所述与存贷用户行为相关的数据执行相减或累加操作,生成新的字段;针对是离散变量的所述与存贷用户行为相关的数据执行相减操作,生成新的字段。
[0008]
优选地,所述单列扩充包括:针对是连续变量的所述与存贷用户行为相关的数据执行二类转换、等频分箱或等距分箱操作,生成新的字段;针对是离散变量的所述与存贷用户行为相关的数据执行离散域缩减操作,生成新的字段。
[0009]
优选地,在所述第二数据块为根据存贷用户行为发生的时间对扩充后的第一数据
块进行分组得到时,所述存贷用户特征数据包括存贷用户数据的总体情况、集中程度以及离散程度中的至少一者;在所述第二数据块为根据存贷用户状态对扩充后的第一数据块进行分组得到时,所述存贷用户特征数据包括存贷用户数据的总体情况以及集中程度中的至少一者;在所述第二数据块为根据存贷用户状态以及存贷用户行为发生的时间对扩充后的第一数据块进行分组得到时,所述存贷用户特征数据包括存贷用户数据的概括性统计量、样本分布以及观察到的动态中的至少一者和/或绝对傅里叶变换谱统计量、傅里叶变换系数以及连续小波分析系数中的至少一者。
[0010]
本申请提供了存贷用户特征数据的计算装置,该装置包括:第一形成模块,用于根据存贷用户标识对存贷用户数据进行分组,形成第一数据块;扩充模块,用于对第一数据块进行字段扩充,形成扩充后的第一数据块;第二形成模块,用于根据存贷用户状态和/或存贷用户行为发生的时间对扩充后的第一数据块进行分组,得到第二数据块;存贷用户特征模块,用于根据第二数据块以及扩充后的第一数据块进行计算存贷用户特征数据;其中,所述存贷用户数据包括存贷用户标识、存贷用户状态、存贷用户行为发生的时间以及与存贷用户行为相关的数据。
[0011]
优选地,所述对第一数据块进行字段扩充包括行间扩充、列间扩充以及单列扩充中的至少一者。
[0012]
优选地,所述列间扩充包括:针对是连续变量的所述与存贷用户行为相关的数据执行四则运算之一,生成新的字段;针对是离散变量的所述与存贷用户行为相关的数据执行拼接操作,生成新的字段。
[0013]
优选地,所述行间扩充包括:针对是连续变量的所述与存贷用户行为相关的数据执行相减或累加操作,生成新的字段;针对是离散变量的所述与存贷用户行为相关的数据执行相减操作,生成新的字段。
[0014]
优选地,所述单列扩充包括:针对是连续变量的所述与存贷用户行为相关的数据执行二类转换、等频分箱或等距分箱操作,生成新的字段;针对是离散变量的所述与存贷用户行为相关的数据执行离散域缩减操作,生成新的字段。
[0015]
优选地,在所述第二数据块为根据存贷用户行为发生的时间对扩充后的第一数据块进行分组得到时,所述存贷用户特征数据包括存贷用户数据的总体情况、集中程度以及离散程度中的至少一者;在所述第二数据块为根据存贷用户状态对扩充后的第一数据块进行分组得到时,所述存贷用户特征数据包括存贷用户数据的总体情况以及集中程度中的至少一者;在所述第二数据块为根据存贷用户状态以及存贷用户行为发生的时间对扩充后的第一数据块进行分组得到时,所述存贷用户特征数据包括存贷用户数据的概括性统计量、样本分布以及观察到的动态中的至少一者和/或绝对傅里叶变换谱统计量、傅里叶变换系数以及连续小波分析系数中的至少一者。
[0016]
本申请能够有效利用和复用知识,减少人工和时间成本,工程化生成高效能、全方面的存贷用户特征数据。本申请将特征数据放入机器学习模型中进行学习训练,预测存贷
用户发生逾期还款的概率,进而提前催逾期概率高的存贷用户还款,以降低金融风险。
[0017]
本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0018]
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:图1为本申请提供的存贷用户特征数据的计算方法示意图;图2为本申请提供的存贷用户特征数据的计算框架示意图;图3为本申请提供的存贷用户特征数据的计算装置示意图。
具体实施方式
[0019]
需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。
[0020]
下面将参考附图并结合实施方式来详细说明本申请。
[0021]
本申请针对金融场景(如银行)对于存贷用户(例如存贷款时间序列记录的用户)特征数据计算方法,分为四个部分,即包括数据初始化、字段扩充、数据分组、特征计算。每个部分相互独立,又相互联系,模块化的架构灵活,方便模块间组合,具有高复用性和可维护性。
[0022]
本申请提供的存贷用户特征数据的计算方法如图1所示,具体包括:步骤101,数据初始化;将用户的原始数据导入,进行初始化设置,并根据存贷用户id进行分组,形成数据块;步骤103,字段扩充;通过第一部分的数据块的有联系的原始字段之间的运算,获得新的字段,得到扩充后的数据块;步骤105,数据分组;数据根据时间变量和离散变量进行分组,得到新的数据块和不处理的扩充后的数据块;步骤107,计算存贷用户特征数据;针对得到的数据块,分别对时间变量数据列、离散变量数据列和连续变量数据列进行特征计算,得到每个存贷用户的特征数据。
[0023]
下面分别针对每个步骤进行详细描述。
[0024]
步骤101中,为了完成数据初始化,需要搜集存贷用户的存取款交易记录,梳理存贷用户信息、数据表内部字段类型和数据表之间的关系,得到原始数据,如下表1所示:
接着针对搜集的原始数据,例如存贷用户信息,存贷用户的存取款交易记录,浏览行为记录,信用卡账单记录等数据,按照id进行分组,得到数据块。
[0025]
步骤103中,字段扩充分为为列间扩充、行间扩充、单列扩充。同一字段类型的不同字段之间存在联系,可以对其进行四则运算或者其他运算产生新的具有实际意义的衍生字段。比如收入金额和工资金额之间有联系,可以将两个字段进行相加,得到收入和工资总金额这一新的字段。
[0026]
列间扩充主要针对有联系的字段,对有联系的连续变量进行加减乘除可以产生新的字段,对有联系的状态变量进行拼接可以产生新的状态变量,如表2所示。行间扩充是作用在同一个字段的多个不同样本之间,对连续变量的不同样本之间做累加或者相减产生新的字段,对离散变量的不同样本之间做相减,并对结果做bool运算,产生新的字段,如表3所示。单列扩充是作用在一个字段的多个样本上,对连续变量的多个样本做连续转离散产生新的字段,对离散变量进行离散域缩减产生新的字段,如表4所示。
[0027]
步骤105中,分组可以有三种类型,第一种类型是按照时间窗分类(天,月,旬,星期,季度,周末等),第二种类型是根据离散变量进行分类,第三种类型是根据时间窗和离散变量进行分类。上述三种类型的分组,分别可以得到时间变量数据的序列,离散型数据的序列以及连续型数据序列。
[0028]
步骤107中,可以针对以上三种数据序列分别计算存贷用户特征数据。
[0029]
时间变量序列数据的特征计算方法是作用在时间变量数据列,特征来自于概括性统计量。这些特征主要描述数据序列的总体情况、集中程度、离散程度。总体情况的度量包括:记录条数总数、每天的记录条数总数、时间跨度、不重复日期数量。集中程度的度量包括:每天记录条数的平均值、交易平均每天发生的次数、交易发生的频率。离散程度的度量包括:每天记录条数的最大值、每天记录条数最小值。
[0030]
离散变量序列数据的特征计算方法是作用在离散变量数据列,特征来自于概括性统计量。这些特征主要描述了数据序列的总体情况、集中程度。总体情况的度量包括:离散变量数据点总数、离散变量总数。集中程度的度量包括:每个枚举量总数、每个枚举量数量占比、每个枚举量发生频率。
[0031]
连续变量序列数据的特征计算方法分为一般特征的计算方法和高阶特征的计算方法。一般特征计算方法主要指一般的统计量、样本分布;高阶特征的计算方法主要是指基于傅里叶变换、小波分析变换这些高级方法的特征。
[0032]
一般特征计算方法主要包括三类:来源于概括性统计量、样本分布、观察到的动态。高阶特征计算方法主要包括两类:来源于傅里叶变换、小波分析变换。概括性统计量,主要是描述数据序列数据的总体情况、集中程度、离散程度、总体形状。样本分布,主要是描述序列数据对称分布情况。观察到的动态,主要是描述序列数据的整体和局部的波动性、稳定性。
[0033]
对于概括性统计量,总体情况的度量包括:数据点总数量、数据值总数;集中程度的度量包括:平均数、众数、中位数、发生频率、分位数;离散程度的度量包括:最大值、最小值、极差、方差、标准差、变异系数、分位数之差;总体形状的度量包括:偏度、峰度。
[0034]
对于样本分布,具体包括关于原点的分布(绝对能量)、关于平均数的分布(大于平均数的数据点数量占比、小于平均数的数据点数量占比)、关于中位数的分布(大于中位数的数据点数量占比、小于中位数的数据点数量占比)、关于对称的分布(是否为对称分布、标准差是否大于1、标准差是否大于极差的一半)。
[0035]
对于观察到的动态,具体包括关于最大值的动态(最大值所在的第一个位置相对于总索引的位置、最大值所在的最后一个位置相对于总索引的位置)、关于最小值的动态(最小值所在的第一个位置相对于总索引的位置、最小值所在的最后一个位置相对于总索引的位置)、关于平均数的动态(大于平均数的最长连续子序列长度、小于平均数的最长连续子序列长度)、关于中位数的动态(大于中位数的最长连续子序列长度、小于平均数的最长连续子序列长度)、整体的动态(一阶差分绝对和)。
[0036]
高阶特征计算方法包括傅里叶变换和连续小波分析。傅里叶变换包括绝对傅里叶变换谱统计量(质心、峰度、偏度、方差)和傅里叶变换系数,连续小波分析包括连续小波分析系数。
[0037]
需要说明的是,上述存贷用户特征计算方法以及各方法中涉及的参数(例如度量、分布、动态、系数)等,可以根据具体的需要进行选择。
[0038]
将这些特征数据放入机器学习模型中进行学习训练,预测存贷用户发生逾期还款的概率,进而提前催逾期概率高的存贷用户还款,使风险降到最低。
[0039]
图2给出了本申请的用于金融场景中存贷用户特征数据计算的流程框架,示出了图1中所涉及的各个步骤。
[0040]
图3示出了本申请优选实施方式提供的存贷用户特征数据的计算装置,该装置包括:第一形成模块,用于根据存贷用户标识对存贷用户数据进行分组,形成第一数据块;扩充模块,用于对第一数据块进行字段扩充,形成扩充后的第一数据块;第二形成模块,用于根据存贷用户状态和/或存贷用户行为发生的时间对扩充后的第一数据块进行分组,得到第二数据块;存贷用户特征模块,用于根据第二数据块以及扩充后的第一数据块进行计算存贷用户特征数据;其中,所述存贷用户数据包括存贷用户标识、存贷用户状态、存贷用户行为发生的时间以及与存贷用户行为相关的数据。
[0041]
本申请提供的上述方案,利用大数据处理的技术方案,使得存贷用户特征数据提取过程工程化,减少人工和时间成本,能够生成全方面的特征。
[0042]
以上所述仅为本申请的较佳实施方式而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1