征信系统的稳定性指标生成方法及装置与流程

文档序号:11865725阅读:378来源:国知局
征信系统的稳定性指标生成方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种征信系统的稳定性指标生成方法及装置。



背景技术:

随着社会的发展进步,金融业的信贷业务中的用户的信用信息以及评价得到量化。传统技术中的征信系统,将分散在社会有关方面的企业、个人信用信息,进行采集、分类、整理、储存,形成企业或者个人信用信息数据库,然后再以采集到的信用数据作为输入,根据一定的征信算法模型,计算得到用户的信用度评价值。在该用户的信贷业务中,即可根据该信用度评价值来设定该用户的信贷额度等权限信息。

然而,相比成熟的征信评分卡方法,新发展的基于大数据和人工智能的征信系统虽然在效率上有所提高,但所构建得到的模型的稳定性却难以保证。这一方面是由于大数据往往包含多种数据类型,而不是纯粹的金融数据,而人工智能和机器学习方法并不能够很好地筛选和排除掉这些数据当中的不稳定因素,因此导致了得到的征信模型会经常性地随着数据的变化产生比传统方法大的多的波动和跳变。因此,传统技术中的征信系统的稳定性不足。



技术实现要素:

基于此,为解决传统技术中征信系统的稳定性不足的技术问题,特提出了一种征信系统的稳定性指标生成方法。

一种征信系统的稳定性指标生成方法,包括:

在征信系统中选定样本用户集,抽样采集所述样本用户集中的样本用户账号在预设的信用数据类型下的样本信用数据;

对于所述样本用户集中的每个样本用户账号,根据预设的回归算法,计算该样本用户账号在预设的信用数据类型下的样本信用数据随时间变化的稳定性特征函数,所述稳定性特征函数包括本底趋势变化部分、周期性变化部分和随机变化部分;

计算所述样本用户集中的样本用户账号在所述预设的信用数据类型下的稳定性特征函数的特征参数的分布,计算所述分布在预设的分布特征类型下的特征值;

对在所述预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型下的每个特征值进行归一化并加权后得到与所述预设的信用数据类型对应的稳定性指标。

可选的,在其中一个实施例中,所述计算该样本用户账号在预设的信用数据类型下的样本信用数据随时间变化的稳定性特征函数还包括:

通过卡尔曼滤波器和降采样的方法在所述样本用户账号在预设的信用数据类型下的样本信用数据中分离出与所述本底趋势变化部分对应的数据,通过线性拟合或多项式拟合的方式得到稳定性特征函数的本底趋势变化部分。

可选的,在其中一个实施例中,所述通过卡尔曼滤波器和降采样的方法在所述样本用户账号在预设的信用数据类型下的样本信用数据中分离出与所述本底趋势变化部分对应的数据之后还包括:

通过傅里叶分析或小波分析分离出与周期性变化部分对应的数据,对该数据通过多项式拟合得到稳定性特征函数的周期性变化部分,根据剩余部分的数据得到稳定性特征函数的随机变化部分。

可选的,在其中一个实施例中,所述回归算法中的稳定性特征函数为:

S=f(t)+T(t)+ε

其中,f(t)为本底趋势变化部分:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mi>i</mi> </msub> <msup> <mi>t</mi> <mi>i</mi> </msup> </mrow>

T(t)为周期性变化部分:

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

gi(t)为预设的周期函数;

ε为服从均值为0的正态分布的随机变量;

所述稳定性特征函数的特征参数包括C、ai、ati和ε中的至少一个。

可选的,在其中一个实施例中,所述预设的信用数据类型包括至少一个;

所述方法还包括:

根据所述预设的信用数据类型下的样本信用数据计算所述预设的信用数据类型的稳定性指标的相关度。

此外,为解决传统技术中征信系统的稳定性不足的技术问题,特提出了一种征信系统的稳定性指标生成装置。

一种征信系统的稳定性指标生成装置,包括:

样本信用数据采集模块,用于在征信系统中选定样本用户集,抽样采集所述样本用户集中的样本用户账号在预设的信用数据类型下的样本信用数据;

稳定性特征函数计算模块,用于对于所述样本用户集中的每个样本用户账号,根据预设的回归算法,计算该样本用户账号在预设的信用数据类型下的样本信用数据随时间变化的稳定性特征函数,所述稳定性特征函数包括本底趋势变化部分、周期性变化部分和随机变化部分;

特征值计算模块,用于计算所述样本用户集中的样本用户账号在所述预设的信用数据类型下的稳定性特征函数的特征参数的分布,计算所述分布在预设的分布特征类型下的特征值;

稳定性指标计算模块,用于对在所述预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型下的每个特征值进行归一化并加权后得到与所述预设的信用数据类型对应的稳定性指标。

可选的,在其中一个实施例中,所述稳定性特征函数计算模块还用于通过卡尔曼滤波器和降采样的方法在所述样本用户账号在预设的信用数据类型下的样本信用数据中分离出与所述本底趋势变化部分对应的数据,通过线性拟合或多项式拟合的方式得到稳定性特征函数的本底趋势变化部分。

可选的,在其中一个实施例中,所述稳定性特征函数计算模块还用于通过傅里叶分析或小波分析分离出与周期性变化部分对应的数据,对该数据通过多项式拟合得到稳定性特征函数的周期性变化部分,根据剩余部分的数据得到稳定性特征函数的随机变化部分。

可选的,在其中一个实施例中,所述回归算法中的稳定性特征函数为:

S=f(t)+T(t)+ε

其中,f(t)为本底趋势变化部分:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mi>i</mi> </msub> <msup> <mi>t</mi> <mi>i</mi> </msup> </mrow>

T(t)为周期性变化部分:

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

gi(t)为预设的周期函数;

ε为服从均值为0的正态分布的随机变量;

所述稳定性特征函数的特征参数包括C、ai、ati和ε中的至少一个。

可选的,在其中一个实施例中,所述预设的信用数据类型包括至少一个;

所述装置还包括稳定性指标相关性分析模块,用于根据所述预设的信用数据类型下的样本信用数据计算所述预设的信用数据类型的稳定性指标的相关度。

实施本发明实施例,将具有如下有益效果:

采用了上述征信系统的稳定性指标生成方法及装置之后,可在征信系统预设的信用数据类型下抽样采集随时间分布的多个样本信用数据,然后根据该多个样本信用数据的分布回归为预设的稳定性特征函数,然后计算样本用户集中的样本用户账号在所述预设的信用数据类型下的稳定性特征函数的特征参数的分布,以及该分布在预设的分布特征类型下的特征值,将计算得到的特征值归一化并加权后即可得到与所述预设的信用数据类型对应的稳定性指标。征信系统即可根据每个信用数据类型对应的稳定性指标判定其自身的征信模型的计算信用度的算法是否存在稳定性缺陷,从而方便征信系统修正其征信模型的算法,从而使得计算得到的用户的信用度更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

其中:

图1为一个实施例中一种征信系统的稳定性指标生成方法的流程示意图;

图2为一个实施例中样本信用数据回归为稳定性特征函数的示意图;

图3为一个实施例中稳定性特征函数的本底趋势变化部分的示意图;

图4为一个实施例中稳定性特征函数的周期性变化部分的示意图;

图5为一个实施例中回归生成稳定性特征函数的过程示意图;

图6为一个实施例中一种征信系统的稳定性指标生成装置的结构示意图;

图7为一个实施例中运行前述征信系统的稳定性指标生成方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为解决传统技术中征信系统的稳定性不足的技术问题,特提出了一种征信系统的稳定性指标生成方法。该方法的实现可依赖于计算机程序,该计算机程序可运行于基于冯诺依曼体系的计算机系统之上,该计算机程序可以是传统银行、互联网银行或其他金融机构的征信系统的服务器程序,执行上述方法的计算机系统可以是传统银行、互联网银行或其他金融机构的征信系统的服务器设备。

在上述征信系统中,通常需要采集用户的日常操作记录、信贷记录、消费记录等多个维度的数据作为原始数据,然后根据征信系统中的信用度评价模型以该原始数据作为输入计算某个用户的信用度,且在该计算过程中,可以存在多个层级的中间数据。

例如,采集的某个用户的原始数据可包括用户以日为单位的消费金额数据A(即信用数据类型为日消费数据,后续依次类推)、以月为单位的储蓄额数据B、以月为单位的信用卡还款数据C、以月为单位的流水数据D等,且对于每种信用数据类型,可以时间单位采集多个样本信用数据,例如,对于以月为单位的流水数据D,则可采集该用户自开户以来每个月的流水数据为信用数据类型D下的样本信用数据。而征信模型自身将根据上述信用数据类型A、B、C、D得到信用数据类型为E和F的中间数据,然后再根据E和F的中间数据得到最终的信用度G,即信用数据类型G为该用户的信用度。

因此,征信系统中存在多个可采用的节点,每个采样节点对应一种信用数据类型。这些信用数据类型之间也可能存在一定的相关性。在本发明实施例中,则既可以得到某个信用数据类型的稳定性指标,也可以得到包含该多个信用数据类型的征信系统整体的稳定性指标。

具体的,如图1所示,该征信系统的稳定性指标生成方法包括如下步骤:

步骤S102:在征信系统中选定样本用户集,抽样采集所述样本用户集中的样本用户账号在预设的信用数据类型下的样本信用数据。

样本用户集即为征信系统中包括的全部或部分用户的集合,在本实施例中,征信系统中的每一个用户即为一个样本用户,样本用户集可以是征信系统中包含的所有的用户的集合,也可以是从所有的用户中筛选出的部分用户组成的集合。例如,可以按照随机抽样的方式在所有的用户中抽取一定的用户组成样本用户集,当然,也可以按照分层抽样、整群抽样或者其他抽样方式决定样本用户集中包含的样本用户是哪些。

需要说明的是,在本实施例中,样本用户集的数量可以不止一个。例如,根据个人用户和企业用户来对所有的样本用户进行区别,并分别在其中筛选出对应的样本用户集。在另一个实施例中,还可以根据用户存款数的多少来对所有的样本用户进行分组,在每一个分组中分别筛选出其对应的样本用户集。也就是说,在本实施例中,可以根据具体的需要,按照一定的规则对征信系统中包含的所有的样本用户划分用户集,并在每一个用户集中进行抽样确定其对应的样本用户集。

需要说明的是,在本实施例中,在确定样本用户集中的样本用户的过程中,需要按照一定的抽样规则抽取一定数量的样本用户,在此过程中,首先需要确定采样的数量。由于数据样本点通常表现为某个用户在某一时刻某个特征上的表现值,但为了对征信系统的稳定性进行分析,那么所采用的时间点必须大于2,因此在本实施例中,样本用户集中数据样本点数量(即采样数量,或样本用户集中包含的样本用户数量)与数据采样时长有密切的关系。常用的样本量估计方法包括Z统计量的样本估计方法,但由于实际样本分布并不遵守正态分布,因此需要在理论的最小样本量上扩充3-6倍的样本量,以适应常见的长尾分布。在另一个实施例中,还可以采用先验估计对采样数量进行估计。

在本实施例中,在征信系统中选定一个样本用户集进行分析,然后采集该样本用户集中的样本用户对应的账号下的信用数据,例如,交易记录、存款记录、每月存款数、信用等级、信用评分等。在征信系统中采集的原始数据包括了每一个用户的所有原始数据,例如包括了前述的A-G等所有的信用数据类型下的所有数据,但是,在进行稳定性指标的描述过程中,并不需要考虑所有的信用数据类型下的稳定性指标,例如,可以考虑的是某一个特定的信用数据类型下的稳定性指标,也可以是某几个特定的信用数据类型下的稳定性指标,当然,也可以是征信系统中所包含的信用数据类型下的稳定性指标。因此,在本步骤中,针对预设的信用数据类型,采集前述样本用户集中的所有样本用户账号在预设的信用数据类型下的样本信用数据作为本方法中征信系统的稳定性指标计算的样本数据。

步骤S104:对于所述样本用户集中的每个样本用户账号,根据预设的回归算法,计算该样本用户账号在预设的信用数据类型下的样本信用数据随时间变化的稳定性特征函数,所述稳定性特征函数包括本底趋势变化部分、周期性变化部分和随机变化部分。

对于每一个样本用户而言,其对应的用户信用水平可以根据其对应的样本信用数据来计算。在本实施例中,对于一个样本用户账号在预设的信用数据类型下的样本信用数据(例如,一个用户的每月存款数额),根据预设的回归算法,以时间为自变量t(即t1,t2,…,ti,…,tn),计算样本信用数据S(即S1,S2,…,S,…,Sn)随着时间变化的关系式。需要说明的是,在本实施例中,主要是关心样本信用数据随着时间的变化而表现出来的稳定特定,所以,上述样本信用数据随着时间变化的关系式为样本信用数据随着时间变化的特定性特征函数。

具体的,样本信用数据与时间这两个变量之间的关系往往比较复杂,可以将其分为3个部分进行计算,即本底趋势变化部分、周期性变化部分和随机变化部分。

在本实施例中,上述稳定性特征函数可以用如下公式表示:

S=f(t)+T(t)+ε,

其中,f(t)表示本底趋势变化部分,T(t)表示周期性变化部分,ε表示随机变化部分。

请同时参考图2、图3和图4,图2即为整体的样本信用数据随时间的分布,将其回归为S,图3即为样本信用数据随时间的分布的本底趋势变化部分,回归为f(t),图4为样本信用数据随时间的分布的周期性变化部分,回归为T(t)。

本底趋势变化部分f(t)表示的是用户信用的长期不变量和用户信用水平的变化趋势,在此处是不考虑周期性的变化以及其他因素的干扰的,即本底趋势变化量表示的是用户长期的整体的信用水平以及变化趋势,例如,在用户工作稳定的情况下,其工资会随着时间的增长而增加,其对应的贷款额度也会随着时间的增加而增加,其信用水平也会提高。需要说明的是,在本实施例中,本底趋势变化部分可以分为不变量-本底水平和变化量-趋势变化量两个部分。

周期性变化部分T(t)指的是样本信用数据随着时间的变化呈现的周期性的变化,例如,账户存款数会呈现出的按月波动、季节性波动以及年度波动,这些都是样本信用数据在年、季度、月、周等时间单位上呈现的周期性变化;对于样本信用数据呈现的周期性变化的相关性质在稳定性特征函数中用周期性变化部分来进行刻画。

随机变化部分ε指的是不受其他因素干扰的随机变化值,通常表现为高斯白噪声。例如,彩票中奖的收入在样本信用数据上的反应即为随机因素,在本实施例中用随机变化部分ε来刻画样本信用数据在该部分的相关性质。

进一步的,在上述计算稳定性特征函数的具体表达式的过程中,可以利用上述本底趋势变化部分、周期性变化部分和随机变化部分3个部分的具体性质对每个部分的数据进行分离,然后分别对每个部分的具体关系式进行计算。

具体的,可参考图5所示,本底趋势变化部分表现的是数据随着时间的推移变现出来的趋势变化,一般情况下为线性变化、多项式变化等变化趋势,也就是说,在计算本底趋势变化部分的关系式的过程中,可以使用如下计算方法:通过卡尔曼滤波器和降采样的方法在所述样本用户账号在预设的信用数据类型下的样本信用数据中分离出与所述本底趋势变化部分对应的数据,通过线性拟合或多项式拟合的方式得到稳定性特征函数的本底趋势变化部分。

具体的,卡尔曼滤波器的作用是对于时变线性系统中,从一组有限的,包含噪声的,随着时间变化的样本信用数据预测出下一时刻的样本信用数据以及对应的变化趋势。降采样可用于对于步骤S102中已经进行抽样处理的样本信用数据进行进一步的抽样,即将采样,从而使得分析的样本信用数据的数据样点减小,也就是减少运算时间。

对于通过卡尔曼滤波器和降采样的方法从样本信用数据中分离出来的本底趋势变化部分的具体数据,在这里,称之为本底趋势变化量,即f1,f2,…,fi,…,fn,按照线性拟合或者多项式拟合的方式,将本底趋势变化量与时间自变量t1,t2,…,ti,…,tn之间的关系进行拟合,获取对应的表达式,即f=f(t)的具体表达式。需要说明的是,在本实施例中,本底趋势变化部分的具体表达式的计算是唯一的,是通过线性拟合、二次多项式拟合、三次多项式拟合、N次多项式拟合等多次运算,并且从多次运算的结果中计算其对应的拟合度和/或残差,从中筛选出拟合效果最优的结果作为本底趋势变化部分的表达式,也就是说,从多次回归的结果中挑选残差最小、拟合度最佳的回归表达式作为稳定性特征函数的本底趋势变化部分。

也就是说,本底趋势变化部分可用如下的关系式表示

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mi>i</mi> </msub> <msup> <mi>t</mi> <mi>i</mi> </msup> <mo>,</mo> </mrow>

其中,常量C表示本底趋势变化部分中的本底水平,ai为线性函数或者多项式函数的系数。

在本底趋势变化部分被分离之后,样本信用数据中的剩余部分未周期性变化部分和随机变化部分。根据数据的周期性变化的特性,可以使用傅里叶分析或小波分析对剩余部分的呈现出周期性规律的数据进行分离,具体的:通过傅里叶分析或小波分析分离出与周期性变化部分对应的数据,对该数据通过多项式拟合得到稳定性特征函数的周期性变化部分,根据剩余部分的数据得到稳定性特征函数的随机变化部分。具体的,因为傅里叶分析和小波分析可以对时域上的数据进行信噪分离以及其傅里叶分析的周期性质,因此可以对样本信用数据的除去本底趋势变化部分的剩余部分的周期性的变化进行刻画,即将样本信用数据的剩余部分中的周期性变化部分进行分离作为稳定性特征函数的周期性变化部分,并将剩余部分作为随机变化部分。

具体的,上述T(t)为周期性变化部分可用如下关系式表示:

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

其中,gi(t)为预设的周期函数,例如三角函数等周期函数,在本实施例中,可以令函数gi(t)的首项系数为1,则ati为每个周期函数gi(t)对应的系数。

综上所述,根据本底趋势变化部分和周期性变化部分的值可以确定样本信用数据的随机变化部分ε的具体值,一般来讲,ε为满足高斯分布的随机变量,或者满足正态分布的随机变量,亦或者满足其他随机分布的随机变量。在具体的分析中,可以根据ε的具体值,确定其满足的分布,从而确定稳定性特征函数的具体表达式。

综上所述,上述通过回归算法得到的稳定性特征函数的具体表达式为:

S=f(t)+T(t)+ε,

其中,f(t)为本底趋势变化部分:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mi>i</mi> </msub> <msup> <mi>t</mi> <mi>i</mi> </msup> <mo>,</mo> </mrow>

T(t)为周期性变化部分:

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

gi(t)为预设的周期函数;ε为服从均值为0的正态分布的随机变量。

也就是说,决定稳定性特征函数的具体性质的特征参数可以包括上述表达式中的C、ai、ati和ε中的至少一个参数,当然,还可以包括gi(t)的具体表达式以及f(t)的次数。

步骤S106:计算样本用户集中的样本用户账号在所述预设的信用数据类型下的稳定性特征函数的特征参数的分布,计算所述分布在预设的分布特征类型下的特征值。

如前所述,稳定性特征函数的特征参数包括C、ai、ati和ε中的至少一个参数。也就是说,对于多个用户中的某个信用数据类型而言,通过上述回归算法得到C、ai、ati和ε是与样本用户账号相关的,即样本用户集中的样本用户账号在某个信用数据类型下各自都有一个独特的C(当然,不同的样本用户账号对应的C的值可以相同),则可得到每个样本用户账号在该信用数据类型下对应的C值的分布。

预设的分布特征类型包括均值、方差、最大最小值、百分位数等。如上例中,得到每个样本用户账号在该信用数据类型下对应的C值的分布之后,则可计算该C值的分布的均值得到所有样本用户账号在该信用数据类型下的C值的均值(即分布特征类型为“均值”下的特征值),计算该C值的分布的方差得到所有样本用户账号在该信用数据类型下的C值分布的方差(即分布特征类型为“方差”下的特征值)。

步骤S108:对在所述预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型下的每个特征值进行归一化并加权后得到与所述预设的信用数据类型对应的稳定性指标。

对于某个预设的信用数据类型x,若分布特征类型的序号为i,每个稳定性特征函数的特征参数的序号为j,则x在第j个稳定性特征函数的特征参数下的第i个分布特征类型下的稳定性指标即为而相应的每个还预设有权重系数然后通过累加,即可得到信用数据类型x的稳定性指标。

得到征信系统在信用数据类型x的稳定性指标之后,即可得到征信系统在信用数据类型x下的稳定程度。例如,若预设的信用数据类型中包括用户的信用度这一类型,而计算得到该信用数据类型的稳定性指标较低,则意味着,该征信系统的信用度计算模型在计算信用度时的算法有较大问题,计算得到的信用度准确度不够,从而可反馈给征信系统调整信用度的计算算法,提高征信系统计算信用度的准确性。

进一步的,还可根据所述预设的信用数据类型下的样本信用数据计算所述预设的信用数据类型的稳定性指标的相关度。

由于提取到的模型数据实际上是从模型的数据流图当中的不同采样点(即不同的信用数据类型)得到的数据片段,因此不同的片段之间往往存在着相关性,这种相关性既包含稳定性特征的相关性,也包含模型数据逻辑上的相关性和因果性。例如,如前所述,信用度的类型G由于是通过作为信用数据类型E和F计算得到的,而信用数据类型E和F的数据又是通过作为征信系统的原始采样数据的A、B、C、D计算得到的,因此信用度G与作为中间数据的信用数据类型E和F存在较强的相关性,作为征信系统的原始采样数据的A、B、C、D均有一定的相关性。

而征信模型的数据流图往往存在一定的层次性,于是从不同层次中提取得到的数据片段的相关性反映了不稳定因素在模型中的传导过程,因此能够以此追根溯源,找出不稳定因素发生的本源。

例如,若计算得到信用度G的稳定性指标较低,而信用数据类型E与信用度G的相关度较高,信用数据类型A和B与信用数据类型E的相关性较高,则意味着征信系统在通过信用数据类型A和B的数据计算信用数据类型E的中间数据时,稳定性得到了降低,从而进一步地影响了信用度G的稳定性指标,从而可帮助征信系统改进通过信用数据类型A和B的数据计算信用数据类型E的中间数据的算法。

追溯不稳定因素在模型中的传导过程,应当将不同层次之间的稳定特征的相关性与逻辑上的因果性相结合。可以通过Pearson相关系数、Spearman相关系数等方法,分别对层次之间的不同变量的相同稳定性特征两两组合,求其相关系数,得到稳定性的相关性;然后通过层次之间不同变量的序列和差分序列两两组合,求其相关系数,得到模型的因果性,最后将两者糅合得到不稳定因素在模型层次间的传递关系,并整合成传导过程。

在所述预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型还对应有初始设定的归一化的可靠度。

所述方法还包括:

通过加权抽样的方法得到预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型的可靠度的置信度,从而得到预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型对应的量化稳定性。

对给定的预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型s,通过人工给出的稳定性程度量化表求得其量化值Vs,并进行归一化,使得Vs∈[-1,1],其中-1表示该指标非常不稳定,1表示非常稳定。然后可将所有变量的V值放入同一总体空间VΩ,并使用{Ws′}作为非均匀抽样的权重,从中抽取一定量的样本P,然后使用非参数分布估计方法估计其分布常见的非参数分布估计方法包括直方图估计、核密度估计。根据估计得到的分布计算与参考分布的散度作为置信度的参照值,即:

其中表示与的分布散度,包括常见的f-散度和KL散度;u是置信度量化映射函数。参考分布与置信度量化函数u根据经验选定。

进一步的,还可进行特征分布分析的量化结果分析:

对于任意模型中的可评估变量xi,其稳定性指标对应的量化权值和量化稳定性计算两者的叠加其中t为叠加函数,通常使用乘法。对中的元素进行排序,找出每个变量xi对应最大的并给出对应的指标所属于的成分类型和特征类型,记作该变量的主要不稳定因素。按照进行排序,找出主要的不稳定变量xi

进一步的,还可进行层次相关分析的量化结果分析:

对于模型中的相邻层次,从输入数据层自底向上进行量化结果的分析,每一层的可评估变量xi,其稳定性指标对应的量化权值和量化稳定性计算两者的叠加由于相关系数仅在相同定义的可评估变量上才有意义,因此分别对j个进行排序,得到各自最大的相关变量利用设定的阈值k,对其进行过滤:从而提取相应的传递关系。然后将各层变量之间的传递关系构造得到不同成分的变量层次稳定性传递图,传递系数即为层次稳定性传递图能够有效反映不稳定性在模型中的产生和传递过程,以及具体产生的步骤。

此外,为解决传统技术中征信系统的稳定性不足的技术问题,在一个实施例中,还提出了一种征信系统的稳定性指标生成装置,如图6所示,上述征信系统的稳定性指标生成装置包括样本信用数据采集模块102、稳定性特征函数计算模块104、特征值计算模块106以及稳定性指标计算模块108,其中:

样本信用数据采集模块102,用于在征信系统中选定样本用户集,抽样采集所述样本用户集中的样本用户账号在预设的信用数据类型下的样本信用数据;

稳定性特征函数计算模块104,用于对于所述样本用户集中的每个样本用户账号,根据预设的回归算法,计算该样本用户账号在预设的信用数据类型下的样本信用数据随时间变化的稳定性特征函数,所述稳定性特征函数包括本底趋势变化部分、周期性变化部分和随机变化部分;

特征值计算模块106,用于计算所述样本用户集中的样本用户账号在所述预设的信用数据类型下的稳定性特征函数的特征参数的分布,计算所述分布在预设的分布特征类型下的特征值;

稳定性指标计算模块108,用于对在所述预设的信用数据类型下的每个特征参数在的每个预设的分布特征类型下的每个特征值进行归一化并加权后得到与所述预设的信用数据类型对应的稳定性指标。

可选的,在其中一个实施例中,所述稳定性特征函数计算模块104还用于通过卡尔曼滤波器和降采样的方法在所述样本用户账号在预设的信用数据类型下的样本信用数据中分离出与所述本底趋势变化部分对应的数据,通过线性拟合或多项式拟合的方式得到稳定性特征函数的本底趋势变化部分。

可选的,在其中一个实施例中,所述稳定性特征函数计算模块104还用于通过傅里叶分析或小波分析分离出与周期性变化部分对应的数据,对该数据通过多项式拟合得到稳定性特征函数的周期性变化部分,根据剩余部分的数据得到稳定性特征函数的随机变化部分。

可选的,在其中一个实施例中,所述回归算法中的稳定性特征函数为:

S=f(t)+T(t)+ε

其中,f(t)为本底趋势变化部分:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mi>i</mi> </msub> <msup> <mi>t</mi> <mi>i</mi> </msup> </mrow>

T(t)为周期性变化部分:

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

gi(t)为预设的周期函数;ε为服从均值为0的正态分布的随机变量;所述稳定性特征函数的特征参数包括C、ai、ati和ε中的至少一个。

可选的,在其中一个实施例中,所述预设的信用数据类型包括至少一个;如图6所示,所述装置还包括稳定性指标相关性分析模块110,用于根据所述预设的信用数据类型下的样本信用数据计算所述预设的信用数据类型的稳定性指标的相关度。

实施本发明实施例,将具有如下有益效果:

采用了上述征信系统的稳定性指标生成方法及装置之后,可在征信系统预设的信用数据类型下抽样采集随时间分布的多个样本信用数据,然后根据该多个样本信用数据的分布回归为预设的稳定性特征函数,然后计算样本用户集中的样本用户账号在所述预设的信用数据类型下的稳定性特征函数的特征参数的分布,以及该分布在预设的分布特征类型下的特征值,将计算得到的特征值归一化并加权后即可得到与所述预设的信用数据类型对应的稳定性指标。征信系统即可根据每个信用数据类型对应的稳定性指标判定其自身的征信模型的计算信用度的算法是否存在稳定性缺陷,从而方便征信系统修正其征信模型的算法,从而使得计算得到的用户的信用度更加准确。

在一个实施例中,如图7所示,图7展示了一种运行上述征信系统的稳定性指标生成方法的基于冯诺依曼体系的计算机系统的终端10。该计算机系统可以是智能手机、平板电脑、掌上电脑,笔记本电脑或个人电脑等终端设备。具体的,可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中,外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备。

在本实施例中,本方法的运行基于计算机程序,该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统10的外存储器10032中,在运行时被加载到内存储器10034中,然后被编译为机器码之后传递至处理器1002中执行,从而使得基于冯诺依曼体系的计算机系统10中形成逻辑上的样本信用数据采集模块102、稳定性特征函数计算模块104、特征值计算模块106以及稳定性指标计算模块108。且在上述征信系统的稳定性指标生成方法执行过程中,输入的参数均通过外部输入接口1001接收,并传递至存储器1003中缓存,然后输入到处理器1002中进行处理,处理的结果数据或缓存于存储器1003中进行后续地处理,或被传递至输出接口1004进行输出。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1