信息预测方法、装置、设备及介质与流程

文档序号:32392177发布日期:2022-11-30 08:44阅读:82来源:国知局
信息预测方法、装置、设备及介质与流程

1.本公开涉及大数据技术领域和金融技术领域,具体地涉及一种信息预测方法、装置、设备、介质和程序产品。


背景技术:

2.信用风险评估工作是金融机构进行贷款审批过程中的重要环节,对贷款审批业务的审批结果具有重要影响。随着大数据时代的来临,金融机构在对企业进行信用风险评估时,所要面对的数据类型、数据量越来越多、数据之间的关联性较强,导致传统的信用风险评估方法对信用风险评估的结果准确度较低。


技术实现要素:

3.鉴于上述问题,本公开提供了提高信用风险评估准确率的信息预测方法、装置、设备、介质和程序产品。
4.根据本公开的一个方面,提供了一种信息预测方法,包括:
5.响应于来自客户端的针对目标企业的信用风险预测请求,从数据库中获取目标企业的运营状况信息;
6.将运营状况信息输入分类模型,输出分类结果;其中,分类模型是先利用混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,其中,样本数据包括企业的运营状况信息和信用类别信息,第t+1次迭代训练的模型参数是根据第t次迭代训练的结果确定的,其中,t为正整数;以及
7.根据分类结果,生成目标企业的信用风险预测结果信息。
8.根据本公开的实施例,分类模型的训练方法包括:
9.获取n个企业的运营状况信息和信用类别信息作为样本数据,其中,每一个企业的运营状况信息中包括m个运营指标信息,m、n均为正整数;
10.根据信用风险预测场景的应用需求,确定迭代条件和初始化参数;
11.根据初始化参数,利用混沌映射初始化样本数据,得到样本数据集;
12.按照迭代条件,将样本数据集输入预设模型进行迭代训练,得到训练完成的分类模型。
13.根据本公开的实施例,将样本数据集输入预设模型进行迭代训练,得到训练完成的分类模型;
14.将样本数据集输入预设模型,输出分类结果,分类结果表征每一个样本数据在样本数据集中的适应度;
15.根据第t次迭代训练中样本数据的适应度,采用自适应权重法,确定第t+1次迭代训练的模型参数;
16.采用k折交叉验证的策略对预设模型进行迭代训练,直至分类结果满足迭代条件,得到训练完成的分类模型,其中,k为大于5且小于20的正整数。
17.根据本公开的实施例,采用k折交叉验证的策略对预设模型进行迭代训练,直至分类结果满足迭代条件,得到训练完成的分类模型,包括:
18.针对第t次迭代训练,将样本数据集分为k组,将第k组样本数据作为测试数据集,将其他k-1组样本数据作为训练数据集;
19.将k组样本数据输入利用k-1组样本数据训练得到的分类模型,输出分类结果;
20.在样本数据集中的全部样本数据均完成测试的情况下,根据第t次迭代训练的全部分类结果和信用类别信息,确定第t次迭代训练的分类准确率;
21.在分类准确率满足迭代条件的情况下,得到训练完成的分类模型。
22.根据本公开的实施例,上述分类模型的训练方法还包括:
23.针对每一个企业的运营状况信息,根据m个运营指标信息,确定m个运营指标信息的关联关系;
24.根据关联关系,通过主成分分析法,确定每一个运营指标的累计贡献率;
25.根据累计贡献率,将m个运营指标信息进行降维处理,得到p个运营指标信息,其中p为小于m的正整数。
26.根据本公开的实施例,上述分类模型的训练方法还包括:
27.根据目标企业的运营状况信息,确定目标企业的运营趋势信息;
28.根据分类结果和目标企业的运营趋势信息,生成目标企业的信用风险预测结果信息。
29.本公开的另一个方面提供了一种信息预测装置,包括:获取模块、预测模块和第一生成模块。其中,获取模块,用于响应于来自客户端的针对目标企业的信用风险预测请求,从数据库中获取目标企业的运营状况信息。预测模块,用于将运营状况信息输入分类模型,输出分类结果;其中,分类模型是先利用混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,其中,样本数据包括企业的运营状况信息和信用类别信息,第t+1次迭代训练的模型参数是根据第t次迭代训练的结果确定的,其中,t为正整数。第一生成模块,用于根据分类结果,生成目标企业的信用风险预测结果信息。
30.根据本公开的实施例,预测模块包括获取子模块、第一确定子模块、初始化子模块和训练子模块。其中,获取子模块,用于获取n个企业的运营状况信息和信用类别信息作为样本数据,其中,每一个企业的运营状况信息中包括m个运营指标信息,m、n均为正整数。第一确定子模块,用于根据信用风险预测场景的应用需求,确定迭代条件和初始化参数。初始化模块,用于根据初始化参数,利用混沌映射初始化样本数据,得到样本数据集。训练子模块,用于按照迭代条件,将样本数据集输入预设模型进行迭代训练,得到训练完成的分类模型。
31.根据本公开的实施例,训练子模块包括输出单元、确定单元和训练单元。其中,输出单元,用于将样本数据集输入预设模型,输出分类结果,分类结果表征每一个样本数据在样本数据集中的适应度。确定单元,用于根据第t次迭代训练中样本数据的适应度,采用自适应权重法,确定第t+1次迭代训练的模型参数。训练单元,用于采用k折交叉验证的策略对预设模型进行迭代训练,直至分类结果满足迭代条件,得到训练完成的分类模型,其中,k为大于5且小于20的正整数。
32.根据本公开的实施例,训练单元包括分组子单元、输出子单元、第一确定子单元和
第二确定子单元。其中,分组子单元,用于针对第t次迭代训练,将样本数据集分为k组,将第k组样本数据作为测试数据集,将其他k一1组样本数据作为训练数据集。输出子单元,用于将k组样本数据输入利用k-1组样本数据训练得到的分类模型,输出分类结果。第一确定子单元,用于在样本数据集中的全部样本数据均完成测试的情况下,根据第t次迭代训练的全部分类结果和信用类别信息,确定第t次迭代训练的分类准确率。第二确定子单元,用于在分类准确率满足迭代条件的情况下,得到训练完成的分类模型。
33.根据本公开的实施例,上述预测模块还包括第二确定子模块、第三确定子模块和处理子模块。其中,第二确定子模块,用于针对每一个企业的运营状况信息,根据m个运营指标信息,确定m个运营指标信息的关联关系。第三确定子模块,用于根据关联关系,通过主成分分析法,确定每一个运营指标的累计贡献率。处理子模块,用于根据累计贡献率,将m个运营指标信息进行降维处理,得到p个运营指标信息,其中p为小于m的正整数。
34.根据本公开的实施例,上述信息预测装置还包括确定模块和第二生成模块。其中,确定模块,用于根据目标企业的运营状况信息,确定目标企业的运营趋势信息。第二生成模块,用于根据分类结果和目标企业的运营趋势信息,生成目标企业的信用风险预测结果信息。
35.本公开的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述信息预测方法。
36.本公开的另一个方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述信息预测方法。
37.本公开的另一个方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述信息预测方法。
38.根据本公开的实施例,通过从数据库中获取目标企业的运营状况信息,将运营状况信息输入分类模型,输出分类结果,根据分类结果,生成目标企业的信用风险预测结果信息。由于分类模型是先混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,提高了输入的运营状况信息的寻优效率与遍历均匀性,在一定程度上提高了信用风险预测结果的准确度。
附图说明
39.通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
40.图1示意性示出了根据本公开实施例的信息预测方法、装置、设备、介质和程序产品的应用场景图;
41.图2示意性示出了根据本公开实施例的信息预测方法的流程图;
42.图3示意性示出了根据本公开实施例的分类模型的训练方法的流程图;
43.图4示意性示出了根据本公开实施例的信息预测装置的结构框图;以及
44.图5示意性示出了根据本公开实施例的适于实现信息预测方法的电子设备的方框图。
具体实施方式
45.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
46.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
47.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
48.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
49.需要说明的是,本公开的信息预测方法和装置可用于大数据技术领域和金融技术领域,也可用于除金融技术领域和大数据技术领域之外的任意领域,本公开的信息预测方法和装置的应用领域不做限定。
50.在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
51.目前,神经网络、专家系统、逻辑回归、决策树等方法均已被广泛应用,在进行人工神经网络(ann)学习的过程需要提供许多的高质量的训练样本,同时利用人工神经网络进行训练的过程中收敛速率慢,所得到的结果往往是局部最好的等缺点,专家系统也有知识难以获取、知识库维护不方便等问题,然而,利用支持向量机(svm)的方法进行数据训练的过程中能够很好的解决人工神经网络方法的所存在的不足,在处理样本少、非线性、维数较高的模式这类问题上具有较强的处理能力,同时它也有较强的泛化能力,也能求解出全局最优解,适用于我国金融风险相关数据指标具有历史数据量少、非线性、高维度等特点。
52.但是,支持向量机的分类性能在相当程度上是依赖于惩罚系数和核函数参数。相关技术中,一般是利用网格搜索等传统算法和群智能算法对支持向量机进行参数优化,例如:遗传算法、蚁群算法等等。但是这些算法容易陷入局部最优,搜索到局部极小值,而非全局最优值,导致支持向量机在应用于信用风险预测时,准确度较低。
53.有鉴于此,本公开的实施例提供了一种信息预测方法,包括:响应于来自客户端的针对目标企业的信用风险预测请求,从数据库中获取目标企业的运营状况信息;将运营状况信息输入分类模型,输出分类结果;其中,分类模型是先利用混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,其中,样本数据包括企业的运营状况信息和信用类别信息,第t+1次迭代训练的模型参数是根据第t次迭代训练的结果确定的,其中,t为正整数;以及根据分类结果,生成目标企业的信用风险预测结果信息。
54.图1示意性示出了根据本公开实施例的信息预测的应用场景图。
55.如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
56.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
57.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
58.服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
59.需要说明的是,本公开实施例所提供的信息预测方法一般可以由服务器105执行。相应地,本公开实施例所提供的信息预测装置一般可以设置于服务器105中。本公开实施例所提供的信息预测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的信息预测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
60.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
61.以下将基于图1描述的场景,通过图2~图4对公开实施例的信息预测方法进行详细描述。
62.图2示意性示出了根据本公开实施例的信息预测方法的流程图。
63.如图2所示,该实施例的信息预测方法包括操作s210~操作s230。
64.在操作s210,响应于来自客户端的针对目标企业的信用风险预测请求,从数据库中获取目标企业的运营状况信息。
65.根据本公开的实施例,目标企业的运营状况信息可以包括总资产利润率(roa)、营业净利率(ros)、利息保障倍数(icr)、资产负债率(dar)、长期资本负债率(llr)、流动比率(lr)、速动比率(qr)、现金比率(cr)、总资产周转率(at)、营运资金周转率(wct)等等。上述运行状况信息均可以从公开的数据库中获取,例如:csmar数据库。
66.在操作s220,将运营状况信息输入分类模型,输出分类结果;其中,分类模型是先利用混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,其中,样本数据包括企业的运营状况信息和信用类别信息,第t+1次迭代训练的模型参数是根据第t次迭代训练的结果确定的,其中,t为正整数。
67.根据本公开的实施例,将运营状况信息可以作为一个输入向量,输入分类模型,输出的分类结果可以表征目标企业运营状况良好或目标企业运营状况较差。例如:输出的分类结果接近于1可以表示目标企业运营状况良好。输出的分类结果接近于-1可以表示目标企业运营状况较差。
68.在操作s230,根据分类结果,生成目标企业的信用风险预测结果信息。
69.根据本公开的实施例,例如:分类结果为0.9,表示该目标企业的运营状况良好,生成的目标企业的信用风险预测结果信息可以为信用风险较低。
70.根据本公开的实施例,例如:分类结果为-0.5,表示该目标企业的运营状况较差,生成的目标企业的信用风险预测结果信息可以为信用风险较高。
71.根据本公开的实施例,通过从数据库中获取目标企业的运营状况信息,将运营状况信息输入分类模型,输出分类结果,根据分类结果,生成目标企业的信用风险预测结果信息。由于分类模型是先混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,提高了输入的运营状况信息的寻优效率与遍历均匀性,在一定程度上提高了信用风险预测结果的准确度。
72.图3示意性示出了根据本公开实施例的分类模型的训练方法的流程图。
73.如图3所示,该分类模型的训练方法包括操作s310~s340。
74.在操作s310,获取n个企业的运营状况信息和信用类别信息作为样本数据,其中,每一个企业的运营状况信息中包括m个运营指标信息,m、n均为正整数。
75.根据本公开的实施例,信用类别信息可以包括信用程度较低的类别和信用程度较高的类别。信用程度较低类别的企业表示该企业已发生过贷款违约事件。信用程度较高类别的企业表示该企业未发生过贷款违约事件。
76.根据本公开的实施例,每一个样本数据可以表示为m维的向量,信用类别信息可以作为该样本数据的标签,可以分别以+1、-1表示,“+1”标签表示该样本数据对应的企业信用程度较高,
“‑
1”标签表示该样本数据对应的企业信用程度较低。
77.在操作s320,根据信用风险预测场景的应用需求,确定迭代条件和初始化参数。
78.根据本公开的实施例,迭代条件可以包括最大迭代次数、迭代终止阈值等等。初始化参数可以包括样本数据构成的粒子群的群体规模、粒子的维度、初始粒子的速度、惩罚参数取值范围、核参数取值范围等等。
79.根据本公开的实施例,信用风险预测场景的应用需求可以包括不用应用场景对信用风险的预测需求,例如:贷款审批应用场景中,信用风险预测的需求的精度较高,可以确定的迭代条件包括最大迭代次数可以为200,也可以根据实际应用需求确定具体的迭代终止阈值。
80.根据本公开的实施例,例如:在贷款审批应用场景中,可以设置的初始化参数包括:种群规模可以为20,初始粒子的最大速度可以为0.5,初始粒子的最小速度可以为-0.5,惩罚参数取值范围可以为(0,100],核参数取值范围可以为(0,100]。
81.在操作s330,根据初始化参数,利用混沌映射初始化样本数据,得到样本数据集。
82.根据本公开的实施例,例如,可以利用logistic混沌映射算法初始化样本数据,每一个样本数据作为一个粒子,在粒子群的位置可以表示为x(c,σ)其中,c表示惩罚参数、σ表示核参数,在训练过程中惩罚参数c、核参数σ均为待优化参数。在解空间的分布是随机的,经过混沌映射后,粒子的位置x(c,σ)在解空间的分布式均匀分布的,使得训练分类模型可以得到全局最优的粒子位置。
83.根据本公开的实施例,例如:混沌映射过程可以如式(1)表示:
84.cx=(x-rand
min
)/(rand
max-rand
min
)
85.cx

=a
×
cx
×
(1-cx)
86.x

=rand
min
+cx
′×
(rand
max-rand
min
)
ꢀꢀꢀ
(1)
87.其中,cx表示混沌映射变量,取值范围为[0,1];x表示初始粒子;x

表示混沌映射后的粒子;a表示混沌映射系统参数,取值范围为[0,4];rand
min
表示初始化参数中惩罚参数、核参数的取值范围中的最小值;rand
max
表示初始化参数中惩罚参数、核参数的取值范围中的最大值。
[0088]
在操作s340,按照迭代条件,将样本数据集输入预设模型进行迭代训练,得到训练完成的分类模型。
[0089]
根据本公开的实施例,例如:可以设置最大迭代次数为200,按照最大迭代次数,训练预设模型,在训练过程中,粒子在解空间中的适应度会逐渐趋于收敛,可以根据实际应用需求,设定适应度的阈值,当粒子在解空间中的适应度达到预设阈值时,完成迭代训练,可以得到训练完成的分类模型。
[0090]
根据本公开的实施例,利用logistic混沌映射提高初始解质量,提升粒子群算法的全局搜索能力,改善群体智能算法在接近最优解时,种群多样性减少,易陷入局部最优等问题,将logistic混沌映射应用到粒子群算法(pso)中,增加了初始解分布的均匀性,提高了寻优效率与遍历均匀性,改善了群体搜索能力,一定程度上克服了群体智能算法在接近最优解时种群多样性减少,易陷入局部最优,搜索精度降低等不足,同时改进优化基本粒子群算法,使得全局搜索能力以及局部的开发能力得到提升,并且改善寻优的收敛速度,提高了算法的挖掘能力和算法效率,从而提高了分类模型的分类的准确度。
[0091]
根据本公开的实施例,将样本数据集输入预设模型进行迭代训练,得到训练完成的分类模型;
[0092]
将样本数据集输入预设模型,输出分类结果,分类结果表征每一个样本数据在样本数据集中的适应度;
[0093]
根据第t次迭代训练中样本数据的适应度,采用自适应权重法,确定第t+1次迭代训练的模型参数;
[0094]
采用k折交叉验证的策略对预设模型进行迭代训练,直至分类结果满足迭代条件,得到训练完成的分类模型,其中,k为大于5且小于20的正整数。
[0095]
根据本公开的实施例,例如:在第t次迭代训练中,第i个粒子的当前位置可以如式(2)所示:
[0096]
xi(t)=[x
i,1
(t),x
i,2
(t),

,x
i,n
(t)]
ꢀꢀꢀ
(2)
[0097]
其中,x
i,n
(t)表示当前第i个企业的第n个运营指标数据的位置。
[0098]
第i个粒子的当前速度可以如式(3)所示:
[0099]vi
(t)=[v
i,1
(t),v
i,2
(t),

,v
i,n
(t)]
ꢀꢀꢀ
(3)
[0100]
其中,v
i,n
(t)表示当前第i个企业的第n个运营指标数据的速度。
[0101]
第i个粒子的当前个体最优位置可以如式(4)所示:
[0102]
pi(t)=[p
i,1
(t),p
i,2
(t),

,p
i,n
(t)]
ꢀꢀꢀ
(4)
[0103]
其中,p
i,n
(t)表示当前第i个企业的第n个运营指标数据的最优位置。
[0104]
由于第t次迭代训练中粒子位置更新的过程可以按式(5)所示:
[0105][0106]
因此,第i个粒子的全局最佳位置可以如式(6)所示:
[0107]
g(t)=pg(t)=[p
g,1
(t),p
g,2
(t),

,p
g,n
(t)],1≤g≤m
ꢀꢀꢀ
(6)
[0108]
第i个粒子在训练过程粒子速度的更新可以如式(7)所示,粒子位置的更新可以如式(8)所示:
[0109]vi,j
(t+1)=v
i,j
(t)+c1·r1,i,j
(t)
·
(p
i,j
(t)-x
i,j
(t))+c2·r2,i,j
(t)
·
(gj(t)-x
i,j
(t))
ꢀꢀꢀ
(7)
[0110]
x
i,j
(t+1)=v
i,j
(t+1)+x
i,j
(t)
ꢀꢀꢀ
(8)
[0111]
其中,1≤i≤m,m表示经过混沌映射后得到的测试数据集的粒子群体数目;1≤j≤n,n表示参数搜索空间维度,即样本数据中每一个企业中的运营指标数;粒子进行搜索时的第t次参数寻优表示为t;c1、c2表示粒子群的学习因子,其中,c1用于调整向自身学习的部分,依赖个体经验;c2用于调整向群体学习,对整个粒子群进行学习;r
1,i,j
(t)和r
2,i,j
(t)是在(0,1)范围内产生的随机数;为防止粒子在进行参数寻优的过程中,跳出空间范围,对粒子速度范围进行设置,即v
i,j
(t)∈[-v
max
,v
max
],同样的,对粒子的位置范围进行设置,即x
i,j
(t)∈[-x
max
,x
max
]。根据算法原理,粒子群不断靠近当前全局最优位置,且根据适应度,不断更新全局最优解,可令粒子群聚合集中在该新的最优位置。
[0112]
根据本公开的实施例,分类模型的训练过程的目的在于通过算法确定最优分类超平面及决策函数对应的惩罚参数c*和核参数σ*。在参数空间进行寻优的过程中,为了兼顾全局的勘探和后期的局部开发,并且提升群体后期的收敛速度,在粒子群搜索的前期,可以加强粒子对全局的搜索能力,扩大寻优范围,尽量避免粒子陷入局部最优;在后期,粒子群已接近全局最优值,此时可以加强粒子对局部的开发能力,对邻域进行搜索,有效加快收敛速度。
[0113]
有鉴于此,本公开实施例中采用自适应权重法确定第t+1次迭代训练的模型参数。
[0114]
根据本公开的实施例,采用自适应权重法可以如式(9)、(10)、(11)所示:
[0115][0116]
其中,f表示第t-1次迭代训练中当前粒子的个体适应度值;f
max
表示第t-1次迭代训练中最优粒子的个体适应度值;f
avg
表示第t-1次迭代训练中粒子群的平均适应度值;w
min
表示第t-1次迭代训练中惯性权重系数的最小取值;w
max
表示第t-1次迭代训练中惯性权重系数的最大取值。
[0117]
c1=c
max-c
max
×
(t-1)/maxgen
ꢀꢀꢀ
(10)
[0118]
c2=c
min
+(t-1)/maxgen
ꢀꢀꢀ
(11)
[0119]
其中,t表示当前的迭代次数,c
max
表示第t次迭代训练中学习因子的最大值,c
min
表示第t次迭代训练中学习因子的最小值。maxgen表示迭代条件中的最大迭代次数。
[0120]
根据本公开的实施例,可以根据第t次迭代训练的结果,通过自适应权重法,在参数空间中确定第t+1次迭代训练的模型参数。与传统的固定学习参数和惯性系数的方法相
比,使得全局搜索能力以及局部的开发能力得到提升,并且改善寻优的收敛速度。
[0121]
根据本公开的实施例,采用k折交叉验证的策略对预设模型进行迭代训练,直至分类结果满足迭代条件,得到训练完成的分类模型,包括:
[0122]
针对第t次迭代训练,将样本数据集分为k组,将第k组样本数据作为测试数据集,将其他k-1组样本数据作为训练数据集;
[0123]
将k组样本数据输入利用k-1组样本数据训练得到的分类模型,输出分类结果;
[0124]
在样本数据集中的全部样本数据均完成测试的情况下,根据第t次迭代训练的全部分类结果和信用类别信息,确定第t次迭代训练的分类准确率;
[0125]
在分类准确率满足迭代条件的情况下,得到训练完成的分类模型。
[0126]
根据本公开的实施例,以k取10的十折交叉验证策略为例,针对第t次迭代训练,可以将样本数据集分为10组,将第1组数据作为测试数据集,将其余9组数据作为训练数据集。利用其余的9组数据训练预设模型得到分类模型a1,将第1组数据输入到分类模型a1中,得到分类结果t1。再将第2组数据作为测试数据集,将其余9组作为训练数据集。利用其余的9组数据训练预设模型得到分类模型a2,将第2组数据输入到分类模型a2中,得到分类结果t2,以此类推,直至全部10组数据均作为过测试数据集完成上述测试过程为止,可以得到分类结果t1、t2、...、t
10
,将分类结果的平均准确率作为第t次迭代训练作为粒子的适应度值f。
[0127]
根据本公开的实施例,在进行迭代训练的过程中,适应度值会不断收敛,可以将分类准确率最高作为迭代的终止条件,此时,最高分类准确率的粒子对应的一组参数即为最优分类超平面及决策函数对应的惩罚参数c*和核参数σ*,从而得到训练完成的分类模型。
[0128]
根据本公开的实施例,分类模型的决策函数f(c*,σ*)可以如式(12)所示:
[0129][0130]
其中,xi表示目标企业的运营状况数据;yi表示输出结果;k(xi,x)表示rbf核函数,其中,x表示核参数σ*,惩罚参数c*,ai*、b*表示第i个粒子的最优解。
[0131]
根据本公开的实施例,通过k折交叉验证策略优化每一次迭代训练的分类结果,可以提高训练模型的分类准确度。
[0132]
由于从公开的数据库中企业运营状况数据中包括多个维度的运营指标数据,数据维度较高,而且不同类型的运营指标数据之间可能存在较高的相关性,影响分类模型的分类准确率。
[0133]
根据本公开的实施例,上述分类模型的训练方法还包括:
[0134]
针对每一个企业的运营状况信息,根据m个运营指标信息,确定m个运营指标信息的关联关系;
[0135]
根据关联关系,通过主成分分析法,确定每一个运营指标的累计贡献率;
[0136]
根据累计贡献率,将m个运营指标信息进行降维处理,得到p个运营指标信息,其中p为小于m的正整数。
[0137]
根据本公开的实施例,例如:每一个企业的运营状况信息中包括23个不同类型的运营指标数据,可以通过主成分分析法,确定23个不同类型的运营指标数据的累积贡献率,例如:前10个主成分的累积贡献率为88.6%,可以确定前10个主成分指标基本包含了全部23个运营指标中所具有的信息。可以将23个运营指标数据进行降维处理,将前10个主成分
指标作为样本数据中的指标类型。
[0138]
根据本公开的实施例,通过主成分分析法,可以对原始样本数据进行降维处理,从而有效降低样本数据维度过高且存在一定的关联关系对分类结果准确率的影响,提高了分类模型的分类准确率。
[0139]
一般情况下,可以设置分类结果在[0,1]之间的企业的信用风险预测结果为信用良好,即信用风险较低;设置分类结果在[-1,0]之间的企业的信用风险预测结果为信用较差,及信用风险较高。对于处于不同运营阶段的企业,可以结合企业的运营趋势对信用风险进行预测。
[0140]
根据本公开的实施例,上述信息预测方法还包括:
[0141]
根据目标企业的运营状况信息,确定目标企业的运营趋势信息;
[0142]
根据分类结果和目标企业的运营趋势信息,生成目标企业的信用风险预测结果信息。
[0143]
根据本公开的实施例,可以根据目标企业在预设周期内的运营状况信息,确定目标企业的运营趋势信息。例如:目标企业a在预设周期内的运营状况呈增长趋势,对于处于运营增长阶段的企业可以设置信用良好的区间为[-0.2,1],对于处于运营降低阶段的企业可以设置信用良好的区间为[0.4,1]。
[0144]
根据本公开的实施例,结合企业运营趋势和分类结果,生成目标企业的信用风险预测结果信息。综合考虑了企业不同的运营阶段下运营指标信息对信用风险的影响程度,使得信用风险预测结果更为精确。
[0145]
基于上述信息预测方法,本公开还提供了一种信息预测装置。以下将结合图4对该装置进行详细描述。
[0146]
图4示意性示出了根据本公开实施例的信息预测装置的结构框图。
[0147]
如图4所示,该实施例的信息预测装置400包括获取模块410、预测模块420和第一生成模块430。
[0148]
获取模块410用于响应于来自客户端的针对目标企业的信用风险预测请求,从数据库中获取目标企业的运营状况信息。在一实施例中,获取模块410可以用于执行前文描述的操作s210,在此不再赘述。
[0149]
预测模块420用于将运营状况信息输入分类模型,输出分类结果;其中,分类模型是先利用混沌映射初始化样本数据得到样本数据集,再对预设模型进行迭代训练得到的,其中,样本数据包括企业的运营状况信息和信用类别信息,第t+1次迭代训练的模型参数是根据第t次迭代训练的结果确定的,其中,t为正整数。在一实施例中,预测模块420可以用于执行前文描述的操作s220,在此不再赘述。
[0150]
第一生成模块430用于根据分类结果,生成目标企业的信用风险预测结果信息。在一实施例中,第一生成模块430可以用于执行前文描述的操作s230,在此不再赘述。
[0151]
根据本公开的实施例,预测模块包括获取子模块、第一确定子模块、初始化子模块和训练子模块。其中,获取子模块,用于获取n个企业的运营状况信息和信用类别信息作为样本数据,其中,每一个企业的运营状况信息中包括m个运营指标信息,m、n均为正整数。第一确定子模块,用于根据信用风险预测场景的应用需求,确定迭代条件和初始化参数。初始化模块,用于根据初始化参数,利用混沌映射初始化样本数据,得到样本数据集。训练子模
块,用于按照迭代条件,将样本数据集输入预设模型进行迭代训练,得到训练完成的分类模型。
[0152]
根据本公开的实施例,训练子模块包括输出单元、确定单元和训练单元。其中,输出单元,用于将样本数据集输入预设模型,输出分类结果,分类结果表征每一个样本数据在样本数据集中的适应度。确定单元,用于根据第t次迭代训练中样本数据的适应度,采用自适应权重法,确定第t+1次迭代训练的模型参数。训练单元,用于采用k折交叉验证的策略对预设模型进行迭代训练,直至分类结果满足迭代条件,得到训练完成的分类模型,其中,k为大于5且小于20的正整数。
[0153]
根据本公开的实施例,训练单元包括分组子单元、输出子单元、第一确定子单元和第二确定子单元。其中,分组子单元,用于针对第t次迭代训练,将样本数据集分为k组,将第k组样本数据作为测试数据集,将其他k-1组样本数据作为训练数据集。输出子单元,用于将k组样本数据输入利用k-1组样本数据训练得到的分类模型,输出分类结果。第一确定子单元,用于在样本数据集中的全部样本数据均完成测试的情况下,根据第t次迭代训练的全部分类结果和信用类别信息,确定第t次迭代训练的分类准确率。第二确定子单元,用于在分类准确率满足迭代条件的情况下,得到训练完成的分类模型。
[0154]
根据本公开的实施例,上述预测模块还包括第二确定子模块、第三确定子模块和处理子模块。其中,第二确定子模块,用于针对每一个企业的运营状况信息,根据m个运营指标信息,确定m个运营指标信息的关联关系。第三确定子模块,用于根据关联关系,通过主成分分析法,确定每一个运营指标的累计贡献率。处理子模块,用于根据累计贡献率,将m个运营指标信息进行降维处理,得到p个运营指标信息,其中p为小于m的正整数。
[0155]
根据本公开的实施例,上述信息预测装置还包括确定模块和第二生成模块。其中,确定模块,用于根据目标企业的运营状况信息,确定目标企业的运营趋势信息。第二生成模块,用于根据分类结果和目标企业的运营趋势信息,生成目标企业的信用风险预测结果信息。
[0156]
根据本公开的实施例,获取模块410、预测模块420和第一生成模块430中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块410、预测模块420和第一生成模块430中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块410、预测模块420和第一生成模块430中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0157]
图5示意性示出了根据本公开实施例的适于实现信息预测方法的电子设备的方框图。
[0158]
如图5所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如cpu)、指令
集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0159]
在ram 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、rom 502以及ram 503通过总线504彼此相连。处理器501通过执行rom 502和/或ram 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 502和ram 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0160]
根据本公开的实施例,电子设备500还可以包括输入/输出(i/o)接口505,输入/输出(i/o)接口505也连接至总线504。电子设备500还可以包括连接至i/o接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
[0161]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0162]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 502和/或ram 503和/或rom 502和ram 503以外的一个或多个存储器。
[0163]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
[0164]
在该计算机程序被处理器501执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0165]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0166]
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,
和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0167]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0168]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0169]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0170]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1