基于量子最小二乘法的风险评估方法、存储介质及终端与流程

文档序号:27426800发布日期:2021-11-17 20:34阅读:149来源:国知局
基于量子最小二乘法的风险评估方法、存储介质及终端与流程

1.本发明涉及量子最小二乘法技术领域,尤其涉及基于量子最小二乘法的风险评估方法、存储介质及终端。


背景技术:

2.经典的个人信用评估线性回归模型受限于传统计算机的硬件限制,在其模型建立过程中,如果数据量小,能够很快的处理数据建立模型;但当数据量大的时候,其往往需要更长久的时间去建立模型,然而为保证模型建立的精准度,需要基于大量的训练数据进行训练,在此基础上,模型的预测精准度与计算效率之间的关系难以平衡兼顾。同时,个人信用评估线性回归模型存在着明显的缺陷,其等式右边取值范围可以为(

∞,+∞),等式左边违约或守信的取值范围只能在区间(0,1)内,这也就意味着模型要么对右边数据进行处理,这将会大大增加预测误差;要么将左边变成一个关于因变量可以取任意值的函数才能够让模型更有意义,即此时输出的预测结果无参考价值。在基础上,如何提高评估线性回归模型的数据处理效率及预测精准度是目前亟需解决的技术问题。


技术实现要素:

3.本发明的目的在于克服现有线性回归模型数据处理效率、预测精准度不高的问题,提供了基于量子最小二乘法的风险评估方法、存储介质及终端。
4.本发明的目的是通过以下技术方案来实现的:基于量子最小二乘法的风险评估方法,所述方法包括:
5.基于因子分析对采集的指标数据进行优化处理,并建立测试样本集和训练样本集;
6.将训练数据集应用量子最小二乘算法生成线性回归模型的量子态回归参数;
7.利用量子态回归参数构建线性回归模型,进而计算风险概率。
8.在一示例中,所述基于因子分析对采集的指标数据进行优化处理具体包括:
9.建立因子分析模型对自变量进行分析,计算各样本的因子变量得分,所述因子分析模型具体为:
10.x
i
=a
i1
f1+a
i2
f2+

+a
im
f
m
+a
i
ε
i
11.其中,a表示因子载荷矩阵;f表示提取出来的公因子;a
ij
表示因子载荷;ε表示不能被公因子解释的部分;
12.以公因子作为自变量,风险评估结果二元变量作为因变量,建立测试样本集和训练样本集。
13.在一示例中,所述将训练数据集应用量子最小二乘算法生成线性回归模型的量子态回归参数具体包括:
14.获取线性回归模型方程;
15.基于最小二乘法表示线性回归模型的回归系数,采用hhl量子算法求解量子态回
归参数,具体包括:
16.相位估计步骤:通过相位估计得到自变量厄米矩阵的特征值的二进制近似表示|e
j
>;
17.受控旋转步骤:以自变量厄米矩阵的特征解的近似解|e
j
>作为控制比特对附加量子比特进行旋转,将|e
j
>上的值提取到量子态的概率幅上;
18.逆相位估计步骤:将|e
j
>

|0>;
19.测量附加量子比特,若测量结果为1,得到输出量子态近似解
20.将输出量子态近似解作为hhl量子算法计算的输入,重复上述hhl量子算法进而得到量子态回归参数|λ>。
21.在一示例中,令线性回归模型方程为:
22.y
i
=x
i1
λ1+x
i2
λ2+

+x
im
‑1λ
m
‑1+λ
m
23.其中,y
i
表示因变量;x
i
表示自变量;λ表示参数矩阵;
24.基于最小二乘法表示线性回归模型的回归系数:
25.其中,x表示自变量矩阵;表示转置;y表示因变量矩阵;
26.采用hhl量子算法求解量子态回归参数具体包括:
27.将因变量矩阵y编码为量子态作为输入向量,并引入超算符i将自变量矩阵x转换为厄米矩阵,
28.调用酉算子应用至厄米矩阵的每个本征态特征向量上,进而估计出厄米矩阵的特征解的近似解|e
j
>;
29.在厄米矩阵的本征空间上分解得到在厄米矩阵的特征空间上的特征值β
j

30.以自变量厄米矩阵的特征解的近似解|e
j
>作为控制比特对附加量子比特进行旋转,更新量子系统状态为:
[0031][0032]
其中,c表示常数,且c∈o(max
j
|e
j
|)
‑1;β
j
表示y在厄米矩阵的特征空间的特征值;|μ
j
>表示厄米特矩阵的特征向量;
[0033]
执行逆相位估计,此时量子系统状态更新为:
[0034][0035]
测量附加量子比特,若测量结果为1,得到输出量子态近似解否则,重新计算;
[0036]
将输出量子态近似解作为hhl量子算法的输入,引入超算符a,
将a转换为酉操作e
iat
,重复上述hhl量子算法求解步骤,旋转附加量子比特得到:其余步骤相同,最后得到量子态回归参数|λ>。
[0037]
在一示例中,所述计算风险概率具体包括:
[0038]
将|0>、量子态自变量|x

>和量子态回归参数|λ>作为线性回归模型的swap test的第一、二、三个输入量子态,进而测量输出的第一量子态,计算测量得到|0>的概率进而计算出风险概率。
[0039]
在一示例中,所述方法还包括:
[0040]
根据线性回归模型的测量结果计算样本决定系数,并基于样本决定系数确定最终用于进行风险评估的线性回归模型。
[0041]
在一示例中,所述样本决定系数的计算公式为:
[0042][0043]
其中,ssr表示回归平方和,具体为sst表示总离差平方和,具体为其中,表示拟合值,y
i
表示第i个真实值,表示真实y值的平均值。
[0044]
在一示例中,所述基于因子分析对采集的指标数据进行优化处理步骤前还包括:
[0045]
对指标数据进行归一化处理,具体包括:
[0046]
采用最小

最大规范化法对离散型指标数据进行处理;
[0047]
采用概率变换法对连续型数据进行处理。
[0048]
需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
[0049]
本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一示例或多个示例组合形成的所述基于量子最小二乘法的风险评估方法的步骤。
[0050]
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于:所述处理器运行所述计算机指令时执行上述任一示例或多个示例组合形成的所述基于量子最小二乘法的风险评估方法的步骤。
[0051]
与现有技术相比,本发明有益效果是:
[0052]
(1)在一示例中,基于hhl量子算法求解线性回归模型的量子态回归参数,实现了求解时间复杂度的指数级加速,并降低了计算资源性能要求;在计算出量子态回归参数基础上构建线性回归模型,进而计算出风险概率;同时由于建立线性回归模型过程中处理的数据量比经典模型中处理的更加庞大,进而能够减小样本数据中异常数据对模型的构建造成的影响,使构建的线性回归模型具备更高预测精准度。进一步地,由于对量子态的测量最后得到的是一个[0,1]区间的概率,可以弥补传统个人信用线性回归模型中预测结果误差大或预测结果无意义的问题。
[0053]
(2)在一示例中,本发明通过样本决定系数选择最终用于风险评估的线性回归模
型,能够选出样本数据模拟性能良好的线性回归模型,进一步保证了预测结果的精准度。
附图说明
[0054]
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
[0055]
图1为本发明一示例中的方法流程图;
[0056]
图2为本发明一示例中的方法流程图。
具体实施方式
[0057]
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0058]
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0059]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0060]
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0061]
本发明通过量子最小二乘算法得到回归系数,然后通过得到的回归系数构造用于风险评估的线性回归模型,利用该模型去实现对风险概率的计算,实现了利用量子算法快速处理大规模样本数据,使构建模型的过程更加快速,且模型预测精准度更高,能够应用于多种风险评估场景,如个人信用风险评估,能够更加准确、快速地辨别用户个人信用好坏。
[0062]
如图1所示,基于量子最小二乘法的个人信用风险评估方法,具体包括以下步骤:
[0063]
s1:基于因子分析对采集的指标数据进行优化处理,并建立测试样本集和训练样本集;其中,指标数据为风险评估过程中涉及的自变量风险评估数据及因变量风险评估数据,本示例中具体为影响个人信用评价的指标数据以及信用指标数据,包括年龄、配偶、工作情况、资产、信用记录等。
[0064]
s2:将训练数据集应用量子最小二乘算法生成线性回归模型的量子态回归参数;
[0065]
s3:利用量子态回归参数构建线性回归模型,进而计算风险概率。
[0066]
在本示例中,本发明基于hhl量子算法求解线性回归模型的量子态回归参数,能够大大降低计算所需时间复杂度,实现了求解时间复杂度的指数级加速,同时能用更少的比
特表示更多的信息,降低了计算资源性能要求;在计算出量子态回归参数基础上构建线性回归模型,输入量子态自变量进而计算出风险概率;同时由于建立线性回归模型过程中处理的数据量比经典模型中处理的更加庞大,进而能够减小样本数据中异常数据对模型的构建造成的影响,使构建的线性回归模型具备更高预测精准度。进一步地,由于对量子态的测量最后得到的是一个[0,1]区间的概率,可以弥补传统个人信用线性回归模型中预测结果误差大或预测结果无意义的问题。
[0067]
在一示例中,为简化后续量子态回归参数计算量,提升整个计算过程的计算效率,本发明利用因子分析对采集的指

标数据进行优化处理,以此使用少量的因子优化处理前大量变量(指标数据),实现数据的降维处理。具体地,基于因子分析对采集的指标数据进行优化处理具体包括:
[0068]
计算原有自变量的相关系数矩阵,选取相关系数大于0.3的自变量进行因子分析;使用主成分分析法构造因子变量,进而为因子分析初始解;再利用旋转法使因子变量具有可解释性;最后计算各样本的因子变量得分,所述因子分析模型为:
[0069]
x
i
=a
i1
f1+a
i2
f2+

+a
im
f
m
+a
i
ε
i
[0070]
更为具体地,该因子分析模型的矩阵形式为:
[0071]
x=af+aε
[0072]
其中,a表示因子载荷矩阵;f表示提取出来的公因子(因子变量),每个公因子均包括原始指标数据信息;a
ij
表示因子载荷,表示第i个原始变量在第j个因子变量上的负荷,即它们之间的关联度;ε表示不能被公因子解释的部分,类似扰动项;
[0073]
以公因子作为自变量,风险评估结果二元变量作为因变量,将样本数据集按照五分之一和五分之四的比例划分为测试样本集和训练样本集。
[0074]
在一示例中,所述将训练数据集应用量子最小二乘算法生成线性回归模型的量子态回归参数具体包括:
[0075]
s21:获取线性回归模型方程;
[0076]
s22:基于最小二乘法表示线性回归模型的回归系数;
[0077]
s23:采用hhl量子算法求解量子态回归参数,包括:
[0078]
s231:相位估计步骤:通过相位估计得到自变量厄米矩阵的特征值的二进制近似表示|e
j
>;
[0079]
s232:受控旋转步骤:以自变量厄米矩阵的特征解的近似解|e
j
>作为控制比特对附加量子比特进行旋转,将|e
j
>上的值提取到量子态的概率幅上;
[0080]
s233:逆相位估计步骤:将|e
j
>

|0>;
[0081]
s234:测量附加量子比特,若测量结果为1,得到输出量子态近似解
[0082]
s235:将输出量子态近似解作为hhl量子算法计算的输入,重复上述hhl量子算法进而得到量子态回归参数|λ>。
[0083]
作为一优选示例,上述示例将训练数据集应用量子最小二乘算法生成线性回归模型的量子态回归参数具体为:
[0084]
令线性回归模型方程为:
[0085]
y
i
=x
i1
λ1+x
i2
λ2+

+x
im
‑1λ
m
‑1+λ
m
[0086]
其中,y
i
表示因变量;x
i
表示自变量;λ表示参数矩阵。
[0087]
基于最小二乘法表示线性回归模型的回归系数,结果为:
[0088][0089]
其中,λ表示参数矩阵,是一个m维的列向量,包含了所有的λ
i
值;x表示自变量矩阵,是一个n行m列的矩阵,每一行包含了m

1个自变量x
i
以及一个1;y表示数据集中因变量矩阵,它是一个n维的列向量,包含了所有的y
i
值。
[0090]
其中,x表示自变量矩阵;表示转置;y表示因变量矩阵;
[0091]
采用hhl量子算法求解量子态回归参数具体包括:
[0092]
将因变量矩阵y编码为量子态作为输入向量,量子态|y>具体为:
[0093][0094]
其中,y
p
表示第p

m个因变量值;|p>表示|y>中第p个量子态。定义一超算符i,将自变量矩阵x转换为一个(n+m)x(n+m)维hermitian矩阵,且同时引入a来表示相应的算子,
[0095]
将作为量子相位估计的输入,其中|μ
j
>是的一个特征向量,对应特征值是e
j
;β
j
表示y在厄米矩阵的特征空间的特征值;然后将hermitian矩阵转换为酉操作然后调用酉算子应用至厄米矩阵的每个本征态特征向量上,在厄米矩阵的本征空间上分解进而估计出厄米矩阵的特征解的近似解|e
j
>;具体地,量子相位估计模型包括hadamard门、酉算子和逆量子傅里叶变换,此时时钟寄存器中存储了特征值|e
j
>,输入寄存器中存储β
j

j
>。以自变量厄米矩阵的特征解的近似解|e
j
>作为控制比特对附加量子比特进行旋转,使其从|0>成为叠加态态此时更新量子系统状态为:
[0096][0097]
其中,c表示常数,且c∈o(max
j
|e
j
|)
‑1;β
j
表示y在厄米矩阵的特征空间的特征值;|μ
j
>表示厄米特矩阵的特征向量;
[0098]
执行逆相位估计,此时量子系统状态更新为:
[0099]
[0100]
测量附加量子比特,若测量结果为1,得到输出量子态近似解否则,重新计算;
[0101]
将输出量子态近似解作为hhl量子算法的输入,将a转换为酉操作e
iat
,重复上述hhl量子算法求解步骤,旋转附加量子比特得到:其余步骤相同,最后得到量子态回归参数|λ>。
[0102]
在一示例中,本发明提供了一种基于量子最小二乘法的风险评估模型建立方法,在已经计算出量子态回归参数|λ>的基础上,构建线性回归模型,进而基于所述线性回归模型(风险评估模型)计算风险概率。具体地,此时线性回归模型为:
[0103]
y
i
=x
i1
λ1+x
i2
λ2+

+x
im
‑1λ
m
‑1+λ
m
[0104]
此时仅需输入量子态自变量x
i1
,x
i2
,

,x
im
‑1,1即可求得y
i
。具体地,将x
i1
,x
i2
,

,x
im
‑1,1编码为量子态|x

〉,然后将|0〉、|x

〉和|λ〉作为swap test的第一、二、三个输入量子态,即可测量输出的第一量子态,多次测量后计算测量得到|0〉的概率p(|0>),根据概率计算公式得得即可得到关于违约概率或守信概率。
[0105]
在一示例中,如图2所示,所述方法还包括模型选择步骤:
[0106]
s4:根据线性回归模型的测量结果计算样本决定系数,并基于样本决定系数确定最终用于进行风险评估的线性回归模型。具体地,所述样本决定系数的计算公式为:
[0107][0108]
其中,ssr表示回归平方和,具体为sst表示总离差平方和,具体为其中,表示拟合值,y
i
表示第i个真实值,表示真实y值的平均值。本示例中,提供了一种基于量子最小二乘法的风险评估模型选择方法,通过样本决定系数选择最终用于风险评估的线性回归模型,能够选出样本数据模拟性能良好的线性回归模型,进一步保证了预测结果的精准度。
[0109]
在一示例中,所述基于因子分析对采集的指标数据进行优化处理步骤前还包括:
[0110]
s0:对指标数据进行归一化处理,具体包括:
[0111]
s01:采用最小

最大规范化法对离散型指标数据进行处理;
[0112]
s02:采用概率变换法对连续型数据进行处理。
[0113]
具体地,对于离散型指标数据,采用的最小

最大规范化方法计算公式具体为:
[0114][0115]
其中,x
ij
、x

ij
分别为第i个指标第j个样本的原属性值和新属性值,min x
ij
、max x
ij
分别为第i个指标中所有样本属性的最小值和最大值。
[0116]
对于连续型指标数据,数据分布近似于正态分布,采用概率变换方法转化其值为
(0,1)之间。具体地,均值为μ,方差为σ2的正态分布,概率密度函数的表达式为:对其进行标准化处理,得到:通过转化,获得指标数据的概率,以此实现指标数据的归一化处理,使得不同的指标具有相同的尺度。
[0117]
本实施例提供了一种存储介质,与上述任一示例或多个示例组合形成的风险评估方法具有相同的发明构思,其上存储有计算机指令,所述计算机指令运行时执行上述任一示例或多个示例组合形成所述基于量子最小二乘法的风险评估方法的步骤。
[0118]
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0119]
本实施例还提供一种终端,与上述任一示例或多个示例组合形成的风险评估方法具有相同的发明构思,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一示例或多个示例组合形成所述基于量子最小二乘法的风险评估方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
[0120]
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0121]
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1