用户等级量化方法、装置、设备、存储介质和程序产品与流程

文档序号:30074073发布日期:2022-05-18 02:49阅读:110来源:国知局
用户等级量化方法、装置、设备、存储介质和程序产品与流程

1.本技术涉及信息安全技术领域,特别是涉及一种用户等级量化方法、装置、设备、存储介质和程序产品。


背景技术:

2.信用风险是银行的主要风险,指的是交易对手不能完全履行合同的风险,这种风险一直存在在贷款业务、担保、承兑和证券投资等业务中。如果银行不能及时对信用风险进行识别、评估,并采取措施予以应对,就会面临非常严重的后果。
3.目前,银行主要获取与法人客户相关的财务报表、征信信息和行业信息建立评级模型,对法人客户进行评级,根据法人客户评级后的等级确定授信额度。但是,现有的法人客户评级方法存在准确性较低的问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高法人客户评级方法准确性的用户等级量化方法、装置、设备、可读存储介质和程序产品。
5.第一方面,本技术提供了一种用户等级量化方法,所述方法包括:
6.根据用户的多种文本信息,获取各所述文本信息的量化值;
7.根据各所述文本信息的量化值,确定违约概率区间和所述违约概率区间对应的违约概率;
8.根据所述违约概率区间和所述违约概率对预设的损失函数进行求解,得到各所述文本信息的权重;
9.根据各所述文本信息的量化值、所述权重和所述用户的初始等级量化值,获取所述用户的目标等级量化值。
10.在其中一个实施例中,所述根据用户的多种文本信息,获取各所述文本信息的量化值,包括:
11.根据各所述文本信息和预设的长短期记忆网络,得到各所述文本信息的量化值。
12.在其中一个实施例中,所述根据各所述文本信息和预设的长短期记忆网络,得到各所述文本信息的量化值,包括:
13.对各所述文本信息进行预处理,得到预处理后的文本信息;所述预处理包括去停用词和情感分类中的至少一种处理;
14.将各所述预处理后的文本信息向量化,得到各所述文本信息对应的文本向量;
15.将各所述文本向量输入到所述长短期记忆网络进行量化,得到各所述文本信息的量化值。
16.在其中一个实施例中,所述对各所述文本信息进行预处理,得到预处理后的文本信息,包括:
17.将各所述文本信息和预设的停用词库进行匹配,以去除各所述文本信息中的停用
词,得到各所述文本信息对应的候选文本信息;
18.基于预设的情感词汇库对各所述候选文本信息中的情感词汇进行分类标注,得到所述预处理后的文本信息。
19.在其中一个实施例中,所述根据各所述文本信息的量化值,确定违约概率区间和所述违约概率区间对应的违约概率,包括:
20.将各所述文本信息的量化值和所述初始等级量化值代入预设的违约概率函数中,得到所述违约概率区间;所述违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式;
21.根据所述用户的历史违约数据,确定所述违约概率区间对应的违约概率。
22.在其中一个实施例中,所述根据所述违约概率区间和所述违约概率对预设的损失函数进行求解,得到各所述文本信息的权重,包括:
23.将所述违约概率区间和所述违约概率代入所述损失函数中,对所述损失函数进行最小值求解,得到各所述文本信息的权重。
24.在其中一个实施例中,所述方法还包括:
25.将所述用户的多种结构化数据输入至预设的等级量化网络中,得到所述初始等级量化值;所述等级量化网络为根据多个用户的历史结构化数据构建的网络。
26.在其中一个实施例中,所述方法还包括:
27.从多个不同来源的信息库中获取所述用户的多种文本信息;所述不同来源包括网络数据来源和所述用户所在机构的业务数据来源。
28.第二方面,本技术还提供了一种用户等级量化装置,所述装置包括:
29.第一获取模块,用于根据用户的多种文本信息,获取各所述文本信息的量化值;
30.确定模块,用于根据各所述文本信息的量化值,确定违约概率区间和所述违约概率区间对应的违约概率;
31.求解模块,用于根据所述违约概率区间和所述违约概率对预设的损失函数进行求解,得到各所述文本信息的权重;
32.第二获取模块,用于根据各所述文本信息的量化值、所述权重和所述用户的初始等级量化值,获取所述用户的目标等级量化值。
33.第三方面,本技术还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34.根据用户的多种文本信息,获取各所述文本信息的量化值;
35.根据各所述文本信息的量化值,确定违约概率区间和所述违约概率区间对应的违约概率;
36.根据所述违约概率区间和所述违约概率对预设的损失函数进行求解,得到各所述文本信息的权重;
37.根据各所述文本信息的量化值、所述权重和所述用户的初始等级量化值,获取所述用户的目标等级量化值。
38.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
39.根据用户的多种文本信息,获取各所述文本信息的量化值;
40.根据各所述文本信息的量化值,确定违约概率区间和所述违约概率区间对应的违约概率;
41.根据所述违约概率区间和所述违约概率对预设的损失函数进行求解,得到各所述文本信息的权重;
42.根据各所述文本信息的量化值、所述权重和所述用户的初始等级量化值,获取所述用户的目标等级量化值。
43.第五方面,本技术还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
44.根据用户的多种文本信息,获取各所述文本信息的量化值;
45.根据各所述文本信息的量化值,确定违约概率区间和所述违约概率区间对应的违约概率;
46.根据所述违约概率区间和所述违约概率对预设的损失函数进行求解,得到各所述文本信息的权重;
47.根据各所述文本信息的量化值、所述权重和所述用户的初始等级量化值,获取所述用户的目标等级量化值。
48.上述用户等级量化方法、装置、设备、存储介质和程序产品,涉及信息安全技术领域,根据用户的多种文本信息,获取各文本信息的量化值,根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率,根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重,根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。本技术方法中多种文本信息保证了用户数据的充足性,使得获取的量化值更加丰富,且,精确计算各文本信息的权重,在初始等级量化值的基础上,根据量化值、权重得到目标等级量化值,对用户风险等级进行量化,提高了用户等级量化的准确性,有助于进行更加有效的风险管理,对于应对监管、开展下游业务奠定了重要基础。
附图说明
49.图1为一个实施例中用户等级量化方法的应用环境图;
50.图2为一个实施例中用户等级量化方法的流程示意图;
51.图3为一个实施例中长短期记忆网络示意图;
52.图4为另一个实施例中用户等级量化方法的流程示意图;
53.图5为另一个实施例中用户等级量化方法的流程示意图;
54.图6为另一个实施例中用户等级量化方法的流程示意图;
55.图7为另一个实施例中用户等级量化方法的流程示意图;
56.图8为一个实施例中用户等级量化装置的结构框图;
57.图9为另一个实施例中用户等级量化装置的结构框图;
58.图10为另一个实施例中用户等级量化装置的结构框图;
59.图11为另一个实施例中用户等级量化装置的结构框图;
60.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
61.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
62.需要说明的是,本公开的用户等级量化方法、装置、设备、存储介质和程序产品可以应用在信息安全领域或者其他技术领域。
63.本技术实施例提供的用户等级量化方法,可以应用于如图1所示的应用环境中。该环境包括一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户等级量化相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户等级量化方法。
64.在一个实施例中,如图2所示,提供了一种用户等级量化方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
65.s201,根据用户的多种文本信息,获取各文本信息的量化值。
66.可选的,多种文本信息可以从百度新闻、当地纸媒、财经论坛、公司年报、尽职调查报告等获取,例如,从百度新闻获取的用户的文本信息作为文本信息1,从当地纸媒获取的用户的文本信息作为文本信息2。其中,文本信息主要包括三个要素:文本内容、信息截取的时间、文本信息的权重。信息截取时间为信息开始采集时间到当前时间。例如信息开始采集时间为2019年1月1日,当前时间为2021年12月31日。文本内容包括在信息截取时间段内用户的所有信息,例如,组织机构名称、用户姓名、用户住所、注册或登记号等。
67.在本实施例中,可以将各文本信息分别输入到神经网络模型中,获取各文本信息的量化值,例如,各文本信息分别为文本信息1、文本信息2、文本信息3,神经网络模型可以为卷积神经网络,也可以为循环神经网络等,将文本信息1、文本信息2、文本信息3分别输入到神经网络模型中,得到文本信息1的量化值s1、文本信息2的量化值s2、文本信息3的量化值s3;也可以对各文本信息赋初值,再代入相应关系式f(x),根据关系式获取各文本信息的量化值,例如,文本信息1的初值为a、文本信息2的初值为b、文本信息3的初值为c,分别代入关系式f(x),得到文本信息1的量化值f1、文本信息2的量化值f2、文本信息3的量化值f3。其中,关系式f(x)是预先对大量的文本信息或文本信息中的关键词、特征等进行分析后,针对其信用风险等进行量化打分建立的关系式。
68.s202,根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率。
69.在本实施例中,可以将各文本信息的量化值累加求和,得到文本信息的量化值,将文本信息的量化值和预设规则比对,确定违约概率区间和违约概率区间对应的违约概率。例如,预设规则为文本信息的量化值小于10分,违约概率区间为90%到100%,该违约概率区间对应的违约概率为95%,文本信息的量化值大于等于10分,且小于30分,违约概率区间为70%到90%,该违约概率区间对应的违约概率为80%,文本信息的量化值大于等于30分,
且小于60分,违约概率区间为40%到70%,该违约概率区间对应的违约概率为50%,文本信息的量化值大于等于60分,且小于100分,违约概率区间为10%到30%,该违约概率区间对应的违约概率为20%,文本信息的量化值大于等于100分,违约概率区间为0%到10%,该违约概率区间对应的违约概率为5%,若用户的文本信息的量化值为90分,则对应的违约概率区间为10%到30%,该违约概率区间对应的违约概率为20%。也可以针对每一个文本信息的量化值,根据各文本信息的量化值,确定多个违约概率区间和违约概率区间对应的违约概率,再对多个违约概率区间和违约概率区间对应的违约概率求取平均值。例如,预设规则如上,用户的文本信息1的量化值为30,文本信息2的量化值为70,根据文本信息1的量化值确定的违约概率区间为40%到70%,该违约概率区间对应的违约概率为50%,根据文本信息2的量化值确定的违约概率区间为10%到30%,该违约概率区间对应的违约概率为20%,则最终的违约概率区间为25%到50%,违约概率为35%。本技术实施例不加以限制。
70.进一步地,还可以将各文本信息的量化值与未知变量进行组合,得到关系表达式,相应的确定的违约概率区间、违约概率也可以为关系表达式。
71.s203,根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重。
72.其中,损失函数是包括违约概率区间、违约概率以及各文本信息的权重的关系表达式。
73.在本实施例中,将违约概率区间和违约概率代入预设的损失函数中,预设的损失函数可以为对数损失函数,也可以为交叉熵损失函数,或者为指数损失函数,对损失函数进行求解时,可以利用机器学习的方法,将大量的训练数据输入到神经网络中,通过比较实际输出值与预测值之间的关系,对损失函数进行优化,得到损失函数的最优解;也可以通过多元函数求最值的方法,找到使得损失函数最小值时的最优解,从而将满足求解条件的一组值作为各文本信息的权重。
74.s204,根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。
75.可选地,初始等级量化值是根据用户的多种结构化数据获取的量化值。该初始等级量化值可以专家打分得到的经验值,也可以采用预先构建的量化模型对用户的多种结构化数据进行量化得到的,本技术实施例中不加以限制。
76.在本实施例中,可以将各文本信息的量化值进行加权求和,再加上初始等级量化值,获取用户的目标等级量化值。例如,文本信息1的量化值为s1、权重为ω1,文本信息2的量化值s2、ω2,......,文本信息n的量化值sn、ωn,初始等级量化值为s0,可得目标等级量化值s
t
=s0+s1*ω1+s2*ω2+

+sn*ωn;也可以将各文本信息的量化值和对应的权重相乘,再乘上初始等级量化值,获取用户的目标等级量化值。例如,文本信息1的量化值为s1、权重为ω1,文本信息2的量化值s2、ω2,......,文本信息n的量化值sn、ωn,初始等级量化值为s0,可得目标等级量化值s
t
=s0*(s1*ω1+s2*ω2+

+sn*ωn)。
77.上述用户等级量化方法中,根据用户的多种文本信息,获取各文本信息的量化值,根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率,根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重,根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。本技术方法中多
种文本信息保证了用户数据的充足性,使得获取的量化值更加丰富,且,精确计算各文本信息的权重,在初始等级量化值的基础上,根据量化值、权重得到目标等级量化值,对用户风险等级进行量化,提高了用户等级量化的准确性,有助于进行更加有效的风险管理,对于应对监管、开展下游业务奠定了重要基础。
78.上述图2实施例中介绍了用户等级量化的实现方法,接下来主要介绍获取各文本信息的量化值,包括:根据各文本信息和预设的长短期记忆网络,得到各文本信息的量化值。
79.在本实施例中,采用随机切分的方法随机将文本向量切分为测试集和训练集,可选的,测试集和训练集占比为3:7,训练集用于训练长短期记忆网络模型,测试集用于测试长短期记忆网络模型的分类效果。通过训练遗忘门决定是否保留在前时刻的信息,结合神经元状态与输出门控制决定保留在前时刻信息的多少,从而达到提取长期与短期文本特征目的。具体地,遗忘门负责上一时刻神经元的输出h
t-1
中多少记忆需要抛弃,其更新方式为:
80.f
t
=σ(wf[h
t-1
,x
t
]+bf)
[0081]
其中,f
t
为遗忘门的输入、σ为神经元激活函数,x
t
表示t时刻神经元的输入,h
t-1
表示t-1时刻神经元的输出,wf表示遗忘门的权重、bf表示遗忘门的偏置向量。
[0082]
输入门包括两层,σ层决定将哪些值更新,tanh层创建新向量添加在细胞中,将旧细胞状态乘以f
t
用以遗忘信息,与新的信息一起合成新状态。其更新方式为:
[0083]it
=σ(wi[h
t-1
,x
t
]+bi)
[0084]ct
=f
t
*c
t-1
+i
t
*tanh(wc[h
t-1
,x
t
]+bc)
[0085]
其中,i
t
为输入门的输入,f
t
为遗忘门的输入,x
t
表示t时刻神经元的输入,h
t-1
表示t-1时刻神经元的输出,wi表示输入门的权重,wc表示新向量的权重,σ和tanh为神经元激活函数,c
t
表示神经元细胞状态,bi表示输入门的偏置向量,bc表示新向量的偏置向量。
[0086]
输出门也包括两层,σ层确定细胞状态的哪部分将输出,用tanh层来进行处理,两部分相乘得到输出的信息,其更新方式为:
[0087]ot
=σ(wo[h
t-1
,x
t
]+bo)
[0088]ht
=o
t
*tanh(c
t
)
[0089]
其中,o
t
为输出门的输入,c
t
表示神经元细胞状态,σ和tanh为神经元激活函数,x
t
表示t时刻神经元的输入,h
t-1
表示t-1时刻神经元的输出,h
t
表示t时刻神经元的输出,wo表示输出门的权重,bo表示输出门的偏置向量。
[0090]
在本实施例中,计算信息库得分时,对于某一特定文本信息,将文本信息为x=(x1,x2,...xn)的词向量序列输入到长短期记忆网络,即图3中的句向量输入到长短期记忆网络的输入层(即,图3中的输入结点),经过长短期记忆网络的隐藏层序列h=(h1,h2,...,hn)(即,图3中的隐藏结点)后,在输出层(即,图3中的输出结点)可以得到输出序列y=(y1,y2,...yn),在得到输出序列y=(y1,y2,...yn)之后直接计算sn=average(y),即可得到文本信息的量化值。
[0091]
在本技术实施例中,将各文本信息输入至预设的长短期记忆网络,得到各文本信息的量化值,长短期记忆网络考虑了文本信息的时序信息,当前时刻的输出不仅仅与此时刻的输入相关,而是前一时刻输出与当前时刻输入的叠加。为了捕获长期与短期的文本特征,长短期记忆网络加入门控结构,包括遗忘门、输入门和输出门,通过训练是否保留前一
时刻的状态,从而捕获更详尽的文本特征。
[0092]
上述实施例介绍了获取各文本信息的量化值的过程,接下来主要介绍根据长短期记忆网络获取各文本信息的量化值的具体实现过程,如图4所示,包括以下步骤:
[0093]
s301,对各文本信息进行预处理,得到预处理后的文本信息;预处理包括去停用词和情感分类中的至少一种处理。
[0094]
其中,停用词是一些完全没有用或者没有意义的词,去掉之后对文本信息没有任何的改变,例如助词、语气词、也可以是标点符号等。情感分类是对带有感情色彩的主观性文本信息进行分类,可以分为积极词、中性词,消极词。
[0095]
在本实施例中,为了简化各文本信息以及提高各文本信息量化值的获取效率,先对各文本信息进行预处理。去停用词预处理可以将各文本信息与停用词库匹配,去掉各文本信息的停用词;也可以利用神经网络去除停用词;或者人工去除。情感分类预处理可以是基于情感词汇库的方法,将标注好的情感词汇库与各文本信息进行匹配;也可以是基于机器学习的方法,将大量人工标注的词汇作为训练集,通过提取文本特征,构建分类器来实现情感分类。
[0096]
进一步地,如图5所示,停用词预处理和情感分类预处理可以包括以下步骤:
[0097]
s401,将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,得到各文本信息对应的候选文本信息。
[0098]
可选的,停用词库可以包括中文词语,例如,不仅、的、不但等词语,也可以包括标点符号、还可以包括英文等。其中,停用词库可以选择公用的停用词库,也可以根据实际处理业务自己预设停用词库。
[0099]
在本实施例中,可以将各文本信息和预设的停用词库进行匹配,将两者的交集的部分从各文本信息中剔除,得到各文本信息对应的候选文本信息。可选的,先将各文本信息全部进行分词,词和词之间靠空格隔开,再根据停用词库将分词之后的文本信息中,与停用词库一致的词语剔除。
[0100]
s402,基于预设的情感词汇库对各候选文本信息中的情感词汇进行分类标注,得到预处理后的文本信息。
[0101]
可选的,情感词汇库可以为词汇、也可以为一句话或一段话,其中,积极词标注为1,中性词标注为0,消极词标注为-1。同样的,情感词汇库也可以选择公用的词汇库,也可以根据具体业务由专家预设情感词汇库。
[0102]
在本实施例中,对上述各候选文本信息中的每一个词语进行遍历,首先定位文本信息中的情感词,包括积极词和消极词,根据情感词判断情感词之间是否有否定词,积极情感词标注为1,若出现否定词,则将情感词取反标注为-1。例如,这个/游戏/不是/太好玩,一共分为四个词,这个,游戏,不是,太好玩,遍历每个单词,“太好玩”在情感词汇库属于积极词,标注为1,然后往前遍历出现了“不是”,表示为一个消极词,则标注为-1。
[0103]
在本技术实施例中,通过将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,再对去掉停用词后的文本信息进行情感分类,得到预处理后的文本信息。本方法中去掉停用词可以有效提高关键词密度,让需要进行情感标注的关键词更集中、更突出,利用情感词汇库对文本信息进行分类标注,可以提高标注效率,避免了人工标注耗时长的问题。
[0104]
s302,将各预处理后的文本信息向量化,得到各文本信息对应的文本向量。
[0105]
在本实施例中,预处理后的文本信息中还是存在很多词汇,而且每个词汇都具有唯一的索引,所以各预处理后的文本信息就需要使用多维向量进行表示,高维度的向量会严重影响计算速度,所以需要将各预处理后的文本信息向量化。可选的,可以使用词向量作为文本信息向量化的基础单元,也可以使用句子作为文本信息向量化的基础单元。具体地,可以利用词袋模型将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;也可以利用神经网络语言模型将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;或者使用上下文和目标词语言模型将各预处理后的文本信息向量化,得到各文本信息对应的文本向量。本技术实施例对此并不做限制。
[0106]
s303,将各文本向量输入到长短期记忆网络进行量化,得到各文本信息的量化值。
[0107]
在本实施例中,将各文本向量输入到长短期记忆网络进行量化,文本向量中包括了众多的词向量,将文本向量输入到长短期记忆网络中,可以得到每一个词向量的量化值,再对词向量量化值累加求和取平均值,得到该文本信息的量化值。例如,文本信息1经过文本向量化之后得到词向量x=(x1,x2,...xn),其中,x1、x2、......xn分别为文本信息1中每一个词的词向量,将该词向量,即文本向量输入到长短期记忆网络中,得到每一个词向量对应的量化值y=(y1,y2,...yn),将词向量量化值通过公式sn=average(y),得到文本信息1的量化值s1。
[0108]
本实施例中,通过对各文本信息进行预处理,再将各预处理后的文本信息向量化,得到各文本信息对应的文本向量,最后输入到长短期记忆网络进行量化,得到各文本信息的量化值。文本向量化降低了向量维度,使得文本信息的表达更加简化,提高了用户等级量化的效率,长短期记忆网络考虑了文本的时序信息,可以达到提取长期与短期文本特征目的。
[0109]
上述图3至图5实施例介绍了根据各文本信息和预设的长短期记忆网络,得到各文本信息的量化值的具体过程。接下来主要介绍确定违约概率区间和违约概率的具体实现方法,如图6所示,包括以下步骤:
[0110]
s501,将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间;违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式。
[0111]
在本实施例中,将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间,其中,违约概率函数并不局限于一种,只要违约概率函数包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式即可。在使用同一违约概率函数时,不同用户的同一文本信息权重相同,假设,在违约概率函数为p1时,用户a的文本信息1与用户b的文本信息1的权重相同,用户a的文本信息2和用户b的文本信息2的权重相同。例如,违约概率函数为p(x),s
t
=s0*(s1*ω1+s2*ω2+

+sn*ωn),其中,文本信息1的量化值为s1、权重为ω1,文本信息2的量化值s2、ω2,......,文本信息n的量化值sn、ωn,初始等级量化值为s0,目标等级量化值s
t
中包括了各文本信息的量化值和初始等级量化值,将目标等级量化值s
t
代入违约概率函数中,得到违约概率区间pd=p(s
t
),违约概率区间为关于ω1、ω2......ωn的函数表达式。
[0112]
s502,根据用户的历史违约数据,确定违约概率区间对应的违约概率。
[0113]
在本实施例中,根据用户的历史违约数据,可以得到违约概率区间对应的违约概率,例如,根据历史违约数据确定违约概率区间为20%-30%,该违约概率区间对应的违约概率为25%,用户a的违约概率区间为22%-27%,用户b的违约概率区间为21%-24%,用户c的违约概率区间为24%-30%,用户d的违约概率区间为23%-27%,可以发现用户a、用户b、用户c、用户d的违约概率区间都位于同一违约概率区间20%-30%,则位于该概率区间的用户违约概率为25%;或者,根据历史违约数据确定违约区间为[5*ω1+2*ω2,5*ω1+10*ω2],该违约概率区间对应的违约概率为25%,用户a的违约概率区间为[5*ω1+4*ω2,5*ω1+10*ω2],用户b的违约概率区间为[5*ω1+5*ω2,5*ω1+10*ω2],用户c的违约概率区间为[5*ω1+7*ω2,5*ω1+10*ω2],用户d的违约概率区间为[5*ω1+8*ω2,5*ω1+10*ω2],用户a、用户b、用户c、用户d的违约概率区间都位于同一违约概率区间[5*ω1+2*ω2,5*ω1+10*ω2],则位于该概率区间的用户违约概率为25%。
[0114]
在本技术实施例中,通过将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间,再根据用户的历史违约数据,确定违约概率区间对应的违约概率,本方法中的违约函数不唯一,可根据实际情况结合不同的违约函数进行计算,但同一违约函数下不同用户的同一文本信息的权重相同,保证了计算的公平性,而且,本方法通过严格的数据计算方式得到违约概率区间以及对应的违约概率,为后续计算权重奠定了基础,保证权重计算的准确性。
[0115]
进一步地,将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重。
[0116]
在本实施例中将违约概率区间和违约概率代入损失函数中,l(ω)=(pd-pd_a)2,其中,l(ω)是损失函数,pd_a是违约概率,违约概率为一个具体的数值,所以,损失函数l(ω)还是一个关于ω1、ω2......ωn的函数表达式,可以利用多元函数求最小值的方法,求解出使l(ω)为最小值的最优权重组合ω=(ω1,ω2...ωn),也可以使用梯度下降法求解出使l(ω)为最小值的最优权重组合ω=(ω1,ω2...ωn)。
[0117]
本技术实施例中,将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重。本方法中可以利用多种方法求解损失函数的最小值,而且,在损失函数为最小值的情况下,文本信息的权重最优,为后续计算目标等级量化值奠定重要基础。
[0118]
在对用户等级进行量化的过程中,除了需要各文本信息的量化值,还需要得到初始等级量化值,初始等级量化值的获取过程包括:将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值;等级量化网络为根据多个用户的结构化数据构建的网络。
[0119]
其中,结构化数据是能够用数据或统一的结构加以表示的信息,如数字、符号等,被存储在关系数据库中。
[0120]
在本实施例中,可以根据用户的财务报表、征信信息和行业信息等构建等级量化网络,等级量化网络将用户的财务报表、征信信息和行业信息等规律性的存储在数据库中,对存储在数据库中的信息不断更新,需要时进行查询,根据自己预设的打分规则对用户信息进行打分,获得初始等级量化值。例如,用户的财务报表:资产总额以100万为基础、每增加100万加一分,负债资金以0元为基础,每负债100万减一分;征信信息:优为10分,良为5
分,差为0分;行业信息:电商行业为2分,机械行业为3分等,等级量化网络根据用户财务报表、征信信息和行业信息和预设的打分规则,对用户进行打分,从而得到用户的初始等级量化值。
[0121]
进一步地,多种文本信息包括:从多个不同来源的信息库中获取用户的多种文本信息;不同来源包括网络数据来源和用户所在机构的业务数据来源。
[0122]
在本实施例中,例如,多个不同来源的信息库可以包括百度新闻、当地纸媒、财经论坛、公司年报、尽职调查报告等,根据百度新闻获取的同一用户文本信息为文本信息1,根据财经论坛获取的同一用户文本信息为文本信息2,......,针对不同来源的信息库获取用户的文本信息1、文本信息2等为该用户的多种文本信息。
[0123]
在本技术实施例中,从多个不同来源的信息库中获取用户的多种文本信息,扩大了用户量化等级信息来源的覆盖范围,使得用户的文本信息更加全面,从而提高用户量化等级的准确率,有效控制信用风险。
[0124]
在本技术实施例中,将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值,等级量化网络为根据多个用户的历史结构化数据构建的网络。本技术方法中考虑结构化数据对用户等级量化的影响,结构化数据的获取更加简单,不需要对结构化数据做很多处理,通过等级量化网络即可得到初始等级量化值。
[0125]
进一步地,如图7所示,用户等级量化方法还包括以下步骤:
[0126]
s601,从多个不同来源的信息库中获取用户的多种文本信息;不同来源包括网络数据来源和用户所在机构的业务数据来源;
[0127]
s602,将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,得到各文本信息对应的候选文本信息;
[0128]
s603,基于预设的情感词汇库对各候选文本信息中的情感词汇进行分类标注,得到预处理后的文本信息;
[0129]
s604,将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;
[0130]
s605,将各文本向量输入到长短期记忆网络进行量化,得到各文本信息的量化值;
[0131]
s606,将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间;违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式;
[0132]
s607,根据用户的历史违约数据,确定违约概率区间对应的违约概率;
[0133]
s608,将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重;
[0134]
s609,将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值;等级量化网络为根据多个用户的历史结构化数据构建的网络;
[0135]
s610,根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。
[0136]
本技术实施例中,根据用户的多种文本信息,获取各文本信息的量化值,根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率,根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重,根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。本技术方法中多种文本信
息保证了用户数据的充足性,使得获取的量化值更加丰富,且,精确计算各文本信息的权重,在初始等级量化值的基础上,根据量化值、权重得到目标等级量化值,对用户风险等级进行量化,提高了用户等级量化的准确性,有助于进行更加有效的风险管理,对于应对监管、开展下游业务奠定了重要基础。
[0137]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0138]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的用户等级量化方法的用户等级量化装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户等级量化装置实施例中的具体限定可以参见上文中对于用户等级量化方法的限定,在此不再赘述。
[0139]
在一个实施例中,如图8所示,提供了一种用户等级量化装置,包括:第一获取模块11、确定模块12、求解模块13和第二获取模块14,其中:
[0140]
第一获取模块11,用于根据用户的多种文本信息,获取各文本信息的量化值;
[0141]
确定模块12,用于根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率;
[0142]
求解模块13,用于根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重;
[0143]
第二获取模块14,用于根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。
[0144]
在一个实施例中,第一获取模块11用于根据各文本信息和预设的长短期记忆网络,得到各文本信息的量化值。
[0145]
在一个实施例中,第一获取模块11用于对各文本信息进行预处理,得到预处理后的文本信息;预处理包括去停用词和情感分类中的至少一种处理;将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;将各文本向量输入到长短期记忆网络进行量化,得到各文本信息的量化值。
[0146]
在一个实施例中,第一获取模块11用于将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,得到各文本信息对应的候选文本信息;基于预设的情感词汇库对各候选文本信息中的情感词汇进行分类标注,得到预处理后的文本信息。
[0147]
在一个实施例中,如图9所示,确定模块12,包括:
[0148]
获得单元121,用于将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间;违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式;
[0149]
确定单元122,用于根据用户的历史违约数据,确定违约概率区间对应的违约概率。
[0150]
在一个实施例中,求解模块13用于将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重。
[0151]
在一个实施例中,如图10所示,该装置还包括:
[0152]
输入模块15,用于将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值;等级量化网络为根据多个用户的历史结构化数据构建的网络。
[0153]
在一个实施例中,如图11所示,该装置还包括:
[0154]
第三获取模块16,用于从多个不同来源的信息库中获取用户的多种文本信息;不同来源包括网络数据来源和用户所在机构的业务数据来源。
[0155]
上述用户等级量化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0156]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户等级量化方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0157]
本领域技术人员可以理解,图12中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0158]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0159]
根据用户的多种文本信息,获取各文本信息的量化值;
[0160]
根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率;
[0161]
根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重;
[0162]
根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。
[0163]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0164]
根据各文本信息和预设的长短期记忆网络,得到各文本信息的量化值。
[0165]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0166]
对各文本信息进行预处理,得到预处理后的文本信息;预处理包括去停用词和情感分类中的至少一种处理;
[0167]
将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;
[0168]
将各文本向量输入到长短期记忆网络进行量化,得到各文本信息的量化值。
[0169]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0170]
将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,得到各文本信息对应的候选文本信息;
[0171]
基于预设的情感词汇库对各候选文本信息中的情感词汇进行分类标注,得到预处理后的文本信息。
[0172]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0173]
将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间;违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式;
[0174]
根据用户的历史违约数据,确定违约概率区间对应的违约概率。在一个实
[0175]
施例中,处理器执行计算机程序时还实现以下步骤:
[0176]
将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重。
[0177]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0178]
将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值;等级量化网络为根据多个用户的历史结构化数据构建的网络。
[0179]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0180]
从多个不同来源的信息库中获取用户的多种文本信息;不同来源包括网络数据来源和用户所在机构的业务数据来源。
[0181]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0182]
根据用户的多种文本信息,获取各文本信息的量化值;
[0183]
根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率;
[0184]
根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重;
[0185]
根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。
[0186]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0187]
根据各文本信息和预设的长短期记忆网络,得到各文本信息的量化值。
[0188]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0189]
对各文本信息进行预处理,得到预处理后的文本信息;预处理包括去停用词和情感分类中的至少一种处理;
[0190]
将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;
[0191]
将各文本向量输入到长短期记忆网络进行量化,得到各文本信息的量化值。
[0192]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0193]
将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,得到各文本信息对应的候选文本信息;
[0194]
基于预设的情感词汇库对各候选文本信息中的情感词汇进行分类标注,得到预处理后的文本信息。
[0195]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0196]
将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间;违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式;
[0197]
根据用户的历史违约数据,确定违约概率区间对应的违约概率。
[0198]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0199]
将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重。
[0200]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0201]
将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值;等级量化网络为根据多个用户的历史结构化数据构建的网络。
[0202]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0203]
从多个不同来源的信息库中获取用户的多种文本信息;不同来源包括网络数据来源和用户所在机构的业务数据来源。
[0204]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0205]
根据用户的多种文本信息,获取各文本信息的量化值;
[0206]
根据各文本信息的量化值,确定违约概率区间和违约概率区间对应的违约概率;
[0207]
根据违约概率区间和违约概率对预设的损失函数进行求解,得到各文本信息的权重;
[0208]
根据各文本信息的量化值、权重和用户的初始等级量化值,获取用户的目标等级量化值。
[0209]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0210]
根据各文本信息和预设的长短期记忆网络,得到各文本信息的量化值。
[0211]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0212]
对各文本信息进行预处理,得到预处理后的文本信息;预处理包括去停用词和情感分类中的至少一种处理;
[0213]
将各预处理后的文本信息向量化,得到各文本信息对应的文本向量;
[0214]
将各文本向量输入到长短期记忆网络进行量化,得到各文本信息的量化值。
[0215]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0216]
将各文本信息和预设的停用词库进行匹配,以去除各文本信息中的停用词,得到各文本信息对应的候选文本信息;
[0217]
基于预设的情感词汇库对各候选文本信息中的情感词汇进行分类标注,得到预处理后的文本信息。
[0218]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0219]
将各文本信息的量化值和初始等级量化值代入预设的违约概率函数中,得到违约概率区间;违约概率函数为包含文本信息的量化值参数、违约概率参数和初始等级量化值参数的关系式;
[0220]
根据用户的历史违约数据,确定违约概率区间对应的违约概率。
[0221]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0222]
将违约概率区间和违约概率代入损失函数中,对损失函数进行最小值求解,得到各文本信息的权重。
[0223]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0224]
将用户的多种结构化数据输入至预设的等级量化网络中,得到初始等级量化值;等级量化网络为根据多个用户的历史结构化数据构建的网络。
[0225]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0226]
从多个不同来源的信息库中获取用户的多种文本信息;不同来源包括网络数据来源和用户所在机构的业务数据来源。
[0227]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0228]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0229]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0230]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1