基于知识图谱的企业信用风险识别方法、设备及介质与流程

文档序号:24161034发布日期:2021-03-05 16:53阅读:118来源:国知局
基于知识图谱的企业信用风险识别方法、设备及介质与流程

[0001]
本发明涉及企业信用风险识别领域,尤其涉及基于知识图谱的企业信用风险识别方法、设备及介质。


背景技术:

[0002]
贷款是小微企业运营生存的可靠保障,在我国大部分企业都是小微企业,小微企业的经营情况直接关系到民生。但是对于小微企业的企业信用风险的判断存在一定困难,因此会给银行业评估企业信用带来困难,企业往往因为没有合理的信用评分而得不到融资,现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准。


技术实现要素:

[0003]
为了克服现有技术的不足,本发明的目的之一在于提供基于知识图谱的企业信用风险识别方法,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
[0004]
本发明的目的之二在于提供基于知识图谱的企业信用风险识别系统,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
[0005]
本发明的目的之三在于提供一种电子设备,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
[0006]
本发明的目的之四在于提供一种计算机存储介质,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
[0007]
本发明的目的之一采用以下技术方案实现:
[0008]
基于知识图谱的企业信用风险识别方法,包括以下步骤:
[0009]
生成结构化企业特征向量,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;
[0010]
建立图网络,从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;
[0011]
生成图风险特征,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;
[0012]
建立预测风险模型,根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;
[0013]
企业信用风险识别,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
[0014]
进一步地,所述生成结构化企业特征向量包括以下子步骤:
[0015]
特征工程处理,对企业数据大宽表中的企业特征字段进行特征工程处理,得到企业特征向量;
[0016]
计算衍生指标,根据预设业务条件计算大宽表中的企业特征字段的关键指标;
[0017]
数据结合,将所述关键指标与所述企业特征向量结合生成结构化企业特征向量。
[0018]
进一步地,在所述特征工程处理之前还包括根据预设业务逻辑对企业特征字段进行空值填充处理、检查并处理企业特征字段中的异常值。
[0019]
进一步地,所述生成图风险特征具体为:通过企业之间的企业特征字段计算出企业之间的企业风险传播概率,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,根据企业风险传播概率计算出与企业间网络图中企业节点对应的图风险特征。
[0020]
进一步地,所述图结构特征包括企业节点的度数量、企业节点对应的三角形数据、企业节点对应的四边形数量。
[0021]
进一步地,所述根据训练数据对预设风险识别模型进行训练具体为:将训练数据分为训练集数据和测试集数据,将所述训练集数据输入预设风险识别模型进行训练,将所述测试集数据输入至预设风险识别模型中进行测试。
[0022]
进一步地,还包括生成大宽表,获取含有内部数据和外部数据的企业数据,所述内部数据包括小微企业基础属性、交易流水、借贷行为,所述外部数据包括股东信息、持股比例、行业数据,根据预设表单对所述内部数据和所述外部数据进行表单关联,得到企业数据大宽表。
[0023]
本发明的目的之二采用以下技术方案实现:
[0024]
基于知识图谱的企业信用风险识别系统,包括数据存储层、图数据库层、机器学习层以及模型部署应用层,所述数据存储层用于获取含有内部数据和外部数据的企业数据,所述内部数据包括小微企业基础属性、交易流水、借贷行为,所述外部数据包括股东信息、持股比例、行业数据,根据预设表单对所述内部数据和所述外部数据进行表单关联,得到企业数据大宽表;所述数据存储层用于对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;所述图数据库层用于从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;所述图数据库层还用于使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;所述机器学习层用于根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;所述模型部署应用层用于部署所述预设风险模型,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
[0025]
本发明的目的之三采用以下技术方案实现:
[0026]
一种电子设备,包括:处理器;
[0027]
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于本申请中的基于知识图谱的企业信用风险识别方法。
[0028]
本发明的目的之四采用以下技术方案实现:
[0029]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请中的基于知识图谱的企业信用风险识别方法。
[0030]
相比现有技术,本发明的有益效果在于:本申请中的基于知识图谱的企业信用风险识别方法,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率;提高了企业信用风险的识别精准度,使整个企业信用风险的识别过程更加便捷快速。
[0031]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
[0032]
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0033]
图1为本发明的基于知识图谱的企业信用风险识别方法流程示意图。
具体实施方式
[0034]
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
[0035]
如图1所示的基于知识图谱的企业信用风险识别方法,包括以下步骤:
[0036]
获取含有内部数据和外部数据的企业数据,内部数据包括小微企业基础属性、交易流水、借贷行为,外部数据包括股东信息、持股比例、行业数据,根据预设表单对内部数据和外部数据进行表单关联,得到企业数据大宽表。本实施例中,由数仓对对内部数据和外部数据进行表单关联,数仓每日批量定时同步更新数据。
[0037]
生成结构化企业特征向量,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量。具体包括以下步骤:
[0038]
特征工程处理,对企业数据大宽表中的企业特征字段进行特征工程处理,得到企业特征向量。在特征工程处理之前还包括根据预设业务逻辑对企业特征字段进行空值填充
处理、检查并处理企业特征字段中的异常值,本实施例中企业特征字段包括数值型字段和字符型字段,对于数值型字段,处理空值和异常值,删除空值率超过50%的记录,填充策略为使用均值填充,使用箱线图检测字段是否存在异常值,删除存在异常值的记录,在预测时同样过滤掉存在异常值的数据;对于字符型字段,使用one-hot编码(one-hot编码,又称为一位有效编码,主要是采用n位状态寄存器来对n个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效)转化为数值型数据,空值使用格外的值进行填充。
[0039]
计算衍生指标,根据预设业务条件计算大宽表中的企业特征字段的关键指标。本实施例中预设业务条件为6个月销售收入同比下降、申请日前12个月全部销售额均值等,具体可根据实际情况进行设定。
[0040]
数据结合,将关键指标与企业特征向量结合生成结构化企业特征向量。
[0041]
建立图网络,从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征。本实施例中图结构特征包括企业节点的度数量、企业节点对应的三角形数据、企业节点对应的四边形数量。本实施例中,企业之间关系分为两种:第一种直接关系,就是存在转账记录的企业间,建立直接关系;第二种间接关系,以股东作为关联实体,通过股东建立企业之间的弱关系,可以建立一个包含两种实体的异构网络。为了简化网络关系,方便使用图算法进行计算,我们归并直接关系和间接关系,归并的方法是只要存在其中一种关系,就在两个企业之间建立关系,最终生成同构网络。异构网络和同构网络有不同的特点,异构网络包括多种类型的节点和关系,直观展现节点之间物理连接关系,我们根据业务逻辑建立不同的异构图谱进行可视化分析,同时通过直观的图谱给业务人员展现模型分析逻辑,让模型的结果具有可解释性,使业务更有方向性的应用模型结果。同构网络节点之间同质,是图算法如随机游走应用的基本条件,异构网络必须通过转化为同构网络之后才能进行图算法计算。
[0042]
生成图风险特征,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征。具体为:通过企业之间的企业特征字段计算出企业之间的企业风险传播概率,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,根据企业风险传播概率计算出与企业间网络图中企业节点对应的图风险特征。先将每个企业对应的企业特征字段按照上述步骤中方法转化为企业特征向量,实际为结构化企业特征向量中的一个向量。上述企业风险传播概率计算过程中必须先计算出企业间的相似性,相似性的计算方法如公式(1)所示:
[0043][0044]
其中,α为尺度参数,x
i
为企业特征向量,w
ij
为企业i和企业j之间的相似性,x
i
为企业i对应的企业特征向量,x
j
为企业j对应的企业特征向量。当w
ij
=0时,则表示企业i和企业j之间不存在连接,不存在相似性。标签传播算法同时利用有类别标签数据和无类别标签数据学习有用信息,训练完成后模型可以预测无标签数据风险分值,标签传播算法基于相似
节点之间有相同的标签,信用风险通过标签传播,得到每个节点风险分值。定义两个企业之间的企业风险传播概率为p,则p的计算如公式(2)所示:
[0045][0046]
其中,p
ij
表示从节点i转移到节点j的企业风险传播概率,w
ij
为企业i和企业j之间的相似性,w
ik
为企业i和企业k之间的相似性。令有类别标签数据为y
l
,无类别标签数据为y
u
,将y
l
和y
u
合并,软标签矩阵f=[y
l
;y
u
],软标签就是保留样本属于每个类别的概率,而不是互斥性的,最后通过计算软标签矩阵f,将概率最大的类作为样本的类别。标签传播算法的流程如下:
[0047]
(1)以企业风险传播概率执行标签传播:f=pf;
[0048]
(2)重置f中已标注的标签;
[0049]
(3)重复步骤(1)和(2)直到软标签矩阵f收敛。
[0050]
步骤(1)就是将企业风险传播概率对应的矩阵和软标签矩阵f相乘,此步骤中,每个企业节点都将自己的标签以企业风险传播概率传播给其他节点。如果两个企业节点越相似(在欧式空间中距离越近),那么对方的标签就越容易被自己的标签赋予,步骤(2)非常关键,因为标签数据的标签是事先确定的,不能被带跑,所以每次传播完,它都得回归它本来的标签。上述标签传播算法完成之后,每个企业节点对应生成一个图风险分值,将图风险分值作为第页节点对应的图风险特征。
[0051]
建立预测风险模型,根据图结构特征、图风险特征生成企业图特征,将企业图特征与结构化企业特征向量合并生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,将训练数据分为训练集数据和测试集数据,将训练集数据输入预设风险识别模型进行训练,将测试集数据输入至预设风险识别模型中进行测试。
[0052]
企业信用风险识别,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。本实施例中,还会从特征重要性、模型结构可视化、训练迭代趋势图等角度解释预设风险概率,对企业间图网络进行展示,可以从关联的紧密度、图的维度关系是否存在异常等方面直观得查看企业是否存在信用风险。同时会展示根据企业间图网络得到的用户画像,对异常指标进行预警。
[0053]
本实施例中还提供基于知识图谱的企业信用风险识别系统,包括数据存储层、图数据库层、机器学习层以及模型部署应用层;
[0054]
数据存储层用于获取含有内部数据和外部数据的企业数据,内部数据包括小微企业基础属性、交易流水、借贷行为,外部数据包括股东信息、持股比例、行业数据,根据预设表单对内部数据和外部数据进行表单关联,得到企业数据大宽表;数据存储层用于对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量。
[0055]
图数据库层用于从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征。图数据库层还用于使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征。本实施例中,图数据库层中使用neo4j数据库(是一个高性
能的,nosql图形数据库),将企业数据大宽表转化为图节点表单、关系及属性表单,导入图数据库层进行存储,neo4j数据库有cypher语句和neo4j-admin命令行等多种数据导入方式,数据量很大的情况下可以使用neo4j-admin命令行导入,本实施例中使用cypher语句将图节点表单、关系及属性表单导入图数据库中,完成数据导入后就形成一个由点和边构成的图结构,即本申请中的企业间图网络。图数据库层还支持对企业间图网络的交互查询,可以展示某个企业间图网络中某个企业节点,及这个企业节点直接的一度、二度、三度关系,通过条件组合查询两个企业直接的路径等。图数据库层同时支持企业画像,实质为对企业的标签进行展示,以方便用户了解企业。图数据库层支持通用图算法,如度的数量、三角形数量、四边形数量、联通分量、社群发现算法、标签传播算法等图算法。
[0056]
机器学习层用于根据图结构特征、图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;模型部署应用层用于部署预设风险模型,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
[0057]
本申请还提供一种电子设备,包括:处理器;
[0058]
存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于本申请中的基于知识图谱的企业信用风险识别方法。
[0059]
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行本申请中的基于知识图谱的企业信用风险识别方法。
[0060]
本申请中的基于知识图谱的企业信用风险识别方法,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;根据图结构特征、图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率;提高了企业信用风险的识别精准度,使整个企业信用风险的识别过程更加便捷快速。
[0061]
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1