一种基于知识图谱的上市企业违法风险预测方法

文档序号:34716619发布日期:2023-07-07 16:36阅读:86来源:国知局
一种基于知识图谱的上市企业违法风险预测方法

本发明涉及知识图谱和企业法律风控领域,特别涉及一种基于知识图谱的上市企业违法风险预测方法。


背景技术:

1、据统计,近年来上市企业的违约违法案件的数量逐年上升,扰乱破坏了金融市场的良好秩序。由于上市企业股权投资、担保额度远超过中小企业,牵连的股东数量众多,监管者如不及时识别与管控违法风险,将损害其合作伙伴、相关投资方的财产利益。随着人工智能技术的兴起,已有学者致力于利用机器学习及深度学习领域模型赋能企业法律风控领域,通过对企业经营指标等大规模数据智能分析,推断企业违法倾向,陆续取得研究成果,实现了企业法律风险的自动化评估和企业违法预测。

2、然而,实际情况中上市企业间存在投资、担保、持股等多样化的利益关联,风险传递的方式错综复杂,并非仅与企业自身经营状况有关。并且信息化时代背景下的企业违法行为趋于隐蔽化,企业瞒报误报自身经营信息等不良行为屡有发生,账目数据的真实性无法得到保障,使得基于数据分析的企业违法预测模式在面对账目及征信记录无异样的违法企业时难以为继,监管方对上市企业进行违法预测和风险管控业务陷入困境。

3、知识图谱作为大规模语义关联网络,具备卓越的知识关联能力,成为金融风控领域的新兴技术。针对上述问题,huidong wu等人提出了基于路径搜索方法sfe的知识图谱推理框架,基于图结构推理出存在审计舞弊风险的企业;xuting mao等人通过知识图谱获取指定企业间的交易次数、贷款类交易占比等企业资金往来特征,结合机器学习模型识别出具有欺诈嫌疑的企业;chunyan xue以多类关系综合评估得到的风险传播概率量化节点间的关联程度,实现企业贷款违约关联风险的模拟传播,继而对信贷风险较高的企业实施风险预警。

4、现有方法虽然凭借知识图谱的信息关联特性实现了企业间违法风险的模拟传导和违法倾向的预测,但仍存在不足之处。一方面,基于图路径的风险模拟传递方法仅关注于企业两两之间“点对点”模式的风险传递,忽视了企业不良利益集群的隐患,且主观默认采用交易次数、贷款额或自拟权重数值量化风险传递程度,致使结果易受主观性影响;另一方面,依靠图表示学习的违法预测方法受限于合法企业与违法企业的比例不均衡的现象,庞大的合法企业集群包裹稀疏化的违法企业节点,在对目标企业节点进行邻域节点采样时违法企业节点特征与占比更多的合法企业节点特征相混淆,非法企业的违法特征信息未能有效被图神经网络表征,当违法企业拥有较多合法关联方时模型预测精度随之降低。


技术实现思路

1、为解决上述技术问题,本发明提供了一种基于知识图谱的上市企业违法风险预测方法,利用知识图谱技术弥补企业违法预测传统方法过度依赖经济学指标的缺陷,结合超图表示学习洞察企业违法行为的集群化效应,并改良图传播算法和图神经网络结构解决风险传递方式主观、片面以及具有较多合法关联方贸易伙伴的违法企业难以预测其违法倾向的问题。

2、为达到上述目的,本发明的技术方案如下:

3、一种基于知识图谱的上市企业违法风险预测方法,包括如下步骤:

4、步骤一,采集上市企业经营指标、违法事件以及关联方历史记录并通过爬虫获取企业违规事件日增量信息,对采集的信息进行数据清洗,并将所获得的数据均转化为结构化数据;

5、步骤二,设计上市企业关联方及违法信息知识图谱模式层,将多维度结构化数据转化为知识图谱三元组格式,并基于neo4j图数据库存储所构建的知识图谱实体与关系数据;

6、步骤三,基于上市企业关联方及违法信息知识图谱,利用cypher语言依次检索每一上市企业节点其二阶邻域范围内的与其存在直接或间接关联关系的企业节点,并获取上市企业间潜在的关联关系类别及不同量纲下的关联程度数值;

7、步骤四,根据检索获得的查询结果,利用分位点划分与条件概率评估相结合的二阶段风险转移概率计算方法,量化企业间利益关联的紧密度,进而评估企业间的违法风险转移概率;

8、步骤五,以企业间的违法风险转移概率为边的权重,以上市企业为节点,基于networkx工具包构建大规模企业模拟集群,将初始状态的知识图谱转化为企业违法风险传播网络grisk;

9、步骤六,基于louvain算法将企业违法风险传播网络grisk划分为企业风险传播子图gsub,设计leagalrank图传递算法,模拟不良风险源在企业风险传播子图gsub扩散传播的图游走路径,通过图传递算法深层次迭代后的收敛趋向,推演评估各上市企业违法风险指数;

10、步骤七,将趋于稳态后的各子图中所涉及的上市企业违法风险指数存入neo4j图数据库,通过cypher语句添加节点属性,作为各企业节点的违法风险传播评分legalriskscore属性字段;

11、步骤八,根据企业间存在相同股东、审计师、投资方讯息构建企业关联方超图,进而搭建具备企业关联方集群特征表示能力的hyper-gnn超图神经网络,基于超图神经网络完成企业关联方集群特征的向量化表示;

12、步骤九,首先根据上市企业基础信息及企业违法风险传播评分legalriskscore完成企业自身特征的向量化表示,而后与基于hyper-gnn超图神经网络获得的企业关联方集群特征向量有效拼接,进而拟定企业违法预测对应的神经网络损失函数,构建神经网络层前向传播与反向传播模块单元,完成legal-gnn企业次年违法预测模型的搭建;

13、步骤十,对搭建的legal-gnn企业次年违法预测模型采用k折交叉验证的方式迭代训练,利用训练后的预测模型进行上市企业违法风险的预测。

14、上述方案中,步骤四的具体方法如下:

15、step1:采用cypher语句检索存储在neo4j图数据库中的企业一阶利益关联信息,将检索到的利益关系属性数值添加至两组列表,并按照企业间持股比例或投资额度升序排序;

16、step2:求解两组企业间一阶利益关联列表的五分位点位置,根据目标企业的关系属性数值所属于的等级区间,依次评定上市企业间的一阶利益关联紧密度等级;

17、step3:根据近五年企业违法记录,以年度为单位计算不同关系类别、不同利益关联紧密度程度下的次年企业违法概率,作为企业间风险传播的一阶风险转移概率plv1,具体计算公式如下:

18、plv1-rs=(numillegal/numpair-rs),r∈{rstock,ramount},l∈[1,5]

19、其中,r代表利益关系类别,s代表step2求取的该关系类别利益紧密度等级,numpair-rs即满足该利益关联和风险等级的企业关联方总数,numillegal即numpair-rs中关联双方出现一方本年度违法,另一方次年违法事件发生的总数;

20、step4:针对持股、控股、投资三类企业间利益关联,采用对二阶利益关联拆解的方式,转入step3,分别计算两阶段的条件概率,进而求解企业二阶利益关联类的风险转移概率;针对共同关联方人物关联包括董事长、总经理、高管、审计师四类,将前三类关系归并为任职关联,采用step2、step3涉及的分位点与概率计算方法获得企业二阶共同关联方人物类的风险转移概率;

21、step5:结合企业一阶风险转移概率,采用多变量条件概率计算方法求解上市企业间违法连带效应风险转移概率p(a,b),具体计算公式如下:

22、p(a,b)=1-πd(a,b)(1-pd),pd∈{plv1,plv2-α,plv2-β}

23、其中,d(a,b)表示任意企业间的关联路径,pd表示该路径对应的风险转移概率。

24、上述方案中,步骤六的具体方法如下:

25、step1:基于louvain社区划分算法划分企业风险传播子图gsub,以模块度为优化目标,将企业违法风险传播网络grisk划分为规模不等的子图,作为企业风险传递模拟集群,louvain算法模块度评估公式如下:

26、

27、其中,qpart为社区模块度数值,∑in表示社区c内所有边的权重之和,∑out表示与社区c内存在节点相连的边的权重之和,m表示企业违法风险传播网络grisk的边数总和;

28、step2:依次将每一子图gsub转换为邻接矩阵形式,并对邻接矩阵每列元素进行归一化处理,得到风险传播概率矩阵wij;

29、step3:根据各子图内企业的本年度违法行为次数,设计企业违法风险程度评估函数,作为企业风险传播自身携带的初始风险值,并生成企业风险传播算法中的风险初始向量pr0;

30、step4:基于所设计的leagalrank图传播算法模拟企业违法风险传播,通过风险源的深层次迭代游走,得到图传递算法收敛后的各上市企业违法风险传播评分legalriskscore;leagalrank风险模拟传播的具体公式如下:

31、

32、其中,pr表示当前轮次的节点风险迭代值,为阻尼系数,nj为企业节点ni的相邻企业节点,k为迭代轮次,d(ni)为企业节点ni所属于的企业集群子图gsub,wij为step2得到的风险传播概率矩阵,riskcomi为风险初始向量pr0中企业节点ni对应的初始风险值。

33、进一步的技术方案中,step1具体如下:依次尝试将企业节点及与其每一相邻企业节点合并,并计算模块度增益值,并选择归入模块度增益最大的社区,迭代执行此操作至所有企业节点所属社区不再变化,为一轮次;而后将各个社区所有节点压缩视作一个新节点,压缩后节点的边权为原始社区内所有节点的边权重之和,进行新一轮次的模块度计算与节点归并操作,直至各社区模块度数值基本恒定,完成企业关联子图gsub的划分。

34、进一步的技术方案中,step3具体如下:对于任一子图,依次对子图内所有企业利用cypher语言检索其知识图谱中存储的关联违法事件实体数目,并基于风险值评估公式确定每个企业节点携带的风险值,而后形成表征企业违法风险的向量,并进行归一化处理,得到初始化企业风险传播向量pr0。

35、进一步的技术方案中,step4具体如下:在pagerank图传播算法基础上,进行三项优化改进,使其契合于企业法律风险传播任务:限定风险传播范围为louvain社区划分算法获得的企业关联方集群范围,提高大规模图传播的收敛效率;将随机传播机制转变为依据企业违法行为连带效应的概率有倾向地传播;根据企业本年度违法次数评估各节点初始携带的风险值,并且每开启新一轮迭代游走,均是以违法企业作为起点。

36、上述方案中,步骤八具体如下:

37、step1:超边构建:基于已构建的上市企业关联方及违法信息知识图谱,分别将涉及相同股东、审计师、投资方、高管的企业纳入同一子集,每个子集中的节点构成一条超边ei;

38、step2:超图构建:根据构造的超边ei与知识图谱中的企业类型顶点vcom,以及需要经过模型训练获得的各超边权重ωi,进而构造超边种类为4的上市企业关联方超图hcom,并利用各超边权重ωi的初始值构建对角矩阵w;

39、step3:求解超边的节点度和边缘度,并生成节点度对角矩阵dv和边缘度对角矩阵de;

40、step4:设计超图神经网络,并利用超图神经网络对邻域节点特征聚合更新,最终得到企业关联方集群特征vecrelate;利用超图神经网络得到企业关联方集群特征vecrelate的公式如下:

41、

42、其中,l为网络迭代层数,为第l轮迭代后超图内各节点的特征向量表示,dv、de分别为step3所求的节点度对角矩阵与边缘度对角矩阵,w为超边权重对角矩阵,需要通过模型训练获得的超参数,θl为l层的向量维度转换矩阵,hcom为各超图的不加权条件下的邻接矩阵。

43、进一步的技术方案中,step3具体如下,首先生成各超图的邻接矩阵hi(vi,ei),而后根据各节点连接的超边ei及各超边的权重ωi进行加权求和,计算节点度d(vcom1);对各超边所连接的节点数量求和,得到超边的边缘度为δ(ei);将各超图的节点度和边缘度放置入矩阵并执行对角化操作,得到节点度对角矩阵dv和边缘度对角矩阵de,两类对角矩阵非对角线元素均为0。

44、上述方案中,步骤九中,具体如下:

45、step1:向量化表示企业自身经营信息、企业违法风险特征,实现一阶段的特征拼接;

46、具体地,将企业经营信息特征与违法风险特征共同组成44维的字段属性,通过一层全连接网络得到企业自身经营信息与风险的混合特征,记作vecmix;

47、step2:通过leakyrelu激活函数针对vecrelate完成非线性特征变换,并进一步通过设计mlp多层感知机神经网络,包含两层隐层以及relu激活层在内,使得vecmix的特征维度对标vecrelate的特征维度,将企业自身经营信息与法律风险信息混合特征vecmix与基于hyper-gnn超图神经网络获得的企业关联方集群特征vecrelate有效拼接,得到各个企业节点的最终特征表示veccom,具体设计的特征拼接公式如下:

48、veccom=ξ*leakyrelu(vecrelate)+(1-ξ)*mlp(vecmix)

49、其中,ξ为模型训练过程中获得的超参数;

50、step3:设计legal-gnn企业次年违法预测模型的神经网络分类层,通过多层神经网络层级间的线性变换与激活函数涉及的非线性变换,构造神经网络前向传播单元,并设计企业违法预测相应的损失函数,完成神经网络的反向传播模块,经过各层级神经元的迭代更新,最终输出上市企业次年违法倾向的预测值;

51、所述损失函数采用最小交叉熵损失函数,表示如下:

52、

53、其中,为模型预测的企业次年违法类别,ycom为真实的企业次年违法类别,y为已标记违法标签的训练集中的企业条目。

54、通过上述技术方案,本发明提供的一种基于知识图谱的上市企业违法风险预测方法具有如下有益效果:

55、(1)针对于现有基于知识图谱的企业法律风险预测方法仅挖掘企业间的风险传递路径,忽视了不良企业关联方集群的风险同化效应的问题,本发明构建hyper-gnn的超图表示学习模型。通过超图神经网络对知识图谱中的上市企业节点建立共同股东、共同审计师、共同高管、共同投资方四类超图领域的超边,突破传统图表示学习或图传播算法仅能反映企业网络中单点风险或两点间单线风险的缺陷,较好的表征企业的集群化特征,将不良企业集群的风险同化因素纳入企业违法预测中,提高对于集群化企业违法现象的预测精度。

56、(2)针对于现有企业风控领域的风险传播算法默认采用交易次数、贷款额或自拟权重数值量化风险传递程度,致使结果易受主观性影响的问题,本发明设计了legalrank企业违法风险传播方法,改良图传递算法传播机理,采用社区划分算法划定违法风险扩散范围,并将企业利益关联紧密度与概率学机理引入图游走算法,模拟不良风险源在企业间模拟传播的图游走路径,通过图传递算法深层次迭代后的收敛趋向,精准、科学地评估出企业违法风险指数,既避免了以交易额等数值为权重情况下偏高值或偏低值导致转移概率近乎于0或1的极端现象,也使风险转移概率更贴近于违法概率真实值而非无实际意义的主观拟定值。

57、(3)针对现有技术面临的合法企业与非法企业比例不均衡,异构图表示学习时易受大量合法化企业节点特征的干扰,较难识别出拥有较多合法关联方贸易伙伴的违法企业问题,本发明设计了legal-gnn神经网络,将违法风险传播算法得到的企业风险特征与hyper-gnn得到的企业关联方集群特征相融合,从而增强稀疏化的可疑企业节点特征与大规模的合法企业节点特征的差异性,减弱节点嵌入特征的相似程度,提高对违法企业的甄别精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1