识别企业风险性的方法及装置与流程

文档序号:26550794发布日期:2021-09-08 00:16阅读:158来源:国知局
识别企业风险性的方法及装置与流程

1.本说明书一个或多个实施例涉及计算机技术领域,尤其涉及利用计算机识别企业风险性的方法及装置。


背景技术:

2.企业是国家经济的重要支柱,是推动国家发展的强大力量。国家对于各个行业的产业结构的改革和优化政策在不断更新,企业在响应和配合实施这些政策的同时,需要根据企业自身的发展及时发现新的政策可能带来的机遇和风险,因为安全、高效的进行生产收益是每一家企业的基础。但是由于企业规模、性质、所处行业等方面的不同,企业自身都会存在一些风险问题,在国家政策和相关规定更新的情况下,企业在处理相关问题时会有一定的漏洞和误差,而这些漏洞和误差很可能对企业的正常经营造成不良甚至恶劣的影响,造成企业运营的风险性。另一方面,一些利用企业的特殊性质损害国家利益或人民利益的不法行为,也会造成国家监管的风险性。
3.常规的企业风控,通常采用机器学习或深度学习模型,针对企业的各类信息,例如工商信息、年报信息,提取企业特征(包含企业法人特征等),直接做建模处理,并根据企业是否“暴雷”、破产、盈利等经营状况信息作为是否风险企业的标签,确定企业风险置信度。这种方式对企业自身特征具有较高的依赖度,实际上,企业间的关联关系导致的风险性也很多。例如利用子公司、虚构公司之间的债权债务关系等方式损害国家和人民利益的风险,单从企业自身特征难以发掘。


技术实现要素:

4.本说明书一个或多个实施例描述了一种识别企业风险性的方法及装置,以解决背景技术中提到的一个或多个技术问题。
5.根据第一方面,提供一种识别企业风险的方法,所述方法包括:响应于针对第一企业识别风险性的识别请求,利用包括第一企业在内的各个企业之间的关联关系构建知识图谱,所述知识图谱中,各个节点分别与各个企业一一对应;基于各个企业的企业信息,提取各个企业各自对应的风险特征;利用预先训练的图模型处理所述知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到所述第一企业对应的关联特征;利用预先训练的预测模型处理所述第一企业的关联特征和风险特征,从而得到对所述第一企业的风险性识别结果。
6.在一个实施例中,所述预测模型为集成树模型。
7.在一个进一步的实施例中,所述集成树模型为lightgbm。
8.在一个实施例中,所述知识图谱通过邻接矩阵、特征矩阵描述,所述邻接矩阵中,各个行/列分别与各个企业一一对应,具有关联关系的两两企业在行列交汇处通过第一预定值表示,否则通过第二预定值表示;所述利用预先训练的图模型处理所述知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到第一企业的关联特征包
括:基于所述邻接矩阵确定所述知识图谱对应的度矩阵,所述度矩阵为各个行/各个列分别对应各个企业的对角矩阵,所述对角矩阵的各个对角元素分别表示相应企业所关联的企业数量;在图模型的当前层,基于所述度矩阵、所述邻接矩阵和当前的表征矩阵的乘积,结合图模型在当前层的参数矩阵,确定经当前层迭代后的表征矩阵,其中,在图模型的当前层为第一层的情况下,当前的表征矩阵为所述特征矩阵。
9.在一个实施例中,在图模型的当前层,针对节点v的各个邻居节点分别对应的各个表征向量加权求和,得到第一加权和,其中,单个邻居节点u的加权权重为节点u和节点v的关联系数;根据当前层的第一参数矩阵对所述第一加权和的处理结果,更新节点v的表征向量。
10.在一个实施例中,所述利用预先训练的预测模型处理所述第一企业的关联特征和风险特征,从而得到对所述第一企业的风险性识别结果包括:将第一企业的关联特征和风险特征进行融合,得到融合结果;将所述融合结果输入所述预测模型,从而根据所述预测模型的输出结果,确定第一企业的风险性。
11.在一个实施例中,所述融合结果通过第一企业的关联特征和风险特征的加权平均、拼接之一的方式确定。
12.在一个实施例中,所述预测模型的输出结果为第一企业为风险企业的概率,所述根据所述预测模型的输出结果,确定第一企业的风险性包括:在所述概率大于预设概率阈值的情况下,确定第一企业为风险企业。
13.在一个实施例中,所述预测模型的输出结果为第一企业分别为风险企业和非风险企业的概率,所述根据所述预测模型的输出结果,确定第一企业的风险性包括:在第一企业为风险企业的概率大于非风险企业的概率的情况下,确定第一企业为风险企业。
14.在一个实施例中,所述图模型和所述预测模型一起通过以下方式训练:将多个企业作为训练样本,并获取所述多个企业各自的企业信息及相互之间的关联关系;根据所述关联关系,构建关于所述多个企业的样本知识图谱,并根据各个企业各自的企业信息,提取各个企业的样本风险特征;通过待训练的图模型处理所述样本知识图谱,从而融合所述样本知识图谱中各个节点与其邻居节点的风险特征,从而得到所述各自对应的关联特征;针对所述多个企业中的单个企业,将其关联特征与相应风险特征相融合的融合结果经由待训练的预测模型的处理,得到该单个企业的单个风险预测结果,基于所述单个风险预测结果与该单个企业的风险标签的比对,确定当前的模型损失,从而以模型损失最小化为目标调整图模型和预测模型的参数。
15.根据第二方面,提供一种监测风险企业的方法,包括:响应于风险企业识别请求,获取多个企业的企业信息;根据所述多个企业的企业信息构建知识图谱,并从企业信息中提取风险特征,所述知识图谱中的各个节点与各个企业一一对应;利用预先训练的图模型处理所述知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到各个企业分别对应的各个节点各自的关联特征;根据各个企业各自对应的风险特征和关联特征,利用预先训练的预测模型识别其风险性,从而确定所述多个企业中的若干个风险企业。
16.根据第三方面,提供一种识别企业风险性的装置,所述装置包括:
17.构建单元,配置为响应于针对第一企业识别风险性的识别请求,利用包括第一企
业在内的各个企业之间的关联关系构建知识图谱,所述知识图谱中,各个节点分别与各个企业一一对应,具有关联关系的两两企业对应的节点互为邻居节点;
18.提取单元,配置为基于各个企业的企业信息,提取各个企业各自对应的风险特征;
19.融合单元,配置为利用预先训练的图模型处理所述知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到所述第一企业对应的节点的关联特征;
20.识别单元,配置为利用预先训练的预测模型处理所述第一企业的关联特征和风险特征,从而得到对所述第一企业的风险性识别结果。
21.根据第四方面,提供一种监测风险企业的装置,包括:
22.获取单元,配置为响应于风险企业识别请求,获取多个企业的企业信息;
23.构建单元,配置为根据所述多个企业的企业信息构建知识图谱,并从企业信息中提取风险特征,所述知识图谱中的各个节点与各个企业一一对应;
24.融合单元,配置为利用预先训练的图模型处理所述知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到各个企业分别对应的各个节点各自的关联特征;
25.识别单元,配置为根据各个企业各自对应的风险特征和关联特征,利用预先训练的预测模型识别其风险性,从而确定所述多个企业中的若干个风险企业。
26.根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
27.根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
28.通过本说明书实施例提供的方法和装置,根据企业识别风险性的识别请求,利用各个企业的企业信息,提取各个企业各自对应的风险特征,并基于各个企业之间的关联关系,构建知识图谱,然后利用预先训练的图模型处理所构建的知识图谱,从而对各个企业各自对应的风险特征进行融合,得到待识别企业的关联特征,从而根据相应企业的关联特征和风险特征,利用集成型预测模型识别其风险性。该方案充分利用与所请求企业相关联的其他企业的风险特征识别其风险性,并结合集成型预测模型对数值型特征的处理优势,可以提高识别结果的准确性。
附图说明
29.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
30.图1示出本说明书的一个具体实施架构示意图;
31.图2示出根据一个实施例的识别企业风险性的方法流程图;
32.图3输出识别企业风险性的机器学习模型架构示意图;
33.图4a示出了在一批相同的训练样本下,分别利用图模型+全连接层模型架构的模型效果以及图模型+lightgbm集成树模型架构的模型效果对比参考图;
34.图4b示出了在另一批相同的训练样本下,分别利用图模型+全连接层模型架构的模型效果以及图模型+lightgbm集成树模型架构的模型效果对比参考图;
35.图5示出根据一个实施例的识别风险企业的方法流程图;
36.图6示出根据一个实施例的识别企业风险性的装置的示意性框图;
37.图7示出根据另一个实施例的识别企业风险性的装置的示意性框图。
具体实施方式
38.下面结合附图,对本说明书提供的方案进行描述。
39.首先,结合图1示出的一个具体实施架构进行说明。如图1所示,可以预先收集有企业数据。预先收集的企业数据可以存储在计算平台,也可以存储在其他设备,在此不做限定。这些企业数据可以从企业登记网站、企业介绍网站、百科数据网站、新闻网站等抓取。企业数据通常可以包括企业基本信息,例如注册资金、注册地址、法定代表人、注册年限、子公司、母公司等等中的一项或多项,还可以包括企业经营信息,例如经营范围、经营年限、企业发票数据情况、历史风险状况(如是否曾失信被执行等)等等中的至少一项。
40.计算平台可以存储有预先训练的图模型和预测模型。其中,图模型可以是用于处理图数据的各种模型,例如gcn(graph convolutional network,图卷积神经网络)、gat(graphattentionnetwork,基于注意力机制的图卷积网络)、structure2vec等等。预测模型可以是分类模型等用于推理的模型,例如通过cnn、gbdt等实现。预测模型用于根据输入的特征向量,预测企业的风险性。
41.如图1所示,本说明书的实施架构下,计算平台响应于针对第一企业的风险性识别请求,通过数据提取模块,获取企业数据,并从中提取两方面的数据。一方面,可以提取企业之间的关联数据。这种关联数据可以用于确定构建知识图谱的架构。具体地,各个企业分别对应知识图谱中的各个节点,具有关联关系的两两企业,相应两两节点相连接,或互为邻居节点。
42.其中,知识图谱的架构可以通过多种形式表示。在一个实施例中,知识图谱架构可以通过三元组形式表示,则具有关联关系的企业a和企业b可以表示为三元组(企业a,连接关系1,企业b),也可以记为(a,r1,b)。多个三元组就可以记录一个知识图谱。
43.在另一个实施例中,知识图谱架构可以通过矩阵形式表示。此时,可以通过邻接矩阵表示企业之间的关联关系,例如是表1示出的形式:
44.表1邻接矩阵示例
[0045] 企业a企业b企业c企业d企业e企业f企业a010000企业b100100企业c000100企业d011001企业e000001企业f000110
[0046]
其中,数值1为第一预定值,也可以替换为其他值,用于表示在当前位置交汇的相应行和列分别对应的两两企业之间具有关联关系,数值0为第二预定值,也可以替换为其他
值,用于表示相应两两企业之间不具有关联关系。这里的关联关系例如为互为母子公司关系、业务往来关系、相同法定代表人关系、资金往来关系等等。表1的示例中,单个企业与其自身无关联关系,实际上,在一些实施例中,企业与其自身还可以具有关联关系,这样,以上表1中所在行和列对应的企业一致的位置,对应数值为1。其中,第一预定值和第二预定值用于在后续操作中将关联企业和非关联企业区分开来,因此,可以选择对操作结果产生较重要区分的值,例如后续操作包括将第一预定值和第二预定值作为相应权重的乘法,则第一预定值和第二预定值可以分别选择远一个大于1的数、一个接近0的数,或者一个任意正数、一个任意负数,从乘法运算的性质而言,1、0是最便利的选择。
[0047]
另一方面,还可以提取各个企业的风险特征。对于单个企业来说,其多个风险特征可以构成知识图谱中相应节点的表达向量。在三元组表示的知识图谱架构中,节点表达向量作为知识图谱的一部分,可以与各个节点对应存储。在知识图谱架构通过邻接矩阵描述的情况下,各个企业的风险特征可以通过矩阵形式表示。如表2所示,给出了一个风险特征矩阵的例子。
[0048]
表2风险特征矩阵示意
[0049][0050]
表2仅作为一个表达形式的示例,各个特征值均用0表示,实际上,其可以是根据实际情形确定的值,例如特征1表示注册年限不足的情况下,企业a的注册年限大于预定年限阈值(如5年),则对应特征值为0,小于预定年限阈值,则对应特征值为1(也可以是其他非0值)。
[0051]
其中,数据提取模块可以通过人工检测实现,也可以通过计算机自动检测完成,在此不做限定。
[0052]
接着,通过图模型处理所构建的知识图谱,从而可以对节点邻居表达向量进行融合,从而可以得到第一企业针对在各个关联企业情形下得到的关联特征。该关联特征可以看作基于关联企业的风险特征得到的隐藏风险特征,即表达了第一企业的潜在风险性。这样,可以进一步将第一企业潜在的关联特征和自身的风险特征一起经由预测模型处理,从而识别第一企业的风险性。
[0053]
以上技术构思下,由于充分考虑了第一企业的关联企业的风险特征给第一企业带来的潜在风险性,因此,可以更加准确地对第一企业进行风险识别。其中,第一企业可以是任意企业。
[0054]
下面详细介绍本说明书的技术构思。
[0055]
图2示出了根据一个实施例的识别企业风险性的流程。该流程的执行主体可以是任一具有一定计算能力的计算机、设备或服务器。更具体地,例如图1示出的计算平台。更进
一步地,该计算平台例如可以设于做企业分析的服务机构、企业风险监管机构等。
[0056]
如图2所示,识别企业风险性的流程可以包括如下步骤:步骤201,响应于针对第一企业识别风险性的识别请求,利用包括第一企业在内的各个企业之间的关联关系构建知识图谱,知识图谱中,各个节点分别与各个企业一一对应;步骤202,基于各个企业的企业信息,提取各个企业各自对应的风险特征;步骤203,利用预先训练的图模型处理知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到第一企业对应的关联特征;步骤204,利用预先训练的预测模型处理第一企业的关联特征和风险特征,从而得到对第一企业的风险性识别结果。
[0057]
首先,通过步骤201,响应于针对第一企业识别风险性的识别请求,利用包括第一企业在内的各个企业之间的关联关系构建知识图谱。可以理解,在所构建的知识图谱中,各个节点分别可以与各个企业一一对应。具有关联关系的两两企业对应的两两节点互为邻居节点。例如,企业a和企业b的法定代表人为同一个人,则企业a和企业b对应的两个节点在形象化展示中通过连接边连接,存储时通过前文的三元组形式,或者邻接矩阵中的数值表示。
[0058]
可以理解,根据当前流程的执行主体的不同,以及应用的平台不同,识别请求的发出方也可以不同。举例而言,在该流程的执行主体是企业风险检测的服务方,则以上识别请求可以由客户端发出。再例如,在该流程的执行主体是监管部门的工作设备(例如是可以单机完成风险预测的设备),该流程可以应用于相关计算机应用,则以上识别请求可以相关计算机应用的页面进行表单提交而发出。在其他实施场景中,以上识别请求还可以通过其他主体发出,在此不再一一例举。
[0059]
各个企业的企业信息可以预先抓取并存储在本地或远端,也可以响应于以上识别请求去抓取。企业信息例如可以通过爬虫抓取(如通过企业信息查询网站爬取)、通过人工收集等方式获取。在一些实施例中,可以预先收集有企业信息,还可以在企业信息有变更的情况下更新企业信息。例如,根据成立日期,成立每满1年,更新一次成立年限,再例如,新增加了一个子公司,则增加子公司的企业信息,并确定其关联关系。
[0060]
其中,企业之间的关联关系可以通过人工识别,也可以通过机器学习进行语义分析识别。例如,企业信息的关键词中出现子公司、母公司、控股公司之类的描述,则可以将相关企业识别为具有关联关系。再例如,针对法定代表人、总经理、股东、负责人、控股人等关键词后的重要人物姓名信息被提取出来做比对,两个公司之间的相关人物姓名一致时,认为两个企业之间具有关联关系。
[0061]
对于企业来说,可能很多企业之间会具有相互独立性,例如某空调企业和棉花加工企业之间可能没有任何关联路径,那么他们之间就可能是相互独立的。或者说两个企业不在一个连通域。这种情况下,还可以仅选择与第一企业产生直接或间接关联关系的企业(与第一企业具有连通路径的企业),来构建知识图谱。这样,可以大大减少数据处理量。
[0062]
另一方面,在步骤202中,基于各个企业的企业信息,提取各个企业各自对应的风险特征。可以理解,风险特征通常是用于描述企业风险性的特征。
[0063]
根据企业信息,可以针对各个企业分别提取风险特征。风险特征通常可以用于表示与企业风险具有相关性的特征。风险特征可以认为预先设定,或者通过机器学习方法筛选确定。根据具体场景,可以确定不同的风险场景。例如,在识别p2p企业是否存在“暴雷”或破产风险的场景下,风险特征可以包括,提现周期、强制复投、短标增量、企业账户向个人账
户资产转移频次及数额、法定代表人是否有赌博等行为等等中的一项或多项。再例如,在识别企业偷税漏说风险的场景下,风险特征可以包括,企业流水是申报是否具有明显差距、员工收入是否明显区别于相同行业、法定代表人或主要负责人个人账户流水是否明显异常等等。风险特征的提取过程也就是确定各个特征值的过程。风险特征的提取可以通过人工进行,也可以通过可进行语义分析的机器学习模型检测判断,在此不做限定。
[0064]
如果构建关于企业的知识图谱,则各个企业分别对应的风险特征可以作为相应的各个节点的表征。例如,单个企业的多个风险特征构成相应节点的初始表征向量。在一个实施例中,知识图谱通过矩阵形式描述,各个企业的风险特征如表2的形式组合在一起,可以构成该知识图谱的特征矩阵。此时,一个邻接矩阵和一个特征矩阵可以定义一个知识图谱。特征矩阵的行列维数分别可以对应风险特征个数和企业个数。在邻接矩阵中,各个行列分别与各个企业一一对应,各个列也分别与各个企业一一对应。具有关联关系的两两企业在行列交汇处通过非零值表示,否则通过0值表示(如表1所示)。其中,行和列中的企业顺序可以一致或不一致,在此不做限定。
[0065]
然后,经由步骤203,利用预先训练的图模型处理知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到第一企业对应的关联特征。可以理解,为了通过与第一企业相关的其他企业来识别第一企业的相关性,可以根据第一企业与其他企业的关联关系,融合相关企业的风险特征,作为对第一企业进行风险识别的辅助特征。
[0066]
图模型通常适用于处理图数据的机器学习模型。前文的知识图谱就是这里说的图数据之一。知识图谱用于描述多个实体之间的关联关系,那么多个企业建立关联关系之后,也可以作为节点与企业一一对应的知识图谱来处理。常用的图模型例如可以包括gcn、gat、structure2vec等等。
[0067]
图模型通常可以包括多层神经网络,单层神经网络可以遍历各个节点,以将单个节点的邻居特征向量融合到一起,形成新的表征向量,该过程也可以称为embedding。
[0068]
在一个可能的设计中,图模型可以通过对邻居节点的检测和向量的融合来更新节点的表征向量。以gcn为例,针对节点v的各个邻居节点分别对应的各个表征向量加权求和,其中,单个邻居节点u的加权权重为节点u和节点v的关联系数;根据当前层的第一参数矩阵对加权求和结果的处理结果,更新节点v的表征向量。
[0069]
在一个具体例子中,节点v在第l+1层的表达向量可以通过以下方式确定:
[0070][0071]
其中,h
l+1
(v)是节点v在图卷积神经网络的第l+1层的特征表达向量;n(v)是节点v的邻居节点;d
v
、d
u
是归一化因子,比如是相应节点的度,即,与相应节点连接的连接边数量,或者一阶邻居节点的数量;h
l
(v)是节点v在图卷积神经网络的第l层的特征表达向量;h
l
(u)是节点u在图卷积神经网络的第l层的特征表达向量;w1是相应节点图卷积神经网络第l层的模型参数。邻居节点有多个时,w1可以是矩阵形式的模型参数,可以称为权重矩阵。
[0072]
根据另一个可能的设计,还可以通过矩阵之间的运算来实现节点的特征融合。例如,基于第一企业和与其相关的其他企业的风险特征,可以构建风险特征矩阵,并结合各个企业间的邻接矩阵,通过矩阵运算融合企业之间的风险特征。例如:
[0073]
其中,a为各个节点整体的邻接矩阵,邻接矩阵a可以在整个图模型的处理过程中保持不变,表示将节点i自身也看作其邻居节点时的邻接矩阵,在初始邻接矩阵不包括自身与自身关联的情况下,可以将所确定的邻接矩阵增加一个单位对角矩阵,形成自环。x1表示第l层的特征矩阵,w1是图模型第l层的权重参数;表示各个企业的度矩阵,度矩阵通常为对角矩阵,对角元素表示各个企业的度(和其具有关联关系的企业数量)。度矩阵可以通过邻接矩阵确定,用于对特征矩阵进行归一化。在邻接矩阵中通过非零值描述企业之间具有关联关系的情况下,度矩阵可以通过统计邻接矩阵中各个企业所在行或列中非零值的数量确定相应企业对应的度。
[0074]
在一个进一步的实施例中,还可以把d的拆开与a相乘,得到一个对称且归一化的矩阵:
[0075][0076]
其中:表示节点i经过图模型的第l+1层的处理得到的表达向量;x
j(l)
表示节点j经过图模型的第l层的处理得到的表达向量;ni表示节点i的所有邻居节点,通常包括其自身;σ为用于非线性变换的激活函数;w1是图模型第l层的权重参数;b
l
是图模型第l层的截断参数,其根据需要可以为矩阵或数值。可以理解的是,用于对节点表达向量和w
l
的乘积进行归一化。针对固定的多个企业,在企业信息不变的情况下,其特征矩阵和邻接矩阵是一致保持不变的。也就是说,是确定的,并可以应用到图模型的各个层中。
[0077]
这样,假设第一企业对应节点i,经过图模型多次迭代(每层对应一次迭代),可以得到第一企业融合了其关联企业特征的表达向量,该最终的表达向量在本说明书中称为关联向量,关联向量中的各个维度对应各个关联特征。可以理解,关联特征是隐藏特征,不能直接从企业信息中获取,也可能无法明确其具体含义,但这些特征包含了与第一企业的关联企业的信息,因此,对于识别企业风险具有重要意义。
[0078]
进一步地,通过步骤204,利用预先训练的预测模型处理第一企业的关联特征和风险特征,从而得到对第一企业的风险性识别结果。其中,第一企业的关联特征和风险特征可以通过拼接、加权平均、叠加等方式进行融合后,用于输入预测模型识别第一企业的风险性。
[0079]
可以理解,将关联特征和风险特征融合后,一种构思是,将融合结果经过激活函数等的处理,映射为风险企业的概率。然后,根据该概率与预定概率阈值的对比确定其是否风险企业,例如大于预定概率阈值为风险企业,否则为无风险企业或正常企业。此时,相当于在图模型后面增加一个激活层。这种方式下,理论上可以得到相应的风险性识别结果。然而,由于企业数据的特殊性,将风险特征和关联特征通过简单的激活层处理,效果并不太理想。这是因为,根据企业数据的特点,很多特征是数值型的,这种数值型的特征通常具有与数值本身强烈关联的意义。例如,企业成立年限为1年或10年,对企业风险性的影响不仅仅体现在数值1和10上,而是具有相当重要的现实意义,甚至可能起着决定性作用,例如成立10年的企业相较于成立1年的企业,风险性可能降低百分之90等等。
[0080]
因此,在本说明书的架构下,可以将关联特征和风险特征的融合结果,作为输入特征,利用预先训练的预测模型来预测第一企业的风险性。该预测模型例如通过诸如lr、gbdt、xgboost、lightgbm之类的模型实现。此时,预测模型的输出可以是第一企业为风险企业的概率,也可以是分别对应到高风险企业和低风险企业(如无风险企业、正常企业等)的概率的两维向量,在此不做限定。
[0081]
本说明书构思下的企业风险性识别的机器学习模型架构如图3所示。将第一企业的风险特征和关联特征通过树形机器学习模型处理,或者本身包含多个模型的决策结果进行投票的集成模型处理,得到最终的风险性预测结果。
[0082]
其中,在业务模型的训练过程中,可以将多个企业作为训练样本,并获取他们的企业信息、他们之间的关联关系,以及各个企业是否为风险企业的标签。通过关联关系,可以确定知识图谱的架构。通过企业信息,可以提取各个企业的风险特征构成的特征向量。进一步地,针对着多个企业中的一批次(一个battle,例如n个)企业,通过图模型处理知识图谱融合风险特征,从而得到这个批次各个企业各自对应的关联特征。进一步地,针对该批次的各个企业,将其关联特征和风险特征一起经过预测模型处理得到输出结果。将输出结果与他们分别对应的标签进行比较,从而确定模型损失。以最小化模型损失为目标,调整图模型及后续处理模块中涉及的模型参数。经过多个批次企业的取样训练,在业务模型的输出结果满足预定条件,例如准确度大于预定准确度阈值,或者损失函数收敛等条件下,确定训练结束。
[0083]
值得说明的是,在对第一企业的风险性识别为对应到风险企业(也可以是反面)的概率的情况下,预定概率阈值可以通过人工经验确定,也可以根据训练好的模型绘制k

s曲线(洛伦兹曲线)确定,在此不做限定。
[0084]
由于风险特征通常与数值有关,例如企业人数、成立年限等,因此,上述融合结果为关联特征和风险特征的拼接结果,预测模型为lr、gbdt、xgboost、lightgbm之类的机器学习模型,通过图模型与预测模型拼接识别企业风险性的的识别效果,通常远远优于通过激活层、全连接层等处理以上融合结果的识别效果。而gbdt、xgboost、lightgbm之类的集成树模型本身包含多个树模型的竞争机制,可以进一步优化预测准确度。
[0085]
为了体现图模型对知识图谱的处理结果和集成树相结合,在企业风险识别业务领域对预测结果的影响,在图4a、图4b中,分别给出其中两次不同训练样本下的不同形式的实验结果对比。
[0086]
首先参考图4a所示,是在一批训练样本中,分别利用图模型+全连接层(end2end)模型架构的模型效果以及图模型+lightgbm集成树模型架构的模型效果。参考标示框401内的运行结果可知,利用图模型+全连接层的模型架构,模型性能四舍五入取4位小数为:f1分数(对应图中f1 score项)0.2324,ks曲线中正负样本之间的ks值(对应图中的ks项)0.4527,roc曲线下面积auc(对应图中的auc项)0.8005。参考标示框402内的运行结果可知,利用图模型+lightgbm集成树的模型架构,模型性能四舍五入取4位小数为:f1分数0.3527,ks曲线中正负样本之间的ks值0.5114,roc曲线下面积auc0.8469。
[0087]
接着参考图4b所示,是在另一批训练样本中,分别利用图模型+全连接层(end2end)模型架构的模型效果以及图模型+lightgbm集成树模型架构的模型效果。其中,计算机截图403、计算机截图405分别是图模型+全连接层的模型架构下的roc、ks曲线示意
图,计算机截图404、计算机截图406分别是图模型+lightgbm集成树模型架构的roc、ks曲线示意图。通过截图中的曲线可以看出,图模型+全连接层的模型架构下的auc值为0.6936,图模型+lightgbm集成树模型架构的auc值为0.7684,图模型+全连接层的模型架构下ks值为0.3303,图模型+lightgbm集成树模型架构的ks值为0.4206。
[0088]
实际结果的各项也可以通过计算机运行的汇总表格描述。图模型+全连接层的模型架构下参考表3所示:
[0089]
表3图模型+全连接层的模型架构评估
[0090][0091]
图模型+lightgbm集成树的模型架构下参考表4所示:
[0092]
表4图模型+lightgbm集成树的模型架构评估
[0093][0094]
本领域技术人员可以理解,以上模型性能的评价指标f1分数、ks、auc值越大,表示模型性能越好。在相应技术领域,模型性能指标的评估通常以千分点计。这是因为,在相应技术领域,1个千分点的性能提升,可能带来百亿营收。为了更加清晰直观地看出图模型和集成树模型结合的模型效果提升,将表3、表4,以及图4a中的数据汇总到以下表5中进行分析。
[0095]
表5实验结果分析
[0096]
[0097]
从表5可以看出,在不同的样本集中,图模型和集成树结合的模型架构下,各项模型性能指标均具有显著提升。这种几十个千分点的效果提升对于实际应用可能带来巨大影响。
[0098]
值得说明的是,图4a、图4b中,通过模型运行结果的计算机截图进行模型效果的展示,由于模型运行时通过英文标识知识图谱节点及模型性能,因此截图中包含英文字符。其中,标示框401和标示框402中的字符为模型效果的关键字符,用于描述模型性能,这些字符等已在前文详细描述。节点对应的英文字符标识等由于对方案本质没有影响,在附图中抹去。另外,图4a、图4b中均使用了计算机截图,截图的清晰度对本说明书描述的技术方案没有实质性影响。
[0099]
本领域技术人员可以理解,图2示出的流程中,在构建知识图谱过程中,可以先确定节点之间的连接关系,也可以先提取风险特征,在此不做限定。因此,步骤201、步骤202的执行顺序在实践中可以调换顺序执行或并列执行,都属于本说明书技术构思的范围。
[0100]
本领域技术人员容易理解,图2提供的流程描述了针对一个企业进行风险性预测的流程,事实上,还可以同时对多个企业进行风险性监测。在对指定的多个企业进行风险性预测的情况下,可以在步骤201

步骤203按照前文的描述进行,而在步骤204中,针对指定的每个企业都进行一次风险性识别。另外,在不指定待评估企业而对各个企业的风险性进行普查的情况下,可以通过图5示出的流程进行。
[0101]
如图5所示,该流程可以包括:
[0102]
步骤501,响应于风险企业识别请求,获取多个企业的企业信息;
[0103]
步骤502,根据多个企业的企业信息构建知识图谱,并从企业信息中提取风险特征,知识图谱中的各个节点与各个企业一一对应;
[0104]
步骤503,利用预先训练的图模型处理知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到上述多个企业各自的关联特征;
[0105]
步骤504,根据各个企业各自对应的风险特征和关联特征,识别其风险性,从而确定多个企业中的若干个风险企业。
[0106]
其中,步骤501

步骤504中,涉及的特征提取、知识图谱构建、对单个企业的风险性识别等可以通过与图2类似的方式实现,图2中的相关描述同样适应于图5示出的流程,在此不再赘述。图5与图2的区别在于识别请求的不同,以及反馈结果的不同,这取决于实际业务需求。
[0107]
回顾以上过程,本说明书实施例提供的识别企业风险的方法,不单考虑企业本身的风险特征,还通过企业之间的关联关系,挖掘关联企业之间的关联特征,从而更精准地识别风险企业,提高企业风险性识别的有效性。进一步地,通过风险特征和关联特征识别企业的风险性过程中,通过一个集成型预测模型实现,进一步增加识别准确性。
[0108]
根据另一方面的实施例,还提供一种识别企业风险性的装置。该装置可以用于识别企业风险性。如图6所述,识别企业风险性的装置600可以包括:
[0109]
构建单元61,配置为响应于针对第一企业识别风险性的识别请求,利用包括第一企业在内的各个企业之间的关联关系构建知识图谱,知识图谱中,各个节点分别与各个企业一一对应,具有关联关系的两两企业对应的节点互为邻居节点;
[0110]
提取单元62,配置为基于各个企业的企业信息,提取各个企业各自对应的风险特
征;
[0111]
融合单元63,配置为利用预先训练的图模型处理知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到第一企业对应的关联特征;
[0112]
识别单元64,配置为利用预先训练的预测模型处理第一企业的关联特征和风险特征,从而得到对第一企业的风险性识别结果。
[0113]
根据另一方面实施例,还可以一种监测风险企业的装置。如图6所示,一个实施例的监测风险企业的装置700包括:
[0114]
获取单元71,配置为响应于风险企业识别请求,获取多个企业的企业信息;
[0115]
构建单元72,配置为根据多个企业的企业信息构建知识图谱,并从企业信息中提取风险特征,知识图谱中的各个节点与各个企业一一对应;
[0116]
融合单元73,配置为利用预先训练的图模型处理知识图谱,从而将各个节点的风险特征与其邻居节点的风险特征进行融合,得到各个企业各自对应的关联特征;
[0117]
识别单元74,配置为根据各个企业各自对应的风险特征和关联特征,识别其风险性,从而确定多个企业中的若干个风险企业。
[0118]
值得说明的是,图6、图7所示的装置600、700分别是与图2、图5示出的方法实施例相对应的装置实施例,图2、图5示出的方法实施例中的相应描述同样适用于装置600、700,在此不再赘述。
[0119]
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图5所描述的方法。
[0120]
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图5所描述的方法。
[0121]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0122]
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1