企业数据的识别方法、终端设备以及存储介质与流程

文档序号:33647541发布日期:2023-03-29 05:18阅读:51来源:国知局
企业数据的识别方法、终端设备以及存储介质与流程

1.本技术涉及数据分析技术领域,特别是涉及一种企业数据的识别方法、终端设备以及存储介质。


背景技术:

2.随着大数据技术的广泛应用,需要通过挖掘企业与企业、企业与自然人、自然人与自然人之间的关系以提取出企业的关联关系、股权结构、关系链图、疑似关系等多种维度。
3.相关技术中通常使用人工方式进行企业数据的识别,费时费力且全面性、准确度有限。


技术实现要素:

4.本技术提供一种企业数据的识别方法、终端设备以及存储介质。
5.本技术采用的一个技术方案是提供一种企业数据的识别方法,识别方法包括:
6.获取待识别企业数据;
7.将待识别企业数据输入至图注意力神经网络,得到图注意力神经网络输出的识别结果;其中,图注意力神经网络是根据已知的企业数据构建的图结构训练得到;
8.基于识别结果,确定出满足预设条件的待识别企业数据。
9.其中,企业数据包括目标企业的开证信息、交易信息、二级市场转卖信息和工商信息至少一种。
10.其中,将待识别企业数据输入至图注意力神经网络,得到图注意力神经网络输出的识别结果,包括:
11.根据目标企业的开证信息、交易信息、二级市场转卖信息、工商信息构建出目标图结构,并将目标图结构输入至图注意力神经网络,得到目标图结构对应的至少一个节点数据,节点数据用于表征开证信息、交易信息、二级市场转卖信息、工商信息中涉及的企业;
12.将至少一个节点数据输入至图注意力神经网络中的注意力层,得到每一节点数据的目标注意力权重;
13.根据目标注意力权重确定出每一节点数据对应的节点特征;
14.根据节点特征得到识别结果。
15.根据目标注意力权重确定出每一节点数据对应的节点特征,包括:
16.利用目标注意力权重确定出每一节点对应的注意力分数;
17.根据注意力分数确定出每一节点数据对应的节点特征。
18.根据注意力分数确定出每一节点数据对应的节点特征,包括:
19.对注意力分数进行归一化处理;
20.利用归一化处理后的注意分数确定出每一节点数据对应的节点特征。
21.其中,注意力层包括多个注意力机制;
22.其中,将至少一个节点数据输入至图注意力神经网络中的注意力层,得到每一节
点数据的目标注意力权重,包括:
23.将至少一个节点数据输入至图注意力神经网络中的注意力层,以使每一节点数据在对应的注意力机制下得到对应的初始注意力权重;
24.对多个初始注意力权重进行融合,得到目标注意力权重。
25.获取待识别企业数据之前,包括:
26.获取训练样本;训练样本为已知的企业数据构建的图结构;
27.将训练样本输入至待训练图注意力神经网络,对待训练图注意力神经网络进行训练;
28.在待训练图注意力神经网络的精度满足阈值时,结束对待训练图注意力神经网络的训练。
29.将训练样本输入至待训练图注意力神经网络,对待训练图注意力神经网络进行训练,包括:
30.将训练样本输入至待训练图注意力神经网络,确定出图注意力神经网络的节点数据;
31.根据节点数据构建节点与节点之间的连接关系,以及连接权重。
32.本技术采用的另一个技术方案是提供一种终端设备,终端设备包括存储器以及与存储器连接的处理器;
33.其中,存储器用于存储程序数据,处理器用于执行存储器存储的程序数据以实现如上述的识别方法。
34.本技术采用的另一个技术方案是提供一种计算机存储介质,计算机存储介质用于存储程序指令,程序指令在被计算机执行时,用以实现如上述的识别方法。
35.本技术的有益效果是:获取并将待识别企业数据输入至已知的企业数据构建的图结构训练得到的图注意力神经网络,得到图注意力神经网络输出的识别结果,并确定出满足预设条件的待识别企业数据。本技术的企业数据识别方法通过使用图注意力神经网络对待识别企业数据进行深度计算挖掘,改善人力费时费力且全面性、准确度有限的问题,进一步提升确定符合要求的待识别企业的效率和准确性。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1是本技术提供的企业数据识别方法一实施例的流程示意图;
38.图2是本技术提供的企业数据识别方法另一实施例的流程示意图;
39.图3是图2中s14子步骤的流程示意图;
40.图4是图3中s142子步骤的流程示意图;
41.图5是图2中s11之前步骤的流程示意图;
42.图6是图5中s102子步骤的流程示意图;
43.图7是本技术提供的终端设备一实施例的结构示意图;
44.图8是本技术提供的计算机存储介质一实施例的结构示意图。
具体实施方式
45.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
46.本技术主要设计了一套减少设备端深度学习模型处理图像耗时降低的方法,和传统方法不一样的是,本技术从图像分辨率角度入手,结合蒸馏学习,可以在网络计算和图像预处理两个角度同时降低耗时,同时保证精度一致。
47.请参阅图1,图1是本技术提供的企业数据识别方法一实施例的流程示意图。
48.如图1所示,本技术实施例的企业数据识别方法具体可以包括以下步骤:
49.s1,获取待识别企业数据。
50.一些实施例中,企业数据识别终端从若干非结构化的数据中提取待识别企业数据。可以理解地,待识别企业数据可以为半结构化数据或结构化数据。
51.其中,企业数据包括目标企业的开证信息、交易信息、二级市场转卖信息和工商信息至少一种。进一步地,企业数据还可以包括目标企业的企业属性和实体关系。
52.一些实施例中,企业数据也还可以包括实体属性,其中实体属性可以包括开证申请人、受益人和开证行。
53.可选地,企业属性还可以包括企业名称、企业股东、企业经营类型、企业规模、注册年限、开证行为、开证活跃度、转卖活跃度等属性数据中的一种或多种,此处不做限定。
54.可选地,实体关系可以包括开证关系、交易关系、股权关系、转卖关系等关系数据中的一种或多种,此处不做限定。
55.s2,将待识别企业数据输入至图注意力神经网络,得到图注意力神经网络输出的识别结果。
56.一些实施例中,企业数据识别终端将待识别的企业数据整理形成图结构后,输入至图注意力神经网络,得到图注意力神经网络对应输出的结果。
57.可以理解地,企业数据识别终端将待识别的企业数据中的实体属性作为图节点、实体关系作为图的边以形成对应的图结构。进一步地,企业数据识别终端计算节点之间的亲密度、依赖关系、利用机器学习算法进一步确定节点之间的关系强度。
58.可选地,机器学习算法可以为社区发现算法,此处不做限定。
59.其中,图注意力神经网络是根据已知的企业数据构建的图结构训练得到。
60.一些实施例中,图注意力神经网络通过已知的企业数据对应的图结构数据经过训练形成。
61.s3,基于识别结果,确定出满足预设条件的待识别企业数据。
62.一些实施例中,企业数据识别终端根据输出得到的待识别企业对应的识别结果是否满足预设条件,确定待识别企业是否满足要求。
63.例如,识别结果可以为0-100分,预设条件为识别结果大于或等于60分,即企业数据识别终端筛选并保留识别结果大于或等于60分的待识别企业。
64.上述方法,通过使用图注意力神经网络算法对待识别企业数据进行深度计算挖掘,改善人力费时费力且全面性、准确度有限的问题,进一步提升确定符合要求的待识别企业的效率和准确性。
65.请参阅图2,图2是本技术提供的企业数据识别方法另一实施例的流程示意图。
66.如图2所示,本技术实施例的企业数据的识别方法另一实施例可以为:
67.s11,获取待识别企业数据。
68.一些实施例中,企业数据识别终端从若干非结构化的数据中提取待识别企业数据。可以理解地,待识别企业数据可以为半结构化数据或结构化数据。
69.其中,企业数据包括目标企业的开证信息、交易信息、二级市场转卖信息、工商信息至少一种。进一步地,企业数据还可以包括目标企业的企业属性和实体关系。
70.一些实施例中,企业数据也还可以包括实体属性,其中实体属性可以包括开证申请人、受益人和开证行。
71.可选地,企业属性还可以包括企业名称、企业股东、企业经营类型、企业规模、注册年限、开证行为、开证活跃度、转卖活跃度等属性数据中的一种或多种,此处不做限定。
72.可选地,实体关系可以包括开证关系、交易关系、股权关系、转卖关系等关系数据中的一种或多种,此处不做限定。
73.s12,根据目标企业的开证信息、交易信息、二级市场转卖信息、工商信息构建出目标图结构,并将目标图结构输入至图注意力神经网络,得到目标图结构对应的至少一个节点数据。
74.一些实施例中,企业数据识别终端根据目标企业的开证信息、交易信息、二级市场转卖信息、工商信息构建出目标图结构,形成图结构形式的待检测样本,将图结构形式的待检测样本输入至图注意力神经网络,得到待检测样本对应的至少一个节点数据。
75.其中,本技术实施例所使用的图注意力神经网络中,每一层注意力层的输入h

是一个节点特征向量集合,即一个企业的特征向量集合,满足:
76.h

={h
″1,h
″2,

,h
″n},hi″
∈rf″
77.其中,n表示图中节点的数量,f

表示每一个节点的特征表示的维度。
78.每一层注意力层的输出是另一个节点特征向量集合h
″′
,满足:
79.h
″′
={h
″′1,h
″′2,

,h
″′n},h
″″′i∈rf″′
80.其中,f
″′
可以不等于f


81.s13,将至少一个节点数据输入至图注意力神经网络中的注意力层,得到每一节点数据的目标注意力权重。
82.其中,本实施例所使用的图注意力神经网络为了实现注意力层输入特征数量f

到输出特征数量的f
″′
的转换,通过使用一个线性变换权重矩阵w

,实现所有节点的特征转换并获得更高级别的特征。
83.其中线性变换权重矩阵w

满足:
84.w

∈rf″′×f″′
85.其中,每一节点的特征转换满足以下关系:
86.z
′j=w
′h′j87.其中,z
′j为每一节点转换后的特征集合。
88.s14,根据目标注意力权重确定出每一节点数据对应的节点特征。
89.一些实施例中,企业数据识别终端根据上述目标注意力权重获得的方法,确定出该图注意力神经网络中每一节点数据所对应的节点特征。
90.根据目标注意力权重确定出每一节点数据对应的节点特征的主要步骤请参阅图3,图3是图2中s14子步骤的流程示意图。
91.如图3所示,s14的子步骤可以包括:
92.s141,利用目标注意力权重确定出每一节点对应的注意力分数。
93.一些实施例中,使用的图注意力神经网络中某一节点vb的特征对另一节点va的注意力分数e
ab
满足:
94.e
ab
=a(w
′h′a,w
′h′b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
95.其中,a为注意力机制函数,是一个单层的前向传播网络,其参数为权重向量a∈r
2f
″′

96.通过计算一节点的特征对另一节点的贡献度,用于从节点的领域聚合信息,即只对满足ba∈na计算注意力分数e
ab

97.通过上述方法,企业数据识别终端确定出每一节点对应的注意力分数。
98.s142,根据注意力分数确定出每一节点数据对应的节点特征。
99.根据注意力分数确定出每一节点数据对应的节点特征的详细步骤请参阅图4,图4是图3中s142子步骤的流程示意图。
100.如图4所示,s142的子步骤可以包括:
101.s1421,对注意力分数进行归一化处理。
102.一些实施例中,企业数据识别终端对每一节点数据对应的注意力分数e
ab
通过归一化指数函数进行归一化处理,得到归一化注意力系数α
ab
,即:
[0103][0104]
在公式(2)的基础上,图注意力神经网络使用带泄露线性整流(leaky rectified linear unit,leakyrelu)作为非线性层,合并后得到公式(3):
[0105][0106]
s1422,利用归一化处理后的注意分数确定出每一节点数据对应的节点特征。
[0107]
一些实施例中,在确定了归一化的注意力系数后,图注意力神经网络使用归一化的注意力系数计算对应特征的线性组合,作为每个节点最后的输出特征,得到公式(4):
[0108][0109]
其中,σ为非线性激活函数。
[0110]
进一步地,为了稳定自注意力学习的学习过程,所使用的图注意力神经网络利用多头注意力增强图节点的表征能力,通过应用k个独立的关注机制计算隐藏状态,并将上述k个独立输出的归一化注意力系数连接起来,从而得到公式(5):
[0111]
[0112]
其中,||表示为拼接操作,wk为第k个注意力机制下输入的线性变换权重矩阵。
[0113]
可选地,对上述k个独立输出的归一化注意力系数连接起来可以为对k个独立输出的归一化注意力系数计算平均值,即:
[0114][0115]
上述方法,通过使用图注意力神经网络,对转换成图数据的待识别企业数据进行特征提取,保留节点与其他节点之间的注意力分数较高的信息作为节点特征,提升识别结果的准确性。
[0116]
请重新参阅图2。
[0117]
s15,根据节点特征得到识别结果。
[0118]
s16,基于识别结果,确定出满足预设条件的待识别企业数据。
[0119]
上述方法,通过对获得的待识别企业的实体属性、企业间关系等的多元异构数据转化为图结构数据形式,应用图注意力神经网络对上述图结构进行深度计算挖掘,改善人力费时费力且全面性、准确度有限的问题,进一步提升确定符合要求的待识别企业的效率和准确性。
[0120]
如图5所示,图5是图2中s11之前步骤的流程示意图,上述的图注意力神经网络可以采用以下方式进行训练,具体如下:
[0121]
s101,获取训练样本。
[0122]
一些实施例中,企业数据识别终端获取已知的企业数据对应的图结构数据,从中抽取一部分作为训练样本,另一部分作为测试样本。
[0123]
可以理解地,企业数据识别终端将已知的企业数据中的实体属性作为图节点、实体关系作为图的边以形成对应的图结构。进一步地,企业数据识别终端计算节点之间的亲密度、依赖关系、利用机器学习算法进一步确定节点之间的关系强度。
[0124]
可选地,机器学习算法可以为社区发现算法,此处不做限定。
[0125]
s102,将训练样本输入至待训练图注意力神经网络,对待训练图注意力神经网络进行训练。
[0126]
一些实施例中,企业数据识别终端将图结构数据形式的训练样本输入至待训练的注意力神经网络,对该神经网络进行训练。
[0127]
对待训练图注意力神经网络进行训练的详细步骤请参阅图4,图4是图3中s102子步骤的流程示意图。
[0128]
如图4所示,s102的子步骤可以包括:
[0129]
s1021,将训练样本输入至待训练图注意力神经网络,确定出图注意力神经网络的节点数据。
[0130]
一些实施例中,企业数据识别终端将图结构数据形式的训练样本输入至待训练图注意力神经网络,以确定出图注意力神经网络的节点数据。
[0131]
其中,图注意力神经网络中,每一层注意力层的输入是一个节点特征向量集合h,满足:
[0132]
h={h1,h2,

,hn},hi∈rf[0133]
其中,n表示图中节点的数量,f表示每一个节点的特征表示的维度。
[0134]
每一层注意力层的输出是另一个节点特征向量集合h

,满足:
[0135]h′
={h
′1,h
′2,

,h
′n},h
′i∈rf′
[0136]
其中,f

可以不等于f。
[0137]
s1022,根据节点数据构建节点与节点之间的连接关系,以及连接权重。
[0138]
一些实施例中,企业数据识别终端根据节点数据进行节点与节点之间连接关系及连接权重的构建。
[0139]
其中,本实施例所使用的待训练图注意力神经网络为了实现注意力层输入特征数量f到输出特征数量的f

的转换,通过使用一个线性变换权重矩阵w,实现所有节点的特征转换并获得更高级别的特征。
[0140]
其中线性变换权重矩阵w满足:
[0141]
w∈rf′×f[0142]
其中,节点的特征转换满足以下关系:
[0143]
zj=hj[0144]
一些实施例中,本实施例所使用的待训练图注意力神经网络中某一节点vj的特征对另一节点vi的注意力系数e
ij
满足:
[0145]eij
=a(whi,whj)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0146]
其中,a为注意力机制函数,是一个单层的前向传播网络,其参数为权重向量a∈r
2f


[0147]
通过计算一节点的特征对另一节点的贡献度,用于从节点的领域聚合信息,即只对满足ji∈ni计算注意力系数e
ij

[0148]
再对上述注意力系数e
ij
通过归一化指数函数进行归一化处理,得到归一化注意力系数α
ij
,即:
[0149][0150]
在上式的基础上,本实施例所使用的待训练图注意力神经网络使用带泄露线性整流(leaky rectified linear unit,leakyrelu)作为非线性层,合并后得到公式(9):
[0151][0152]
在确定了归一化的注意力系数后,使用归一化的注意力系数计算对应特征的线性组合,作为每个节点最后的输出特征,得到公式(10):
[0153][0154]
其中,σ为非线性激活函数。
[0155]
进一步地,为了稳定自注意力学习的学习过程,本实施例所使用的待训练图注意力神经网络利用多头注意力增强图节点的表征能力,通过应用k个独立的关注机制计算隐藏状态,并将上述k个独立输出的归一化注意力系数连接起来,从而得到公式(11):
[0156][0157]
其中,||表示为拼接操作,wk为第k个注意力机制下输入的线性变换权重矩阵。
[0158]
可选地,对上述k个独立输出的归一化注意力系数连接起来可以为对k个独立输出的归一化注意力系数计算平均值,即:
[0159][0160]
请继续参见图7,图7是本技术提供的终端设备又一实施例的结构示意图。本技术实施例的终端设备500包括处理器51、存储器52。
[0161]
该处理器51、存储器52与总线相连,该存储器52中存储有程序数据,处理器51用于执行程序数据以实现上述实施例所述的企业数据识别方法。
[0162]
在本技术实施例中,处理器51还可以称为cpu(central processing unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp,digital signal process)、专用集成电路(asic,application specific integrated circuit)、现场可编程门阵列(fpga,field programmable gate array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
[0163]
本技术还提供一种计算机存储介质,请继续参阅图8,图8是本技术提供的计算机存储介质一实施例的结构示意图,该计算机存储介质600中存储有程序数据61,该程序数据61在被处理器执行时,用以实现上述实施例的企业数据识别方法。
[0164]
本技术的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0165]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,方式利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1