一种基于深度学习的企业内部经营管理风险识别提取方法及系统与流程

文档序号:24188547发布日期:2021-03-09 14:25阅读:281来源:国知局
一种基于深度学习的企业内部经营管理风险识别提取方法及系统与流程

1.本发明涉及软件方法技术领域,尤其涉及一种基于深度学习的企业内部经营管理风险识别提取方法及系统。


背景技术:

2.现有技术中,企业风险管理与内部控制工作还比较局部,主要在财务和物资领域开展。然而,风险的有效预警很大程度上依赖于全面充分的风险信息来源。目前构成风险因素的相关数据来源复杂,缺乏共享,如企业财务的信息存储于财务部门、企业运营状况的信息存储于生产经营各部门、企业人事状况的信息存储于人力资源部门、企业销售与市场的信息存储于营销部门等。而要实现对内部经营风险的预警和全面管控,需要能够及时获取并全面整合相关信息,建立风险预警模型,形成完善的风险预警机制,为风险应对策略的制定提供坚强支撑;另一方面,由于企业内部经营管理风险成因复杂、风险分析和识别难度高,目前企业主要依靠专家经验,风险分析主要局限在各部门各系统,无法满足企业高质量的发展需求。基于企业内部不同来源的经营管理数据,如工程管理数据、营销管理数据、物资管理数据、财务管理数据,以及投诉样本、法律事务、企业文化和廉政建设数据,利用深度学习等技术构建多主体多维度的知识图谱,智能地判别企业内部风险因素、风险指标、风险特征和风险成因,将会是一个复杂工程。
3.则需要基于深度学习的企业内部经营风险智能分析预警系统,能够对公司的内外部风险进行实时监测分析,对风险点进行及时预警。


技术实现要素:

4.为此,需要提供一种基于深度学习的企业内部经营管理风险识别提取方法及系统,解决从企业内部经营管理的数据对企业内部经营管理的风险分析预警问题。
5.为实现上述目的,本发明提供了一种基于深度学习的企业内部经营管理风险识别提取方法,包括如下步骤:
6.步骤一、从不同经营管理主体的经营数据和管理数据中提取风险知识数据,风险知识数据包括结构化数据和非结构化数据,调用知识图谱引擎根据风险知识数据对不同经营管理主体间进行信息关联,并生成企业图谱;
7.步骤二、调用基于深度学习的特征编码模块,通过将状态的时序看作词的序列关系,把企业图谱特征嵌入编码模块中,生成复合深度学习的算法,采用复合深度学习的算法从经营数据和管理数据中提取风险特征数据;
8.步骤三、调用基于图的半监督学习的识别模块,从风险特征数据中得到样本间的相似度,生成样本邻接关系图;
9.步骤四、调用特征值扰动的风险成因解释模块,从风险特征数据中提取出风险成因因素。
10.进一步地,所述步骤一包括如下步骤:数据的清洗和治理步骤、知识表示与建模步骤、知识抽取和知识融合步骤、知识存储步骤和构建知识图谱引擎步骤;
11.数据的清洗和治理步骤包括:对于结构化数据和非结构化数据进行治理,对于结构化数据进行治理包括对所述经营数据和管理数据进行标准化和规范化,并对同一实体的数据进行融合、去重和消除歧义,统一进行知识表示;非结构化数据治理则包括语种识别、乱码发现、格式规整和编码转换;
12.知识表示与建模步骤包括:使用本体描述语言对于领域中的实体、属性、关系、事件等进行规范化描述,通过结构化的语言来定义和描述领域知识;
13.知识抽取和知识融合步骤包括:处理非结构化数据,包含正文提取、命名实体识别、关系抽取、实体链接与知识融合;
14.知识存储步骤包括:采用图数据库作为知识图谱存储的基础存储引擎,存储知识图谱到图数据库中。
15.进一步地,所述步骤二包括如下步骤:
16.采用文本序列的流式方式处理企业时序状态,用长短期记忆神经网络方式对其时序做编码;
17.将每个时间切片的网络结构做图编码;
18.把输出的图编码加入到时序状态的网络中,通过双层模型的方式训练出带有时序的图谱编码。
19.进一步地,所述步骤三包括如下步骤:
20.根据样本间的距离构造邻接关系图,样本作为图中的顶点,而样本间的关系则用顶点之间的边表示,类别标签为通过顶点之间的边从已标记数据传播到未标记数据的。
21.进一步地,所述步骤四包括如下步骤:特征预选步骤、采样步骤、样本扰动步骤、局部回归步骤和因子聚合步骤;
22.特征预选步骤包括:从风险知识数据中挑选可解释的特征;
23.采样步骤包括:在要解释的样本附近采样;
24.样本扰动步骤包括:对部分样本做随机扰动;
25.局部回归步骤包括:对于每一个样本扰动,使用预选的特征做回归,并将先验知识通过约束的方式加入到回归方程中;
26.因子聚合步骤包括:将每个回归方程计算得到的系数通过统计计算得到最后的因子,所述因子为风险成因因素。
27.进一步地,所述采样步骤包括:采用欧式距离加权的方式进行采样。
28.本发明提供一种基于深度学习的企业内部经营管理风险识别提取系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明任意一种实施例所述方法的步骤。
29.区别于现有技术,上述技术方案通过基于深度学习的时序性图信息的特征编码技术,能够对带时序性质的企业经营风险知识图谱进行特征编码。在现有深度学习图特征编码的基础上结合时间轴的演化信息,实现风险分析和成因因素提取。
附图说明
30.图1为本发明实施例的技术实现方案图;
31.图2为本发明基于知识图谱的不同经营管理主体间多维度信息关联与管理示意图;
32.图3为本发明中带时序的图编码网络结构示意图;
33.图4为本发明中图谱编码网络结构示意图;
34.图5为本发明中基于图的半监督企业经营管理风险识别结构示意图;
35.图6为本发明中风险成因算法流程图。
具体实施方式
36.为详细说明技术方案的技术步骤、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
37.请参阅图1到图6,本实施例提供一种基于深度学习的企业内部经营管理风险智能识别技术方案,包括基于知识图谱的不同经营管理主体间多维度信息关联技术;基于深度学习的经营管理风险特征编码技术;基于半监督学习的经营管理风险识别技术;基于特征值扰动的风险成因解释技术。
38.步骤一、基于知识图谱的不同经营管理主体间多维度信息关联技术步骤
39.1)基于语义标注的知识抽取技术
40.主要基于语义标注的知识抽取各环节相关技术,包括:经营管理数据分布特征,以便选取合适的算法模型进行知识抽取;数据采样技术,海量经营管理数据中无偏差的采集样本作为待标记语料;数据清洗和预处理技术;半监督的语义标注技术,在减少人工标注的情况下快速构建用于知识抽取模型训练的语料库。利用语义标注法快速、高效实现从结构化资源(关系型数据库)、半结构化资源(html、xml等)和非结构化资源(文本、图像等)抽取实体、属性和关系。
41.2)基于知识图谱的经营管理数据建模及引擎技术
42.解决企业中各个经营管理业务系统彼此割裂,无法有效关联和融合的问题。统一数据模型是统一知识图谱设计与物理实现的基础,设计完善的统一风险知识图谱数据模型对于统一风险知识图谱的设计与建设有着指导意义;确保数据的准确性、一致性、完整性的有效手段。具体内容包括概念模型、逻辑模型和物理模型。
43.3)基于知识图谱的主数据匹配模型技术
44.基于知识图谱的跨业务跨领域数据的实体对齐技术,包括基于实体上下文环境,上下文特征表示的方法;利用上下文特征,数据判重和融合的关键技术,包括基于相似性度量和基于神经网络的判重技术。采用语义消岐技术,消除异构数据中的实体冲突、指向不明等跨系统数据不一致问题,包括无监督语义消岐、有监督语义消岐和基于词典的语义消岐。
45.4)经营管理实体与知识图谱的信息关联技术
46.不同类型、不同来源数据之间的关联,包括业务系统数据、文本、多媒体等非结构化数据,包括显式关联和隐式关联,显式关联明确指示信息的关联,隐式关联指需要没有明确指示信息,需要经过分析挖掘得到的关联关系。基于知识图谱实现跨系统之间的数据到图谱实体的关联,为跨系统风险信息协同和共享奠定基础。
47.5)知识图谱智能分析引擎技术
48.基于知识图谱的智能分析技术,在知识图谱之上引入数据挖掘和机器学习算法,实现风险智能分析。比如图挖掘技术,进行实体聚类,最大子图挖掘,关联规则分析。
49.步骤二、基于深度学习的经营管理风险特征编码技术步骤
50.1)时序操作的特征编码技术
51.在企业经营风险管理中,数据具有时间演化性,传统的时序问题通常需要首先用人力进行特征工程,才能将预处理的数据输入到机器学习算法中,并且这种特征工程需要特定领域的专业知识,进一步加大了预处理成本。基于深度学习的编码技术是指通过设置适当的训练目标训练神经网络找到一种新的映射方式,利用该映射方式将特征投射到另外一个空间,不仅可以去除噪音,还能通过神经网络的学习,找到特征的共性和规律,提高特征的泛化性。在文本(word2vec),图(deep walk)和图像领域(cnn),都有比较成熟的深度学习编码技术。本发明将借鉴深度学习的嵌入算法思想应用于时间序列数据,包括对时序数据做预处理,以及借助文本嵌入的思想对时间序列编码,并分析不同的特征嵌入方式在特征编码中的有效性。
52.2)带有时序特征的风险图谱的特征编码技术
53.在企业经营风险项目中,数据是以图谱的方式来呈现的,并且图谱还具有时间演化性,将本发明提出的特征编码技术应用于具有时序特征的图谱数据,并将该方法应用于实际经营管理风险问题的特征编码,解决实际经营管理风险问题。图谱数据实体和实体之间的关联有多种,首先是单一关系下的图谱编码,其次是多种关系下的图谱编码方法,包括有效关系的挑选技术,通过多种关系的图谱编码融合技术,最后将融合后的图谱编码嵌入到时序操作的模型中。
54.步骤三、基于半监督学习的经营管理风险识别技术步骤
55.1)基于知识图谱的样本临接关系图构造
56.基于图的半监督学习标签传播算法是在样本邻接关系图上进行的,因此,在标签传播前需要构造相应的样本邻接关系图。通常情况下,边的权重是由连接的两个样本之间特征的相似度决定的,权重随着距离的增大而减小。目前常用的相似性度量方法,主要为欧式距离、马氏距离、麦考斯基距离、相关距离等,但是这些度量方法的衡量标准比较偏重于局部,没有对数据集的全局分布情况分析,标签传播的概率无法符合真实类别情况。风险知识图谱具有数据集的全局分布信息,风险样本的特征表示也是从知识图谱中得到。这里在邻接关系图顶点一定的情况下,基于知识图谱图自底向上层次聚类的方法得到顶点权重的样本邻接关系图构造方法。
57.2)基于图的半监督风险识别
58.一次标签传播过程可以用矩阵相乘来表示。在传播过程中,每个样本把自己的标签以概率转移矩阵中相应的概率可能传播给另一个样本。两个样本越相似,就越容易将自己的标签赋给对方标签分布上,即更容易传播过去。随着已标记数据标签的不断传播,将分类决策边界不断地从高密度数据区域,推到低密度数据区域内,也就是为样本空间划分到了不同类别。本项目将迭代使用标签传播算法,已达到准确的风险识别。
59.步骤四、基于特征值扰动的风险成因解释技术步骤
60.1)具有先验知识的风险成因解释技术
61.企业风险成因解释技术属于模型可解释问题。在应用中,利用企业风险预测模型以提前预警出某个企业是否在未来会发生风险,更重要的是,希望可以定位发生风险的原因,提前做好预防措施及早介入干预。企业风险预测模型是一个复杂的很难解释的深度学习模型,本发明采用模型局部可解释理论来实现风险成因解释技术。企业风险成因一般具有专家规则和先验知识,将利用专家规则的可解释性的特征,将专家规则和先验知识加入到风险成因解释技术中。
62.2)稳定的风险成因解释技术
63.企业风险成因的另外一个特点是标注不完善、数据有噪声。将分析现有解释技术的稳定性,提高其稳定性的标签和特征扰动添加方法和多次回归算法,进而提供一种稳定的风险成因解释技术。
64.基于深度学习的企业内部经营管理风险智能识别技术方案如图1所示,下面分别阐述各个方法步骤的技术路线和技术方案。
65.步骤一、基于知识图谱的不同经营管理主体间多维度信息关联技术步骤
66.a)技术路线
67.本方法步骤负责从经营管理数据中获取和存储风险知识,即从非结构化、半结构化、以及结构化数据中获取知识,以及将不同数据源获取的知识进行融合构建数据之间的关联,将大规模的知识数据进行存储。最后,基于知识图谱引擎中的图计算引擎和知识推理引擎,实现异常分析、不一致性检验、风险传导等风险分析模型。该模块的技术实现需包含数据清洗与治理、知识表示与建模、知识抽取、知识融合、知识存储和管理、图计算与知识推理等内容,主要技术手段结构图如图2所示。
68.b)具体技术方案
69.1、数据的清洗和治理:包含对于结构化数据和非结构化数据的两方面治理过程。前者主要是通过数据集成、数据清洗、数据转换、数据融合等手段见来自于不同系统不同数据源中的数据进行标准化、规范化,并对同一实体的数据进行融合,去重,消除歧义,统一进行知识表示。而非结构化数据清洗则需要进行语种识别、乱码发现、格式规整、编码转换等针对非结构化数据的清洗过程。
70.2、知识表示与建模:是使用本体描述语言对于领域中的实体、属性、关系、事件等进行规范化描述,通过结构化的语言来定义和描述领域知识,是需要业务专家和建模技术人员结合对于数据情况的理解,合作进行的知识建模过程。在风险使用owl语言来定义和描述领域本体,使用rdf三元组来表示知识,并且通过图的存储结构进行知识存储。
71.3、知识抽取和知识融合:同样包含在结构化和非结构化数据的两部分内容。其主要技术主要在处理非结构化数据方面,包含正文提取、命名实体识别(常见的有基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法)、关系抽取(常见的有开放式实体关系抽取、基于联合推理的实体关系抽取等方法)、实体链接与知识融合等技术步骤。
72.4、知识存储:采用图数据库作为知识图谱存储的基础存储引擎。而单纯的图数据库并不足以满足所有的知识使用场景,本发明辅助以搜索引擎、列式存储、文件存储等多种存储模块来形成知识图谱数据库,统一封装知识服务接口对上层提供知识存储、查找和计算引擎。其中对于存储部分,在超大规模(十亿实体百亿边)知识图谱带来的存储和计算效
率问题,以及边爆炸、超级节点、多点碰撞等一些在海量数据下产生的问题场景。
73.5、构建知识图谱引擎:图计算引擎可分为图指标和图挖掘两方面。图指标包含中介性中心度、pagerank、图直径、连通分量等指标计算,而图挖掘包含广度有限搜索、标签传播、置信传播、紧密联通子图、谱聚类、频繁子图等图挖掘算法模型。知识推理则包含基础的规则推理引擎如rdf reasoner、owl reasoner、swrl reasoner等,以及基于机器学习、深度学习的推理挖掘模型,如基于路径排序算法的关系发现、基于知识图谱的文本语义分析、基于一阶元路径约束的聚类模型、基于多阶元路径相似度的文本分类、基于深度学习的图卷积网络等。
74.步骤二、基于深度学习的经营管理风险特征编码技术步骤
75.a)技术路线
76.深度学习的特征嵌入方法可以产生有用的特征编码,特征嵌入的本质是找到一种有效的特征表达映射方式。由于在特征嵌入的过程中加入了适量的信息(如词向量模型中加入共现信息),使得该特征表达方式比原有特征更稳健。尽管深度学习具有很强的表达性,不需要做很多的特征工程,但是大量的工业实践发现对原始特征采用合适的特征嵌入预处理,可以取得更好的预测效果。
77.本发明首先针对时序操作的特征编码问题,借助词向量嵌入算法的思想,将状态的时序看作词的序列关系,以解决时序状态的编码问题。然后,针对带有时序特征的图谱的特征编码问题,在时序操作的特征编码技术的基础上,把企业图谱特征嵌入其中,构造复合深度学习算法,实现更有效的风险特征编码技术。
78.b)具体技术方案
79.1、基于图3的网络结构来实现对企业时序状态的编码。本发明首先采用文本序列的流式方式处理企业时序状态,用lstm(长短期记忆神经网络)方式对其时序做编码;然后,将每个时间切片的网络结构做图编码;最后,把输出的图编码加入到时序状态的网络中,通过双层模型的方式训练出最后的带有时序的图谱编码,如图4所示。
80.2、网络图数据不同于传统的数据,它不仅包含节点信息,还包含丰富的节点间关系数据,传统的机器学习算法,很难完全利用节点信息和节点间关系信息。deepwalk可以将一个网络图中的每个节点映射成一个低维的向量,并且这些向量同时表征了网络中的节点关系信息,即在原始网络图中关系越紧密的节点对应的向量在其向量空间中距离越近。经过deepwalk编码之后的节点向量可以比较方便的被常用的机器学习算法处理。
81.3、传统的社交图谱节点之间只有单一的邻居关系,而知识图谱节点和节点之间的关系是有多种不同的业务含义的,首先采用deepwalk的图编码方式给出单一关系的图谱编码,其次,通过先验的方式,挑选出有代表性的关系,将多种关系的图谱编码拼接起来。
82.步骤三、基于半监督学习的经营管理风险识别技术步骤
83.a)技术路线
84.基于图的半监督学习方法计算速度快且准确性高,但由于算法时间复杂度较高,往往很难直接适用于大规模的训练数据。基于图的半监督方法具有坚实的数学理论基础,邻接关系图的构造通常需要依赖大量的领域知识,图的构造方式是半监督学习的难点和关键点。这里从全局风险知识图谱中得到样本间的相似度,构建样本邻接关系图。
85.基于图的半监督学习方法进行风险识别是基于“相似输入也会有相似输出”的思
想,实质是标签传播。首先根据样本间的距离构造邻接关系图,样本看作图中的顶点,而样本间的关系则用顶点之间的边表示,类别标签就是通过顶点之间的边从已标记数据传播到未标记数据的。一般来说,顶点越相似,标签就越容易传播,它们的概率分布也基本相似。最终分类结果形成的分布不局限于特定的形状,更加符合数据的真实分布。
86.基于知识图谱提取样本的企业风险特征并对企业经营管理风险进行全面刻画。首先,可根据领域风控专家经验,将知识图谱中的风险要素(敏感实体及属性)、风险事件、风险点、风险发生规则作为低维的企业风险特征;基于知识图谱计算和知识图谱推理技术,利用异常分析、风险挖掘、因果挖掘、风险传导和不一致性验证等图谱引擎挖掘得到风险传导和风险结构等作为较高维度企业风险特征。
87.b)具体技术方案
88.基于知识图谱提取企业风险特征并对企业经营管理风险进行全面刻画,首先,可根据领域风控专家经验,将知识图谱中的风险要素(敏感实体及属性)、风险事件、风险点、风险发生规则作为低维的企业风险特征;基于知识图谱计算和知识图谱推理技术,利用异常分析、风险挖掘、因果挖掘、风险传导和不一致性验证等图谱引擎挖掘得到风险传导和风险结构等作为较高维度企业风险特征。
89.基于图的半监督企业经营管理风险识别流程如图5所示。一次标签传播过程可以用矩阵相乘来表示。在传播过程中,每个样本把自己的标签以概率转移矩阵t中相应的概率可能传播给另一个样本。两个样本越相似,就越容易将自己的标签赋给对方标签分布上,即更容易传播过去。而每次标签传播结束后,将已标记样本的标签置到最初状态,则是因为已标记样本的标签都是已知的,且默认是完整的、正确的标签,是不能被改变的。随着已标记数据标签的不断传播,将分类决策边界不断地从高密度数据区域,推到低密度数据区域内,也就是为样本空间划分到了不同类别。
90.标签传播算法过程主要可由概率转移矩阵和标签矩阵来表示,标签在传播过程中的变化都可以在标签矩阵中显现出来。因此,在算法开始之前应先构造概率转移矩阵和标签矩阵,以保证标签传播过程。
91.步骤四、基于特征值扰动的风险成因解释技术步骤
92.a)技术路线
93.本发明首先通过专家规则的可解释性的特征,提出能够反映专家规则和先验知识的约束项,然后将该约束项加入到风险成因解释技术(例如lime等方法)中。然后,针对新提出的解释技术,分析其稳定性,给出减弱其稳定性的因素。通过样本的标签和特征的扰动添加方法和多次回归算法,有针对性的提出改善稳定性的方案。
94.b)具体技术方案
95.风险成因的主流程图如图6所示,分为特征预选、采样、样本扰动、局部回归、因子聚合等五个部分。
96.1、特征预选:利用专家经验,从所有的因子库中挑选可解释的特征,同时对于部分重要特征,专家给予正面或者负面的经验指导。
97.2、采样:在要解释的样本附近采样,本发明采用欧式距离加权的方式采样
98.3、样本扰动:为了保证模型可解释的稳定性,由于企业经营风险的标注存在一定的误差,本发明对部分样本点做随机扰动,比如修改label,或者在特征上做一定的移动
99.4、局部回归:对于每一个样本扰动,本发明使用预选的特征做回归,并将先验知识通过约束的方式加入到回归方程中
100.5、因子聚合:将每个回归方程计算得到的系数通过统计计算(如均值或者集体voting)得到最后的因子。
101.通过本发明的技术方案,具有以下有益效果:
102.1)通过构建自适应企业风险知识图谱,将企业内部工程管理、营销管理、物资管理、财务管理,以及投诉样本、法律事务、企业文化和廉政建设等不同经营管理数据中的主体和风险要素,进行多维度信息关联和知识融合。基于对风险知识图谱的高效存储和管理,通过图计算和图推理等知识图谱引擎技术,挖掘出低维的企业风险特征。企业风险知识图谱作为企业风险智能分析与预警的底层,为上层人工智能算法应用提供了坚实的数据保障和充分的风险分析支撑。
103.2)实现企业经营管理风险特征精确编码,基于深度学习,将知识图谱提取的风险特征和基于领域专家先验知识得到的风险特征,融合先验风险操作的时序性和图谱的演化性,提高特征抽取的精度和特征的泛化能力。
104.3)实现基于半监督学习的经营管理风险高效识别,通过知识图谱的全局语义信息高效构建样本的邻接关系图,并基于迭代的标签传播算法提高风险识别的精度。
105.4)实现基于特征值扰动的风险成因强效解释,基于模型局部可解释理论,将专家规则和先验知识融入解释因素,并基于特征扰动添加方法提高风险成因解释的稳定性。
106.本发明提供基于深度学习的企业内部经营管理风险识别提取系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本实施例的存储介质可以是设置在电子设备中的存储介质,电子设备可以读取存储介质的内容并实现本发明的效果。存储介质还可以是单独的存储介质,将该存储介质与电子设备连接,电子设备就可以读取存储介质里的内容并实现本发明的方法步骤。
107.需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1