一种基于人工智能的企业项目风险监控方法及存储介质与流程

文档序号:31637499发布日期:2022-09-24 05:16阅读:79来源:国知局
一种基于人工智能的企业项目风险监控方法及存储介质与流程

1.本发明涉及人工智能领域,尤其涉及一种能够监控企业项目文件风险的方法及存储介质。


背景技术:

2.随着我国经济的不断发展,企业之间的竞争日益加剧,企业纷纷围绕自己的产品不断退出新的产品研发项目,因此企业内部经常出现多个项目并行实施、不断地需要分项目进行文档的更新、输入入库、数据校对、数据管理。在现有的技术方案中,只能够进行文本数据的人工比对,存在风险监控漏洞,在进行文档的处理时,需要引入人工智能模型对企业项目的数据风险管控进行自动化监控设计。


技术实现要素:

3.因此,需要提供一种自动化的风险监控方法,能够满足在数据量与日俱增的企业项目数据管理情况下的风险监控问题。
4.为实现上述目的,发明人提供了一种基于人工智能的企业项目风险监控方法,包括如下步骤,
5.文本相似度计算:建立相似度计算模型,针对每个句子的词向量矩阵计算他们的欧式距离与余弦距离,进行比对分析;
6.数据合并关联:对相似度比对后的数据进行合并关联,可通过流程、时间、企业等字段关联;
7.风险指标标注:对企业项目数据提取风险特征指标与不符规则处进行标注;
8.构建神经网络模型与cart决策树模型,通过keras深度学习框架创建n个数据特征节点数的输入入口,输出节点数为1,构建m个隐藏层;优化器选择adam方法进行权重更新,隐藏层的激活函数选择relu,通过sklearn创建决策树模型。
9.在本技术的其他一些实施例中,还包括步骤,获取企业项目文档,通过ocr识别系统识别所述企业项目文档,得到识别结果作为企业项目数据。
10.在本技术的其他一些实施例中,还包括步骤,对所述企业项目数据进行数据处理,所述数据处理包括:文本去重、异常数据识别、文本分段。
11.在本技术的其他一些实施例中,还包括步骤,对数据处理后的企业项目数据进行属性标注,包括文本的来源、所属企业、所属项目、类型文件等,当文件识别时传入相关参数,作为数据字段存储数据库中。
12.在本技术的其他一些实施例中,还包括步骤,对所述企业项目数据采用word2vec模型进行训练,将所述企业项目数据进行词向量化。
13.一种基于人工智能的企业项目风险监控存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
14.文本相似度计算:建立相似度计算模型,针对每个句子的词向量矩阵计算他们的
欧式距离与余弦距离,进行比对分析;
15.数据合并关联:对相似度比对后的数据进行合并关联,可通过流程、时间、企业等字段关联;
16.风险指标标注:对企业项目数据提取风险特征指标与不符规则处进行标注;
17.构建神经网络模型与cart决策树模型,通过keras深度学习框架创建n个数据特征节点数的输入入口,输出节点数为1,构建m个隐藏层;优化器选择adam方法进行权重更新,隐藏层的激活函数选择relu,通过sklearn创建决策树模型。
18.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,获取企业项目文档,通过ocr识别系统识别所述企业项目文档,得到识别结果作为企业项目数据。
19.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,对所述企业项目数据进行数据处理,所述数据处理包括:文本去重、异常数据识别、文本分段。
20.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,对数据处理后的企业项目数据进行属性标注,包括文本的来源、所属企业、所属项目、类型文件等,当文件识别时传入相关参数,作为数据字段存储数据库中。
21.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,对所述企业项目数据采用word2vec模型进行训练,将所述企业项目数据进行词向量化。
22.区别于现有技术,上述方案能够根据文本相似度的计算和合并关联,针对企业运营或项目中的非结构化的文档进行批量识别,并对识别的文本数据挖掘其中的实体关系,并自动识别企业和项目的风险,各项文本处理功能模块耦合性较高,是一个有效的企业项目监控与风险识别的闭环流程,还通过引入人工智能模型,进行风险智能识别,能够有效降低企业项目运营中存在的风险。
附图说明
23.图1为具体实施方式所述的基于人工智能的企业项目风险监控方法流程图;
24.图2为具体实施方式所述的项目数据获取流程示意图;
25.图3为具体实施方式所述的企业项目数据处理流程图;
26.图4为具体实施方式所述的企业项目数据标注流程图;
27.图5为具体实施方式所述的基于人工智能的企业项目风险监控存储介质。
具体实施方式
28.为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
29.为了解决在企业项目数据中智能化识别风险的问题,本技术设计了一种基于人工智能的企业项目风险监控方法。
30.如图1所示,本技术的一种基于人工智能的企业项目风险监控方法,包括如下步骤,
31.s4文本相似度计算:建立相似度计算模型,模型主要采用:gensim第三方工具包中的doc2vec算法,doc2vec是基于word2vec思想的算法,用于实现文本相似度检测,使用的基本流程:是通过中文分词,训练doc2vec模型,再将文本转换成向量,利用之前保存的模型,
把分词后的分本转成向量,计算两个向量余弦值,余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。针对每个句子的词向量矩阵计算他们的余弦距离,进行比对分析;
32.s5数据合并关联:对相似度比对后的数据进行合并关联,可通过流程、时间、企业等字段关联;利用相似度进行相关合并与关联主要场景:例如多文件之间的决策与流程字段可进行相似度比对。设计规则:设置相似度阈值,如相似度超过95%,可输出相应语句和对应文件,同时也建立关联。还可对输入企业文件中是否含有企业章程等重要信息的语句,进行判断匹配。目前已自主设计相似度匹配率规则和设置部分关键词作为辅助规则。
33.s6风险指标标注:对企业项目数据提取风险特征指标与不符规则处进行标注;
34.s7构建神经网络模型与决策树(cart)模型,神经网络模型具体包括:利用机器学习算法对企业中多个特征进行处理,其中主要利用主成分分析法(pca)进行降维,再通过keras深度学习框架创建5个数据特征节点数的输入入口,输出节点数为1,构建3个隐藏层;优化器选择adam方法进行权重更新,隐藏层的激活函数选择relu。输出层激活函数选用sigmoid函数,用于二分类问题。本神经网络基本主要工作:批量输入特征数据和标签值到神经网络模型,通过梯度下降算法更新各层神经元的权重参数,使得最终的权重参数达到最佳的预测效果;决策树(cart)模型:将企业符合其中某个特征取值的分为风险类,而不符合这个特征取值的分为合规类。决策树是使用树结构算法将数据分成离散类的方法。基本原理是将训练样本进行递归地划分自变量空间进行建树,对离散变量进行处理,生成所有可能的剪枝后的cart树,然后使用交叉验证来检验各种剪枝的效果,最后选择泛化能力好的剪枝策略。决策树可以通过第三方库sklearn创建决策树模型。本文利用两个模型的对比研究得出最优的风险预测模型。
35.其中,文本相似度计算能够对句子的向量进行分析,得出相近的分析句子词向量分析结果,合并关联后,能够达到跨文档进行相同或相关的数据进行归类、整合的技术效果,便于对企业运营或项目中的非结构化的文档进行批量识别。在对数据进行标注的时候,可以自动提取风险特征指标等,风险特征指标可以是跨文档的相关数据不一致,如项目金额不一致等。还可以通过判定不符规则进行标注,如不符合预设规则的流程节点缺失等。
36.在构建神经网络模型与cart决策树模型时,通过keras深度学习框架创建神经网络模型及通过sklearn创建决策树模型,能够有更好的实用性表现。
37.在本技术的其他一些实施例中,需要进行数据的提取,可以用于构建数据库,或进行企业项目各种监管文档的分类识别。在一些如图2所示的技术方案中,还包括步骤s1,获取企业项目文档,通过ocr识别系统识别所述企业项目文档,得到识别结果作为企业项目数据。通过设计上述步骤能够进行数据的导入,提升数据化识别效率。
38.在本技术的其他一些如图3所示的实施例中,为了更好地节省存储空间,还包括步骤s2,对所述企业项目数据进行数据处理,所述数据处理包括:文本去重、异常数据识别、文本分段。通过上述方案能够对企业项目数据进行简化并便于存储。
39.在本技术的其他一些实施例中,这里请参阅图4,还包括步骤s3,对数据处理后的企业项目数据进行属性标注,包括文本的来源、所属企业、所属项目、类型文件等,当文件识别时传入相关参数,作为数据字段存储数据库中。通过上述步骤方案能够对企业项目数据的属性参数进行存储。
40.在本技术的其他一些实施例中,还包括步骤,对所述企业项目数据采用word2vec模型进行训练,将所述企业项目数据进行词向量化。使用word2vec模型进行训练并进行词向量化,能够更好地提升词向量化的处理速度。
41.本技术的一些实施例中,如图5所示还将介绍一种基于人工智能的企业项目风险监控存储介质500,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
42.s4文本相似度计算:建立相似度计算模型,针对每个句子的词向量矩阵计算他们的欧式距离与余弦距离,进行比对分析;
43.s5数据合并关联:对相似度比对后的数据进行合并关联,可通过流程、时间、企业等字段关联;
44.s6风险指标标注:对企业项目数据提取风险特征指标与不符规则处进行标注;
45.s7构建神经网络模型与cart决策树模型,通过keras深度学习框架创建n个数据特征节点数的输入入口,输出节点数为1,构建m个隐藏层;优化器选择adam方法进行权重更新,隐藏层的激活函数选择relu,通过sklearn创建决策树模型。
46.上述存储介质能够根据文本相似度的计算和合并关联,针对企业运营或项目中的非结构化的文档进行批量识别,并对识别的文本数据挖掘其中的实体关系,并自动识别企业和项目的风险,各项文本处理功能模块耦合性较高,是一个有效的企业项目监控与风险识别的闭环流程,还通过引入人工智能模型,进行风险智能识别,能够有效降低企业项目运营中存在的风险。
47.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,获取企业项目文档,通过ocr识别系统识别所述企业项目文档,得到识别结果作为企业项目数据。
48.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,对所述企业项目数据进行数据处理,所述数据处理包括:文本去重、异常数据识别、文本分段。
49.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,对数据处理后的企业项目数据进行属性标注,包括文本的来源、所属企业、所属项目、类型文件等,当文件识别时传入相关参数,作为数据字段存储数据库中。
50.在本技术的其他一些实施例中,所述计算机程序在被运行时还执行步骤,对所述企业项目数据采用word2vec模型进行训练,将所述企业项目数据进行词向量化。
51.需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1