一种基于深度学习算法的审计知识图谱实体抽取方法与流程

文档序号:29856286发布日期:2022-04-30 09:27阅读:359来源:国知局
一种基于深度学习算法的审计知识图谱实体抽取方法与流程

1.本发明属于智能审计技术领域,涉及一种审计知识图谱实体抽取方法,尤其是一种基于深度学习算法的审计知识图谱实体抽取方法。


背景技术:

2.审计记录是详述审查逻辑和问题举例的一手资料,其中包含的业务规则、规章制度、经营概况等实体关系是领域知识的一种表现形式。通过实体关系抽取将审计记录中的抽象语义数据转换为可视化的知识图谱信息,不仅方便审计领域专业人员学习和分析研判问题类型、问题频率、问题表现形式,还能实现审计信息的合理融合与跨域分析,为数字化审计提供有价值的参考。
3.知识图谱在各行业广泛应用为数据挖掘提供了新的手段,其本质是基于图的数据网络,节点就是实体,边就是关系。不同领域数据文本和领域实体、关系、事件等信息差别巨大,信息抽取技术需针对审计领域进行改进和优化,直接应用某个领域信息抽取技术会造成准确度和效率的双重下降。审计记录中的文本关系抽取目前常见的有实体共现、基于特征向量的机器学习方法等方法。实体共现假设基础是两个实体经常共同出现,则实体出现时即存在关系,采用共现频率打分消除偶发共现导致错误识别的情况,该方案可以得到高召回率,但准确率不高,无法展示潜藏关系。基于特征向量的机器学习方法重点在于构建特征向量,特征值越多,抽取关系准确性越高,但计算复杂度也越大,且特征泛化能力较弱,需要根据不同领域如工程、营销、财务、人资等各类专业重新设计对应特征。
4.随着审计深度与广度的延伸,审计知识获取存在文本来源多样、结构各异,实体关系类型多样、关系实例更新迅速、关系特征稀疏、代指普遍的难点,尤其是审查过程描述,采用陈述句记载各类关联信息,不同审查人员有不同行文风格,手工梳理审计知识会耗费大量人工成本。通过知识图谱能将审计记录中涉及的文本数据从关系角度分析业务开展情况,更直观、高效,精准挖掘与刻画记录中的关键信息对跨时间域、跨专业域分析也有巨大助力。
5.因此,本发明提出一种基于深度学习算法的审计知识图谱实体抽取方法,应用深度学习技术实现审计记录中存在问题三元组细粒度抽取方法,对审计记录复杂句式的实体识别、潜藏逻辑关系分析提供数据基础。
6.经检索,未发现与本发明相同或相似的现有技术的公开文献。


技术实现要素:

7.本发明的目的在于克服现有技术的不足,提出一种基于深度学习算法的审计知识图谱实体抽取方法,针对审计过程详细情节,采用融合领域词典知识基于深度学习的问题线索三元组抽取细粒度实体关系联合抽取,更好利用了实体模型与关系模型交互与约束,实现结构化提取和存储审计事项,提升了对非结构化长文本实体关系抽取模型的性能。
8.本发明解决其现实问题是采取以下技术方案实现的:
9.一种基于深度学习算法的审计知识图谱实体抽取方法,包括以下步骤:
10.步骤1、输入审计记录中审查过程描述文本序列;
11.步骤2、基于步骤1输入审计记录中审查过程描述文本序列,生成融合审计词典知识的编码器,计算编码器输出特征向量;
12.步骤3、利用单层lstm网络对编码器输出的文本特征向量进行解码,得到包含实体潜藏关系的细粒度问题线索三元组序列。
13.而且,所述步骤1的具体方法为:
14.审计记录中审查过程描述文本w={w1,w2,

,wn},其中wi表示文本中第i个词,n为输入序列的长度。
15.而且,所述步骤2的具体步骤包括:
16.步骤2.1)提取文本通用特征hw:采用bilstm模型对描述文本w每个时刻前向和后向特征进行学习,拼接两个输出作为bilstm的输出向量。bilstm的输出向量作为berta模型输入向量进行编码,以最后一层的隐层状态作为描述文本w的通用语义特征hw;
17.步骤2.2)构建审计特征专业词典la:通过词典匹配找到输入文本中所有可能形成专业表达的子序列,用w[ij]进行表示,其中i和j分别为子序列在输入文本中的起始和结束位置;
[0018]
步骤2.3)构建掩码矩阵m:其中第i行第j列元素
[0019]
步骤2.4)计算具有审计特征的文本向量ha:采用transformer编码层对通用语义特征hw进行向量化计算;
[0020]
步骤2.5)计算编码器输出特征向量he=λhw+(1-λ)ha。
[0021]
而且,所述步骤3的具体步骤包括:
[0022]
步骤3.1)计算第i时刻解码出的三元组向量积累
[0023]
步骤3.2)扩充当前时刻解码器向量为矩阵与编码器输出向量he拼接为新矩阵h
l

[0024]
步骤3.3)计算头尾实体的起始位置:
[0025]
其中和为头实体起始位置概率分布;
[0026]
其中和为头实体起始位置概率分布,符号:表示矩阵拼接;
[0027]
步骤3.4)头尾实体向量化:其中和为与隐层向量;
[0028]
步骤3.5)计算第i时刻关系预测的概率分布。
[0029]
步骤3.6)计算第i时刻三元组向量。
[0030]
步骤3.7)解码器经过n个时间步或当前时刻解码“无关系”时终止;
[0031]
步骤3.8)最终得到包含实体潜藏关系的细粒度问题线索三元组序列t={t
1 t2ꢀ…ꢀ
tn}。
[0032]
本发明的优点和有益效果:
[0033]
1、本发明能够实现结构化提取和存储审计事项。通过对审计记录中各项内容进行提取和结构化存储,以三元组方式提高对审计记录的检索效率,有助于挖掘记录深层语义信息。
[0034]
2、本发明能够实现结构化细粒度展示事项间潜藏关系。采用编码器-解码器结构,考虑审计记录中涉及实体及其关系间的交互信息,将情节文本中存在的实体与关系作为一个整体先通过bilstm模型再通过berta模型得到通用特征,经过融合审计专业词典,利用掩码矩阵得到具有审计知识特征的编码器输出向量。单层lstm网络对具有审计知识特征的编码器输出向量进行解码,最终得到具有两阶段学习关系的细粒度问题线索三元组序列,有效展示事项实体间潜藏关系。
附图说明
[0035]
图1为本发明的处理流程图。
具体实施方式
[0036]
以下结合附图对本发明实施例作进一步详述:
[0037]
一种基于深度学习算法的审计知识图谱实体抽取方法,如图1所示,包括以下步骤:
[0038]
步骤1、输入审计记录中审查过程描述文本序列;
[0039]
所述步骤1的具体方法为:
[0040]
审计记录中审查过程描述文本w={w1,w2,

,wn},其中wi表示文本中第i个词,n为输入序列的长度。
[0041]
步骤2、基于步骤1输入审计记录中审查过程描述文本序列,生成融合审计词典知识的编码器,计算编码器输出特征向量;
[0042]
所述步骤2的具体步骤包括:
[0043]
步骤2.1)提取文本通用特征hw:采用bilstm模型对描述文本w每个时刻前向和后向特征进行学习,拼接两个输出作为bilstm的输出向量。bilstm的输出向量作为berta模型输入向量进行编码,以最后一层的隐层状态作为描述文本w的通用语义特征hw;
[0044]
步骤2.2)构建审计特征专业词典la:通过词典匹配找到输入文本中所有可能形成专业表达的子序列,用w[ij]进行表示,其中i和j分别为子序列在输入文本中的起始和结束位置;
[0045]
步骤2.3)构建掩码矩阵m:其中第i行第j列元素
[0046]
步骤2.4)计算具有审计特征的文本向量ha:采用transformer编码层对通用语义特征hw进行向量化计算;
[0047]
步骤2.5)计算编码器输出特征向量he=λhw+(1-λ)ha。
[0048]
步骤3、利用单层lstm网络对编码器输出的文本特征向量he进行解码,得到包含实体潜藏关系的细粒度问题线索三元组序列。
[0049]
输入为he,输出为问题线索三元组序列t={t
1 t2ꢀ…ꢀ
tn},其中ti表示解码过程中第i个时间步解码出来的三元组,n为三元组总数。
[0050]
所述步骤3的具体步骤包括:
[0051]
步骤3.1)计算第i时刻解码出的三元组向量积累
[0052]
步骤3.2)扩充当前时刻解码器向量为矩阵与编码器输出向量he拼接为新矩阵h
l

[0053]
步骤3.3)计算头尾实体的起始位置:
[0054]
其中和为头实体起始位置概率分布;
[0055]
其中和为头实体起始位置概率分布,符号:表示矩阵拼接。
[0056]
步骤3.4)头尾实体向量化:其中和为与隐层向量;
[0057]
步骤3.5)计算第i时刻关系预测的概率分布。
[0058]
步骤3.6)计算第i时刻三元组向量。
[0059]
步骤3.7)解码器经过n个时间步或当前时刻解码“无关系”时终止;
[0060]
步骤3.8)最终得到包含实体潜藏关系的细粒度问题线索三元组序列t={t
1 t2ꢀ…ꢀ
tn}。
[0061]
本发明的工作原理是:
[0062]
本发明使用国网天津电力审计记录作为语料来源,设计针对审计记录关键信息抽取及结构化表示方式,从非结构化或半结构化文本中抽取问题线索实体关系,实现实体隐形关系发现。
[0063]
本发明所提供一种面向审计记录的实体关系抽取方法,按照审计过程问题描述的信息,利用融合领域词典知识基于深度学习的问题线索三元组抽取细粒度实体关系联合抽取。审计记录中审查过程以叙事的方式记录整个任期内经营情况,其中牵涉多种资金、工程、合同等事件,需要将整段经营情节描述文本分解为多个三元组,构成《实体,关系,实体》的三元组集合,以每个三元组来表示单个事件实施过程,形成对事件情节的结构化表示,提高审计分析、审理效率,还能对综合研判、管理意见提出、典型问题推荐等专业工作提供基础数据。
[0064]
所述细粒度指按照中心词、扩充词划分两级实体类别。中心词指实体命名最小单位,无法再分隔。扩充词指通过专业术语延拓中心词含义,可与中心词建立映射关系。如“项目”为中心词,“营销投入项目”为扩充词。细粒度匹配优先将拓展词作为概念实体,大量减少概念实体泛化导致的错误识别情况。
[0065]
所述融合领域词典知识指构建基于业务专业名称的词典作为审计知识特征,收集各类专业词汇以及审计记录中的常见表述形式,构建的专业名称词典尽可能包括书面及约定俗成表述。
[0066]
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1