自动化审计方法、系统、计算机可读存储介质及审计设备

文档序号:24972135发布日期:2021-05-07 22:43阅读:136来源:国知局
自动化审计方法、系统、计算机可读存储介质及审计设备

本发明属于神经网络技术领域,涉及一种审计方法和系统,特别是涉及一种自动化审计方法、系统、计算机可读存储介质及审计设备。



背景技术:

大数据辅助智能审计可以大大提高审计的速度和质量,相关的机器学习算法主要分为无监督学习、有监督学习等。其中,无监督学习算法包括异聚类分析、异常值分析等,适用于没有标签数据的智能审计场景,它的分析结果的优化很大程度上依赖于领域专家的经验或规则的选择,准确度一般会在达到一定的水平后难于持续提升;有监督学习包括随机森林、adaboost和cnn、lstm等深度神经网络,它适用于有标签数据的场景,优点在于随着数据量的增多,算法的准确率会不断提高。然而,大数据技术在推动智能审计领域快速发展的同时,也遇到了很多挑战:缺少样本标签、多类型数据输入、类别分布严重失衡等。

因此,如何提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,以解决现有技术出现的缺少样本标签、多类型数据输入、类别分布严重失衡等缺陷,实已成为本领域技术人员亟待解决的技术问题。



技术实现要素:

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,用于解决现有技术出现的缺少样本标签、多类型数据输入、类别分布严重失衡问题。

为实现上述目的及其他相关目的,本发明一方面提供一种自动化审计方法,包括:对会计凭证选取原始属性数据进行数据预处理;

基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;

从所述疑似会计凭证中获取异常会计凭证;

基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。

于本发明的一实施例中,所述对无标签的会计凭证数据集进行检测,以生成疑似会计凭证的步骤包括:利用预存异常检测方式对无标签的会计凭证数据集进行检测。

于本发明的一实施例中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。

于本发明的一实施例中,在基于所述异常会计凭证中选取原始属性数据进行分支网络的构建的步骤之前,所述自动化审计方法还包括:分别对文本型数据、类别型数据和数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。

于本发明的一实施例中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层;利用用于模型训练的损失函数对已构建的神经网络进行模型训练,以获取异常会计凭证识别模型。

于本发明的一实施例中,所述将构建的分支网络进行模型训练,以获取异常会计凭证识别模型的步骤包括:利用用于模型训练的损失函数对连接的所述第一分支网络和所述第二分支网络进行模型训练;所述损失函数为代价敏感型损失函数。

于本发明的一实施例中,所述自动化审计方法还包括使用g-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。

本发明另一方面提供一种自动化审计系统,包括:预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;获取模块,用于从所述疑似会计凭证中获取异常会计凭证;处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。

本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述自动化审计方法。

本发明最后一方面提供一种审计设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述审计设备执行所述自动化审计方法。

如上所述,本发明所述的自动化审计方法、系统、计算机可读存储介质及审计设备,具有以下有益效果:

本发明采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本发明可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。

附图说明

图1显示为本发明的自动化审计方法于一实施例中的流程示意图。

图2显示为本发明的s11的流程示意图。

图3显示为本发明的s15的流程示意图。

图4显示为本发明的自动化审计系统于一实施例中的原理结构示意图。

元件标号说明

4自动化审计系统

41检测模块

42获取模块

43处理模块

44识别模块

45评价模块

s11~s16步骤

s131~s132步骤

s141~s145步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

实施例一

本实施例提供一种自动化审计方法,其特征在于,包括:

对无标签的会计凭证数据集进行检测,以生成疑似会计凭证;

从所述疑似会计凭证中获取异常会计凭证;

基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取,将构建的分支网络进行模型训练,以获取异常会计凭证识别模型;

将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。

以下将结合图示对本实施例所提供的自动化审计方法进行详细描述。请参阅图1,显示为自动化审计方法于一实施例中的流程示意图。如图1所示,所述自动化审计方法具体包括以下几个步骤:

s11,对会计凭证选取原始属性数据进行数据预处理。在本实施例中,所述会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。

所述文本型数据于本实施例中包括分录摘要等数据。

所述类别型数据于本实施例中包括科目名称等数据。

所述数值型数据于本实施例中包括借方发生金额等数据。

请参阅图2,显示为s11的流程示意图。如图2所示,所述s13包括以下步骤:

s111,分别对文本型数据、类别型数据和数值型数据进行数据处理。

具体地,对分录摘要等文本数据进行分词、去除停用词处理,并采用word2vec模型进行词向量的训练,以生成适用于异常检测和分支网络的文本数据。

s112,对科目名称等类别型数据进行类别性编码,例如,进行one-hot编码。

s113,对借方发生金额等数值型数据进行数值区间化处理,例如,进行min-max标准化,z-score标准化等标准化处理。

s12,基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证。

在本实施例中,针对缺少样本标签问题,利用预存异常检测方式(例如,knn、k-means、孤立森林等异常检测算法)对无标签的会计凭证数据集进行检测。以knn异常检测方式为例,针对每个会计凭证,选取最相似的k个会计凭证并计算距离,其中最大距离作为该会计凭证的异常得分。在此基础上,给出阈值,异常得分超出阈值的即为疑似会计凭证。步骤s12采用无监督算法可以缩小审计范围,发现审计疑点。

s13,根据预存异常会记凭证的特征信息,从所述疑似会计凭证中获取异常会计凭证。在本实施例中,所述s13为下述有监督算法提供数据标签。

s14,根据审计先验知识,生成衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。

具体地,根据审计先验知识,首先将所有凭证按照科目名称进行划分,并对不同科目名称的凭证按照时间顺序进行排序,并对不同年度与月份的“借方发生金额”进行统计,最后根据每条会计凭证的时间,生成“当年报销金额”和“当月报销金额”衍生数值特征;

根据审计底稿,对审计底稿和会计凭证的“分录摘要”属性使用tf-idf技术进行关键词提取,生成关键词列表。在此基础上,对照每条会计凭证的“分录摘要”分词形成的词列表,如果词语在关键词列表中出现,即保留;否则丢弃,最终针对每条会计凭证生成“衍生关键词序列”。

s15,基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型。

请参阅图3,显示为s15的流程示意图。如图3所示,所述s15包括:

s151,将数据处理后的类别型数据(包括科目名称)和数值型数据(包括借方发生金额)及会计凭证衍生数值特征(具体包括当年报销金额和当月报销金额)作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取。在本实施例中,所述第一分支网络为全连接分支网络。具体来说,需要构建输入层、隐含层和输出层,层与层之间的连接方式是全连接。其中,输入层节点数为输入属性的维度,隐含层的节点数在本实例中设置为10,输出层的节点数在本实例中设置为4。

s152,将数据处理后的文本型数据(包括分录摘要)及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取。在本实施例中,所述第二分支网络为基于attention机制的双向lstm分支网络。长短期记忆(longshort-termmemory,简称lstm))和attention机制可以有效提取特征,其主要思想是引入了自适应门控机制来控制细胞状态,使其记住需要长时间记忆的,忘记不重要的信息。lstm有隐藏状态、细胞状态两个传输状态。通常来说,细胞状态改变得很慢,而隐藏状态的变化速度明显快于细胞状态,不同时刻的隐藏状态往往会有很大差异。lstm通过遗忘门、输入门和输出门三个门控制细胞状态和隐藏状态。注意力机制最早在计算机视觉领域被提出来,它模仿人类的注意力机制,给图像不同的局部赋予不同的权重。

具体来说,需要构建bi-lstm输入层,bi-lstm隐含层,attention层,全连接层和输出层。其中,根据数据处理后的文本型数据(包括分录摘要)或会计凭证衍生关键词序列,确定bi-lstm输入层节点数目,bi-lstm隐含层的节点数在本实例中设置为64,隐含层的输出为h,根据下述公式可以得到attention机制的权重a和attention层的输出m。

a=softmax(ws2tanh(ws1ht))

m=ah

全连接层节点数在本实例中设置为30,输出层在本实例中设置为4。

s153,将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层,其中节点数设置为1,激活函数选择sigmod函数。

s154,对传统的二分类交叉熵函数进行改进,使其变成用于模型训练的代价敏感型损失函数。

所述代价敏感型损失函数表达式如下:

其中,表示样本i预测为异常会计凭证的概率yi代表样本i的真实类别,tneg表示将异常会计凭证预测为正常会计凭证的错分代价,tpos表示将正常会计凭证预测为异常会计凭证的错分代价。

其中,t表示超参数,dneg表示异常会计凭证在训练集中的总数,dpos表示正常会计凭证在训练集中的总数。

s155,利用用于模型训练的损失函数对s143构建的神经网络进行模型训练,以获取异常会计凭证识别模型;所述损失函数为代价敏感型损失函数。

s16,将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。

s17,使用g-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。

在本实施例中,g-mean指标的计算公式如下:

其中,tn代表异常会计凭证被模型预测为异常会计凭证的数量;fp代表异常凭证被预测为正常会计凭证的数量;tp代表正常会计凭证被预测为正常会计凭证的数量;fn代表正常会计凭证被预测为异常会计凭证的数量。

在本实施例中,平均代价指标的计算公式如下:

本实施例所述自动化审计方法采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本实施例提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本实施例可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。

本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述自动化审计方法。

本领域普通技术人员可以理解计算机可读存储介质为:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

实施例二

本实施例提供一种自动化审计系统,包括:

预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;

检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;

获取模块,用于从所述疑似会计凭证中获取异常会计凭证;

处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;

识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。以下将结合图示对本实施例所提供的自动化审计系统进行详细描述。请参阅图4,显示为自动化审计系统于一实施例中的原理结构示意图。如图4所示,所述自动化审计系统4包括预处理模块40、检测模块41、获取模块42、处理模块43、识别模块44及评价模块45。

所述预处理模块40用于对会计凭证选取原始属性数据进行数据预处理。在本实施例中,所述会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。

所述文本型数据于本实施例中包括分录摘要等数据。

所述类别型数据于本实施例中包括科目名称等数据。

所述数值型数据于本实施例中包括借方发生金额等数据。

具体地,所述预处理模块40对分录摘要等文本数据进行分词、去除停用词处理,并采用word2vec模型进行词向量的训练,以生成适用于异常检测和分支网络的文本数据。对科目名称等类别型数据进行类别性编码,对借方发生金额等数值型数据进行数值区间化处理,例如,进行min-max标准化,z-score标准化等标准化处理。

所述检测模块41用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证。

在本实施例中,所述检测模块41针对缺少样本标签问题,利用预存异常检测方式(例如,knn、k-means、孤立森林等异常检测算法)对无标签的会计凭证数据集进行检测。以knn异常检测方式为例,针对每个会计凭证,选取最相似的k个会计凭证并计算距离,其中最大距离作为该会计凭证的异常得分。在此基础上,给出阈值,异常得分超出阈值的即为疑似会计凭证。所述检测模块41采用无监督算法可以缩小审计范围,发现审计疑点。

所述获取模块42用于从所述疑似会计凭证中获取异常会计凭证。

具体地,所述获取模块42用于根据预存异常会记凭证的特征信息,从所述疑似会计凭证中获取异常会计凭证。在本实施例中,所述所述获取模块42为下述处理模块和识别模块提供数据标签。

所述处理模块43用于根据审计先验知识,生成衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。

具体地,所述处理模块43根据审计先验知识,首先将所有凭证按照科目名称进行划分,并对不同科目名称的凭证按照时间顺序进行排序,并对不同年度与月份的“借方发生金额”进行统计,最后根据每条会计凭证的时间,生成“当年报销金额”和“当月报销金额”衍生数值特征;根据审计底稿,对审计底稿和会计凭证的“分录摘要”属性使用tf-idf技术进行关键词提取,生成关键词列表。在此基础上,对照每条会计凭证的“分录摘要”分词形成的词列表,如果词语在关键词列表中出现,即保留;否则丢弃,最终针对每条会计凭证生成“衍生关键词序列”。

所述处理模块43还用于用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型。

具体地,所述处理模块43将数据处理后的类别型数据(包括科目名称)和数值型数据(包括借方发生金额)及会计凭证衍生数值特征(具体包括当年报销金额和当月报销金额)作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取。将数据处理后的文本型数据(包括分录摘要)及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取。将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层,其中节点数设置为1,激活函数选择sigmod函数。对传统的二分类交叉熵函数进行改进,使其变成用于模型训练的代价敏感型损失函数。利用用于模型训练的损失函数对构建的神经网络进行模型训练,以获取异常会计凭证识别模型;所述损失函数为代价敏感型损失函数。

所述识别模块44用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。

所述评价模块45用于使用g-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。

在本实施例中,g-mean指标的计算公式如下:

其中,tn代表异常会计凭证被模型预测为异常会计凭证的数量;fp代表异常凭证被预测为正常会计凭证的数量;tp代表正常会计凭证被预测为正常会计凭证的数量;fn代表正常会计凭证被预测为异常会计凭证的数量。

在本实施例中,平均代价指标的计算公式如下:

需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现。此外,x模块也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),一个或多个微处理器(digitalsingnalprocessor,简称dsp),一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。

实施例三

本实施例提供一种审计设备,所述审计设备包括:处理器、存储器、收发器、通信接口或/和系统总线;存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使审计设备执行如上自动化审计方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccessmemory,简称ram),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明所述的自动化审计方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明还提供一种自动化审计系统,所述自动化审计系统可以实现本发明所述的自动化审计方法,但本发明所述的自动化审计方法的实现装置包括但不限于本实施例列举的自动化审计系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。

综上所述,本发明采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本发明可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1