用于审计领域的模型训练方法、文本分类方法及相关设备与流程

文档序号:33196979发布日期:2023-02-04 12:55阅读:91来源:国知局
用于审计领域的模型训练方法、文本分类方法及相关设备与流程

1.本技术涉及审计技术领域,尤其涉及一种用于审计领域的模型训练方法、文本分类方法及相关设备。


背景技术:

2.预训练语言模型的出发点是一个通用的语言模型,具有语义的解析能力,可以理解为一个处理语言的神经中枢。从第一个预训练语言模型bert发布至今,已经在多个热门任务下得到应用。无论是工业界还是科研界,对预训练模型的使用方式逐渐灵活,能从预训练模型中拆解出适合任务的部分并组装到本领域的实际任务模型中,以使其在本领域中更好地发挥作用。但是,目前预训练模型在审计领域的应用并不多,如何训练得到适合审计领域的分类模型是亟待解决的问题。


技术实现要素:

3.有鉴于此,本技术的目的在于提出一种用于审计领域的模型训练方法、文本分类方法及相关设备。
4.基于上述目的,本技术的第一方面提供了一种用于审计领域的模型训练方法,包括:
5.获取原始审计数据;
6.对所述原始审计数据进行预处理,得到原始训练数据;
7.基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型;
8.对所述原始审计数据进行标注,得到训练样本数据;
9.基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型。
10.可选的,所述对所述原始审计数据进行预处理,包括:对所述原始审计数据进行数据去重、格式转换和数据填充。
11.可选的,所述对所述原始审计数据进行标注,得到训练样本数据,包括;
12.对所述原始审计数据进行数据清洗操作;
13.基于预设的审计分类标签对经过数据清洗操作的原始审计数据进行标注,得到所述训练样本数据。
14.可选的,所述基于所述训练样本数据对所述预训练审计模型进行训练,包括:
15.在所述预训练审计模型上叠加softmax层,得到初始分类模型;
16.通过所述训练样本数据对所述初始分类模型进行训练,得到所述审计模型进行训练。
17.可选的,所述预设的审计分类标签至少包括财务审计、内控审计、基建项目审计、合同审计、责任审计、专项审计、年度内部控制测试与自我评价审计和其它审计。
18.本技术的第二方面提供了一种应用第一方面所述的审计文本分类模型进行文本
分类的方法,包括:
19.获取待分类审计数据;
20.将所述待分类审计数据输入至所述审计文本分类模型,经由所述审计文本分类模型输入所述待分类审计数据对应的审计类型。
21.本技术的第三方面提供了一种用于审计领域的模型训练装置,包括:
22.第一获取模块,被配置为获取原始审计数据;
23.预处理模块,被配置为对所述原始审计数据进行预处理,得到原始训练数据;
24.第一训练模块,被配置为基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型;
25.标注模块,被配置为对所述原始审计数据进行标注,得到训练样本数据;
26.第二训练模块,被配置为基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型。
27.本技术的第四方面提供了一种应用第三方面所述的审计文本分类模型进行文本分类的装置,包括:
28.第二获取模块,被配置为获取待分类审计数据;
29.分类模块,被配置为将所述待分类审计数据输入至所述审计文本分类模型,经由所述审计文本分类模型输入所述待分类审计数据对应的审计类型。
30.本技术还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
31.本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
32.从上面所述可以看出,本技术提供的用于审计领域的模型训练方法、文本分类方法及相关设备,对获取的原始审计数据进行预处理得到原始训练数据,采用原始训练数据对神经网络模型进行预训练,得到审计领域的预训练审计模型,为审计领域文本分类提供基础。对原始审计数据进行标注,形成训练样本数据,采用训练样本数据对预训练审计模型进行训练,对预训练审计模型的参数进行微调,以得到审计文本分类模型,通过审计文本分类模型对待分类的审计数据进行精确的文本分类。本技术通过两次训练过程得到审计领域的文本分类模型,通过预训练和微调的方式对神经网络模型的参数进行训练,提升神经网络模型在审计领域的适用性,使其输出较为准确的审计类型。
附图说明
33.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1为本技术实施例的用于审计领域的模型训练方法的流程示意图;
35.图2为本技术实施例的应用审计文本分类模型进行文本分类的方法的流程示意图;
36.图3为本技术实施例的用于审计领域的模型训练装置的结构示意图;
37.图4为本技术实施例的应用审计文本分类模型进行文本分类的装置的结构示意图;
38.图5为本技术实施例的电子设备结构示意图。
具体实施方式
39.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
40.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
41.以下结合附图来详细说明本技术的实施例。
42.本技术提供了一种用于审计领域的模型训练方法,参考图1,包括以下步骤:
43.步骤102、获取原始审计数据。
44.具体的,原始审计数据可以通过网络爬取或从现有数据库中获取,本实施例对于具体获取方式不做限定。原始审计数据包括审计单位、被审计单位、审计问题等等。
45.步骤104、对所述原始审计数据进行预处理,得到原始训练数据。
46.获取的原始审计数据存在重复、缺失或格式不统一的问题,需要对原始审计数据进行预处理,得到原始训练数据,以对后续神经网络模型的训练提供基础数据。
47.步骤106、基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型。
48.本步骤中的神经网络模型为bert(bidirectional encoder representation from transformers)模型,bert模型是一个预训练的语言表征模型。该模型有以下主要优点:1)采用mlm(masked language model)对双向的transformers进行预训练,以生成深层的双向语言表征;2)预训练后,只需要添加一个额外的输出层进行微调,就可以在各种各样的下游任务中取得最优化的表现。但是,未经预训练的bert模型并不适合于审计领域,需要通过审计领域的原始训练数据对bert模型进行预训练,让sj-bert模型隐式地学习到了审计领域的语法语义知识,以便后续将学到的知识迁移到下游任务,形成预训练审计模型sj-bert。本步骤中的sj-bert为预训练大模型,所述预训练大模型是指通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。大模型的模型参数量和神经网络的层数比普通深度学习模型大。得到了预训练审计模型之后才能进一步通过微调得到最终的审计文本分类模型。
49.步骤108、对所述原始审计数据进行标注,得到训练样本数据。原始审计数据为无标签数据,通过对原始审计数据进行打标签,以使每一个原始审计数据均对应一个固定类
型的标签,全部标注完成后,得到训练样本数据。
50.步骤110、基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型。
51.通过带有标签的训练样本数据对sj-bert进行训练,也即对sj-bert模型的参数进行微调,微调后sj-bert模型能够输出较为准确的文本类型,微调之后的模型为审计文本模型。
52.基于上述步骤102至步骤110,对获取的原始审计数据进行预处理得到原始训练数据,采用原始训练数据对神经网络模型进行预训练,得到审计领域的预训练审计模型,为审计领域文本分类提供基础。对原始审计数据进行标注,形成训练样本数据,采用训练样本数据对预训练审计模型进行训练,对预训练审计模型的参数进行微调,以得到审计文本分类模型,通过审计文本分类模型对待分类的审计数据进行精确的文本分类。本技术通过两次训练过程得到审计领域的文本分类模型,通过预训练和微调的方式对神经网络模型的参数进行训练,提升神经网络模型在审计领域的适用性,使其输出较为准确的审计类型。
53.在一些实施例中,所述对所述原始审计数据进行预处理,包括:对所述原始审计数据进行数据去重、格式转换和数据填充。获取的原始审计数据存在重复、缺失或格式不统一的问题,需要对其进行预处理,具体的预处理包括数据去重、格式转换和数据填充。通过数据去重除去原始审计数据中的重复数据,过滤掉不必要的数据,减少后续的数据处理量。格式转换是将原始审计数据中的数据格式进行统一,由于原始审计数据的来源不同,其中的数据格式不完全相同,为了方便后续的数据标注和模型训练,需要对原始审计数据的格式进行统一。由于原始审计数据存在数据缺失的现象,通过匹配规则或人工的方式对缺失的数据进行填充,以进一步完善原始审计数据。
54.在一些实施例中,所述对所述原始审计数据进行标注,得到训练样本数据,包括:
55.对所述原始审计数据进行数据清洗操作;
56.基于预设的审计分类标签对经过数据清洗操作的原始审计数据进行标注,得到所述训练样本数据。
57.本实施例中的数据清洗操作与上述实施例中的预处理操作相同,此处不再赘述。审计领域的技术人员基于本领域的常规审计类型制定审计分类标签,再根据审计分类标签对原始审计数据进行标注,技术人员通过ai平台对原始审计数据进行人工标注,标注的格式为标签+分隔符+审计数据。其中,审计分类标签至少包括财务审计、内控审计、基建项目审计、合同审计、责任审计、专项审计、年度内部控制测试与自我评价审计和其它审计,上述审计分类标签的释义如下表1所示。
58.表1审计分类标签及释义
[0059][0060][0061]
在一些实施例中,所述基于所述训练样本数据对所述预训练审计模型进行训练,包括:
[0062]
在所述预训练审计模型上叠加softmax层,得到初始分类模型;
[0063]
通过所述训练样本数据对所述初始分类模型进行训练,得到所述审计文本分类模型。
[0064]
具体的,预训练审计模型sj-bert的输出包括4种类型,分别为:last_hidden_state:表示最后一个隐藏层的序列的输出;pooler_output:标志[cls]的输出;hidden_states:表示一个元组,它的第一个元素是embedding,其余元素是各层的输出;attentions:表示一个元组,它的元素是每一层的注意力权重,用于计算自注意力头的加权平均值。在所述预训练审计模型上叠加softmax层得到初始分类模型,也即将sj-bert输出pooler_output中的[cls]作为softmax层的输入,经由softmax层输出模型的分类结果。采用训练样本数据对初始分类模型进行训练,以使叠加了softmax层的sj-bert模型学习分类过程。训练时,将训练样本数据划分为训练数据和测试数据,示例性的,划分比例可以为9:
1,具体的模型参数表如表2所示。训练结束后,得到审计文本分类模型,通过审计文本分类模型能够对待分类的审计数据进行文本类型的分类,辅助审计领域技术人员对待分类审计数据进行分类,大大的提高了分类效率,为审计人员后续工作提供基础数据。
[0065]
表2模型参数表
[0066]
参数类别取值字向量维度512隐藏层大小768训练批次10batch_size24隐层dropout0.1中文字典大小21128学习率0.00003
[0067]
本技术还提供了一种应用如上实施例所述的审计文本分类模型进行文本分类的方法,参考图2,包括:
[0068]
步骤202、获取待分类审计数据,待分类审计数据可以是当前获取到的审计数据,或审计人员当前需要进行分类的审计数据,审计数据具体可以为审计报告或一段审计文本等等。
[0069]
步骤204、将所述待分类审计数据输入至所述审计文本分类模型,经由所述审计文本分类模型输入所述待分类审计数据对应的审计类型。将待分类审计数据输入至审计文本分类模型中,通过模型进行嵌入,并依次在模型的各个神经层内进行传输,通过审计文本分类模型的输出层输出待分类审计数据对应的文本类型。例如,将待分类审计数据输出至审计文本分类模型中,经由模型输出的文本标签类型为财务审计。
[0070]
需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0071]
需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0072]
本技术还提供了一种用于审计领域的模型训练装置。
[0073]
参考图3,所述用于审计领域的模型训练装置,包括:
[0074]
第一获取模块302,被配置为获取原始审计数据;
[0075]
预处理模块304,被配置为对所述原始审计数据进行预处理,得到原始训练数据;
[0076]
第一训练模块306,被配置为基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型;
[0077]
标注模块308,被配置为对所述原始审计数据进行标注,得到训练样本数据;
[0078]
第二训练模块310,被配置为基于所述训练样本数据对所述预训练审计模型进行
训练,得到审计文本分类模型。
[0079]
基于上述用于审计领域的模型训练装置,对获取的原始审计数据进行预处理得到原始训练数据,采用原始训练数据对神经网络模型进行预训练,得到审计领域的预训练审计模型,为审计领域文本分类提供基础。对原始审计数据进行标注,形成训练样本数据,采用训练样本数据对预训练审计模型进行训练,对预训练审计模型的参数进行微调,以得到审计文本分类模型,通过审计文本分类模型对待分类的审计数据进行精确的文本分类。本技术通过两次训练过程得到审计领域的文本分类模型,通过预训练和微调的方式对神经网络模型的参数进行训练,提升神经网络模型在审计领域的适用性,使其输出较为准确的审计类型。
[0080]
在一些实施例中,所述预处理模块304,还被配置为对所述原始审计数据进行数据去重、格式转换和数据填充。
[0081]
在一些实施例中,所述标注模块308,还被配置为对所述原始审计数据进行数据清洗操作;
[0082]
基于预设的审计分类标签对经过数据清洗操作的原始审计数据进行标注,得到所述训练样本数据。
[0083]
在一些实施例中,所述第二训练模块310,还被配置为在所述预训练审计模型上叠加softmax层,得到初始分类模型;
[0084]
通过所述训练样本数据对所述初始分类模型进行训练,得到所述审计文本分类模型。
[0085]
在一些实施例中,所述预设的审计分类标签至少包括财务审计、内控审计、基建项目审计、合同审计、责任审计、专项审计、年度内部控制测试与自我评价审计和其它审计。
[0086]
本技术还提供了一种应用审计文本分类模型进行文本分类的装置。
[0087]
参考图4,应用审计文本分类模型进行文本分类的装置,包括:
[0088]
第二获取模块402,被配置为获取待分类审计数据;
[0089]
分类模块404,被配置为将所述待分类审计数据输入至所述审计文本分类模型,经由所述审计文本分类模型输入所述待分类审计数据对应的审计类型。
[0090]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0091]
上述实施例的装置用于实现前述任一实施例中相应的用于审计领域的模型训练方法或应用审计文本分类模型进行文本分类的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0092]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的用于审计领域的模型训练方法或应用审计文本分类模型进行文本分类的方法。
[0093]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0094]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0095]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0096]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0097]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0098]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0099]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0100]
上述实施例的电子设备用于实现前述任一实施例中相应的用于审计领域的模型训练方法或应用审计文本分类模型进行文本分类的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0101]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的用于审计领域的模型训练方法或应用审计文本分类模型进行文本分类的方法。
[0102]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0103]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的用于审计领域的模型训练方法或应用审计文本分类模型进行文本分类的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0104]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非
旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0105]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0106]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0107]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1