本发明涉及智能审计,特别涉及一种基于大语言生成模型的审计方法、系统和审计机器人。
背景技术:
1、目前,在审计过程中,机器人可以通过自然语言模拟人与审计人员之间的对话,帮助审计人员查询审计相关知识,证明了机器人在提高审计效率和准确性方面具有巨大潜力。
2、然而,基于大语言生成模型的审计知识机器人还面临一些挑战和限制。一方面,语言生成模型需要大量的数据支持,但由于审计行业的数据保密性和隐私性,限制了针对特定场景的数据获取和利用。另一方面,机器人还需要在对话生成的过程中考虑人与公司报表之间的语义关系,这需要涉及自然语言理解和知识表示等领域的知识,因此对算法的设计和优化提出了更高的要求。
技术实现思路
1、本发明专利申请提供的一种基于大语言生成模型的审计方法,包括:
2、对获取的审计知识数据进行索引存储,得到es检索库;
3、基于所述es检索库,对检索问题进行检索分析,得到提示信息;
4、利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
5、其中,所述审计大语言模型是基于bloom-7b模型进行构建的。
6、优选的,所述对获取的审计知识数据进行索引存储,得到es检索库,包括:
7、判断获取的审计知识数据是否是结构化数据;
8、当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
9、当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
10、对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
11、优选的,所述基于所述es检索库,对检索问题进行检索分析,得到提示信息,包括:
12、获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
13、将所述检索问题和所述检索摘要组合为提示信息。
14、优选的,所述基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
15、对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
16、基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
17、根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
18、优选的,所述审计大语言模型包括如下的训练过程:
19、利用bloom-7b模型进行问答生成,得到问题和对应的文章摘要;
20、基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
21、将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
22、将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
23、将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
24、基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
25、优选的,所述利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案之后,还包括:
26、基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
27、优选的,所述基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
28、将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
29、根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
30、优选的,所述审计大语言模型的评估结果对应如下的计算式:
31、;
32、式中,
33、;
34、;
35、其中,表示评估结果;表示精确率计算结果;表示召回率计算结果。
36、基于同一发明构思,本发明还提供了一种基于大语言生成模型的审计系统,包括:
37、索引存储模块:用于对获取的审计知识数据进行索引存储,得到es检索库;
38、检索分析模块:用于基于所述es检索库,对检索问题进行检索分析,得到提示信息;
39、模型审计模块:用于利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
40、其中,所述模型审计模块中的审计大语言模型基于bloom-7b模型进行构建的。
41、优选的,所述索引存储模块,具体用于:
42、判断获取的审计知识数据是否是结构化数据;
43、当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
44、当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
45、对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
46、优选的,所述检索分析模块,具体用于:
47、获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
48、将所述检索问题和所述检索摘要组合为提示信息。
49、优选的,所述检索分析模块中基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
50、对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
51、基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
52、根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
53、优选的,所述模型审计模块中的审计大语言模型包括如下的训练过程:
54、利用bloom-7b模型进行问答生成,得到问题和对应的文章摘要;
55、基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
56、将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
57、将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
58、将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
59、基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
60、优选的,所述模型审计模块中利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案之后,还包括:
61、性能评估模块:用于基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
62、优选的,所述性能评估模块用于基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
63、将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
64、根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
65、优选的,所述性能评估模块中的审计大语言模型的评估结果对应如下的计算式:
66、;
67、式中,
68、;
69、;
70、其中,表示评估结果;表示精确率计算结果;表示召回率计算结果。
71、基于同一发明构思,本发明还提供了一种基于大语言生成模型的审计机器人,所述审计机器人是利用如前所述的基于大语言生成模型的审计方法构建的。
72、与最接近的现有技术相比,本发明具有的有益效果如下:
73、本发明专利申请提供了一种基于大语言生成模型的审计方法、系统和审计机器人,包括:对获取的审计知识数据进行索引存储,得到es检索库;基于所述es检索库,对检索问题进行检索分析,得到提示信息;利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;其中,所述审计大语言模型是基于bloom-7b模型进行构建的;本发明专利申请采用了基于神经网络的生成模型,可以对财务数据、审计报告、公司管理活动等多方面信息进行分析和处理,为审计人员提供实时、准确的建议和解决方案。
74、本发明的其它特征将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
75、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。