基于大语言模型的事故案例库及白皮书生成方法与流程

文档序号：36026129发布日期：2023-11-17 15:09阅读：32来源：国知局

本发明涉及事故案例库及白皮书生成的，具体涉及一种基于大语言模型的事故案例库及白皮书生成方法。

背景技术：

1、事故案例库及白皮书是针对某一领域或行业汇集各种事故案例之后进行总结、分析和归纳的成果，其目的是以这些真实的事故案例为教材，提供给相关从业人员学习、借鉴和预防类似事故的参考，并进一步促进该领域或行业的安全管理和发展。通过分析和总结已有的事故案例，可以深入挖掘事故的本质和原因，发现潜在的安全问题和风险，并提出相应的解决方案和对策，有效提高安全预防和控制的水平。

2、现有的事故案例库及白皮书生成方法一般是通过人工构建事故案例库并撰写白皮书，这种方式可能会受到个人主观意识和认知局限的影响，导致对案例的分析和理解存在偏差。此外，对于大量的事故案例，人工分析的成本和时间会比较高，难以在短时间内完成大量的事故案例的归纳和分析工作，限制了成果的产出效率和质量。

3、但是，随着大语言模型的相继出现，可以在一定程度上解决人工撰写事故案例造成的效率低和主观性强的缺陷。

4、目前传统的事故案例库及白皮书的编写方式主要依赖人工进行文本分析和总结，其速度较慢且容易受到主观因素的影响，因此需要一种基于大语言模型的事故案例库及白皮书生成方法，该方法相比较人工编写的优势在于更加高效和客观。

技术实现思路

1、为解决现有技术存在的问题与缺陷，本发明提出了一种基于大语言模型的事故案例库及白皮书自动生成方法，具体来说，该方法可以自动完成事故案例文本的自动抽取、解析、生成等工作。本发明的主要思路是，首先利用大语言模型对事故案例进行关键信息抽取，然后对抽取到的信息进一步格式化并存储到数据库，最后再次通过大语言模型对关键信息进行分类和总结，从而自动生成事故案例白皮书。

2、为实现上述目的，本发明提出了一种基于大语言模型的事故案例库及白皮书生成方法，包括如下步骤：

3、s1：获取事故案例数据并进行预处理操作；

4、本发明通过多个来源获取事故案例的相关文档，并对文档数据进行清洗等预处理操作；

5、s2：利用大语言模型提取事故案例要素信息；

6、本发明通过大语言模型并设置合适的prompt提示词，抽取事故案例文本中的事故要素信息和事故分类结果；

7、s3：存储事故要素信息构成事故案例数据库；

8、本发明将抽取的事故要素信息和分类结果结构化后，存入到数据库中，构成事故案例库；

9、s4：获取事故数据统计报表；

10、本发明通过数据库查询，对所有事故案例中包含数字的信息字段进行统计汇总，生成统计报表；

11、s5：再次利用大语言模型自动生成白皮书的主干内容；

12、本发明根据事故案例的分类结果，依次对每一类的事故信息总结概括出主要原因和预防措施手段，并附上统计报表，初步生成行业事故案例白皮书；

13、s6：生成完整的白皮书内容。

14、本发明通过大语言模型开放的api接口，对事故案例文本进行自动解析并抽取关键要素信息构成事故案例库，再进一步自动化生成事故案例白皮书。本发明通过对事故案例文本的结构和语言规律进行深入分析，构建了一套完整的事故案例库和白皮书生成模型，不仅可以帮助相关行业快速生成事故案例白皮书，同时也能够帮助相关企业有效地提升事故案例分析和总结的效率。

15、优选的，所述步骤s1中还包括如下具体步骤：

16、s1.1获取数据的渠道主要包括：企业内部事故报告和调查报告、安全生产监督管理部门发布的行业事故通报、行业协会发布的事故案例和报告；

17、s1.2获取数据的方式能够通过网络爬虫实现，预先设置好数据源及对应的xpath路径，爬虫便会自动下载数据源中的文档内容；

18、s1.3利用html(超文本标记语言)标签提取数据源的正文内容，并过滤掉图片、外部链接等无关的内容；

19、s1.4对提取到的事故案例正文内容进行预处理，主要包括：去除内容中unicode等字符乱码；若内容中包含大量图片且内容字数少于50字符时，则过滤该条数据。

20、优选的，所述步骤s2中还包括如下具体步骤：

21、s2.1在事故案例要素抽取和白皮书撰写的过程中，将分别运用chatgpt、chatglm这2种大语言模型；

22、大语言模型是一种深度学习模型，可以接受一段序列作为输入，然后基于该输入和上下文环境生成一个自然语言的文本片段作为输出。一般用于自然语言生成任务，如文章、故事、新闻稿、对话，同时也可用于文本分类、文本情感分析以及机器翻译等任务。目前主流的大语言模型，如chatgpt、chatglm等。chatgpt由openai开发，拥有170b的海量权重参数，具有极强的文本生成能力；而chatglm由清华大学开发，仅有6b的参数量，但在语义理解和文本生成方面也毫不逊色。本发明在事故案例要素抽取和白皮书撰写的过程中，将分别运用上述2种模型。

23、s2.2在进行事故要素抽取等简单任务处理时，优先选择chatglm模型；

24、相对于那些具有较大参数量的大语言模型而言，chatglm参数量较小，可以在本地环境中搭建和部署，使用成本更低，响应速度更快。因此，在进行事故要素抽取等简单任务处理时，优先选择chatglm模型。

25、s2.3将预处理后的文本输入到大语言模型中，设置合适的prompt提示词，抽取事故案例文本中的事故要素信息和事故分类结果。

26、优选的，所述步骤s3中还包括如下具体步骤：

27、s3.1确定数据库结构，包括表名、列名、数据类型、索引，并在数据库中创建一个表用于存储事故要素信息和事件类型；表的结构与存储的信息相对应，包括字段如事故id、日期时间、事故地点、事故描述；

28、s3.2抽取得到的事故案例要素以json格式输出，可以通过字典dict的方式快速读取每一项内容；同时对抽取的数据进行格式化，以适应数据库表中的字段类型和数据格式要求；

29、s3.3使用sql语句，将格式化后的故要素信息和事件类型数据插入到数据库表中，完成存储步骤。

30、优选的，所述步骤s4中还包括如下具体步骤：

31、s4.1确定待统计的时间范围和事件类型；时间范围可以是1年、1个季度、1个月或自定义时间长短；事件类型从爆炸、火灾、泄漏、中毒、窒息、坍塌、烫伤以及其它这8类中选取；

32、s4.2在数据库中使用sql语句进行查询，sql语句能够限定时间范围和事件类型；

33、s4.3将查询得到的多条数据结果复制到excel数据表中，统计单个事件类型的发生次数、受伤人数、死亡人数和经济损失；

34、s4.4重复上述步骤，得到每个事件类型的数字统计，最终生成统计表和统计图。

35、优选的，所述步骤s5中还包括如下具体步骤：

36、s5.1在生成文本的过程中，优先考虑使用chatgpt模型来完成；

37、在生成文本的过程中，由于chatgpt包含更大的权重参数量，生成效果更好，且需调用的次数较少，因此优先考虑使用chatgpt模型来完成。

38、s5.2将步骤s4中生成的表格数据转成纯文本形式，配合提示词“请分析表格中的数据，给出分析结论”输入到大语言模型中，得到数据分析结果；

39、s5.3抽取部分事故案例中的事故原因，配合提示词“请分析上述事故原因，例举出造成事故的主要原因”输入到大语言模型中，得到大部分事故发生的主要事故原因；

40、s5.4根据s5.3，我们还可以得到其它类似内容，如预防事故发生的主要措施等。

41、优选的，所述步骤s6中还包括如下具体步骤：

42、s6.1对步骤s5获取的所有内容进行整合，再由人工进行修订审核，即可得到事故案例白皮书。

43、本发明与现有技术相比较具有如下有益效果：

44、1.本发明以大语言模型为基础，减少人工干预，提高了事故案例白皮书的客观性和准确性。同时，本发明具有高效性，能够自动化地完成文档生成，提高了工作效率。此外，本发明还提供了人工审核和修正的环节，保障了生成结果的准确性和可靠性。

45、2.本发明通过大语言模型开放的api接口，对事故案例文本进行自动解析并抽取关键要素信息构成事故案例库，再进一步自动化生成事故案例白皮书。本发明通过对事故案例文本的结构和语言规律进行深入分析，构建了一套完整的事故案例库和白皮书生成模型，不仅可以帮助相关行业快速生成事故案例白皮书，同时也能够帮助相关企业有效地提升事故案例分析和总结的效率。

46、3.本发明能够利用大语言模型自动生成事故案例白皮书的算法流程。

47、4.本发明能够深度挖掘事故案例文本的结构并实现自动化抽取关键信息，同时能够根据结构化的事故要素信息自动化生成事故案例白皮书。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞一奇邱彦林朱安安
技术所有人：深蓝感知（杭州）物联科技有限公司
我是此专利的发明人

上一篇：一种建筑混凝土管桩用放置架的制作方法
上一篇：阀组件及流路切换阀的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。