一种安全生产数字化知识库构建方法、系统、介质及设备与流程

文档序号:33383734发布日期:2023-03-08 07:08阅读:28来源:国知局
一种安全生产数字化知识库构建方法、系统、介质及设备与流程

1.本发明属于计算机应用技术领域,尤其涉及一种安全生产数字化知识库构建方法、系统、介质及设备。


背景技术:

2.随着科学技术的发展,知识图谱、数字化知识库相关技术,逐步应用到各个行业;尤其在教育培训行业中,知识图谱、数字化知识库相关技术在为学员准确匹配课程、题库、微课等各方面都有了一定的经验,为教育培训达到良好的效果起到了一定的作用。
3.现有利用知识图谱、数字化知识库解决的主要是通用应试类教育培训的课程、题库、微课推荐、学员行为特征分析;对于行业/岗位相关的应用,由于涉及到不同的行业、企业等问题,目前还没有较好的通用化解决方案;
4.缺少安全生产相关的知识库搭建方案。由于此类知识库高度与行业、岗位相关,并且安全生产方面的知识点维度多且琐碎,不像应试类教育培训知识点相对体系化,所以为安全生产数字化知识库的搭建带来了较大的困难,目前也没有较好的通用化解决方案


技术实现要素:

5.本发明所要解决的技术问题是提供一种安全生产数字化知识库构建方法、系统、介质及设备。
6.本发明解决上述技术问题的技术方案如下:一种安全生产数字化知识库构建方法,包括:
7.步骤1,获取行业国标数据以及岗位数据,基于所述行业国标数据的名称以及岗位数据的名称在不同网站爬取不同类别的数据,并根据类别存入对应数据库;
8.步骤2,对每个数据库进行词频分析,得到每个数据库对应的分析结果;
9.步骤3,将每个数据库对应的分析结果与每个数据库对应的人工抽查结果进行对比,根据对比结果调整每个分析结果在对应数据库中的关系度;
10.步骤4,通过每个分析结果在对应数据库中的关系度,构建安全生产知识图谱;
11.步骤5,通过多个安全生产知识图谱构建安全生产数字化知识库。
12.本发明的有益效果是:通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
13.在上述技术方案的基础上,本发明还可以做如下改进。
14.进一步,所述在不同网站爬取不同类别的数据,并根据类别存入对应数据库具体过程为:
15.利用网络爬虫爬取数据收集收集安全生产相关法律法规条文,按照第一预设格式将所述安全生产相关法律法规条文存储至第一mongodb数据库;
16.利用网络爬虫爬取安全生产相关行业的新闻资讯,按照第二预设格式将所述新闻咨询保存至第二mongodb数据库;
17.利用网络爬虫爬取行业的安全生产培训视频以及行业的安全生产培训试题,按照第三预设格式将所述安全生产培训试题保存至第三mongodb数据库,按照第四预设格式将所述行业的安全生产培训视频保存至postgresq l数据库。
18.进一步,所述步骤2具体为:
19.获取停用词库,基于所述停用词库对所述第一mongodb数据库、所述第二mongodb数据库、所述第三mongodb数据库以及所述postgresq l数据库中的数据进行过滤,通过j i eba中文分词组件对过滤后的所述第一mongodb数据库、过滤后的所述第二mongodb数据库、过滤后的所述第三mongodb数据库以及过滤后的所述postgresq l数据库进行词频分析,得到过滤后的所述第一mongodb数据库对应的第一分析结果、过滤后的所述第二mongodb数据库对应的第二分析结果、过滤后的所述第三mongodb数据库对应的第三分析结果以及过滤后的所述postgresq l数据库对应的第四分析结果。
20.进一步,所述根据对比结果调整每个分析结果在对应数据库中的关系度具体过程为:
21.将第一分析结果与其对应的第一人工抽查结果进行对比,根据第一对比结果对第一关系度进行优化调整;
22.将第二分析结果与其对应的第二人工抽查结果进行对比,根据第二对比结果对第二关系度进行优化调整;
23.将第三分析结果与其对应的第三人工抽查结果进行对比,根据第三对比结果对第三关系度进行优化调整;
24.将第四分析结果与其对应的第四人工抽查结果进行对比,根据第四对比结果对第四关系度进行优化调整。
25.本发明解决上述技术问题的另一种技术方案如下:一种安全生产数字化知识库构建系统,包括:
26.存储模块,用于获取行业国标数据以及岗位数据,基于所述行业国标数据的名称以及岗位数据的名称在不同网站爬取不同类别的数据,并根据类别存入对应数据库;
27.分析模块,用于对每个数据库进行词频分析,得到每个数据库对应的分析结果;
28.调整模块,用于将每个数据库对应的分析结果与每个数据库对应的人工抽查结果进行对比,根据对比结果调整每个分析结果在对应数据库中的关系度;
29.第一构建模块,用于通过每个分析结果在对应数据库中的关系度,构建安全生产知识图谱;
30.第二构建模块,用于通过多个安全生产知识图谱构建安全生产数字化知识库。
31.本发明的有益效果是:通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
32.进一步,所述在不同网站爬取不同类别的数据,并根据类别存入对应数据库具体过程为:
33.利用网络爬虫爬取数据收集收集安全生产相关法律法规条文,按照第一预设格式将所述安全生产相关法律法规条文存储至第一mongodb数据库;
34.利用网络爬虫爬取安全生产相关行业的新闻资讯,按照第二预设格式将所述新闻咨询保存至第二mongodb数据库;
35.利用网络爬虫爬取行业的安全生产培训视频以及行业的安全生产培训试题,按照第三预设格式将所述安全生产培训试题保存至第三mongodb数据库,按照第四预设格式将所述行业的安全生产培训视频保存至postgresq l数据库。
36.进一步,所述分析模块具体用于:
37.获取停用词库,基于所述停用词库对所述第一mongodb数据库、所述第二mongodb数据库、所述第三mongodb数据库以及所述postgresq l数据库中的数据进行过滤,通过j i eba中文分词组件对过滤后的所述第一mongodb数据库、过滤后的所述第二mongodb数据库、过滤后的所述第三mongodb数据库以及过滤后的所述postgresq l数据库进行词频分析,得到过滤后的所述第一mongodb数据库对应的第一分析结果、过滤后的所述第二mongodb数据库对应的第二分析结果、过滤后的所述第三mongodb数据库对应的第三分析结果以及过滤后的所述postgresq l数据库对应的第四分析结果。
38.进一步,所述根据对比结果调整每个分析结果在对应数据库中的关系度具体过程为:
39.将第一分析结果与其对应的第一人工抽查结果进行对比,根据第一对比结果对第一关系度进行优化调整;
40.将第二分析结果与其对应的第二人工抽查结果进行对比,根据第二对比结果对第二关系度进行优化调整;
41.将第三分析结果与其对应的第三人工抽查结果进行对比,根据第三对比结果对第三关系度进行优化调整;
42.将第四分析结果与其对应的第四人工抽查结果进行对比,根据第四对比结果对第四关系度进行优化调整。
43.本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种安全生产数字化知识库构建方法。
44.本发明的有益效果是:通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
45.本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括上述存储介质、执行上述存储介质内的指令的处理器。
46.本发明的有益效果是:通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
附图说明
47.图1为本发明一种安全生产数字化知识库构建方法实施例提供的流程示意图;
48.图2为本发明一种安全生产数字化知识库构建系统实施例提供的结构框架图。
具体实施方式
49.以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
50.如图1所示,一种安全生产数字化知识库构建方法,包括:
51.步骤1,获取行业国标数据以及岗位数据,基于所述行业国标数据的名称以及岗位数据的名称在不同网站爬取不同类别的数据,并根据类别存入对应数据库;
52.步骤2,对每个数据库进行词频分析,得到每个数据库对应的分析结果;
53.步骤3,将每个数据库对应的分析结果与每个数据库对应的人工抽查结果进行对比,根据对比结果调整每个分析结果在对应数据库中的关系度;
54.步骤4,通过每个分析结果在对应数据库中的关系度,构建安全生产知识图谱;
55.步骤5,通过多个安全生产知识图谱构建安全生产数字化知识库。
56.在一些可能的实施方式中,通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
57.需要说明的是,步骤1,获取行业国标数据以及岗位数据,基于所述行业国标数据的名称以及岗位数据的名称在不同网站爬取不同类别的数据,并根据类别存入对应数据库的具体过程如下:
58.获取行业、岗位国标数据(行业国标数据可从国家标准信息网站获取,查询后整理出的数据格式为编号加名称;岗位数据没有明确的国家标准(类似于企业组织架构),岗位数据来源为公司内容制作部门整理的技术岗位信息库;同时内容制作相关人员会对岗位和行业之间的关系以树形结构进行标注,详细数据样例可见附件exce l)后进行区分(将岗位和行业两类数据分别保存,可以保存到同一exce l中的两个sheet中)后以exce l数据格式(岗位、行业数据保存到同一exce l中分为两个sheet即可)存储至数据介质(保存到exce l中即可)中,借助phython程序读取原始数据(读取行业、岗位及行业岗位之间的关系)并将名称(行业、岗位的名称)作为节点(vertex),行业、岗位之间的关系(鉴于岗位没有明确的标准,岗位、行业之间的关系依靠内容制作人员根据行业经验手动标注生成)作为边(edge)以图的结构保存到neo4j数据库(neo4j是图数据库的一种,可以以图的形式(类似于网状结构)将数据以及数据之间的关系保存,在知识图谱领域使用较多)
59.利用网络爬虫爬取数据收集收集(国家安全生产法律法规网站及国家法律法规数据库网站有金属非金属矿山、建筑施工、烟花爆竹、化工、通用等相关法律法规;https://ru l e.sarva.cn/#/;https://f l k.npc.gov.cn)安全生产相关法律法规条文,将数据(安全生产相关法律法规数据)按制定机关、法规名称、施行日期、公布日期、时效性、内容、的格式(法律法规包含法规名称、发布机构、版本号、类型、实施日期、状态、法规内容)进行处理(统一数据格式,便于保存及查询),保存到mongodb数据库(是的,mongodb为非关系型数据的一
种,主要应用在关系比较松散的数据保存,特别适用于长文本内容的存储及分析)利用网络爬虫爬取相关新闻(全球灾害数据平台及国家矿山安全监察局网站、应急管理部网站;https://www.gddat.cn/newg l oba l web/#/d i sasbrowse;https://www.ch i nami ne-safety.gov.cn;https://www.mem.gov.cn/xw/)、警示资讯(主要指安全生产相关行业的新闻资讯),将数据按照新闻时间、标题、简介、具体内容、新闻获取链接、新闻发布者的格式保存到mongodb数据库(mongodb数据库为开源数据库,可自行利用服务器搭建使用)将行业的安全生产培训视频资源,试题等数据(视频资源及试题由公司内容制作部门制作完成之后上传到公司云资源平台统一存储管理),按着既定的数据格式(视频资源格式为:视频名称、封面图片、简介、视频时长、学时、关联行业、关联岗位,试题数据格式为:试题题型、试题难度、题干、试题内容、试题解析、试题分值、是否主观题、关联行业、关联岗位)分别(视频资源信息存储在postgresq l数据库中,试题数据保存到mongodb数据库中(试题数据涉及到长文本)存储对应的mongodb数据库,以及postgresq l数据库,将行业相关的资源按着不同科目进行智能ai区分(按照行业、岗位标识将数据分类后,视频资源保存在postgresq l、试题信息保存在mongodb数据库),为智能推送做基础。
60.步骤2,对每个数据库进行词频分析,得到每个数据库对应的分析结果的具体过程为:
61.将行业名称、岗位名称作为以下知识数据分析的实体,供词频分析使用;
62.制作停用词库(停用词在以下每个步骤中做词频统计分析时都会用到,停用词为无意义的词,停用词作为常量保存到postgresq l中供每个步骤使用),停用词是指信息检索过程中为节省存储空间并提高搜索效率,在处理自然语言文本前或之后自动过滤掉的某些字或此,比如标点、空格、无意义文字、词语。使用python程序借助j ieba中文分词组件针对法律法规的名称、内容根据行业和岗位实体名称进行词频分析,将词频出现次数作为两者(法律法规与行业、岗位之间的关系)数据间重要的关系即边(edge),通过edge可以将数据按照图结构生成对应图表;
63.采取同样步骤针对新闻、警示资讯的标题、内容进行实体词频分析,同样得到数据间重要的关系即边(edge);
64.培训视频介绍信息(视频信息数据格式包含视频介绍内容)作为主体进行行业岗位实体词频分析实体题目、内容、解析采取同样词频分析,同样得到数据间重要的关系即边(edge)。
65.步骤3,将每个数据库对应的分析结果与每个数据库对应的人工抽查结果进行对比,根据对比结果调整每个分析结果在对应数据库中的关系度的具体过程为:
66.将上一步获取的词频分析结果作为知识数据与行业、岗位关系的模型依据,根据计算结果(词频分析结果)与人工抽检结果对比调整优化词频分析结果在不同知识领域(指法律法规、新闻资讯、视频资源、试题这些知识库)中的关系度(法律法规、新闻资讯、视频资源、试题库这些和行业岗位进行了词频分析,将相同行业岗位的不同数据根据词频分析结果生成关系度)。
67.上述过程可参考如下示例:从法律法规、新闻资讯、视频资源、试题知识库每个类别中随机抽取200条数据;请内容专家对数据按照经验对数据与行业的关系度进行打分;这样就可以利用机器计算结果与人工打分结果进行回归分析;回归分析结果可以作为机器分
析结果的调整优化因子对机器分析结果数据进行优化从而得到最终更准确的数据。
68.关系度表示表示该知识数据(法律法规、新闻资讯、视频资源、试题)与行业之间的关联程度。
69.步骤4,通过每个分析结果在对应数据库中的关系度,构建安全生产知识图谱的具体过程为:
70.数据间关系作为边(edge)将优化后的结果数据按照图结构保存到neo4j数据库。
71.即知识数据(法律法规、新闻资讯、视频资源、试题)与行业存在关联关系即可当做边进行保存;图数据库中边类似于一种关联指向关系,比如张三认识李四。
72.步骤5,通过多个安全生产知识图谱构建安全生产数字化知识库的具体过程为:
73.如此形成基于行业岗位知识图谱的安全生产数字化知识库,供安全知识培训语义检索、智能问答、ai推荐业务使用。
74.优选地,在上述任意实施例中,所述在不同网站爬取不同类别的数据,并根据类别存入对应数据库具体过程为:
75.利用网络爬虫爬取数据收集收集安全生产相关法律法规条文,按照第一预设格式将所述安全生产相关法律法规条文存储至第一mongodb数据库;
76.利用网络爬虫爬取安全生产相关行业的新闻资讯,按照第二预设格式将所述新闻咨询保存至第二mongodb数据库;
77.利用网络爬虫爬取行业的安全生产培训视频以及行业的安全生产培训试题,按照第三预设格式将所述安全生产培训试题保存至第三mongodb数据库,按照第四预设格式将所述行业的安全生产培训视频保存至postgresq l数据库。
78.优选地,在上述任意实施例中,所述步骤2具体为:
79.获取停用词库,基于所述停用词库对所述第一mongodb数据库、所述第二mongodb数据库、所述第三mongodb数据库以及所述postgresq l数据库中的数据进行过滤,通过j i eba中文分词组件对过滤后的所述第一mongodb数据库、过滤后的所述第二mongodb数据库、过滤后的所述第三mongodb数据库以及过滤后的所述postgresq l数据库进行词频分析,得到过滤后的所述第一mongodb数据库对应的第一分析结果、过滤后的所述第二mongodb数据库对应的第二分析结果、过滤后的所述第三mongodb数据库对应的第三分析结果以及过滤后的所述postgresq l数据库对应的第四分析结果。
80.优选地,在上述任意实施例中,所述根据对比结果调整每个分析结果在对应数据库中的关系度具体过程为:
81.将第一分析结果与其对应的第一人工抽查结果进行对比,根据第一对比结果对第一关系度进行优化调整;
82.将第二分析结果与其对应的第二人工抽查结果进行对比,根据第二对比结果对第二关系度进行优化调整;
83.将第三分析结果与其对应的第三人工抽查结果进行对比,根据第三对比结果对第三关系度进行优化调整;
84.将第四分析结果与其对应的第四人工抽查结果进行对比,根据第四对比结果对第四关系度进行优化调整。
85.如图2所示,一种安全生产数字化知识库构建系统,包括:
86.存储模块100,用于获取行业国标数据以及岗位数据,基于所述行业国标数据的名称以及岗位数据的名称在不同网站爬取不同类别的数据,并根据类别存入对应数据库;
87.分析模块200,用于对每个数据库进行词频分析,得到每个数据库对应的分析结果;
88.调整模块300,用于将每个数据库对应的分析结果与每个数据库对应的人工抽查结果进行对比,根据对比结果调整每个分析结果在对应数据库中的关系度;
89.第一构建模块400,用于通过每个分析结果在对应数据库中的关系度,构建安全生产知识图谱;
90.第二构建模块500,用于通过多个安全生产知识图谱构建安全生产数字化知识库。
91.在一些可能的实施方式中,通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
92.优选地,在上述任意实施例中,所述在不同网站爬取不同类别的数据,并根据类别存入对应数据库具体过程为:
93.利用网络爬虫爬取数据收集收集安全生产相关法律法规条文,按照第一预设格式将所述安全生产相关法律法规条文存储至第一mongodb数据库;
94.利用网络爬虫爬取安全生产相关行业的新闻资讯,按照第二预设格式将所述新闻咨询保存至第二mongodb数据库;
95.利用网络爬虫爬取行业的安全生产培训视频以及行业的安全生产培训试题,按照第三预设格式将所述安全生产培训试题保存至第三mongodb数据库,按照第四预设格式将所述行业的安全生产培训视频保存至postgresq l数据库。
96.优选地,在上述任意实施例中,所述分析模块200具体用于:
97.获取停用词库,基于所述停用词库对所述第一mongodb数据库、所述第二mongodb数据库、所述第三mongodb数据库以及所述postgresq l数据库中的数据进行过滤,通过j i eba中文分词组件对过滤后的所述第一mongodb数据库、过滤后的所述第二mongodb数据库、过滤后的所述第三mongodb数据库以及过滤后的所述postgresq l数据库进行词频分析,得到过滤后的所述第一mongodb数据库对应的第一分析结果、过滤后的所述第二mongodb数据库对应的第二分析结果、过滤后的所述第三mongodb数据库对应的第三分析结果以及过滤后的所述postgresq l数据库对应的第四分析结果。
98.优选地,在上述任意实施例中,所述根据对比结果调整每个分析结果在对应数据库中的关系度具体过程为:
99.将第一分析结果与其对应的第一人工抽查结果进行对比,根据第一对比结果对第一关系度进行优化调整;
100.将第二分析结果与其对应的第二人工抽查结果进行对比,根据第二对比结果对第二关系度进行优化调整;
101.将第三分析结果与其对应的第三人工抽查结果进行对比,根据第三对比结果对第三关系度进行优化调整;
102.将第四分析结果与其对应的第四人工抽查结果进行对比,根据第四对比结果对第
四关系度进行优化调整。
103.本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种安全生产数字化知识库构建方法。
104.在一些可能的实施方式中,通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
105.本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括上述存储介质、执行上述存储介质内的指令的处理器。
106.在一些可能的实施方式中,通过将行业国标数据以及岗位数据作为基础,在此基础上进行爬虫处理以及后续词频分析,可以快速准确的将各个行业中的不同类型数据进行整体串联结合,以知识图谱的存储方式将改变安全知识以点状结构保存不利于业务表现及使用的现象,使得安全生产相关知识内容以知识点及行业的属性串联起来。
107.读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
108.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
109.上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
110.以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1