一种隐患数据知识图谱的构建方法及装置、设备、介质与流程

文档序号:20030195发布日期:2020-02-28 10:17阅读:341来源:国知局
一种隐患数据知识图谱的构建方法及装置、设备、介质与流程

本申请涉及石油石化行业技术领域,尤其涉及一种隐患数据知识图谱的构建方法及装置、设备、介质。



背景技术:

随着我国进入了工业化加速发展阶段,工业生产规模的扩大和工业生产效率的提升带来了很大的社会效应,但同时安全生产问题也日益突出,给企业带来的后果也越发惨重。为了安全生产,减少事故率,对设备、环境、人员的隐患排查已经成为各企业安全生产的重要举措。

以石油石化行业为例,石油石化行业是高风险行业,各个国家、企业、国际或地区性组织都在积极总结和探索企业安全管理的模式和办法,企业在指定安全生产规划、目标、考核指标以及资源配置时,需要参考有效的隐患数据,隐患数据一般是通过现场安全检查的方式,由现场安全人员人工记录的针对某项作业或者某种设备的小段文字描述。

石油石化企业通过对工业隐患进行排查和整改,记录了大量隐患数据,但是这些隐患数据都是各自存储,相互之间缺乏关联性,成为了一个个的数据孤岛,无法及时从中获取有效信息。



技术实现要素:

本申请实施例提供一种隐患数据知识图谱的构建方法及设备、介质,用以解决现有技术中的如下技术问题:石油石化企业通过对工业隐患进行排查和整改,记录了大量隐患数据,但是这些隐患数据都是各自存储,相互之间缺乏关联性,成为了一个个的数据孤岛,无法及时从中获取有效信息。

本申请实施例采用下述技术方案:

一种隐患数据知识图谱的构建方法,包括:

获取隐患数据;

通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

根据所述关系特征数据,生成图谱节点数据;

根据所述图谱节点数据,生成隐患数据知识图谱。

可选地,所述分类模型按照如下方式预先训练:

构建基于机器学习的分类模型;

获取样本隐患数据及其对应的标签,所述标签指示了所述样本隐患数据的一个或者多个词所属的隐患属性,所述隐患属性包括以下至少一种:隐患设备、隐患位置、隐患状态、隐患危害;

利用所述样本隐患数据及其对应的标签,对所述分类模型进行有监督训练。

可选地,所述标签还指示了所述样本隐患数据的一个或者多个词的语法范畴数据,所述语法范畴数据至少包括词性。

可选地,通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,包括:

对所述隐患数据进行分词,并转换为相应的词向量;

通过所述预先训练的分类模型,执行:根据所述隐患数据相应的词向量,在用于训练所述分类模型的样本隐患数据的集合中,确定与所述隐患数据的多个相似数据;根据所述多个相似数据,分别确定其所属类别的权重;根据所述权重,对所述隐患数据进行分类;根据分类结果,获得所述隐患数据中的关系特征数据。

可选地,根据所述多个相似数据,分别确定其所属类别的权重,包括:

确定所述多个相似数据分别所属的类别;

针对所确定的各类别,确定该类别包含的所述相似数据的数量;

根据所述数量,以及所述相似数据与所述隐患数据的相似度,分别确定所述各类别的权重。

可选地,根据所述关系特征数据,生成图谱节点数据,包括:

接收针对所述关系特征数据的补全数据和修正数据;

通过对所述关系特征数据、所述补全数据和修正数据进行冗余过滤和格式化处理,生成图谱节点数据。

可选地,根据所述图谱节点数据,生成隐患数据知识图谱,包括:

将所述图谱节点数据导入nosql图形数据库进行处理;

获取nosql图形数据库相应生成的隐患数据知识图谱。

一种隐患数据知识图谱的构建装置,包括:

获取模块,获取隐患数据;

提取模块,通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

第一生成模块,根据所述关系特征数据,生成图谱节点数据;

第二生成模块,根据所述图谱节点数据,生成隐患数据知识图谱。

一种隐患数据知识图谱的构建设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

获取隐患数据;

通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

根据所述关系特征数据,生成图谱节点数据;

根据所述图谱节点数据,生成隐患数据知识图谱。

一种隐患数据知识图谱的构建非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

获取隐患数据;

通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

根据所述关系特征数据,生成图谱节点数据;

根据所述图谱节点数据,生成隐患数据知识图谱。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:利用基于机器学习的分类模型从隐患数据中提取关系特征数据,再据此生成隐患数据知识图谱,从而有效地组织了隐患数据,便于可视化查看隐患数据的内在联系,发现有用信息,起到提前预警隐患出现的设备和部位的作用,并可采取相应的预防措施和决策准备。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请的一些实施例提供的一种隐患数据知识图谱的构建方法的流程示意图;

图2为本申请的一些实施例提供的一种应用场景下,图1中的隐患数据知识图谱的构建方法的具体流程示意图;

图3为本申请的一些实施例提供的一种应用场景下,图1中的隐患数据知识图谱的构建方法涉及的一种模型的业务框架示意图;

图4为本申请的一些实施例提供的对应于图1的一种隐患数据知识图谱的构建装置的结构示意图;

图5为本申请的一些实施例提供的对应于图1的一种隐患数据知识图谱的构建设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从文档(document)级别降到数据(data)级别,聚合大量知识,从而实现知识的快速响应和推理。知识图谱能把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。

本申请针对背景技术的问题,利用基于机器学习的分类模型从隐患数据中提取关系特征数据,再据此生成相应的隐患数据知识图谱,从而将隐患数据有效组织起来,便于可视化查看这些数据的内在联系,发现有用信息,起到提前预警隐患出现的设备和部位的作用,并可采取相应的预防措施和决策准备。

图1为本申请的一些实施例提供的一种隐患数据知识图谱的构建方法的流程示意图。图1中的流程可以有一个或者多个执行主体参与执行,比如,分类模型、nosql图形数据库等。

图1中的流程包括以下步骤:

s100:获取隐患数据。

在本申请的一些实施例中,隐患数据的表示形式可以是多样的,比如,文本、图像等,在实际应用中,一般会以台账的形式对隐患数据进行记录,记录得到实体或者电子文本,其中电子文本更便于用计算机来处理,因此,步骤s100优选可以为电子文本形式的隐患数据,具体包含的内容是对隐患的相关描述。

s102:通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系。

在本申请的一些实施例中,分类模型是基于机器学习的,根据预先确定了关系特征数据的隐患样本数据训练得到。

隐患属性有多种,比如包括隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害等。以隐患主体为例,其可以表示是怎样的设备、或者操作规程等主体存在当前的隐患。再以隐患位置为例,其可以表示是在设备的哪个部位、或者在操作规程的哪个步骤等位置存在当前的隐患。在隐患数据中,不同的隐患属性对应的内容的相对位置等关联性有一定的规律,主要取决于它们的语义关系和语法规则,而通过分类模型,主要就是为了提取反映了这些关联性的关系数据特征。

关系特征数据的形式可以是多样的,其比如是可以是隐患数据中的一个词本身或者连续多个词的组合本身,也可以是根据这一个词或者连续多个词的组合,提炼或者映射出的内容,这些内容可以是人很容易直接理解的内容,比如,所总结出的大义,或者也可以是人难以直接理解,比如,由机器学习模型提取出的高维特征向量等。下面的一些实施例主要以:关系特征数据包括隐患数据中的一个词本身或者连续多个词的组合本身,为例进行说明。在对分类模型训练时,即可以将关系特征数据作为标签,进行有监督训练。

训练到期望程度(比如,训练收敛后)的分类模型,有能力较为准确地从隐患数据中提取关系特征数据。

s104:根据所述关系特征数据,生成图谱节点数据。

在本申请的一些实施例中,图谱节点数据包含多个节点,不同的节点比如可以是关系特征数据包含的词,也可以是隐患属性等。根据关系特征数据,还可以生成节点之间的边,所述边比如可以反映节点间的语义关系,节点之间可能存在的包含于被包含的关系等。

s106:根据所述图谱节点数据,生成隐患数据知识图谱。

在本申请的一些实施例中,可以采用指定的图生成算法,来生成隐患数据知识图谱。

通过图1的方法,能够有效地整理隐患数据,提炼出诸如隐患的设备、位置、状态、危害等相关信息和描述,并生成对应的隐患数据知识图谱,从而能够对大量的隐患数据进行统计、梳理、分析并形成专题报告,便于隐患分析研判,找到问题存在的关键和薄弱环节。通过对大量隐患数据的设备、位置、状态、危害的分析研判,透过现象看本质,从中找出带有倾向性、普遍性、规律性的深层次问题,从而掌握隐患排查整治工作的规律,进而对症下药,从源头上采取针对性措施。

基于图1的方法,本申请的一些实施例还提供了该方法的一些具体方案,以及相关的扩展方案,下面进行说明。

在本申请的一些实施例中,分类模型可以按照如下方式预先训练:

构建基于机器学习的分类模型;获取样本隐患数据及其对应的标签,标签指示了样本隐患数据的一个或者多个词所属的隐患属性,隐患属性包括以下至少一种:隐患设备、隐患位置、隐患状态、隐患危害;利用样本隐患数据及其对应的标签,对分类模型进行有监督训练。分类模型有多种实现方式,比如,神经网络算法、k最近邻(k-nearestneighbor,knn)机器学习算法等。标签除了指示隐患属性以外,还可以指示样本隐患数据的一个或者多个词的语法范畴数据,语法范畴数据至少包括词性,从而便于提取出词的语义以及上下文词之间的语义关联。

在分类模型训练完毕,其具体使用时模型内部的处理过程与训练时是一致的,只是参数更为合理,能够更为准确地分类。

在本申请的一些实施例中,以基于knn机器学习算法的分类模型为例,比如可以按照如下方式,从隐患数据中提取关系特征数据:对隐患数据进行分词,并转换为相应的词向量;通过预先训练的分类模型,执行:根据隐患数据相应的词向量,在用于训练分类模型的样本隐患数据的集合中,确定与隐患数据的多个相似数据;根据多个相似数据,分别确定其所属类别的权重;根据权重,对隐患数据进行分类;根据分类结果,获得隐患数据中的关系特征数据。再以基于神经网络算法的分类模型为例,比如可以直接通过神经网络的隐藏层来提取隐患数据中的关系特征数据。

本申请的一些实施例提供了一种应用场景下,图1中的隐患数据知识图谱的构建方法的具体流程,如图2所示。在该应用场景下,隐患数据记录为台账形式,具体使用neo4j图数据库作为上述的nosql图形数据库,将预先构建并训练的隐患标注系统作为上述的分类模型。

图2中的流程包括以下步骤:

数据获取,隐患数据台账,比如具体包含隐患内容、隐患所属单位、隐患类别、隐患等级、隐患来源、发现时间、隐患上报人、原因分析、整改措施、整改前采取的临时措施、整改负责人、整改资金、整改期限、整改状态等信息。

数据导入,创建数据模型,通过数据源获取待处理数据,导入隐患标注系统中。

隐患标注系统对隐患数据提取关系特征数据(比如,语义关系描述性词等),具体进行分词及词性标注,在给定句子中判定每个词的语法范畴,确定它的词性并加以标注,并按照诸如设备、位置、状态、危害四个标签进行自动分类,并写入对应的分类数据表中。

对提取关系特征数据进行补全和修正,获取标注后的特征数据,比如,可以由标注人员手动上传针对关系特征数据的补全数据和修正数据,用于补全和修正。

处理补全数据和修正过的关系特征数据,并可以对其进行冗余过滤和格式化处理,进而生成图谱节点数据。

将图谱节点数据导入neo4j图数据库进行处理,neo4j图数据库通过处理,相应生成隐患数据知识图谱。至此,图2中的流程可以结束。

进一步地,本申请的一些实施例还提供了一种应用场景下,图1中的隐患数据知识图谱的构建方法涉及的一种模型的业务框架,如图3所示,该模型即为上述的分类模型。

业务框架中包括模型的训练过程,以及训练完毕后实际使用时的分类过程。

训练过程可以包括以下步骤:

第一步,准备好由样本隐患数据构成的训练集数据,手工进行分类,给每条数据按照“设备”、“位置”、“状态”、“危害”标签进行分类(标注后的单个分词,比如“法兰”、“工作甲板”、“故障”、“安全隐患”);这些动作可以属于预处理或者再处理。

第二步,构建一个分类模型,采用机器学习的方法,用knn机器学习算法来构建;

第三步,把分类模型用于对新数据的分类,也是对分类模型进行测试。

分类过程可以包括以下步骤:

第一步,根据关系特征数据集合重新描述用于表示样本隐患数据的向量;

第二步,在新的隐患数据到达后,根据关系特征数据集合,分词新的隐患数据,确定新的隐患数据的向量表示;

第三步,在样本隐患数据的集合中选出与新的隐患数据相似的k个相似数据(比如,相似度前k个相似数据),比如采用余弦公式来计算对应的向量间相似度:

其中,k值的确定,一般采用先定一个初始值,然后根据实验测试的结果调整k值;

第四步,在这k个相似数据中,依次计算每类的权重,计算公式如下:

其中,为新的隐患数据对应的向量,为相似度计算公式,与上一步骤的计算公式相同,而为类别属性函数,即,如果属于类cj,那么函数值为1,否则为0;

第五步,比较类的权重,将新的隐患数据分到权重最大的那个类别中。

基于同样的思路,本申请的一些实施例还提供的对应于图1的方法的装置、设备、非易失性计算机存储介质。

图4为本申请的一些实施例提供的对应于图1的一种隐患数据知识图谱的构建装置的结构示意图,所述装置包括:

获取模块400,获取隐患数据;

提取模块402,通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

第一生成模块404,根据所述关系特征数据,生成图谱节点数据;

第二生成模块406,根据所述图谱节点数据,生成隐患数据知识图谱。

图5为本申请的一些实施例提供的对应于图1的一种隐患数据知识图谱的构建设备的结构示意图,所述设备包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

获取隐患数据;

通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

根据所述关系特征数据,生成图谱节点数据;

根据所述图谱节点数据,生成隐患数据知识图谱。

本申请的一些实施例提供的对应于图1的一种隐患数据知识图谱的构建非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

获取隐患数据;

通过预先训练的分类模型,从所述隐患数据中提取关系特征数据,所述关系特征数据反映了多种隐患属性之间的语义关系;

根据所述关系特征数据,生成图谱节点数据;

根据所述图谱节点数据,生成隐患数据知识图谱。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备和介质与方法是对应的,因此,装置、设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和介质的有益技术效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1