标准知识图谱构建、标准查询方法及装置与流程

文档序号:26050701发布日期:2021-07-27 15:25阅读:157来源:国知局
标准知识图谱构建、标准查询方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种标准知识图谱构建、标准查询方法及装置。



背景技术:

随着信息技术的发展,数字经济时代的来临,传统行业领域的数字化转型需求已经迫在眉睫,尤其当前标准数字化进程快速发展,标准文本已经基本实现以pdf、word等数字格式为载体的机器可显示标准形式。然而,这种标准文本只能满足基本的翻阅、查询功能,例如在对标准进行查询时,多通过在标准电子文档(如pdf文档)中输入关键字,定位到文档中关键字所处的位置,然后人工阅读文档上下文提取相关数据信息,但该方法在每次需要进行标准查询时,均需人工重复阅读提取相关数据信息,效率较低。



技术实现要素:

本发明提供一种标准知识图谱构建、标准查询方法及装置,用以解决现有技术中查询标准中的数据信息效率较低的缺陷。

本发明提供一种标准知识图谱构建方法,包括:

确定标准文本的类别;

基于所述标准文本的类别,在标准编写规则中查询,确定所述标准文本的编写要素,并基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系;

基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体;

基于所述头实体以及所述尾实体,对所述标准知识图谱进行实体填充。

根据本发明提供的一种标准知识图谱构建方法,所述编写要素包括结构化要素以及非结构化要素。

根据本发明提供的一种标准知识图谱构建方法,所述基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系,包括:

若所述编写要素为结构化要素,则将预设关系关键词作为所述实体关系,并基于所述实体关系确定所述头实体类型以及所述尾实体类型;

若所述编写要素为非结构化要素,则将非结构化要素对应的标准文本输入至阅读理解模型中,得到所述阅读理解模型输出的所述实体关系,并基于所述实体关系确定所述头实体类型以及所述尾实体类型;其中,所述阅读理解模型是基于样本标准文本以及所述样本标准文本的实体关系训练得到的。

根据本发明提供的一种标准知识图谱构建方法,所述基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体,包括:

基于所述头实体类型、所述尾实体类型以及所述实体关系,确定实体提取规则,并基于所述实体提取规则,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体。

根据本发明提供的一种标准知识图谱构建方法,所述确定标准文本的类别,包括:

确定所述标准文本的标题中是否存在预设标题关键字,若是,则基于预设标题关键字与标准文本类别之间的映射关系,确定所述标准文本的类别;

若否,则基于所述标准文本中指定条目下的文本内容,确定所述标准文本的类别。

本发明还提供一种标准知识图谱构建装置,包括:

类别确定单元,用于确定标准文本的类别;

类型确定单元,用于基于所述标准文本的类别,在标准编写规则中查询,确定所述标准文本的编写要素,并基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系;

实体提取单元,用于基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体;

实体填充单元,用于基于所述头实体以及所述尾实体,对所述标准知识图谱进行实体填充。

本发明还提供一种标准查询方法,包括:

确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;

以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;

其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。

本发明还提供一种标准查询装置,包括:

确定单元,用于确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;

查询单元,用于以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;

其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。

本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述标准知识图谱构建方法的步骤;和/或,所述处理器执行所述计算机程序时实现如上述任一种所述标准查询方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述标准知识图谱构建方法的步骤;和/或,所述计算机程序被处理器执行时实现如上述任一种所述标准查询方法的步骤。

本发明提供的标准知识图谱构建、标准查询方法及装置,基于标准文本的标题确定标准文本的类别,并基于标准文本的类别确定标准文本的编写要素,然后基于编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系,从而能够根据不同类别的标准文本构建标准知识图谱,使得构建得到的标准知识图谱能够准确表征各不同类别标准文本的内容信息,进而能够快速且准确从构建得到的标准知识图谱中查询到相应的标准数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的标准知识图谱构建方法的流程示意图;

图2是本发明提供的标准知识图谱的结构示意图;

图3是本发明提供的标准知识图谱构建装置的结构示意图;

图4是本发明提供的标准查询方法的流程示意图;

图5是本发明提供的标准查询装置的结构示意图;

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在对标准进行查询时,目前多采用在标准文档(如pdf文档)中输入关键字,定位到文档中关键字所处的位置,然后人工阅读文档上下文提取相关数据信息,但该方法在每次需要进行标准查询或宣贯时,均需人工重复阅读提取相关数据信息,效率较低。例如,在查询标准a的归口单位时,需要输入关键字“归口”,然后定位到文档中的“前言”栏目下,人工阅读上下文信息提取归口单位的数据信息。同时,该方法也可能会由于人工失误导致漏查或错误查询相关数据信息。

对此,本发明提供一种标准知识图谱构建方法。图1是本发明提供的标准知识图谱构建方法的流程示意图,如图1所示,该方法包括如下步骤:

步骤110、确定标准文本的类别。

在本步骤中,标准文本指按照标准编写规则(如gb/t20001)要求编写的文本。标准文本的类别可以包括符号标准、分类标注、试验方法标准、规范标准、规程标准、指南标准、产品标准等,标准文本的类别是根据标准的内容对标准文本进行分类得到的。由于标准文本的标题用于简要描述标准文本的内容,因此可以基于标准文本的标题确定标准文本的类别。

需要说明的是,由于标准文本的标题用于描述简要标准文本的内容,从而可以设置不同类别标准对应的标题关键字,例如符号标准对应的标题关键字为“符号”,分类标准对应的标题关键字为“分类”,然后在标准文本的标题中进行查找,是否存在相应类别的标题关键字,若是,则可以判断该标准文本属于该类别。例如,对于gb/t324的标准文本,其标题为“焊缝符号表示法”,即标题中存在符号标准的标题关键字“符号”,因此gb/t324为符号标准。

可以理解的是,同一个标准文本的标题中若存在两个或两个以上的标题关键字,则该标准文本对应的标准可以同时划分到多个对应的类别。例如,对于gb/t18443的标准文本,其标题为“真空绝热设备低温性能试验方法”,即标题中既存在产品标准的标题关键字“设备”,也存在试验方法标准的标题关键字“试验”,因此gb/t18443可以同时划分到产品标准和试验方法标准。

此外,由于标准文本初始状态多数为pdf版本或word版本,因此在基于标准文本的标题,确定标准文本的类别之前,还可以通过ocr文字识别pdf文本或word对初始标准文本识别得到标准文本,从而使得获取的标准文本能够进行机器识别。

步骤120、基于标准文本的类别,在标准编写规则中查询,确定标准文本的编写要素,并基于编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系。

具体地,标准文本的编写要素指标准文本的编写大纲,即在确定编写文本的编写要素之后,标准文本各标准条对应的标题也可以确定。在确定标准文本的类别之后,可以在标准编写规则(如gb/t20001)中进行查询,确定对应类别标准文本的编写要素。

例如,若标准文本的类别为产品标准,则可以在《gb/t20001.10标准编写规则第10部分:产品标准》中的“要素的起草”栏目中查询得到产品标准的编写要素包括:引言,标准名称,范围,分类、标记和编码,技术要求,取样,试验方法,检验规则,标志、标签和随行文件以及包装、运输和贮存。

在确定标准文本的编写要素之后,可以根据各编写要素确定标准知识图谱中头实体类型、尾实体类型以及头实体与尾实体之间的实体关系。

表1为产品标准知识图谱中实体类型-关系列表,如表1所示,对于前言部分,头实体类型可以包括“人物”和“组织”,“人物”对应的尾实体类型为“标准”,两者之间的实体关系为“起草”;“组织”对应的尾实体类型为“标准”,两者之间的实体关系为“归口(管理)、起草、发布”。

对于包装、运输和贮存部分,头实体类型可以包括“标准条”和“技术要求”,“标准条”对应的尾实体类型为“包装、运输和贮存”,两者之间的实体关系为“规定”;“技术要求”对应的尾实体类型为“包装、运输和贮存”,两者之间的实体关系为“部分”。

由此可见,本发明实施例在基于标准文本的类别,确定标准文本的编写要素后,基于编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系,从而能够根据不同类别的标准构建标准知识图谱,使得构建得到的标准知识图谱能够准确表征各标准的内容信息,进而能够快速且准确从构建得到的标准知识图谱中查询到相应的标准数据。

步骤130、基于头实体类型、尾实体类型以及实体关系,从标准文本中提取头实体类型对应的头实体,以及尾实体类型对应的尾实体。

具体地,在确定头实体类型、尾实体类型以及实体关系之后,此时标准知识图谱中的头实体和尾实体还没有填充具体地内容数据,因此可以基于头实体类型、尾实体类型以及实体关系,确定对应的实体提取规则,从标准文本中提取头实体类型对应的头实体,以及尾实体类型对应的尾实体。例如,对于前言部分的头实体类型“人物”、尾实体类型“标准”以及实体关系“起草”,可以设置实体提取规则为:将“起草”作为关键词,以“起草”所在的语句作为目标语句,并以“起草”在目标语句中的位置作为分界点,将该语句划分为前置语句和后置语句,提取前置语句中的实体作为“尾实体”,提取后置语句中的实体作为“尾实体”。举例来说,对于目标语句“本标准(gb/txx)的起草人:人物1,人物2和人物3”,基于关键词“起草”将目标语句划分为前置语句“本标准(gb/txx)”和后置语句“人物1,人物2和人物3”,进而从前置语句中提取“gb/txx”作为尾实体,将“人物1,人物2,人物3”作为头实体。表2为产品标准中各头实体或尾实体对应的含义对照表,如表2所示,实体“标准”代表标准、引用标准、采用标准等,实体“人物”代表标准的起草人等。

步骤140、基于头实体以及尾实体,对标准知识图谱进行实体填充。

具体地,在确定头实体以及尾实体之后,将对应的头实体填充至标准知识图谱中“头实体类型”对应的节点中,将尾实体填充至标准知识图谱中“尾实体类型”对应的节点中,从而可以构建得到图2中所示的标准知识图谱。

如图2所示,若标准文本的类别为产品标准,则可以基于标准编写规则确定产品标准的编写要素,并基于编写要素确定头实体类型、尾实体类型以及两者之间的实体关系,如图中的产品和产品之间的“生产、制造、装配、检测”关系;根据标准体系(如电子十三五技术标准体系框架),确定标准和标准、标准及领域之间的关系;根据标准的适用范围,确定标准条和产品之间的适用范围关系;根据产品标准对应产品在产业链所属的不同的位置,确定产品和产品之间的关系,如集成电路中的芯片是由光刻机制造的,因此可以建立光刻机-制造-芯片(集成电路)的关系。

本发明实施例提供的标准知识图谱构建方法,基于标准文本的标题确定标准文本的类别,并基于标准文本的类别确定标准文本的编写要素,然后基于编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系,从而能够根据不同类别的标准文本构建标准知识图谱,使得构建得到的标准知识图谱能够准确表征各不同类别标准文本的内容信息,进而能够快速且准确从构建得到的标准知识图谱中查询到相应的标准数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。

基于上述实施例,编写要素包括结构化要素以及非结构化要素。

具体地,结构化要素指各标准文本中通用的要素,该要素对应的标准文本是以固定格式进行编写的,其按照作用分为规范性要素和资料行要素,其中规范性要素包括范围、术语和定义、符号和缩略语、分类和编码/系统构成,总体原则和/或总体要求,核心技术要素和其他技术要素;资料性要素包含封面、目次、前言、引言、规范性引用文件、参考文献及索引。例如,各标准文本中的“前言”均是以相同的固定格式进行编写,因此“前言”可以作为各标准文本的结构化要素;再有各标准文本中的“引用文件”均是以相同的固定格式进行编写,因此“引用文件”可以作为各标准文本的结构化要素。

部分会以固定格式“本标准主要起草人:xx”描述标准起草人,则可以将“本标准主要起草人:xx”作为标准要素文本;又如,标准文本中“第5章”与“第5.1条至5.6条”对应,则可以将“第5章”对应的标题与“第5.1条至5.6条”对应的标题作为标准要素文本,在提取完标准要素文本之后,剩余的文本作为非标准要素文本。

编写要素中除去结构化要素,剩余的要素作为非结构化要素,即非结构化要素可以理解为是不同类别标准所特有的要素,例如“标志、标签和随行文件”是产品标准的编写要素,但不是符号标准的编写要素,因此“标志、标签和随行文件”可以作为产品标准的非结构化要素。

此外,需要说明的是,在标准文本中,结构化要素对应有结构化文本,结构化文本又包括全结构化文本和半结构化文本。非结构化要素对应有非结构化文本。其中,全结构化文本可以直接梳理出实体,主要对应的是标准题录及引用文件信息,包括标准的标题、起草单位、起草人、归口单位等内容。对于半结构化文本,标准由多个不同的章、条组成统称标准条,标准条除去固定的规范性要素外,如范围、规范性引用文件、术语和定义等,主要描述了该标准的要素,包括技术要求,检验规则,取样,试验方法,包装、运输和贮存,分类、标记和编码,标志、标签和随行文件等。“标准条标题”(如章标题、条标题)起到了划分标准条具体内容的作用,可以定义为实体。根据《gb/t35415-2017产品标准技术指标索引分类与代码》(简称《索引》)的分类,技术要求部分可以从6个方面描述产品的特性,分别为产品标识、外在特性、感官、性能、功能、物质含量等指标。在标准知识图谱构构建过程中,为更加明确产品的技术指标,可以根据《索引》的技术指标3层分类方法(大类、中类、小类)进行定义。该分类中,所有技术指标均有大类及中类索引分类,但部分没有小类分类。因此,对于拥有小类的指标,将小类定义为实体“技术要求”的实例,其他情况,将中类定义为实体“技术要求”的实例。《索引》中罗列的“技术指标索引关键词”则可归类为该技术指标实体的属性值。

非结构化文本指的是除上述全结构化文本和半结构化文本之外的标准文本内容,即标准条的具体内容。非结构化文本通常需要根据语义理解,提取文本中所包含的知识。通常非结构化文本中包含如下实体:

标准条标题(半结构化文本)中所描述的具体内容、操作步骤、详细描述及技术指标。在条标题不存在的情况下,可以从这类数据中提取相应的内容作为该标准条的实例进行标注。其余情况下,此类知识的提取需要根据业务需求进行知识建模,并确认标注规则后进行知识提取。

标准总标题中包含的产品类型。标准的标题中通常会明确该标准的主题,即产品名称。在标题中不包含产品名称的情况下,可从适用范围中提取相应的适用产品。

基于上述任一实施例,基于编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系,包括:

若编写要素为结构化要素,则将预设关系关键词作为实体关系,并基于实体关系确定头实体类型以及尾实体类型;

若编写要素为非结构化要素,则将非结构化要素对应的标准文本输入至阅读理解模型中,得到阅读理解模型输出的实体关系,并基于实体关系确定头实体类型以及尾实体类型;其中,阅读理解模型是基于样本标准文本以及样本标准文本的实体关系训练得到的。

具体地,若编写要素为结构化要素,则将预设关系关键词作为实体关系,并基于实体关系确定头实体类型以及尾实体类型。例如,对于结构化要素可以设置预设关键词包括:引用、采用、参考、起草、归口、发布、引用及分类。将上述预设关键词作为实体关系,然后分别确定各实体关系对应的头实体类型和尾实体类型。

例如,预设关系关键词“引用”、“采用”以及“参考”对应的头实体类型和尾实体类型均为标准,即对应标准和标准之间的“引用”、“采用”以及“参考”关系。预设关系关键词“起草”对应的头实体类型为人物,尾实体类型为标准,即对应人物和标准之间的“起草”关系。预设关系关键词“归口”、“起草”以及“发布”对应的头实体类型为组织,尾实体类型为标准,即对应组织和标准之间的“归口”、“起草”、“发布”关系。预设关系关键词“引用”对应的头实体类型为标准,尾实体类型为文件,即对应标准和文件之间的“引用”关系。预设关系关键词“分类”对应的头实体类型为领域,尾实体类型为标准,即对应领域和标准之间的“分类”关系,可以通过标准领域分类到某一领域之下,再通过标准体系构建标准和标准之间的层级关系。

此外对于标准和标准条,标准条是经梳理、总结、分类后的标准化技术指标,是承载标准规定的载体,标准条是标准的“组成部分”。标准条中可能出现“引用”本标准中的标准条、其他标准中的标准条或其他标准的情况。

若编写要素为非结构化要素,由于非结构化要素包含了标准条的具体描述,需要根据标准知识图谱的使用场景,在语义理解的情况下,定义实体和实体间的关系。因此,本发明实施例采用将非结构化要素对应的标准文本输入至阅读理解模型中,得到阅读理解模型输出的实体关系,并基于实体关系确定头实体类型以及尾实体类型;其中,阅读理解模型是基于样本标准文本以及样本标准文本的实体关系训练得到的。

通常,非结构化要素包括如下关系:

(1)标准条和标准要素之间的“规定”关系:标准条规定了标准要素的具体内容,二者应为“规定”关系。

(2)标准条和标准条、标准之间的“引用”关系:为精简标准文本体量,标准条中会大量引用本标准中的标准条、其他标准中的标准条或其他标准。通过提取标准条中所叙述的关键词,可以确定标准条和标准条、标准之间的“引用”关系。

(3)技术要求与产品之间的“描述”关系:标准中规定的技术要求,从6个方面描述了产品所应达到的基本要求,技术要求和产品之间是描述的关系。

(4)产品与产品之间的“零部件”关系:产品标准按照内容划分可以分为设计标准、性能规范标准、制造验收标准等标准。其中设计标准的内容主要包含设计手册、设计准则、设计计算、参数系列、系列型谱等4类标准。通过抽取设计手册标准中的产品组成结构,可以构建产品和该产品零部件间的关联关系。

(5)产品和标准之间的“依据”关系:产品标准是产品发展的重要技术内容,是开展产品设计、制造、贸易活动必不可少的专业技术依据。产品和标准之间的关系是依据的关系。

(6)试验方法和技术要求之间的“验证”关系:产品标准中通常会规定具体试验方法以“验证”该产品是否满足技术要求。针对不同种类产品标准,所定义的试验方法和验证关系进一步可划分为两种:第一种是设计类标准,在设计过程中,需要确定的产品参数,通常是由计算方法计算获取的,此时验证方法具体应为“计算方法”,验证关系应为“计算”;第二种是产品验收过程中,通常采取“测试方法”对产品技术参数进行确认,验证关系应为“实验”。

(7)标准条和标准条的“引用”关系:因为产品与产品的相关性,标准会出现交集。因此,标准条中,通常会出现与其他标准的标准条进行“引用”的情况。

(8)标准条与验证方法、标准条与技术指标的规定关系:标准作为认可机构批准的文件、物质、行为、现象等的约定物,起到规定相应产品的作用。而该功能是通过规定相应技术指标及其验证方法而实现的。另外,图表、图示等应被视作标准条的一部分。标准条和验证方法、技术指标是规定的关系。

(9)产品和标志、标签和随行文件之间的“部分”关系:标志、标签和随行文件通常附随在产品上,作为产品的一部分而存在,因此和产品之间是“部分”的关系。

(10)技术要求和包装、运输和贮存之间的“部分”关系:标准中可以将产品的包装、运输和贮存单独列出进行规定。但因为这些规定同样也归类为技术要求,因此和技术要求之间是部分的关系。

(11)检验规则和试验方法之间的“规范”关系:检验规则是针对产品的一个或多个特性,给出测量、检查、验证产品符合技术要求所遵循的规则、程序或方法等内容,因此和试验关系之间是“规范”关系。

(12)分类、标记和编码和产品之间的“分类、标记和编码”关系:分类、标记和编码为产品建立了一个分类(分级)、标记、编码体系。相应的关系应为“分类”、“标记”、“编码”关系。

(13)试验方法和取样之间的“部分”关系:标准中规定的取样方法,可能会被划归到该标准的试验方法部分,也可作为独立部分存在。当出现该情况时,试验方法和取样之间为“部分”关系。

基于上述任一实施例,基于头实体类型、尾实体类型以及实体关系,从标准文本中提取头实体类型对应的头实体,以及尾实体类型对应的尾实体,包括:

基于头实体类型、尾实体类型以及实体关系,确定实体提取规则,并基于实体提取规则,从标准文本中提取头实体类型对应的头实体,以及尾实体类型对应的尾实体。

具体地,在确定头实体类型、尾实体类型以及实体关系之后,此时标准知识图谱中的头实体和尾实体还没有填充具体地内容数据,因此可以基于头实体类型、尾实体类型以及实体关系,确定对应的实体提取规则,从标准文本中提取头实体类型对应的头实体,以及尾实体类型对应的尾实体。

例如,对于结构化要素前言部分的头实体类型“人物”、尾实体类型“标准”以及实体关系“起草”,可以设置实体提取规则为:将“起草”作为关键词,以“起草”所在的语句作为目标语句,并以“起草”在目标语句中的位置作为分界点,将该语句划分为前置语句和后置语句,提取前置语句中的实体作为“尾实体”,提取后置语句中的实体作为“尾实体”。举例来说,对于目标语句“本标准(gb/txx)的起草人:人物1,人物2和人物3”,基于关键词“起草”将目标语句划分为前置语句“本标准(gb/txx)”和后置语句“人物1,人物2和人物3”,进而从前置语句中提取“gb/txx”作为尾实体,将“人物1,人物2,人物3”作为头实体。

编写要素中除了包含结构化要素之外,还包含非结构化要素,非结构化要素与结构化要素不同之处在于,非结构化要素对应的标准文本的语义表达没有固定的格式,例如对于“电动自行车的最高限速为s”,既可以表达为“电动自行车的速度不大于s”,也可以表达为“最高限速为s的车辆包括电动自行车”。由此可见,对于同一语义,非结构化要素对应的标准文本有多种不同的表达方式,因此可以通过语义理解的方式(如基于阅读理解模型)获取非结构要素对应的实体关系词,以及提取出对应的头实体和尾实体。

基于上述任一实施例,确定标准文本的类别,包括:

确定标准文本的标题中是否存在预设标题关键字,若是,则基于预设标题关键字与标准文本类别之间的映射关系,确定标准文本的类别;

若否,则基于标准文本中指定条目下的文本内容,确定标准文本的类别。

具体地,标准文本的标题用于简要描述标准文本的内容,标准文本的类别可以包括符号标准、分类标准、试验方法标准、规范标准、规程标准、指南标准、原则、要求和规则等其他类标准、产品标准等。在确定标准文本的类别时,可以首先判断标准文本的标题中是否存在预设标题关键词,若是,则基于预设标题关键字与标准文本类别之间的映射关系,确定标准文本的类别。其中,预设标题关键字可以包括符号、分类、试验方法、规范、规程、指南、产品等。

需要说明的是,由于标准文本的标题用于简要描述标准文本的内容,从而可以设置不同类别标准对应的预设标题关键字,例如符号标准对应的标题关键字为“符号”,分类标准对应的标题关键字为“分类”,然后在标准文本的标题中进行查找,是否存在相应类别的标题关键字,若是,则可以判断该标准文本属于该类别。例如,对于gb/t324的标准文本,其标题为“焊缝符号表示法”,即标题中存在符号标准的标题关键字“符号”,因此gb/t324为符号标准。

若标准文本的标题中不存在预设标题关键字,则基于标准文本中指定条目下的文本内容,确定标准文本的类别。例如,可以通过标准文字中“适用范围”中的内容,确定标准文本的类别。

下面对本发明提供的标准知识图谱构建装置进行描述,下文描述的标准知识图谱构建装置与上文描述的标准知识图谱构建方法可相互对应参照。

基于上述任一实施例,本发明提供一种标准知识图谱构建装置,如图3所示,该装置包括:

类别确定单元310,用于确定标准文本的类别;

类型确定单元320,用于基于所述标准文本的类别,在标准编写规则中查询,确定所述标准文本的编写要素,并基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系;

实体提取单元330,用于基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体;

实体填充单元340,用于基于所述头实体以及所述尾实体,对所述标准知识图谱进行实体填充。

基于上述任一实施例,所述编写要素包括结构化要素以及非结构化要素。

基于上述任一实施例,所述类型确定单元320,包括:

第一确定单元,用于若所述编写要素为结构化要素,则将预设关系关键词作为所述实体关系,并基于所述实体关系确定所述头实体类型以及所述尾实体类型;

第二确定单元,用于若所述编写要素为非结构化要素,则将非结构化要素对应的标准文本输入至阅读理解模型中,得到所述阅读理解模型输出的所述实体关系,并基于所述实体关系确定所述头实体类型以及所述尾实体类型;其中,所述阅读理解模型是基于样本标准文本以及所述样本标准文本的实体关系训练得到的。

基于上述任一实施例,所述实体提取单元330,用于:

基于所述头实体类型、所述尾实体类型以及所述实体关系,确定实体提取规则,并基于所述实体提取规则,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体。

基于上述任一实施例,所述类别确定单元310,用于:

确定所述标准文本的标题中是否存在预设标题关键字,若是,则基于预设标题关键字与标准文本类别之间的映射关系,确定所述标准文本的类别;

若否,则基于所述标准文本中指定条目下的文本内容,确定所述标准文本的类别。

基于上述任一实施例,如图4所示,本发明还提供一种标准查询方法,包括:

步骤410、确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;

步骤420、以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;

其中,所述标准知识图谱为采用如上任一实施例所述的标准知识图谱构建方法构建得到。

具体地,待查询标准的关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种,例如待查询标准的关键字可以为标准条,也可以为某个关键词,本发明实施例对此不作具体限定。在输入标准的关键字后,以关键字作为节点或边,可以在标准知识图谱中快速且准确获取关键字对应的查询数据,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。

下面对本发明提供的标准查询装置进行描述,下文描述的标准查询装置与上文描述的标准查询方法可相互对应参照。

基于上述任一实施例,如图5所示,本发明还提供一种标准查询装置,包括:

确定单元510,用于确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;

查询单元520,用于以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;

其中,所述标准知识图谱为采用如上任一实施例所述的标准知识图谱构建方法构建得到。

图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(communicationsinterface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行标准知识图谱构建方法,该方法包括:确定标准文本的类别;基于所述标准文本的类别,在标准编写规则中查询,确定所述标准文本的编写要素,并基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系;基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体;基于所述头实体以及所述尾实体,对所述标准知识图谱进行实体填充。

和/或,以执行标准查询方法,该方法包括:确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。

此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的标准知识图谱构建方法,该方法包括:确定标准文本的类别;基于所述标准文本的类别,在标准编写规则中查询,确定所述标准文本的编写要素,并基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系;基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体;基于所述头实体以及所述尾实体,对所述标准知识图谱进行实体填充。

和/或,以执行标准查询方法,该方法包括:确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的标准知识图谱构建方法,该方法包括:确定标准文本的类别;基于所述标准文本的类别,在标准编写规则中查询,确定所述标准文本的编写要素,并基于所述编写要素确定标准知识图谱中的头实体类型、尾实体类型以及头实体与尾实体之间的实体关系;基于所述头实体类型、所述尾实体类型以及所述实体关系,从所述标准文本中提取所述头实体类型对应的头实体,以及所述尾实体类型对应的尾实体;基于所述头实体以及所述尾实体,对所述标准知识图谱进行实体填充。

和/或,以执行标准查询方法,该方法包括:确定待查询标准的关键字;所述关键字包括头实体、尾实体以及所述头实体与所述尾实体之间的实体关系中的至少一种;以所述关键字作为节点或边,在标准知识图谱中确定所述关键字对应的查询数据;其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1