一种基于钢材知识图谱的钢材潜在知识推理方法及系统

文档序号:31049328发布日期:2022-08-06 06:21阅读:117来源:国知局
一种基于钢材知识图谱的钢材潜在知识推理方法及系统

1.本发明涉及知识图谱与钢铁材料技术领域,特别是涉及一种基于钢材知识图谱的钢材潜在知识推理方法及系统。


背景技术:

2.有关金属牌号其来源和属性及其近似替代物的完备准确的知识信息,对于材料设计、逆向工程、材料采购、加工、机加工和许多其他实际应用至关重要。对于全球成千上万的工程师和专家而言,这些信息通常需要从对潜在金属的分析和测试中快速准确地推导出来,这在许多情况下被证明是一个复杂的问题。
3.钢铁企业规模的不断扩大以及各种应用的逐渐增多,钢铁材料领域内积累了海量的有关一般钢材牌号的数据与信息。传统的材料数据库大多是为科技开发基础数据查询、材料管理、使用(选材)而建立的数据库,与材料牌号有关的替代牌号、化学成分、结构、性质性能、服役效能等信息通常有不完善的地方,关系数据库不足以提供完整的信息。并且这些数据通常都存储在关系型数据库中,在关系数据模型中,虽然可以通过使用主键来定义两个数据表之间的关系,但是这种类型的链接是隐式的,而不是显式的。并且材料信息中的关系是复杂的,钢铁材料的替代关系、化学成分、机械性能、物理性能、制造工艺、产品形状、分类、一般用途等属性不应该是孤立的,而是相互联系的,通过关系型数据库存储钢材数据尚未解锁现有数据中可用的全部知识。
4.基于此背景下,用户需要一种新的知识组织形式来整合钢材领域多源异构的数据并且发现钢材中隐藏的知识。知识图谱是一种数据表示模型,其基本组成单位是实体-关系-实体构成的三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。通过知识表示模型将实体和关系的语义信息表示为稠密低维的实值向量,进而在低维空间中可以高效计算实体、关系及其之间的语义关联,发现新的知识。因此,本领域亟需提出一种基于知识图谱技术的潜在知识推理方法,以解决难以挖掘钢材牌号潜在知识的问题。


技术实现要素:

5.本发明的目的是提供一种基于钢材知识图谱的钢材潜在知识推理方法及系统,以利用知识图谱整合钢材领域知识,从而基于钢材知识图谱解决难以挖掘钢材牌号潜在知识的问题。
6.为实现上述目的,本发明提供了如下方案:
7.一种基于钢材知识图谱的钢材潜在知识推理方法,包括:
8.获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集;
9.利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储;
10.利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知
识表示模型;
11.基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型;
12.利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识;所述钢材潜在知识包括钢材替代牌号、力学性能或化学成分。
13.可选地,所述获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集,具体包括:
14.从互联网上和文献手册中收集钢材领域有关钢材牌号数据,并按照其结构化程度划分为结构化数据及非结构化数据,将结构化数据以二维表单形式,非结构化数据以文本形式存储在本地钢材数据库中,作为现有钢材数据;
15.将钢材数据库中以二维表单形式存储的结构化数据按照数据的行名为头实体,列名为关系,数据本身为尾实体的规则映射成行名-列名-数据三元组;
16.将钢材数据库中的非结构化数据通过采用实体属性抽取模型提取其中对应的实体-属性-属性值三元组;
17.对所述行名-列名-数据三元组和实体-属性-属性值三元组进行数据清洗,得到对应的结构化钢材知识三元组构成所述结构化钢材知识三元组数据集。
18.可选地,所述利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储,具体包括:
19.基于所述结构化钢材知识三元组数据集中的实体与关系,利用文本相似性度量方法进行实体对齐以消除歧义,得到用于构造钢材知识图谱的钢材知识三元组数据集;
20.以所述钢材知识三元组数据集中各个钢材知识三元组的头尾实体作为知识图谱中的节点,以所述钢材知识三元组数据集中头尾实体间关系作为知识图谱中的边,构建出所述钢材知识图谱;
21.将所述钢材知识图谱存储到图数据库中。
22.可选地,所述利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型,具体包括:
23.所述钢材知识图谱中的钢材知识三元组为已存在的事实三元组,对所述事实三元组按照预设概率分别替换其头尾实体,生成对应的负例三元组;
24.利用所述事实三元组和生成的负例三元组构建并训练知识表示模型,知识表示模型根据损失函数进行梯度更新,达到规定的训练轮次后得到所述训练好的知识表示模型。
25.可选地,所述基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型,具体包括:
26.将所述钢材知识图谱中所有关系路径分解成三元组数据作为模型数据集,并将所述模型数据集中存在潜在关系的三元组数据按照比例划分出验证集,所述模型数据集中其余三元组数据作为训练集;
27.利用所述训练好的知识表示模型得到所述模型数据集中的实体与关系在低维空间的初始化向量表示;
28.将所述训练集中实体与关系的初始化向量表示拼接成矩阵,利用所述矩阵来训练推理模型,利用所述验证集调整所述推理模型的超参数,从而得到训练好的推理模型。
29.可选地,所述利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识,具体包括:
30.基于待推理的目标潜在关系和目标钢材牌号构成的待推理三元组,利用所述训练好的推理模型对所述钢材知识图谱中所有实体进行打分,根据得分大小识别出与所述目标钢材牌号具有目标潜在关系的最优实体。
31.一种基于钢材知识图谱的钢材潜在知识推理系统,包括:
32.三元组数据获取模块,用于获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集;
33.钢材知识图谱构建模块,用于利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储;
34.知识表示模型训练模块,用于利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型;
35.推理模型训练模块,用于基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型;
36.潜在知识推理模块,用于利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识;所述钢材潜在知识包括钢材替代牌号、力学性能或化学成分。
37.可选地,所述三元组数据获取模块具体包括:
38.钢材数据获取单元,用于从互联网上和文献手册中收集钢材领域有关钢材牌号数据,并按照其结构化程度划分为结构化数据及非结构化数据,将结构化数据以二维表单形式,非结构化数据以文本形式存储在本地钢材数据库中,作为现有钢材数据;
39.规则映射单元,用于将钢材数据库中以二维表单形式存储的结构化数据按照数据的行名为头实体,列名为关系,数据本身为尾实体的规则映射成行名
‑ꢀ
列名-数据三元组;
40.实体属性抽取单元,用于将钢材数据库中的非结构化数据通过采用实体属性抽取模型提取其中对应的实体-属性-属性值三元组;
41.数据清洗单元,用于对所述行名-列名-数据三元组和实体-属性-属性值三元组进行数据清洗,得到对应的结构化钢材知识三元组构成所述结构化钢材知识三元组数据集。
42.可选地,所述钢材知识图谱构建模块具体包括:
43.实体对齐单元,用于基于所述结构化钢材知识三元组数据集中的实体与关系,利用文本相似性度量方法进行实体对齐以消除歧义,得到用于构造钢材知识图谱的钢材知识三元组数据集;
44.图谱构建单元,用于以所述钢材知识三元组数据集中各个钢材知识三元组的头尾实体作为知识图谱中的节点,以所述钢材知识三元组数据集中头尾实体间关系作为知识图谱中的边,构建出所述钢材知识图谱;
45.图谱存储单元,用于将所述钢材知识图谱存储到图数据库中。
46.可选地,所述知识表示模型训练模块具体包括:
47.负例三元组生成单元,用于将所述钢材知识图谱中的钢材知识三元组作为已存在的事实三元组,对所述事实三元组按照预设概率分别替换其头尾实体,生成对应的负例三元组;
48.知识表示模型构建及训练单元,用于利用所述事实三元组和生成的负例三元组构
建并训练知识表示模型,知识表示模型根据损失函数进行梯度更新,达到规定的训练轮次后得到所述训练好的知识表示模型。
49.根据本发明提供的具体实施例,本发明公开了以下技术效果:
50.本发明提供了一种基于钢材知识图谱的钢材潜在知识推理方法及系统,所述方法包括:获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集;利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储;利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型;基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型;利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识;所述钢材潜在知识包括钢材替代牌号、力学性能或化学成分。本发明方法利用知识图谱整合钢材领域知识并对其进行形式化的描述,之后在知识表示模型的基础上,能够以端到端的学习方式学习钢材知识图谱中的实体关系的嵌入表示,从而进一步对已知的钢材之间关系进行建模,解决了难以挖掘钢材牌号潜在知识的问题。
附图说明
51.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
52.图1为本发明一种基于钢材知识图谱的钢材潜在知识推理方法的流程图;
53.图2为本发明一种基于钢材知识图谱的钢材潜在知识推理方法的原理示意图;
54.图3为本发明实施例获取钢材领域三元组数据的过程示意图;
55.图4为本发明实施例构建的钢材知识图谱的示意图。
具体实施方式
56.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
57.本发明的目的是提供一种基于钢材知识图谱的钢材潜在知识推理方法及系统,应用在钢材替代知识推理方向,通过利用知识图谱整合钢材领域知识,基于钢材知识图谱解决难以挖掘钢材牌号潜在知识的问题。
58.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
59.图1为本发明一种基于钢材知识图谱的钢材潜在知识推理方法的流程图;
60.图2为本发明一种基于钢材知识图谱的钢材潜在知识推理方法的原理示意图。参见图1和图2,本发明一种基于钢材知识图谱的钢材潜在知识推理方法包括:
61.步骤1:获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集。
62.该步骤1的目的是获取钢材领域三元组数据,主要通过汇聚钢材领域相关的信息资源,得到钢材领域数据并抽取结构化钢材领域知识三元组。
63.图3为本发明实施例获取钢材领域三元组数据的过程示意图。参见图3,, 所述步骤1获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集,具体包括:
64.步骤1.1:获取钢材数据:从互联网上和文献手册中收集钢材领域有关钢材牌号数据,并按照其结构化程度划分为结构化数据及非结构化数据,将结构化数据以二维表单形式,非结构化数据以文本形式存储在本地钢材数据库中,作为现有钢材数据;其中钢材领域有关钢材牌号数据包括与钢材牌号有关的替代牌号、化学成分、结构、性质性能、服役效能等信息,还包括钢铁材料的替代关系、化学成分、机械性能、物理性能、制造工艺、产品形状、分类、一般用途等属性。
65.步骤1.2:规则映射:将钢材数据库中以二维表单形式存储的结构化数据按照数据的行名为头实体,列名为关系,数据本身为尾实体的规则映射成行名
ꢀ‑
列名-数据三元组。
66.在本发明的一个具体实施例中,二维表单如下表1所示,利用上述规则可以映射得到《y12,标准,gb/t 8731-2008》,《y12,类型,碳钢》,《y12,性能,易切削性》三个三元组数据。
67.表1二维数据表单
68.钢材牌号标准类型性能y12gb/t8731-2008碳钢易切削性
69.步骤1.3:实体属性抽取模型:将钢材数据库中的非结构化数据通过采用实体属性抽取模型提取其中对应的实体-属性-属性值三元组。
70.步骤1.3主要包含以下步骤:
71.步骤1.3.1:人工标注:对非结构化数据按比例划分出标注候选集,人工标注其所包含的实体、属性、属性值,得到标注样本。本发明实施例中将语料库中的1/5的句子划为标注候选集,对标注候选集的句子利用bio方式(即利用字母b标记实体的开始,利用字母i标记其余部分,利用字母o标记非实体的方式)人工标注其所包含的实体、属性、属性值,得到标注样本。比如语料“c50e钢材交货状态抗拉强度600mpa”标注后的结果为“c/b-g 5/i-g 0/i-ge/i-g钢/o材/o交/o货/o状/o态/o抗/b-p拉/i-p强/i-p度/i-p 6/b-n0/i-n 0/i-n m/i-n p/i-n a/i-n”,将其作为标注样本。其中g、p、n分别表示钢材名称、属性、属性值三类实体。
72.步骤1.3.2:构建实体属性抽取模型:将标注样本切分训练集、验证集和测试集,训练实体属性抽取模型,得到评价指标,若指标未达到阈值,继续添加语料到标注候选集进行人工标注,重新训练模型;当达到阈值,则利用训练好的实体属性抽取模型预测未标注数据,抽取钢材数据中对应的实体-属性-属性值三元组。
73.本发明构建的实体属性抽取模型的输入为未标注的钢材领域的非结构化文本数据,模型的输出为文本中包含的钢材实体与属性,具体来讲实体包含钢材牌号、分类及用途;属性包含抗拉强度、屈服点、伸长率、延伸率;属性值即为上述属性的具体数值类型的值。例如模型输入可以为“25cr2mova是中碳合金钢结构钢,室温时强度和韧性均高,抗拉强度为980mpa,用于燃气轮机高温螺栓”,则对应的模型输出为“25cr2mova;中碳合金钢结构
钢;抗拉强度;980mpa;燃气轮机高温螺栓”。
74.本发明实施例中构建的实体属性抽取模型为idcnn-crf模型,将标注样本按照7:1:2的比例切分训练集、验证集和测试集,训练该idcnn-crf模型,得到训练好的实体属性抽取模型的准确度为84.9%,召回率为80.55%,准确度达到阈值80%;之后利用训练好的实体属性抽取模型预测未标注数据,抽取钢材数据中对应的实体-属性-属性值三元组。
75.步骤1.4:数据清洗:对所述行名-列名-数据三元组和实体-属性-属性值三元组进行数据清洗,得到对应的结构化钢材知识三元组构成所述结构化钢材知识三元组数据集。
76.具体地,对步骤1.2和步骤1.3得到的数据进行格式校验,尤其对相同属性的属性值进行单位统一,并对模糊数据进行人工确认,通过这一系列操作发现并纠正数据中可识别的错误,从而得到对应的结构化钢材知识三元组。比如本发明实施例中需要对强度单位mpa和kpa进行统一,1mpa=1000kpa。
77.步骤2:利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储。
78.该步骤2主要利用步骤1得到的三元组构建钢材知识图谱,并通过图数据库存储并进行可视化展示。基于知识图谱技术,将钢材牌号有关知识实体抽象为连接的网络节点,边表示实体之间的关系,可以很自然的对钢材领域的知识进行形式化的描述,进一步利用知识推理模型对已知的钢材之间的关系进行建模,便能够自动的发现钢材之间潜在的知识。
79.所述步骤2利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储,具体包括:
80.步骤2.1:实体对齐:基于步骤1中得到的结构化钢材知识三元组数据集中的实体与关系,利用文本相似性度量方法进行实体对齐以消除歧义,得到用于构造钢材知识图谱的钢材知识三元组数据集s。
81.在本发明实施例中,利用levenshtein距离判断两个实体是否为同一实体,通常将levenshtein距离大于0.9的两个实体判定为统一实体。比如"优质型合金钢"、"优质合金钢"二者的levenshtein比为0.91,可以判定为同一实体。
82.步骤2.2:图谱构建:利用步骤2.1得到的钢材知识三元组数据集s构造钢材知识图谱;具体地,以所述钢材知识三元组数据集s中各个钢材知识三元组的头尾实体作为知识图谱中的节点,以所述钢材知识三元组数据集s中头尾实体间关系作为知识图谱中的边,构建出所述钢材知识图谱。本发明实施例中构建的钢材知识图谱的规模如下表2所示:
83.表2钢材知识图谱规模
84.主题词(牌号)总数节点总数关系总数节点的种类数关系的种类数11881668492477841415
85.图4为本发明实施例构建的钢材知识图谱的示意图。如图4所示,本发明实施例构建的钢材知识图谱中包括14种实体、15种关系。所述实体包括:钢材牌号,钢材别名,用途,标准,标准条件,标准说明,类型,分类依据,宏观性能,力学性能,产品规格,性能数值,化学成分,元素含量。所述实体关系为各类实体间的关联关系,包括:替代关系,应用关系,属于关系,依据关系,具有其他名称关系,详细说明关系,包含关系,条件关系,具有类型关系,具有性能关系,产品条件关系,性能数值关系,化学成分关系,元素含量关系,具有特性关系。
86.步骤2.3:图谱存储:将所述钢材知识图谱存储到图数据库中。本发明实施例中利用neo4j的官方导入工具neo4j-import将图谱存储到图数据库neo4j 中。
87.步骤3:利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型。
88.训练的知识表示模型用于进行实体与关系的向量初始化,利用钢材知识图谱中结构化的钢材知识三元组训练知识表示学习模型,从而得到钢材三元组中实体与关系在低维空间的初始化向量表示。
89.所述步骤3利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型,具体包括:
90.步骤3.1:负例三元组生成:所述钢材知识图谱中的钢材知识三元组为已存在的事实三元组,对所述事实三元组按照预设概率分别替换其头尾实体,生成对应的负例三元组(也称为损坏三元组或错误三元组)。
91.具体地,将所述的钢材知识图谱中的三元组利用(h,l,t)的形式表示,h表示头实体,l表示关系,t表示尾实体;统计头尾实体的个数分别为nh、n
t
,得到概率p,具体公式如下:
[0092][0093]
对钢材知识图谱中的三元组按照概率p替换其尾实体,按照1-p的概率替换其头实体,并保证替换后的三元组不在钢材知识图谱中,来得到负例三元组数据集s',其公式定义为:
[0094]
s'
(h,l,t)
={1-p|(h',l,t)|h'∈e}∪{p|(h,l,t')|t'∈e}
ꢀꢀꢀ
(2)
[0095]
其中e表示实体数据集,h'与t'为随机替换的头尾实体,s

(h,l,t)
为头尾实体替换后的负例三元组数据集。在本发明实施例中,概率p=30%,得到的负例三元组中有30%是替换事实三元组(也称为正确三元组)的尾实体得到的,另外70%为替换事实三元组的头实体得到的。
[0096]
步骤3.2:知识表示模型构建、训练:利用所述事实三元组和生成的负例三元组构建并训练知识表示模型,该知识表示模型基于现有的transe模型。本发明建立的该知识表示模型的输入是所构建知识图谱中的所有三元组,类型为文本形式,例如内容为:
[0097]
c40 属于 碳钢
[0098]
c40 c 0.2
[0099]
……
[0100]
该知识表示模型的输出为图谱中实体与关系的表示向量,例如:
[0101]
c40[0.0012,0..34,

]
[0102]
属于[0.009,0.76,

]
[0103]
碳钢[0.233,0.443,

]
[0104]
c[0.876,0.265,

]
[0105]
0.2[0.35626,0.9173,

]
[0106]
……
[0107]
知识表示模型根据损失函数进行梯度更新,达到规定的训练轮次后得到所述训练好的知识表示模型。
[0108]
具体地,将所有三元组中的实体与关系h、l、t随机初始化一个指定维度 s的向量eh,e
l
、e
t
;对于钢材知识图谱已存在的事实三元组(h,l,t),有eh+e
l
与e
t
的距离尽可能近;对
于钢材知识图谱不存在的负例三元组(h,l,t),要使得 eh+e
l
与e
t
距离相当远;向量之间的距离度量,可以选择l2范数,具体公式如下:
[0109][0110]
其中xi表示x中的第i个向量,n表示x中的向量个数。
[0111]
设置本发明知识表示模型的损失函数如下:
[0112][0113]
其中s表示钢材知识三元组数据集,(h,l,t)表示s中已存在的事实三元组, s'表示负例三元组数据集,(h

,l,t

)为通过步骤3.1生成的负例三元组。[x]
+
为合页损失函数,表示取x的非负部分,若x≤0,则[x]
+
=0。超参数γ是一个正数,表示正确的三元组得分和错误的三元组得分的裕度。知识表示模型根据损失函数(3)进行梯度更新,最终达到规定的训练轮次得到钢材知识图谱中所有实体和关系的向量表示。
[0114]
步骤4:基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型。
[0115]
该步骤4确定知识推理潜在关系,并利用步骤3得到的钢材实体与关系的向量表示构建基于潜在关系的推理模型并完成训练。所述的基于潜在关系的推理模型需要确定推理的潜在关系为r,在本发明实施例中关系r为替代关系。推理模型采用capse模型,capse模型利用胶囊网络对知识库中的实体和关系进行编码,更深层次编码实体、关系,能够学习得到三元组更多的特征。
[0116]
所述步骤4基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型,具体包括:
[0117]
步骤4.1:以潜在关系r为目标的模型数据集构建:将所述钢材知识图谱中所有关系路径分解成三元组数据作为模型数据集,并将所述模型数据集中存在潜在关系的三元组数据按照比例划分出验证集,所述模型数据集中其余三元组数据作为训练集。
[0118]
具体地,在钢材知识图谱中检索所有存在的潜在关系r,由r起始双向检索得到路径e0r0e1r1e2r2...enre
n+1
,其中e0,e1,e2,en...e
n+1
为钢材知识图谱中的实体节点,en为钢材牌号节点,r0,r1,r2...为相邻实体节点间的关系,r 为推理的潜在关系(即替代关系),n为钢材牌号节点en到实体e0的长度,大于等于0。将钢材知识图谱中所有关系路径e0r0e1r1e2r2...enre
n+1
分解成三元组数据e0r0e1,e1r1e2,e2r2e3…en
re
n+1
作为模型数据集;并将存在潜在关系r的三元组enre
n+1
按照比例划分出小部分为验证集,其余为训练集;利用训练集训练推理模型,利用验证集调整推理模型的超参数。
[0119]
步骤4.2:利用所述训练好的知识表示模型得到所述模型数据集中的实体与关系在低维空间的初始化向量表示。
[0120]
在本发明实施例中,将模型数据集中的钢材实体与关系的向量表示初始化为所述步骤3.2通过知识表示学习模型得到的结果。
[0121]
步骤4.3:模型训练阶段:将所述训练集中实体与关系的初始化向量表示拼接成矩阵,利用所述矩阵来训练推理模型,利用所述验证集调整所述推理模型的超参数,从而得到
训练好的推理模型。
[0122]
具体地,将训练集中的三元组(h,l,t)的初始化向量表示拼接为一个矩阵a,然后用50个滤波器w进行卷积,得到50个特征图q,公式定义如下:
[0123]
qi=g(w
·ai
+b)
ꢀꢀꢀ
(5)
[0124]
其中
·
是点积,b是偏置项,g是非线性激活函数,例如relu函数,ai为矩阵a的第i行向量,qi为q中的第i个特征图。
[0125]
将卷积层结束得到很多个特征图q的相同维度拼接为第一层胶囊,通过动态路由过程得到最终的输出向量s,整个过程的公式如下:
[0126][0127]
其中ui为胶囊向量,wi为权重矩阵,bi为第一层胶囊可学习到的超参数, soft max(
·
)是将输入向量映射为0-1之间的实数。
[0128]
推理模型的损失函数如下:
[0129][0130]
其中,
[0131][0132][0133]
其中和上述步骤3类似,s表示以潜在关系r为目标的模型数据集,s'为基于以潜在关系r为目标的模型数据集通过步骤3.1生成的损坏三元组数据集。||
·
||是一个向量二范数的运算,||
·
||2是一个向量二范数的平方运算,squash(
·
) 是整个胶囊网络中的激活函数,t
(h,l,t)
为计算的一个中间参数。推理模型在训练数据上根据损失函数进行梯度更新,最终达到规定的训练轮次30为止,从而得到训练好的推理模型,表示为capsnet(
·
)。该训练好的推理模型的输入为目标钢材牌号和待推理目标潜在关系,输出为该目标钢材牌号具有的待推理目标潜在关系的一系列的候选结果,按照可能性大小排序。例如,推理模型的输入为“y12,替代关系”,则对应的输出为“a576 gr.1212,10s20,10spb20, sum21,9s20”。
[0134]
步骤5:利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识。
[0135]
该步骤5利用步骤4得到的推理模型进行潜在关系的推理,发现潜在知识,本发明所述钢材潜在知识包括但不限于钢材替代牌号、力学性能或化学成分。基于待推理的目标潜在关系和目标钢材牌号构成的待推理三元组,利用所述训练好的推理模型对所述钢材知识图谱中所有实体进行打分,根据得分大小识别出与所述目标钢材牌号具有目标潜在关系的最优实体。
[0136]
具体地,对于给定的待推理目标潜在关系r和目标钢材牌号en,使用如下打分函数对钢材知识图谱中所有实体进行打分:
[0137]
score()=capsnet(en,r,ei)|ei∈e
ꢀꢀꢀ
(10)
[0138]
其中score()为打分函数计算出的得分,capsnet(
·
)为训练好的推理模型, e表
示钢材知识图谱中的实体数据集,ei为实体数据集e中的第i个实体。
[0139]
根据得分大小进行降序排列,得到钢材知识图谱中所有实体在候选实体中的排名,从而识别出与目标钢材牌号en具有目标潜在关系r的最优实体,通常将得分最大的实体作为该最优实体。
[0140]
本发明提供的一种基于钢材知识图谱的钢材潜在知识推理方法,通过获取钢材领域三元组数据,构建并存储钢材牌号图谱,进行实体与关系的向量初始化,建立基于潜在关系的推理模型,利用训练好的推理模型进行潜在知识推理,能够实现根据已有的钢材知识推理潜在的知识,包括但不局限于钢材替代牌号、力学性能或化学成分,对钢材领域潜在知识的挖掘具有重要意义,挖掘出的钢材潜在知识可进一步应用到材料设计、逆向工程、材料采购、加工、机加工和许多其他实际应用中,具有广泛的应用前景。
[0141]
在本发明一个具体实施例中,利用本发明方法对钢材替代牌号进行推理,即知识推理潜在关系为替代关系,经过步骤4.1得到的模型数据集共计98186 条三元组,其中存在替代关系r的三元组enre
n+1
共计7078条,模型训练达到规定的训练轮次30次后,对于给定的任意两种目标钢材牌号y12与45号钢,经过步骤5进行替代知识推理,得到的结果如下表3所示:
[0142]
表3模型推理结果
[0143]
目标牌号12345y12a576gr.121210s2010spb20sum219s2045ml45a576gr.1045swrch45kc45080m46
[0144]
表3中推理模型得到的结果都可以在《世界钢材手册》中的中外钢铁材料近似对照表中找到,说明其间确实存在替代关系。由此表明本发明提出的基于潜在关系的钢材知识推理模型,能够很准确的根据已知知识对钢材的关系进行补全,从而推理出潜在的知识。
[0145]
本发明基于自主构建的钢材知识图谱,整合了钢材领域知识,构建的基于关系的推理模型,不需要人工设计规则,以端到端的学习方式学习钢材知识图谱中的实体与关系的嵌入表示,通过给定钢材牌号的潜在关系,可以根据已有的钢材知识自动进行关系的补全,进而推理得到潜在的知识,钢材领域潜在知识包括但不局限于钢材替代牌号、未知的钢材力学性能或化学成分。
[0146]
基于本发明提供的方法,本发明还提供一种基于钢材知识图谱的钢材潜在知识推理系统,所述系统包括:
[0147]
三元组数据获取模块,用于获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集;
[0148]
钢材知识图谱构建模块,用于利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储;
[0149]
知识表示模型训练模块,用于利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型;
[0150]
推理模型训练模块,用于基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型;
[0151]
潜在知识推理模块,用于利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识;所述钢材潜在知识包括钢材替代牌号、力学性能或化学成分。
[0152]
其中,所述三元组数据获取模块具体包括:
[0153]
钢材数据获取单元,用于从互联网上和文献手册中收集钢材领域有关钢材牌号数据,并按照其结构化程度划分为结构化数据及非结构化数据,将结构化数据以二维表单形式,非结构化数据以文本形式存储在本地钢材数据库中,作为现有钢材数据;
[0154]
规则映射单元,用于将钢材数据库中以二维表单形式存储的结构化数据按照数据的行名为头实体,列名为关系,数据本身为尾实体的规则映射成行名
‑ꢀ
列名-数据三元组;
[0155]
实体属性抽取单元,用于将钢材数据库中的非结构化数据通过采用实体属性抽取模型提取其中对应的实体-属性-属性值三元组;
[0156]
数据清洗单元,用于对所述行名-列名-数据三元组和实体-属性-属性值三元组进行数据清洗,得到对应的结构化钢材知识三元组构成所述结构化钢材知识三元组数据集。
[0157]
所述钢材知识图谱构建模块具体包括:
[0158]
实体对齐单元,用于基于所述结构化钢材知识三元组数据集中的实体与关系,利用文本相似性度量方法进行实体对齐以消除歧义,得到用于构造钢材知识图谱的钢材知识三元组数据集;
[0159]
图谱构建单元,用于以所述钢材知识三元组数据集中各个钢材知识三元组的头尾实体作为知识图谱中的节点,以所述钢材知识三元组数据集中头尾实体间关系作为知识图谱中的边,构建出所述钢材知识图谱;
[0160]
图谱存储单元,用于将所述钢材知识图谱存储到图数据库中。
[0161]
所述知识表示模型训练模块具体包括:
[0162]
负例三元组生成单元,用于将所述钢材知识图谱中的钢材知识三元组作为已存在的事实三元组,对所述事实三元组按照预设概率分别替换其头尾实体,生成对应的负例三元组;
[0163]
知识表示模型构建及训练单元,用于利用所述事实三元组和生成的负例三元组构建并训练知识表示模型,知识表示模型根据损失函数进行梯度更新,达到规定的训练轮次后得到所述训练好的知识表示模型。
[0164]
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0165]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1