专利文本的知识图谱创建方法、装置、存储介质及设备与流程

文档序号:33359628发布日期:2023-03-07 20:20阅读:45来源:国知局
专利文本的知识图谱创建方法、装置、存储介质及设备与流程

1.本技术涉及机器学习技术领域,特别涉及一种专利文本的知识图谱创建方法、装置、存储介质及设备。


背景技术:

2.知识图谱以图的形式表现客观世界中的实体及其之间的关系。现有的中医知识图谱是根据中医领域模型的特点,构建了一个包括中医疾病、方剂、中药、中药化学成分、药理作用、中药实验、化学实验方法在内的知识图谱。
3.在对专利文本创建知识图谱时,通常是训练一个提取模型,利用提取模型从专利文本中提取出实体和关系,再基于实体和关系创建知识图谱。其中,实体包括专利申请号、专利标题、发明人、发明药物、草药、疾病、剂量、药理作用,关系包括专利标题、专利发明人、专利发明药物、药物治疗疾病、药物功效作用、药物成分、药物制作步骤、草药剂量、草药性味归经等。
4.然而,提取模型既要提取实体,又要提取实体之间的关系,这就使得提取模型的训练难度较大,且模型的准确率不高。


技术实现要素:

5.本技术提供了一种专利文本的知识图谱创建方法、装置、存储介质及设备,用于解决提取模型既要提取实体,又要提取关系时,训练难度大,且准确率不高的问题。所述技术方案如下:
6.一方面,提供了一种专利文本的知识图谱创建方法,所述方法包括:
7.获取中医药领域的多篇专利文本中的字段,所述字段包括发明名称、摘要、权利要求书和说明书中;
8.利用训练好的实体提取模型从所述字段中提取实体,所述实体提取模型是基于sentence-bert-bigru-crf创建并训练的;
9.基于整体概念-成分概念以及物体概念-效果概念的语言规则,从所述字段中提取实体和关系;
10.基于所述实体提取模型提取到的实体以及所述语言规则提取到的实体和关系创建知识图谱。
11.在一种可能的实现方式中,所述基于所述实体提取模型提取到的实体以及所述语言规则提取到的实体和关系创建知识图谱,包括:
12.以三元组形式保存所述实体提取模型提取到的实体以及所述语言规则提取到的实体和关系,所述三元组中包括头实体、头实体标签、关系、关系标签、尾实体和尾实体标签;
13.基于所述三元组创建所述知识图谱。
14.在一种可能的实现方式中,所述方法还包括:
15.利用gephi图数据库对所述知识图谱进行存储;
16.在所述gephi图数据库中展示所述知识图谱。
17.在一种可能的实现方式中,所述方法还包括:
18.获取训练样本,对所述训练样本的字段中的文本内容进行分词和词性标注,并基于正则表达式和所述词性标注对所述分词标注实体标签;
19.基于所述sentence-bert-bigru-crf创建模型;
20.利用所述训练样本对所述模型进行训练,得到所述实体提取模型。
21.在一种可能的实现方式中,所述利用训练好的实体提取模型从所述字段中提取实体,包括:
22.利用所述实体提取模型从未标注实体标签的所述字段中提取实体。
23.在一种可能的实现方式中,所述基于整体概念-成分概念以及物体概念-效果概念的语言规则,从所述字段中提取实体和关系,包括:
24.获取预先定义的常量项,所述常量项是基于固定句式提取的字词或符号;
25.根据固定句式对整体概念、成分概念和常量项创建第一语言规则,基于所述第一语言规则从所述字段中提取实体和关系;
26.根据固定句式对物体概念、效果概念和常量项创建第二语言规则,基于所述第二语言规则从所述字段中提取实体和关系。
27.在一种可能的实现方式中,所述第一语言规则包括:整体概念-常量项-成分概念、成分概念-常量项-整体概念;
28.所述第二语言规则包括:物体概念-常量项-效果概念。
29.一方面,提供了一种专利文本的知识图谱创建装置,所述装置包括:
30.获取模块,用于获取中医药领域的多篇专利文本中的字段,所述字段包括发明名称、摘要、权利要求书和说明书;
31.提取模块,用于利用训练好的实体提取模型从所述字段中提取实体,所述实体提取模型是基于sentence-bert-bigru-crf创建并训练的;
32.所述提取模块,还用于基于整体概念-成分概念以及物体概念-效果概念的语言规则,从所述字段中提取实体和关系;
33.创建模块,用于基于所述实体提取模型提取到的实体以及所述语言规则提取到的实体和关系创建知识图谱。
34.一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的专利文本的知识图谱创建方法。
35.一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的专利文本的知识图谱创建方法。
36.本技术提供的技术方案的有益效果至少包括:
37.实体提取模型是基于sentence-bert-bigru-crf创建并训练的,sentence-bert能够在解除字数限制的前提学习到预料的语义特征,且时间复杂度呈线性增长;bigru能够学习到字词之间较长的上下文关系,且能加速ner(named entity recognition,命名实体识别)模型进行推理;crf能纠正bigru预测的顺序错误,从而提高了实体提取模型识别出实体
的准确率。
38.专利文本中的字段中通常包含很多固定句式,根据字段可以提取出基于整体概念-成分概念以及物体概念-效果概念的语言规则,再基于语言规则从字段中提取实体和关系,可以有效提高知识获取的覆盖度,扩充了中医领域的知识图谱的规模。
39.通过在gephi图数据库中展示知识图谱,可以通过可视化的知识图谱推进专利审查和分析的准确率,还可以为专业和非专业人士提供学习中医领域知识的最佳途径。
附图说明
40.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术一个实施例提供的专利文本的知识图谱创建方法的方法流程图;
42.图2是本技术一个实施例提供的一种知识图谱的可视化图;
43.图3是本技术再一实施例提供的专利文本的知识图谱创建装置的结构框图;
44.图4是本技术再一实施例提供的专利文本的知识图谱创建装置的结构框图。
具体实施方式
45.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
46.本技术的目的是创建一种中医领域专利文本的知识图谱。知识图谱中包括专利申请号、发明名称、发明人、发明药物、草药、疾病、剂量、药理作用等实体以及专利标题、专利发明人、专利发明药物、药物治疗疾病、药物功效作用、药物成分、药物制作步骤、草药剂量、草药性味归经等关系。本技术中,通过对中医领域的专利文本的核心知识进行了结构化、形式化的表达,将抽取到的知识信息联系在一起形成知识图谱,该知识图谱中包含了丰富的语义关系,从而实现知识推理、辅助分析及决策支持等功能,有助于企业或者用户快速方便查询中医领域专利的相关知识及其相互关系,从而进一步利用这些数据进行后续工作。构建中医领域的知识图谱的关键在于知识抽取,本技术中收集与整理了中国现有的中医领域的专利文本,对其进行各项数据清洗,然后采用深度学习的方法和基于语言规则的方法进行知识抽取,将抽取到的实体和关系以三元组的形式构建知识图谱,再将知识图谱导入图数据库,实现中医领域的专利知识的结构化和可视化。
47.请参考图1,其示出了本技术一个实施例提供的专利文本的知识图谱创建方法的方法流程图,该专利文本的知识图谱创建方法可以应用于计算机设备中。该专利文本的知识图谱创建方法,可以包括:
48.步骤101,获取中医药领域的多篇专利文本中的字段,该字段包括发明名称、摘要、权利要求书和说明书。
49.专利文本包含发明名称、摘要、权利要求书、说明书等部分组成,其中,发明名称、摘要、权利要求书和说明书中包含了中医专利的发明药物、制备方法和各种草药剂量等构建知识图谱所需的实体和关系。
50.需要说明的是,由于说明书中的文本内容较多,从中提取实体和关系的耗时较长,所以,在一个实例中,计算机设备可以从发明名称、摘要和权利要求书中提取实体和关系。
51.步骤102,利用训练好的实体提取模型从字段中提取实体,该实体提取模型是基于sentence-bert-bigru-crf创建并训练的。
52.本实施例中,计算机设备先基于深度学习的方法创建实体提取模型,再利用实体提取模型从字段中提取多个实体。
53.在创建实体提取模型时,计算机设备先获取训练样本,该对训练样本的字段中的文本内容进行分词和词性标注,并基于正则表达式和词性标注对分词标注实体标签;再基于sentence-bert-bigru-crf创建模型;最后利用训练样本对模型进行训练,得到实体提取模型。
54.具体的,先标注实体标签,再定义一组模型参数,可以得到这组模型参数对应的模型以及这个模型的精准率和召回率等指标,通过改变模型参数组合可以得到不同的模型,计算机设备可以根据需要可以选取精准率、召回率或f值等指标最高的模型参数组合,即可得到最优的模型,本实施中将最终选取的模型称为实体提取模型。
55.sentence-bert+bigru+crf是端到端的深度学习模型,使用bert的好处是能够学习到语料的语义特征,然而bert的构造存在字数限制,使用sentence-bert的好处是可以解决字数限制,且时间复杂度呈线性增长;bigru能学习到词之间较长的上下文关系,同时使用gru模型相比于lstm模型能加速ner模型进行推理;crf能纠正bigru预测的顺序错误,从而提高了实体提取模型识别出实体的准确率。
56.在利用实体提取模型提取字段中的实体时,计算机设备利用实体提取模型从未标注实体标签的字段中提取实体。其中,计算机设备可以使用jieba分词工具包进行文本内容分词和词性标注。
57.步骤103,基于整体概念-成分概念以及物体概念-效果概念的语言规则,从字段中提取实体和关系。
58.通过对于专利文件进行大量阅读,我们发现专利文本中的发明名称、摘要和权利要求书的结构比较标准和通用,且内容主题相对固定(即技术主题、技术方案与技术效果),也应用了很多固定句式,可以在此基础上归纳总结出来一些语言规则,基于语言规则来提取实体和关系。
59.具体的,基于整体概念-成分概念以及物体概念-效果概念的语言规则,从字段中提取实体和关系,可以包括以下几个子步骤:
60.(1)获取预先定义的常量项,常量项是基于固定句式提取的字词或符号。
61.在不同的语言规则里存在大量相同的常量项,为了方便例举语言规则,本实施例中定义了下面的常量项:
62.defconstant常量项
63.{
64.标点:,|。|.|?|!|:|:|,|.|?|;|;
65.数字:《0|1|2|3|4|5|6|7|8|9》*《.|null》《0|1|2|3|4|5|6|7|8|9》*
66.量词:份|味|克|两|钱|斤
67.是动词:是|作为|成为|为
68.有动词:有|具有|具备|含有|存在
69.能动词:能|能够|可以
70.实现词:实现|达到|得到
71.方案词:解决|治疗|根治|预防|避免|主治
72.效果词:效果|疗效|功效|结果
73.对象词:将|由|以
74.从属词:属于|从属于
75.公开词:公开了|涉及|提供了
76.原料词:原料|材料|成分
77.包含词:包含|含有|蕴含|包括
78.组成词:配置|构成|组成|部件|零件|组件|配件|构件|器件|器材|元件|附件|组份步骤词:活动|周期|过程|步骤|环节|阶段|操作|程度|单元|动作|方面|方式|工序后果词:导致|造成|为了|是为了
79.原因词:因为|由于
80.存在词:在|位于
81.位置词:上面|下面|左面|右面|里面|外面
82.下述词:如下|以下|下面|下列
83.并列词:和|与|同|及
84.关联词:有关|有关系|有联系|相关|相关联
85.}
86.本实施例中仅以上述的常量项进行举例说明,在实际应用中,可以根据需求设置比上述常量项更多或更少的常量项。
87.(2)根据固定句式对整体概念、成分概念和常量项创建第一语言规则,基于第一语言规则从字段中提取实体和关系。
88.本实施例中,第一语言规则包括:整体概念-常量项-成分概念、成分概念-常量项-整体概念。下面对整体概念、成分概念和不同常量项之间的组合进行举例说明。
89.[0090][0091]
第一语言规则中,带有“?”符号的部分都是需要提取的技术特征词,比如:【?整体概念】和【?成分概念】;带有“!”符号的部分代表不同类别的常量词,比如《!方案词》表示在这个位置需要匹配上“解决,治疗,根治,预防,避免,主治”中的任何一个词。
[0092]
本实施例中仅以上述整体概念、成分概念和不同常量项的组合进行举例说明,在实际应用中,可以根据需求设置其他组合。
[0093]
(3)根据固定句式对物体概念、效果概念和常量项创建第二语言规则,基于第二语言规则从字段中提取实体和关系。
[0094]
本实施例中,第二语言规则包括:物体概念-常量项-效果概念。下面对物体概念、效果概念和不同常量项之间的组合进行举例说明。
[0095][0096]
第二语言规则中,带有”?”符号的部分都是需要提取的技术特征词,比如:【?物体概念】和【?效果概念】;带有“!”符号的部分代表不同类别的常量词,比如《!方案词》表示在这个位置需要匹配上“解决,治疗,根治,预防,避免,主治”中的任何一个词。
[0097]
本实施例中仅以上述物体概念、效果概念和不同常量项的组合进行举例说明,在实际应用中,可以根据需求设置其他组合。
[0098]
以应用第一语言规则从摘要和权利要求书中提取实体和关系为例,假设提取的结果为【玫瑰八宝茶】组成原料为:【玫瑰花】、【黄山贡菊】、【黄山绿茶】、
……
,由此可以得到三元组:玫瑰八宝茶组成成分玫瑰花、
……

[0099]
以应用第二语言规则从发明名称和摘要中提取实体和关系为例,假设提取的结果为本药品具有【增强人体免疫力】的功效,由此可以得到三元组:(本药品)药理作用增强免疫力,(本药品)可从发明名称中提取具体发明药物进行替换。
[0100]
当然,用户还可以自定义一些语言规则,基于这些语言规则来识别实体和关系。
[0101]
本实施例中,可以先基于语言规则提取实体和关系,再组织专业人员进行加工和审核,保证实体和关系提取的准确性。
[0102]
步骤104,基于实体提取模型提取到的实体以及语言规则提取到的实体和关系创建知识图谱。
[0103]
具体的,基于实体提取模型提取到的实体以及语言规则提取到的实体和关系创建知识图谱,可以包括:以三元组形式保存实体提取模型提取到的实体以及语言规则提取到的实体和关系,三元组中包括头实体、头实体标签、关系、关系标签、尾实体和尾实体标签;基于三元组创建知识图谱。
[0104]
本实施例中,将从专利文本中提取出的实体和关系用三元组的形式进行保存,每个三元组包括:头实体、头实体label(标签)、关系、关系label、尾实体和尾实体label。下面对三元组进行举例说明:
[0105][0106]
在得到知识图谱后,计算机设备还可以利用gephi图数据库对知识图谱进行存储;在gephi图数据库中展示知识图谱。
[0107]
其中,gephi是一款网络分析领域的数据可视化处理软件,开发者对它寄予的希望是成为“数据可视化领域的photoshop”。gephi主要有以下三大特性:
[0108]
(1)由内置的快速的opengl引擎提供支持,gephi能够利用非常大的网络推送信封,可视化网络多:达一百万个元素,所有元素都会实时运行,如布局、过滤器;
[0109]
(2)简单易于安装和使用,以可视化为中心的ui(user interface,用户界面),类似photoshop的图形处理一样;
[0110]
(3)支持模块化扩展gephi及插件开发,该架构构建在netbeans平台之上,可以通过精心编写的api(application program interface,应用程序接口)轻松扩展或重用。
[0111]
通过gephi图数据库中展示知识图谱,可以很清晰的展示各个实体间的联系(如图2所示),一方面可以进一步推进专利审查和分析的准确率,另一方面可以为专业和非专业人士提供学习专利领域知识的最佳途径。
[0112]
综上所述,本技术实施例提供的专利文本的知识图谱创建方法,实体提取模型是基于sentence-bert-bigru-crf创建并训练的,sentence-bert能够在解除字数限制的前提学习到预料的语义特征,且时间复杂度呈线性增长;bigru能够学习到字词之间较长的上下文关系,且能加速ner模型进行推理;crf能纠正bigru预测的顺序错误,从而提高了实体提取模型识别出实体的准确率。
[0113]
专利文本中的字段中通常包含很多固定句式,根据字段可以提取出基于整体概念-成分概念以及物体概念-效果概念的语言规则,再基于语言规则从字段中提取实体和关
系,可以有效提高知识获取的覆盖度,扩充了中医领域的知识图谱的规模。
[0114]
通过在gephi图数据库中展示知识图谱,可以通过可视化的知识图谱推进专利审查和分析的准确率,还可以为专业和非专业人士提供学习中医领域知识的最佳途径。
[0115]
请参考图3,其示出了本技术一个实施例提供的专利文本的知识图谱创建装置的结构框图,该专利文本的知识图谱创建装置可以应用于计算机设备中。该专利文本的知识图谱创建装置,可以包括:
[0116]
获取模块310,用于获取中医药领域的多篇专利文本中的字段,字段包括发明名称、摘要、权利要求书和说明书;
[0117]
提取模块320,用于利用训练好的实体提取模型从字段中提取实体,实体提取模型是基于sentence-bert-bigru-crf创建并训练的;
[0118]
提取模块320,还用于基于整体概念-成分概念以及物体概念-效果概念的语言规则,从字段中提取实体和关系;
[0119]
创建模块330,用于基于实体提取模型提取到的实体以及语言规则提取到的实体和关系创建知识图谱。
[0120]
在一个可选的实施例中,创建模块330,还用于:
[0121]
以三元组形式保存实体提取模型提取到的实体以及语言规则提取到的实体和关系,三元组中包括头实体、头实体标签、关系、关系标签、尾实体和尾实体标签;
[0122]
基于三元组创建知识图谱。
[0123]
请参考图4,在一个可选的实施例中,该装置还包括:
[0124]
存储模块340,用于利用gephi图数据库对知识图谱进行存储;
[0125]
展示模块350,用于在gephi图数据库中展示知识图谱。
[0126]
在一个可选的实施例中,获取模块310,还用于获取训练样本,对训练样本的字段中的文本内容进行分词和词性标注,并基于正则表达式和词性标注对分词标注实体标签;
[0127]
创建模块330,还用于基于sentence-bert-bigru-crf创建模型;
[0128]
该装置还包括训练模块360,用于利用训练样本对模型进行训练,得到实体提取模型。
[0129]
在一个可选的实施例中,提取模块320,还用于:
[0130]
利用实体提取模型从未标注实体标签的字段中提取实体。
[0131]
在一个可选的实施例中,提取模块320,还用于:
[0132]
获取预先定义的常量项,常量项是基于固定句式提取的字词或符号;
[0133]
根据固定句式对整体概念、成分概念和常量项创建第一语言规则,基于第一语言规则从字段中提取实体和关系;
[0134]
根据固定句式对物体概念、效果概念和常量项创建第二语言规则,基于第二语言规则从字段中提取实体和关系。
[0135]
在一个可选的实施例中,第一语言规则包括:整体概念-常量项-成分概念、成分概念-常量项-整体概念;
[0136]
第二语言规则包括:物体概念-常量项-效果概念。
[0137]
综上所述,本技术实施例提供的专利文本的知识图谱创建装置,实体提取模型是基于sentence-bert-bigru-crf创建并训练的,sentence-bert能够在解除字数限制的前提
学习到预料的语义特征,且时间复杂度呈线性增长;bigru能够学习到字词之间较长的上下文关系,且能加速ner模型进行推理;crf能纠正bigru预测的顺序错误,从而提高了实体提取模型识别出实体的准确率。
[0138]
专利文本中的字段中通常包含很多固定句式,根据字段可以提取出基于整体概念-成分概念以及物体概念-效果概念的语言规则,再基于语言规则从字段中提取实体和关系,可以有效提高知识获取的覆盖度,扩充了中医领域的知识图谱的规模。
[0139]
通过在gephi图数据库中展示知识图谱,可以通过可视化的知识图谱推进专利审查和分析的准确率,还可以为专业和非专业人士提供学习中医领域知识的最佳途径。
[0140]
本技术一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的专利文本的知识图谱创建方法。
[0141]
本技术一个实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的专利文本的知识图谱创建方法。
[0142]
需要说明的是:上述实施例提供的专利文本的知识图谱创建装置在进行专利文本的知识图谱创建时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将专利文本的知识图谱创建装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的专利文本的知识图谱创建装置与专利文本的知识图谱创建方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0143]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0144]
以上所述并不用以限制本技术实施例,凡在本技术实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术实施例的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1