基于远程监督和提示学习的实体属性生成方法及系统与流程

文档序号:33713904发布日期:2023-04-01 03:01阅读:44来源:国知局
基于远程监督和提示学习的实体属性生成方法及系统与流程

1.本发明涉及知识图谱领域,尤其涉及一种基于远程监督和提示学习的实体属性生成方法及系统。


背景技术:

2.知识构建技术是整个知识图谱技术的基石,知识构建包括从结构化的数据中导入知识和非结构化的文档中抽取知识。互联网的开放世界中存在大量的非结构化数据,研究如何从非结构化的文档中构建知识十分必要,从非结构化文档中抽取知识需要抽取出文档中的实体、属性、关系和事件等知识要素。其中属性抽取作为知识抽取的重要手段,引起许多研究者的关注,现有的方法通常将属性抽取视为关系抽取任务,关系抽取任务常基于分类的方法,首先识别出文本中的各个实体,再将文本的语义表示特征输入分类器中,对文本中两两实体的关系进行分类,将基于分类的方法用于属性抽取,主要存在以下两个问题:
3.1.属性抽取不同于关系抽取,需要抽取的属性值可能不是严格意义的实体类型,而是一个自由文本片段,而基于分类器的关系抽取方法只能抽取两个已知实体之间的关系。
4.2.基于分类的方法利用预训练模型进行关系抽取时需要精心设计分类器,工作十分繁琐。


技术实现要素:

5.本发明的目的就在于为了解决上述问题设计了一种基于远程监督和提示学习的实体属性生成方法及系统。
6.本发明通过以下技术方案来实现上述目的:
7.基于远程监督和提示学习的实体属性生成方法,包括:
8.s1、构建知识图谱g={e,r,a},其中e为知识图谱中各个实体的集合,r为知识图谱中各个关系的集合,a={a}为知识图谱中各个属性组成的集合,a是一个包含属性名ak和属性值av的二元组;
9.s2、利用远程监督方法,将图谱中的实体e∈e、实体e的属性名a
ke
、及其属性名a
ke
对应的属性值a
ve
组成的三元组(e,a
ke
,a
ve
)作为种子,通过实体e和属性值a
ve
到开放文档库d中去检索,召回同时包含实体e和属性值a
ve
的文本集合de={de};
10.s3、将文本集合de中能够正确表达属性类型a
ke
的文本de标注为正例se∈se,定义集合c={(e,a
ke
,a
ve
,se)}为知识图谱中所有种子三元组(e,a
ke
,a
ve
)召回的正例文本se组成的四元组集合;
11.s4、获取待生成实体属性的文本x;
12.s5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名a
ke

13.s6、通过f
p香omp香
(x,e,a
ke
)将文本x、实体e、属性名a
ke
转化成提示学习任务的输入形式x
p香omp香

14.s7、将x
p香omp香
作为预训练语言模型bert的输入,获得文本x中实体的属性值。
15.基于远程监督和提示学习的实体属性生成系统,包括:
16.知识图谱;知识图谱中存储实体,关系,属性等三元组信息,
17.开放文档数据库;
18.提示学习模板引擎;提示学习模板引擎用于将文本输入转化为可以进行提示学习的文本格式,用于提示与训练语言模型微调下游的实体属性抽取任务;
19.预训练语言模块;预训练语言模块对语料进行预训练,然后将提示学习模板引擎生成的提示学习形式文本作为样本,微调下游的任务;
20.用于在线业务数据实体抽取的实体识别模块。
21.本发明的有益效果在于:本方法将提示学习用于实体属性抽取中,以有效解决了传统分类器存在的问题。一方面传统的分类器通常基于预训练语言模型进行模型参数的调和,随着技术的发展预训练语言模型越来越大,训练的成本也随之越来越高。而提示学习不需要对原有的预训练模型的参数进行调整,优化了下游任务的训练方式。另一方面,通过将提示学习用于属性生成,增加了属性抽取的灵活性,不仅仅能抽取特定实体类型的属性,还可以从文章中抽取自由的文本片段作为属性值。
附图说明
22.图1是本发明基于远程监督和提示学习的实体属性生成方法的系统结构图;
23.图2是本发明基于远程监督和提示学习的实体属性生成方法的流程示意图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
25.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
27.在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
28.此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
29.在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连
接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
30.下面结合附图,对本发明的具体实施方式进行详细说明。
31.基于远程监督和提示学习的实体属性生成方法,包括:
32.s1、构建知识图谱g={e,r,a},其中e为知识图谱中各个实体的集合,r为知识图谱中各个关系的集合,a={a}为知识图谱中各个属性组成的集合,a是一个包含属性名ak和属性值av的二元组;
33.s2、利用远程监督方法,将图谱中的实体e∈e、实体e的属性名a
ke
、及其属性名a
ke
对应的属性值a
ve
组成的三元组(e,a
ke
,a
ve
)作为种子,通过实体e和属性值a
ve
到开放文档库d中去检索,召回同时包含实体e和属性值a
ve
的文本集合de={de};
34.s3、将文本集合de中能够正确表达属性类型a
ke
的文本de标注为正例se∈se,定义集合c={(e,a
ke
,a
ve
,se)}为知识图谱中所有种子三元组(e,a
ke
,a
ve
)召回的正例文本se组成的四元组集合;
35.s4、获取待生成实体属性的文本x;
36.s5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名a
ke

37.s6、通过f
prompt
(x,e,a
ke
)将文本x、实体e、属性名a
ke
转化成提示学习任务的输入形式x
prompt

38.s7、将x
prompt
作为预训练语言模型bert的输入,获得文本x中实体的属性值;具体包括:
39.s71、将x
prompt
作为预训练语言模型bert的输入,让其预测x
prompt
中槽位[z]填入的单词词汇的概率分布;
[0040]
s72、取概率值最大的单词插入槽位[z]之前,形成新的提示学习模板:
[0041]
x
prompt
=insert_before(x
prompt
,[z],max_prpbability(v))
[0042]
其中v代表文档词汇库中的词汇,max_probability(v)代表取概率最大的词汇;insert_before函数为执行上述插入操作以修改当前样本;
[0043]
s73、判断生成的单词是否是句子的结束单词“。”,若是则进入s74,反之,则用修改后的当前样本返回s71;
[0044]
s74、将修改后的当前样本中的终止符合“。”删除,并作为实体的属性值。
[0045]fprompt
(x,e,a
ke
)包括以下步骤:
[0046]
1)、定义模板t表示为:
[0047]
[x];属性抽取:【实体】[e]-【属性名】[a]-【答案】[z]
[0048]
模板内容t为一段由输入槽位[x]和实体槽[e],实体属性槽[a
ke
],答案槽位[z]拼接而成的文本字符串,其中输入槽[x]、实体槽[e]、实体属性槽[a
ke
]分别是基于提示学习的属性抽取任务的输入文本x、实体e、及其实体e需要抽取属性的名称a
ke
的占位符,答案槽[z]是实体e需要抽取属性的值a
ve
的占位符;
[0049]
2)、把输入的文本x填充模板t输入槽[x]的位置,实体e填充到模板t实体槽[e],实体e需要抽取属性的名称a
ke
填充到模板t实体属性槽[a
ke
];
[0050]
3)、返回填充后的字符串作为输入x的提示形式。
[0051]
基于远程监督和提示学习的实体属性生成系统,包括:
[0052]
知识图谱;知识图谱中存储实体,关系,属性等三元组信息,
[0053]
开放文档数据库;
[0054]
提示学习模板引擎;提示学习模板引擎用于将文本输入转化为可以进行提示学习的文本格式,用于提示与训练语言模型微调下游的实体属性抽取任务;
[0055]
预训练语言模块;预训练语言模块对语料进行预训练,然后将提示学习模板引擎生成的提示学习形式文本作为样本,微调下游的任务;
[0056]
用于在线业务数据实体抽取的实体识别模块。
[0057]
示例
[0058]
利用知识图谱中的实体属性三元组,通过远程监督方法从开放文档库中召回文档集合d。具体地,针对图2中的知识图谱,其包括汪峰,程奕迅,刘德华等人物实体,歌手等职业类型实体,对于人物类型的实体包括出生地,出生日期等属性。以实体刘德华为例,通过其实体的出生地属性三元组(刘德华,出生地,香港)召回与实体刘德华和属性值香港相关的文档,根据召回文档的语义信息筛选出正确表述刘德华“出生地”属性的文档“刘德华(andy lau),1961年9月27日出生于中国香港,籍贯广东新会。”等作为正例集合。
[0059]
通过提示学习模板函数f
p香omp香
和模板t生成正例文本se的提示形式。具体地,将正例文本“刘德华(andy lau),1961年9月27日出生于中国香港,籍贯广东新会。”和其对于的实体“刘德华”,实体“刘德华”的属性名称“出生地”作为模板函数的输入,模板函数利用提示学习模板:
[0060]“[x];属性抽取:【实体】[e]-【属性名】[a]-【答案】[z]”[0061]
生成正例文本的提示形式:
[0062]“刘德华(andy lau),1961年9月27日出生于中国香港,籍贯广东新会。;属性抽取:【实体】刘德华-【属性名】出生地-【答案】[z]”[0063]
将针对知识图谱的每个种子实体属性三元组,生成其正例提示形式作为预训练语言模型bert的实体属性生成任务的输入样本,微调bert,更新bert的模型参数,并保存。
[0064]
实体属性生成阶段:对于线上的业务文本,首先利用实体识别模型,抽取其中的实体,然后结合知识图谱的本体结构,将输入的文本,识别出的实体,以及实体在本体中的属性名作为提示学习模板函数的输入,生成输入文本的提示形式,送入之前微调好的bert模型中,预测槽位[z]位置词汇分布的概率,取概率最大值对应的词汇插到槽位[z]之前,重复修改样本并预测结果,直到预测的词汇为结束符号“。”则停止。预测结束后依次取每步的预测词汇结果拼接作为生成的实体属性值。具体地,对于线上输入的文本“周杰伦(jay chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、音乐人。”,首先抽取出文本中的人物类型的实体“周杰伦”,职业类型的实体“歌手”,“音乐人”等根据本体结构知道,人物类型的实体有“出生地”,“出生日期”等属性,以抽取“出生地”属性为例,将文本输入“周杰伦(jay chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、音乐人。”,人物类型实体“周杰伦”,任务类型实体属性“出生地”作为提示学习模板函数的输入,得到输入文本的提示形式文本:
[0065]“周杰伦(jay chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永
春县,中国台湾流行乐男歌手、音乐人。;属性抽取:【实体】周杰伦-【属性名】出生地-【答案】[z]”[0066]
将该提示形式文本作为样本并用[mask]标记填充槽位[z],输入到微调好的预训练语言模型bert,预测槽位[mask]的词汇概率分布,取概率分布最大的词“台”,修改上次的样本为
[0067]“周杰伦(jay chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、音乐人。;属性抽取:【实体】周杰伦-【属性名】出生地-【答案】台[z]”[0068]
继续输入bert预训练模型预测槽位[z]的词汇概率分布。直到最后生成的词汇为终止符号“。”。最终结果如下:
[0069]“周杰伦(jay chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、音乐人。;属性抽取:【实体】周杰伦-【属性名】出生地-【答案】台湾省新北市”[0070]
取最后生成的结果“台湾省新北市”作为实体“周杰伦”的“出生地”属性的属性值“台湾省新北市”。
[0071]
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1