基于知识注入的细粒度实体分类方法和交互系统与流程

文档序号:32788505发布日期:2023-01-03 20:13阅读:30来源:国知局
基于知识注入的细粒度实体分类方法和交互系统与流程

1.本公开涉及深度学习领域,尤其涉及一种基于知识注入的细粒度实体分类方法和交互系统。


背景技术:

2.作为自然语言处理(nlp)基础模型,预训练语言模型(plm,包括bert,roberta,xlnet等)在各个下游的自然语言理解(nlu)任务中取得了优异的成绩,具有很强的通用性。然而,主流的预训练语言模型都是基于公开的文档,从非结构化文档中学习一般的语言知识,忽略了对大量知识信息的学习,特别是结构化的知识图谱(kg)信息的学习。这将导致模型无法真正理解现实中的实体和它们之间的关系等一系列知识,并且会产生一些反事实的输出(比方说,gpt模型会输出诸如“太阳有两只眼睛”等论断),也会大大减弱模型的小样本学习能力,领域知识的迁移能力,一般知识的归纳能力等等。因此,在利用plm执行细粒度实体分类这一重要nlp任务时,存在从知识图谱中学习知识,以提升分类准确性的需要。
3.为此,如何从三元组形式的信息中高效准确地学习到知识,以提升细粒度实体分类准确性,成为本领域技术人员所要解决的一个问题。


技术实现要素:

4.本公开要解决的一个技术问题是提供一种基于知识注入的细粒度实体分类方法和交互系统。本发明的实体分类方案在例如以顺序编码的方式将知识库中的事实知识注入句子并基于序列结构对实体进行编码的基础上,进一步利用事实知识和句子构建图结构,并基于图神经网络(gnn)对其进行编码。由此。实体分类模型能够共同学习句子中和知识图结构中的实体表示学习,并以更高的准确率进行细粒度实体分类。
5.根据本公开的第一个方面,提供了一种基于知识注入的细粒度实体分类方法,包括:将句子、所述句子提及实体以及所述提及实体的知识图谱三元组相关信息送入句子级编码器;将所述句子级编码器输出的所述句子包含单词的特征表示、提及实体的特征表示和三元组相关信息的特征表示构造成图结构,并送入图级编码器;以及将基于所述图级编码器输出的知识增强的句子特征表示送入实体分类模型,用于对句子中的目标短语进行细粒度实体分类。
6.可选地,将句子、所述句子提及实体以及所述提及实体的知识图谱三元组相关信息送入句子级编码器包括:将所述句子包含单词信息、所述提及实体信息以及所述提及实体的多个知识图谱三元组的关系信息送入所述句子级编码器。
7.可选地,所述方法还包括:将所述句子送入预训练语言模型,并将所述预训练语言模型输出的单词嵌入作为所述单词信息;将所述提及实体送入预训练知识嵌入矩阵,并将所述预训练知识嵌入矩阵输出的实体嵌入作为所述提及实体信息;以及计算所述知识图谱三元组中的头实体和尾实体的实体嵌入作为所述关系信息。
8.可选地,将句子和所述句子提及实体的知识图谱三元组相关信息送入句子级编码
器包括:使用类型嵌入矩阵区分所述单词嵌入、所述实体嵌入和所述关系嵌入;以及使用起始符号和分割符号串接所述单词嵌入、所述实体嵌入和所述关系嵌入,并使用特殊符号标记所述目标短语。
9.可选地,所述句子提及实体的知识图谱三元组是以所述提及实体作为头实体且不超过预定阈值的知识图谱三元组。
10.可选地,将所述句子级编码器输出的所述句子包含单词的特征表示、提及实体的特征表示和三元组相关信息的特征表示构造成图结构包括:将所述单词的特征表示、所述提及实体的特征表示和关系的特征表示分别作为所述图结构的单词节点、实体节点和关系节点,其中,所述三元组相关信息的特征表示包括所述三元组的所述关系的特征表示;以及连接单词节点和相关实体节点,并且连接实体节点和相关关系节点,以构造所述图结构的边。
11.可选地,连接单词节点和相关实体节点,并且连接实体节点和相关关系节点,以构造所述图结构的边包括:使用正向边表征从单词节点到相关实体节点的连接,以及从实体节点到相关关系节点的连接;以及向所述图结构添加与所述正向边方向相反的反向边,其中,所述正向边和所述反向边具有可训练的权重。
12.可选地,所述方法还包括:在训练阶段,将基于所述图级编码器输出的自然语言增强的实体特征和关系特征预测实体分类类别作为所述实体分类模型的辅助训练任务。
13.根据本公开的第二个方面,提供了一种基于知识注入的交互系统,包括:用户输入接收单元,用于获取用户输入的特定领域相关问询;问题匹配单元,使用如第一方面所述的方法对所述关问询中包含的实体进行细粒度分类,并根据所述细粒度分类生成反馈;以及反馈提供单元,用于将生成的反馈提供给所述用户。
14.根据本公开的第三个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面所述的方法。
15.根据本公开的第四个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面所述的方法。
16.由此,本发明基于序列结构的知识注入以顺序编码的方式编码句子上下文和知识库中的实体和关系,增强词嵌入表示;而图结构知识注入基于图结构进行编码,融合了知识库中的结构化信息。最后利用作为多任务学习框架的实体分类模型共同学习句子中和知识库中的实体表示,由此实现更准确的细粒度实体分类。
附图说明
17.通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
18.图1示出了使用知识子图进行实体类型分类任务的一个例子。
19.图2示出了根据本发明一个实施例的基于知识注入的细粒度实体分类方法的示意性流程图。
20.图3示出了根据本发明的基于知识注入的实体分类方法的一个具体实现例的示意图。
21.图4示出了本发明训练得到的细粒度分类系统用于实际交互的一个例子。
22.图5示出了根据本发明一实施例可用于实现上述基于知识注入的细粒度实体方法的计算设备的结构示意图。
具体实施方式
23.下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
24.预训练语言模型(plm)是一类自然语言处理模型的总称,用来学习文本的低维稠密实值向量的表征。早期的预训练语言模型旨在利用浅层的神经网络学习词嵌入(例如,英文中的“单词”嵌入,在中文则可对应于单个汉字的嵌入)表示,这些词嵌入表示用于下游自然语言处理的各种任务;最新的预训练语言模型学习基于上下文的词嵌入表示,并且学习的模型用于在下游任务的微调。预训练语言模型在各个下游的自然语言理解(nlu)任务中取得了优异的成绩,具有很强的通用性。
25.主流的预训练语言模型都是基于公开的文档,从非结构化文档中学习一般的语言知识,忽略了对大量知识信息的学习,特别是结构化的知识图谱(kg)信息的学习。在此,非结构化和结构化旨在指示语言知识的呈现方式。在自然语言处理中,语言知识的呈现方式通常包含以下三种形式:无结构化的文本,半结构化的表格等和结构化的三元组。具体地,三元组知识存储在人工构造的大规模知识图谱数据中,由《头实体,关系,尾实体》组成。头尾实体表示一个在真实世界存在的具体事物(例如:杭州),关系表达实体之间的某种语义关联(例如:出生地)。
26.在plm中,两阶段策略(即预训练和微调)继承了预训练期间学到的知识,并将其应用于下游任务。虽然plm存储了大量内部知识,但由于plm从非结构化文档中学习一般的语言知识,并且缺乏系统性的结构化知识的学习,因此它很难理解外部背景知识,例如事实和常识知识。知识的缺失,将会产生一些反事实的内容(比方说,gpt模型会输出诸如“太阳有两只眼睛”等的显见为错误的论断),也会大大减弱模型的小样本学习能力、领域知识的迁移能力和一般知识的归纳能力等等。
27.因此,在利用plm执行下游任务,例如细粒度实体分类任务时,存在从知识图谱中学习知识,以提升分类准确性的需要。在现有技术中,已经出现了知识注入的诸多尝试,例如,将三元组结构的表示形式按照模版转换成自然语句表达,例如《中国,首都,北京》转换为“中国的首都在北京”,并将此条知识文本链接到原始训练文本当中;或是与原始训练语句链接的知识三元组文本一同训练。但此类方法仅仅包含了单个三元组的内部信息,不包括三元组之间的结构信息。
28.本发明的发明人发现,知识图谱中的图结构本身包含了大量有用信息。例如,针对同一个实体的多个关联三元组的结构信息,或是当前三元组中的尾实体作为头实体的其他关联三元组信息的结构信息,相比于单个三元组,或是串接的多个三元组,能够更全面地增
进对实体的理解。
29.在本发明中,使用“知识子图”来描述句子中提及实体所涉及的知识图谱中的三元组子集,并且“知识子图”本身包括实体之间的结构关系。本发明利用“知识子图”来提升细粒度实体分类的准确性。图1示出了使用知识子图进行实体类型分类任务的一个例子。
30.命名实体识别(ner)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。ner是(自然语言理解)nlp中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多nlp任务的重要基础工具。
31.在现今的深度学习领域,传统的面向粗粒度类别的ner由于对实体的刻画不够精确而无法满足需求。在实际应用场景中,往往需要更细粒度的类别来刻画实体,提供更加具体的语义信息,增强指示性,比如篮球员动员和摇滚歌手等。以关系抽取为例,实体的细粒度类别能很大程度暗示实体间候选的关系。实体类别信息越粗,实体间的候选关系就越倾于复杂,相应的关系抽取任务也变得更困难。于是,下游应用催生了细粒度实体分类这个任务。细粒度实体分类(fget,fine-grained entity typing)针对给定候选实体(mention,提及)及其上下文(context),预测可能的类别集合(type)。
32.如图1所示,当前的任务是需要对自然语言句子“margaret mitchell wrote gone with the wind from 1926to 1929.”(中译文可以是:玛格丽特
·
米切尔在1926至1929年之间创作了《乱世佳人》。)中包含的两个实体“margaret mitchell”和“gone with the wind”进行细粒度分类。例如,不仅是将“margaret mitchell”识别为人名,而是进行更细粒度的分类,如图所示的标签为“作者”;类似地,不仅是将“gone with the wind”识别为作品,而是进行更细粒度的分类,如图所示的标签为“小说”。
33.不同于现有技术中仅仅将相关三元组《gone with the wind,author,margaret mitchell》直接拼接为“gone with the wind author margaret mitchell”或是改为“author of gone with the wind is margaret mitchell”的句子,并将如上拼接得到的三元组文本串接在原始自然语言句子之后作为分类输入,本发明将知识子图所包含的内容都送入实体分类模型。具体地,针对句子中涉及的两个实体“margaret mitchell”和“gone with the wind”,可以分别选择多个三元组,并将三元组之间的相互关系构造成图结构送入实体分类模型。
34.具体地,针对实体“gone with the wind”,同样选择了三个三元组:《gone with the wind,author,margaret mitchell(乱世佳人,作者,玛格丽特
·
米切尔)》;《gone with the wind,is a,novel(乱世佳人,是一本,小说)》;《gone with the wind,heroine,atlanta(乱世佳人,女主角,斯嘉丽
·
奥哈拉)》。针对实体“margaret mitchell”,选择了两个三元组:《margaret mitchell,occupation,novelist(玛格丽特
·
米切尔,职业,小说家)》;《margaret mitchell,born in,atlanta(玛格丽特
·
米切尔,出生地,亚特兰大)》。在此选择的是以当前实体为头实体的三元组。
35.在利用本发明进行实体分类时,可以针对该知识子图构造出一个图结构,并利用该图结构中所包含的信息,帮助分类模型进行准确分类。例如,相比于拼接的三元组信息,知识子图中针对玛格丽特
·
米切尔职业的三元组以及针对乱世佳人是什么作品的描述,使得分类模型能够更容易判断出在这个句子中,“gone with the wind”是“小说”,而非(同样出名的)电影。
36.如下,将结合图2和图3,描述本发明基于图结构进行知识注入的实体分类方法的详细实现。
37.图2示出了根据本发明一个实施例的基于知识注入的细粒度实体分类方法的示意性流程图。
38.在步骤s210,将句子、所述句子提及实体以及所述提及实体的知识图谱三元组相关信息送入句子级编码器。
39.在一个实施例中,可以将所述句子包含的每个单词信息送入句子级编码器。在此,对于诸如英文的句子输入,单词可以是句子中每一个“word(单词)”;而对于诸如中文的句子输入,单词可以是句子中的每一个字。换句话说,在本发明中,使用“单词”来表示句子的基本组成单元。送入句子级编码器的单词信息可以是单词嵌入,为此本发明的分类方法还包括将所述句子送入预训练语言模型,并将所述预训练语言模型输出的单词嵌入作为所述单词信息。
40.相应地,可以将所述句子提及实体的实体嵌入作为实体信息送入句子级编码器。此时,本发明的分类方法还可以包括将所述提及实体送入预训练知识嵌入矩阵,并将所述预训练知识嵌入矩阵输出的实体嵌入作为所述提及实体信息。
41.而对于提及实体的知识图谱三元组相关信息,在一个优选实施例中,可以选择三元组中的“关系”作为提及实体的知识图谱三元组相关信息,并且可以计算所述知识图谱三元组中的头实体和尾实体的实体嵌入作为所述关系信息。在一个优选实施例中,所述句子提及实体的知识图谱三元组是以所述提及实体作为头实体的三元组,所述关系是提及实体作为头实体的三元组的关系。例如,针对实体“margaret mitchell”,选择图中以“margaret mitchell”为头实体的两个三元组,关系信息则来源于这两个三元组中各自的关系,即“occupation”和“born in”。只使用头实体可以避免引入额外实体,一定程度上避免噪声。通过头实体选择关系则可以利用关系增强实体的信息,通常说来基于头实体选择的关系会比基于尾实体选择的关系可以更直观的描述实体。在一个实施例中,可以为一个实体选择多个三元组,例如,以该实体作为头实体的全部三元组(只要三元组数量不大于预定阈值)。
42.由此,步骤s210可以对应于将句子包含的单词嵌入、提及实体的实体嵌入以及所述提及实体的多个知识图谱三元组的关系嵌入送入所述句子级编码器。进一步地,将句子和所述句子提及实体的知识图谱三元组相关信息送入句子级编码器包括:使用类型嵌入矩阵区分所述单词嵌入、所述实体嵌入和所述关系嵌入;以及使用起始符号和分割符号串接所述单词嵌入、所述实体嵌入和所述关系嵌入,并使用特殊符号标记所述目标短语。由此,最终将基于符号串接的序列送入句子级编码器。
43.在步骤s220,将所述句子级编码器输出的所述句子包含单词的特征表示、提及实体的特征表示和三元组相关信息的特征表示构造成图结构,并送入图级编码器。具体地,可以将所述单词的特征表示、所述提及实体的特征表示和关系的特征表示分别作为所述图结构的单词节点、实体节点和关系节点,其中,所述三元组相关信息的特征表示包括所述三元组的所述关系的特征表示;以及连接单词节点和相关实体节点,并且连接实体节点和相关关系节点,以构造所述图结构的边。在一个优选实施例中,可以使用正向边表征从单词节点到相关实体节点的连接,以及从实体节点到相关关系节点的连接;以及向所述图结构添加与所述正向边方向相反的反向边,其中,所述正向边和所述反向边具有可训练的权重(对应
于如下应用例中的可训练矩阵和)。在正向边连接中,由于边的指向为单词节点指向实体节点,实体节点指向关系节点,因此在模型计算时,单词节点能够对实体节点产生影响,实体节点能够对关系节点产生影响。而通过引入反向边,即,边的指向为实体节点指向单词节点,关系节点指向实体节点,因此在模型计算时,实体节点同样能够对单词节点产生影响,关系节点能够对实体节点产生影响。另外,由于边的权重可调,使得模型能够从知识子图中有区别地学习到更重要的关系。
44.随后,在步骤s230,将基于所述图级编码器输出的句子特征表示送入实体分类模型,用于对句子中的目标短语进行细粒度实体分类。在训练阶段,除了实体分类模型基于句子特征表示对句子中的目标短语进行细粒度实体分类的主要任务之外,还可以将基于所述图级编码器输出的实体特征和关系特征预测细粒度实体分类类别作为所述实体分类模型的辅助训练任务,由此使得句子级编码器和图级编码器关注不同类型的特征。
45.由此,本发明公开了一种基于序列结构和图结构的多任务知识嵌入实体分类方法。首先,以顺序编码的方式将知识库中的事实知识注入句子中,然后将它们传入句子级编码器,基于序列结构对实体进行编码。其次,为了更好地学习知识图中结构化信息,利用事实知识和句子构建图结构,并基于图神经网络(gnn)在图级编码器中对其进行编码。最后,利用实体分类模型(例如,如下应用例中的多任务框架ke-sgl)共同学习句子中和知识图中的实体表示。该方法利用知识库中的实体和关系将事实知识嵌入到句子中,增强句子中的实体表示,尤其适用于在自然语言理解任务中的应用。
46.应用例
47.为了加深对本发明的发明原理的理解。如下将结合图3描述本发明基于序列结构和图结构的多任务知识嵌入实体分类方法的具体实现。
48.图3示出了根据本发明的基于知识注入的实体分类方法的一个具体实现例的示意图。
49.为了方便说明,对如下提及的符号做出说明。
50.对于具有ns单词的句子其中第m个提及实体表示为句子相关的知识图表示为其中ng表示三元组数量,eh和e
t
分别表示头实体和尾实体,r表示关系。实体分类的目标是基于g和s,识别句子s中目标短语t(实体)的类型如下所示:
[0051][0052]
参见图3,本发明的实体分类方案主要分为三个模块:
[0053]
(1)基于序列结构的知识注入,将句子知识和图知识按顺序编码(左下);
[0054]
(2)图结构知识注入,将所有知识以图的形式进行编码(左上);以及
[0055]
(3)多任务学习框架,共同学习知识嵌入(右侧)。
[0056]
1.基于序列结构的知识注入
[0057]
首先在句子层面以顺序编码的方式注入知识,丰富句子的语义信息。句子级编码器的输入包括句子单词、提到的实体以及知识子图中包含的关系。上述实体是在预处理阶段生成的。可以采用标记(token)嵌入(embedding)矩阵(基于预训练语言模型robertα的词
嵌入)来获取句子中单词的单词嵌入表示,并且利用图形(graph)嵌入矩阵(一个经过预训练的知识嵌入矩阵)来获取知识库中的实体和关系各自的嵌入表示。
[0058]
如图3左下所示,分类嵌入中的单词在送入标记嵌入矩阵后得到的表示为实体送入图形嵌入矩阵后得到的实体嵌入表示为关系嵌入则可根据知识图谱中相关三元组的头实体和尾实的实体嵌入计算得到的:
[0059][0060]
其中ns是句子s分词后的长度,ne是实体数量,nr是关系数量,是g的子集,表示具有关系ri的三元组的数量。
[0061]“margaret mitchell wrote gone with the wind from 1926 to 1929.”这一自然语言句子所对应的ns=12(数字“1926”和“1929”以及句号“.”都被计入)。该句子中的目标实体t包括“margaret mitchell”和“gone with the wind”,因此ne=2。在使用图1上部所示的知识子图进行知识注入时,涉及五个以“margaret mitchell”和“gone with the wind”为头实体的三元组,并且对应于头实体“margaret mitchell”的关系为“occupation(职业)”和“born in(出生地)”,对应于头实体“gone with the wind”的关系为“is a(是)”、“author(作者)”和“heroine(女主角)”。
[0062]
由于不同数据类型的输入是异构的,因此可以采用一个类型(type)嵌入矩阵来区分单词、实体和关系,该类型嵌入矩阵也可以是由robertα初始化的。随后,可以在句子开头使用一个起始符号[cls],在句子、实体和关系之间使用分割符号[sep],并且在目标短语t的前后分别增加特殊符号[ent]和[/ent](其中[ent]的特征将在最后作为实体分类的特征)。将所有的输入内容以顺序的方式串联起来,得到如下表示作为句子级编码器的输入:
[0063]
[cls]句子[sep]实体[sep]关系[sep]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0064]
句子级编码器可以采用transformer(变压器)架构,以联合计算单词、提及实体和关系的表示。在编码后,句子包括的单词、提及实体和关系相互可见,并且得到如下表示:
[0065][0066]
其中l=ns+ne+nrd表示每个标记(token)的特征维度。基于序列结构的知识注入融合了句子上下文和外部事实知识,从而丰富了句子中符号的语义信息。
[0067]
2.图结构知识注入
[0068]
将句子和知识按顺序进行连接和编码,可以丰富语义信息,但忽略了知识图中丰富的结构信息。为了解决这个问题,在生成句子级知识嵌入后,可以将句子的单词、提及实体和知识库关系构造为一个图(v,γ),将它们作为节点v,并用边进行连接。具体地,对于γ,存在有两种边,一种连接句子的词节点和知识库的实体节点(具体地,从单词节点指向实体节点的边),另一种连接知识库中的实体和关系(从实体节点指向关系节点的边)。
[0069]
应该理解,用于构造图结构的单词嵌入仅仅对应的是自然语言句子中涉及实体的
单词,而不包括实体词之外的其他单词。例如,在图1给出的句子“margaret mitchell wrote gone with the wind from 1926to 1929.”的例子中,如图3左上的图结构中的仅仅对应于组成实体的单词“margaret”、“mitchell”、“gone”、“with”、“the”、“wind”,并不包括自然语句中的“wrote”、“from”和“to”。可以与其对应的实体嵌入相连,例如,对应于“margaret”和“mitchell”的两个单词节点可以连接对应于“margaret mitchell”的实体节点对应于“margaret mitchell”的实体节点又可以与相关的关系节点例如“born in”和“occupation”相连。
[0070]
为了将知识结构信息注入到知识嵌入中,可以使用基于gnn的图级编码器对生成的图进行编码(该实施例中同时使用了正向边和反向边进行图的构造):
[0071][0072]
其中和是可训练的矩阵,和分别对应于正向边和反向边,它们可以是随机初始化的。vj表示和节点i相连的节点j的集合。*表示元素乘积运算。可以基于序列结构知识注入模块的输出对嵌入的gnn节点进行初始化。具体地,正向边表征从单词节点到相关实体节点的连接,以及从实体节点到相关关系节点的连接;反向边的方向则与正向边相反。在正向边连接中,由于边的指向为单词节点指向实体节点,实体节点指向关系节点,因此在模型计算时,单词节点能够对实体节点产生影响,实体节点能够对关系节点产生影响。而通过引入反向边,即,边的指向为实体节点指向单词节点,关系节点指向实体节点,因此在模型计算时,实体节点同样能够对单词节点产生影响,关系节点能够对实体节点产生影响。正向边和所述反向边具有可训练的权重(对应于可训练矩阵和),由于边的权重可调,使得模型能够从知识子图中有区别地学习到更重要的关系。
[0073]
图结构知识注入模块通过事实知识进一步增强句子中词的表示。知识图的结构化信息通过单词节点和实体节点之间的边注入到单词标记(token)中。同时,知识图谱中的实体特征和关系特征也被连接起来,间接影响到单词标记的特征表示。图结构知识注入模块的结果将被送入多任务框架进行实体分类。
[0074]
在句子级和图级知识注入之后,即,在图级编码器的输出处,可以获取知识增强的句子表示以及自然语言增强的知识表示这些表示将在随后用于如下多任务框架中的句子级任务和图级任务。
[0075]
3.多任务学习框架
[0076]
本发明的细粒度实体分类模型可以实现为一个多任务学习空间。为了使句子级编码器和图级编码器能够关注不同的类型的特征,可以额外基于知识图中实体设计了一个辅助任务(知识图级任务),用于与实体分类任务(句子级任务)联合训练。如图3右侧所示,句
子级任务用于对句子中目标词短语的实体类型进行分类;知识图级任务作为一种辅助任务,目的是对句子提及实体对应的知识库中的实体表示进行分类。两个任务通过加权的方式联合训练,最终在句子级任务上评估模型的语言表示能力。
[0077]
具体地,对于句子级任务,可以使用序列结构知识注入模块和图结构知识注入模块后的知识增强句子特征表示对句子中目标短语t进行分类。这是本发明的ke-sgl模型的主任务。可以提取特殊标记[ent]的特征表示作为实体短语特征,由表示并用于实体类型分类每一个实体类型的概率值可以如下计算:
[0078][0079]
其中linear(
·
)表示一个线性层,σ(.)表示sigmoid函数。
[0080]
在图3的例子中,特殊标记被实体分类模型计算进行分类,例如,判定哪一个或是哪一些标签为真。
[0081]
对于作为辅助任务的知识图级任务旨在在外部知识库中识别提及实体的类型。可以求取实体及其关系的特征表示和并如下预测标签:
[0082][0083]
其中n
′r表示与实体相关联的关系的数量。
[0084]
在图3的例子中,和的连接关系表示被实体分类模型计算进行分类,例如,判定哪一个或是哪一些标签为真。
[0085]
可以利用二元交叉熵损失对句子级任务和图级任务进行联合优化,最终损失函数为:
[0086][0087]
其中λ∈[0,1]作为一个权重因子,用于控制句子级损失和图级损失的比例。由此,本发明的ke-sgl模型针对实体分类任务获得了知识增强的单词特征表示。
[0088]
为此,本发明还可以实现为一种基于知识注入的交互系统。图4示出了本发明训练得到的细粒度分类系统用于实际交互的一个例子。
[0089]
具体地,一种基于知识注入的交互系统,包括:用户输入接收单元,用于获取用户输入的特定领域相关问询;问题匹配单元,使用如上所述的方法对所述关问询中包含的实体进行细粒度分类,并根据所述细粒度分类生成反馈;以及反馈提供单元,用于将生成的反馈提供给所述用户。
[0090]
具体地,可以训练如上所述的句子级编码器(图3左下)、图级编码器(图3左上)和细粒度实体分类模型(图3右侧)作为实现本发明细粒度实体分类方法的总的“实体分类”模型,并由交互系统用于对用户输入内容中所包含的实体进行细粒度分类。
[0091]
图5示出了根据本发明一实施例可用于实现上述基于知识注入的细粒度实体方法的计算设备的结构示意图。
[0092]
参见图5,计算设备500包括存储器510和处理器520。
[0093]
处理器520可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,
处理器520可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中,处理器520可以使用定制的电路实现,例如特定用途集成电路(asic)或者现场可编程逻辑门阵列(fpga)。
[0094]
存储器510可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器510可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器510可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0095]
存储器510上存储有可执行代码,当可执行代码被处理器520处理时,可以使处理器520执行上文述及的基于知识注入的细粒度实体方法。
[0096]
上文中已经参考附图详细描述了根据本发明的基于知识注入的细粒度实体方法和使用该方法的交互系统。
[0097]
现有技术通常结合句子上下文语境和知识图中事实知识对实体类型进行预测,并且仅使用知识图中的实体作为额外的知识数据,然而这些工作忽视了知识图中的结构化信息。针对这一问题,本方案在以知识图谱作为补充的事实知识时,不仅考虑到了实体和关系,而且使用了知识子图中的结构化信息。具体地,本方案提出一种基于序列结构和图结构的多任务知识嵌入实体分类方法,首先通过序列结构编码句子上下文以及知识图中的实体和关系,而后采用图结构来融合知识图中的结构化信息,最后基于多任务学习策略对两种结构的编码同时进行优化。该方案可以有效对句子中的实体注入事实知识。
[0098]
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
[0099]
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
[0100]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
[0101]
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的
逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0102]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1