一种基于多特征语义树核的关系抽取方法和信息检索方法

文档序号:8380955阅读:187来源:国知局
一种基于多特征语义树核的关系抽取方法和信息检索方法
【技术领域】
[0001] 本发明涉及一种关系抽取方法,特别是涉及一种基于多特征语义树核的关系抽取 方法,以及应用该方法对互联网网中文本信息进行检索的方法,属于自然语言处理技术领 域。
【背景技术】
[0002] 近年来,随着Web2.0的发展,互联网上涌现出越来越多的非结构化文本信息。如 何挖掘这些文本中的信息并构建智能信息服务是一项有重要意义的工作。通过从非结构化 的文本中抽取出用户感兴趣的知识,关系抽取是实现上述目标的关键技术之一。
[0003] 另一方面,语义知识是自然语言理解的基石,是实现文本各个层面智能分析的基 础,其核心是概念与概念之间的语义关系。由于人工编写方法受制于专家构建的时间,低估 了语义知识的复杂性和规模,大规模语义知识的缺乏一直是高性能自然语言处理的关键瓶 颈。为此如何利用自动的关系抽取技术获取海量的语义知识也是自然语言处理技术实用化 的重要因素之一。
[0004] 综上,构建智能信息服务的核心之一是知识获取和自然语言理解,而关系抽取是 提供自然语言理解基础知识的一项关键技术。
[0005] 由于自然语言表达的多样性和歧义性,关系抽取需要结合关系表述的句法结构特 征和内容特征进行综合判断。现有的关系抽取方法分为两种:一种是基于浅层特征的分类 方法,一种是基于树核的分类方法。然而,上述两种方法都存在一定的不足,它们都不能在 一个统一的框架下表示和利用关系表述的句法结构特征和内容特征:其中基于浅层特征的 分类方法只能捕捉内容特征,而基于树核的分类方法只能捕捉关系表述的句法结构。

【发明内容】

[0006] 为克服现有关系抽取技术在统一表示和利用关系表述句法结构和内容特征方面 的不足,本发明主要提供了一种基于多特征语义树核的关系抽取方法,采用统一的框架来 表示关系表述的句法结构和内容特征,可结合关系表述的句法结构和内容特征进行综合判 断。
[0007] 本发明所采用的技术方案如下:
[0008] -种基于多特征语义树核的关系抽取方法,其步骤包括:
[0009] 1)在句法分析树的每一个节点处加入用于表示内容特征的特征向量,以统一表示 关系表述的句法结构特征和内容特征;
[0010] 2)对句法分析树中的每一个树节点,抽取表示其内容特性的一系列特征,并将该 一系列特征加入到树节点的特征向量中,从而形成多特征扩展句法分析树;
[0011] 3)基于所述多特征扩展句法分析树构建多特征语义树核,通过该多特征语义树核 综合利用句法结构特征和内容特征计算不同句法分析树之间的相似度,得到可靠的关系抽 取结果。
[0012] 进一步地,步骤1)使用通用句法分析器对关系表述文本进行句法分析得到所述句 法分析树。
[0013] 进一步地,步骤1)所述多特征扩展句法分析树,其中每一个节点被扩展表示为: _4] Rn = (Ln, Fn),
[0015] 其中,Rn是多特征扩展句法分析树中的节点η的多特征表示,Ln是节点η的句法 树标签;F n是节点η的内容特征向量。该多特征扩展句法分析树表示实现了关系表述句法 结构和内容特征的高效统一表示:其中树结构表示了句法结构,而节点的特征向量表示了 内容特征。
【主权项】
1. 一种基于多特征语义树核的关系抽取方法,其步骤包括: 1) 在句法分析树的每一个节点处加入用于表示内容特征的特征向量,以统一表示关系 表述的句法结构特征和内容特征; 2) 对句法分析树中的每一个树节点,抽取表示其内容特性的一系列特征,并将该一系 列特征加入到树节点的特征向量中,从而形成多特征扩展句法分析树; 3) 基于所述多特征扩展句法分析树构建多特征语义树核,通过该多特征语义树核综合 利用句法结构特征和内容特征计算不同句法分析树之间的相似度,得到可靠的关系抽取结 果。
2. 如权利要求1所述的方法,其特征在于:所述多特征扩展句法分析树中每一个节点 被扩展表示为: Rn= (Ln,Fn), 其中,Rn是多特征扩展句法分析树中的节点n的多特征表示,Ln是节点n的句法树标 签,Fn是节点n的内容特征向量。
3. 如权利要求2所述的方法,其特征在于:所述多特征语义树核综合考虑不同多特征 扩展句法分析树之间的句法结构相似度和内容相似度,并采用如下公式计算相似度:
其中,和T2是待比较的多特征扩展句法分析树,h和t2是和T2的子树,kh,t2) 是子树h和t2之间的相似度。
4. 如权利要求3所述的方法,其特征在于:所述子树h和t2之间的相似度k(怀t2)的 采用如下公式计算:
其中,S(tl,t2)是表征心和t2是否有相同句法结构的指示函数,Eh,t2)是子树心 和t2的所有对齐节点对;sim(叫,n」)是对齐节点叫和n」之间的相似度,由其特征向量的内 积决定。
5. 如权利要求1所述的方法,其特征在于:给定训练语料,通过所述多特征语义树核计 算训练实例之间的相似度,并基于该相似度及支持向量机训练算法构建支持向量机关系分 类器;然后计算测试实例与训练实例之间的多特征语义树核相似度,并基于该相似度使用 支撑向量机对测试实例进行分类,从而得到可靠的关系抽取结果。
6. 如权利要求5所述的方法,其特征在于,构建所述支持向量机的方法为: a) 对多特征扩展句法分析树进行编程实现,实现句法分析树与其文本表示之间的转换 接口; b) 面向特定通用支持向量机软件,基于其扩展接口编程实现多特征语义树核; c) 使用特定通用支持向量机软件及多特征扩展句法分析树的表示进行训练得到最终 的支持向量机模型。
7. 如权利要求5所述的方法,其特征在于,所述构建支持向量机关系分类器的方法为: a) 给定需要抽取的关系类别,标注一定数量的关系表述实例; b) 对关系表述实例进行分析得到多特征扩展句法分析树; C)面向需要抽取的关系类别,训练对应的支持向量机模型; d)构建支持向量机模型分类结果到关系类别的映射工具。
8. 如权利要求5所述的方法,其特征在于,所述对测试实例进行分类的方法为: a) 对每一个测试实例,使用通用句法分析器对其进行句法分析,对句法树中的每一个 节点进行特征抽取,得到多特征扩展句法分析树表示; b) 使用基于训练语料训练得到的支持向量机模型对测试实例的句法分析树进行分 类; c) 选择具有最大分类概率的关系类别作为测试实例的关系类别。
9. 一种采用权利要求1所述方法的文本信息检索方法,其步骤包括: 1) 采用权利要求1所述方法对互联网上的文本信息进行关系抽取,将其将转换为计算 机可处理的知识; 2) 采用权利要求1所述方法对用户输入的查询信息进行关系抽取,将用户的信息需求 转换为特定关系的查询,进而根据经步骤1)处理的互联网上的文本信息返回查询结果。
【专利摘要】本发明公开一种基于多特征语义树核的关系抽取方法,以及应用该方法进行文本信息检索的方法,属于自然语言处理技术领域。该关系抽取方法主要包含:面向句法分析树关系表述表示的特征扩展机制;基于上述特征扩展机制的句法树内容特征扩展;融合内容特征和句法分析树结构特征的多特征语义树核。面向句法分析树的特征扩展机制将特定关系表述的句法结构和内容特征置于统一的表示框架之中进行表示。句法树特征扩展将关系表述的重要语义信息和内容信息融入到句法树表示中。多特征语义树核提供了一种有效和高性能的算法,可综合关系表述的句法结构和内容特征进行综合判断。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104699695
【申请号】CN201310652675
【发明人】韩先培, 孙乐
【申请人】中国科学院软件研究所
【公开日】2015年6月10日
【申请日】2013年12月5日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1