一种人物关系抽取方法和装置制造方法

文档序号:6625361阅读:1066来源:国知局
一种人物关系抽取方法和装置制造方法
【专利摘要】本发明公开了一种人物关系抽取方法和装置,该方法包括:确定待抽取的人物关系的基本模式,对人物关系的基本模式进行人称代词的泛化得到泛化模式;在语料库中匹配满足泛化模式的人物关系;在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,不仅限于基本模式的人物关系的抽取,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。
【专利说明】一种人物关系抽取方法和装置

【技术领域】
[0001]本申请涉及自然语言处理【技术领域】,尤其是涉及一种人物关系抽取方法和装置。

【背景技术】
[0002]随着互联网技术的发展,尤其是基于互联网的各种社交媒体的发展。目前针对社会关系网络的研究已逐渐成为当下的热点,各种互联网产品对人物间的关系信息的需求不断增加。尤其是构建社会关系网络时,人物之间的关系的抽取则成为其构建的首要基础。
[0003]人物关系抽取是一种重要的知识获取手段,是指从自然语言文本中提取出两个人物实体之间所存在的语义关系,如从句子“国务院总理李鹏和夫人朱琳昨天下午在这里亲切会见了某某”中,能够确定两个人物实体“李鹏”和“朱琳”,其中,“李鹏和夫人朱琳”为人物关系的基本模式,能够从两者之间抽取一对夫妻关系“Husband (丈夫)一Wife (妻子)”。
[0004]基于此,当面对越来越丰富的互联网资源,如何能够在面对海量文本资源时,抽取丰富的人物关系,并提闻人物关系抽取的效率,是现有技术中亟待解决的问题。


【发明内容】

[0005]本申请公开了一种人物关系抽取方法和装置,以达到在海量文本资源中抽取丰富的人物关系,提高人物关系抽取效率的目的。
[0006]为解决上述技术问题,本申请公开了一种人物关系抽取方法,该方法包括:
[0007]确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
[0008]对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
[0009]在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
[0010]在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
[0011]抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
[0012]优选的,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,包括:
[0013]利用人称代词替换所述人物关系的基本模式中位于前端的人名,得到所述人物关系的泛化模式;
[0014]其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组口 ο
[0015]优选的,所述在所述语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,包括:
[0016]确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
[0017]按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系;
[0018]获取匹配满足所述泛化模式的人物关系所在的句子;
[0019]以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
[0020]对保留的句子进行人物实体识别,得到所述保留的句子中的人名;
[0021]根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信肩、O
[0022]优选的,所述在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名,包括:
[0023]在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
[0024]查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
[0025]在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;
[0026]若是,则标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
[0027]若否,则将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
[0028]优选的,所述将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名,包括:
[0029]基于位于基准句子的上一个句子判断所述待消解代词是否位于该句子中所包含的人名之后或是否该句子中只有人名;
[0030]如果是,则查找所述基准句子的上一个句子中的话题中心关键字,并将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名;
[0031]若否,则再向上查找位于基准句子上方的第二个句子中的话题中心关键字,若所述话题中心关键字为所述待消解代词所指代的人名,则将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
[0032]优选的,所述话题中心关键字的获取过程包括:
[0033]获取根据依存句法分析所述指代消解范围中保留的句子后得到的所述保留的句子内的相应的依存句法信息;
[0034]针对每一个句子中相应的依存句法信息中的依存关系类型查找所述每一个句子的语句成分,所述语句成分至少包括主语核心词语和宾语核心词语;
[0035]查找所述每一个句子中位于所述语句成分中的人名;
[0036]对所述每一个句子中的同一类型语句成分中的多个人名,按照距离依存根结点的词汇长短进行排序,确定所述距离最短的人名为所在句子的话题中心关键字;
[0037]其中,所述依存根结点的词汇为每一个句子中的目的词汇。
[0038]一种人物关系抽取装置,包括:
[0039]确定单元,用于确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
[0040]泛化单元,用于对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
[0041]模式匹配单元,用于在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
[0042]指代消解单元,用于在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
[0043]人物关系抽取单元,用于抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
[0044]优选的,所述泛化单元包括:
[0045]替换模块,用于利用人称代词替换所述人物关系的基本模式中位于前端的人名,得到所述人物关系的泛化模式;
[0046]其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组入口 ο
[0047]优选的,所述模式匹配单元包括:
[0048]第一确定模块,用于确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
[0049]匹配模块,用于按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系;
[0050]第二获取模块,用于获取匹配满足所述泛化模式的人物关系所在的句子;
[0051]第二确定模块,以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
[0052]第三获取模块,用于对保留的句子进行人物实体识别,得到所述保留的句子中的人名;
[0053]依存句法分析模块,用于根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
[0054]优选的,所述指代消解单元包括:
[0055]第三确定模块,用于在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
[0056]第二查找模块,用于查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
[0057]判断模块,用于在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;若是,则执行第一标记模块,若否,则执行第二标记模块;
[0058]第一标记模块,用于标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
[0059]第二标记模块,用于将依据在所述指代消解范围内查找到的话题中心所指代的人名标记为所述待消解代词所指向的第一人名。
[0060]经由上述的技术方案可知,与现有技术相比,本申请公开的一种人物关系抽取方法和装置,通过确定待抽取的人物关系的基本模式,对人物关系的基本模式进行人称代词的泛化得到泛化模式;在语料库中匹配满足泛化模式的人物关系;在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。

【专利附图】

【附图说明】
[0061]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0062]图1为本申请实施例一公开的一种人物关系抽取方法的流程图;
[0063]图2为本申请实施例二公开的一种人物关系抽取方法的部分流程图;
[0064]图3为本申请实施例二公开的一种人物关系抽取方法的部分流程图;
[0065]图4为本申请实施例二公开的一种人物关系抽取方法的部分流程图。

【具体实施方式】
[0066]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0067]本申请的目的在于:通过采用泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过将模式匹配与指代消解技术相结合,使得在面对海量文本资源时,也可以抽取出基于单纯的模式匹配而无法捕获到的人物关系,从而提升人物关系抽取的性能和效率。本申请通过以下实施例进行详细的说明。
[0068]实施例一
[0069]如图1所示,本申请公开了一种从大规模文本中抽取人物关系的抽取方法,主要包括以下步骤:
[0070]步骤S101,确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;
[0071]人们在语言表述中常常会运用大量的关系模式来描述人物之间的关系,传统的人物关系抽取方法基于的是基本模式对文本进行匹配,从而获得相应的人物关系。其中,现有的基本模式为描述人物之间社会关系的字符串模式,如“〈Husband〉的妻子〈Wife〉”、“〈Husband〉和夫人〈Wife〉”、“〈Parent〉的儿子〈Child〉”等,其中〈…〉内的为相应的关系角色。
[0072]如表示夫妻关系的基本模式“〈Husband〉的妻子〈Wife〉”。例如使用该基本模式对语料“飞行员王伟的妻子阮国琴,今天接受了记者的采访。”以及,“机分队助理工程师王义德的妻子佐茹说……”进行匹配,可获取两对表示夫妻关系的人物“王伟——阮国琴,”、“王义德——佐茹”。
[0073]如“袁家倜的儿子丁松对袁家骝印象最深的是他的敬业精神。”这一例句中包含有一对表示“Parent-Child”人物关系的短语“袁家倜的儿子丁松”,从中可以得到一个表示该人物关系的基本模式“〈Parent〉的儿子〈Child〉”,其中“的儿子”为模式关键词。类似的模式还有“〈Husband〉的妻子〈Wife〉”、“〈Husband〉和夫人 <Wife>”、“〈Parent> 的女儿〈Child〉” 等。
[0074]在步骤SlOl中提到的所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串;基于上述基本模式的例子“〈Husband〉的妻子〈Wife〉”、“〈Husband〉和夫人〈Wife〉”,其中,“〈Husband〉的妻子〈Wife〉”、“〈Husband〉和夫人〈Wife〉”则都是表述为夫妻关系的字符串,同时,“〈Wife〉的丈夫〈Husband〉”也同样是属于表述为夫妻关系的字符串。因此,对于一个人物关系其对应的基本模式中可包含多种语义表述相同的字符串。
[0075]在执行步骤SlOl的过程中,由计算机或其他可进行分析的硬件读取待抽取的人物关系的基本模式。
[0076]步骤S102,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式;
[0077]例如,所述基本模式的人物关系为“〈Husband〉的妻子〈Wife〉”,基于此,对该人物关系中位于前端的人名进行人称代词的泛化,若人称代词为他,则具体得到泛化模式为“他的妻子〈Wife〉”,结合步骤SlOl中给出的基本模式中多种语义表述相同的字符串,该泛化模式根据不同的人称代词具有多种扩展模式。
[0078]该拓展模式为将基本模式中的首个人物使用人称代词进行替换后,泛化得到的模式,如“他的妻子〈Wife〉”、“他和夫人〈Wife〉”、“她的儿子〈Son〉”等。
[0079]步骤S103,在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子;
[0080]在步骤S103中,对文本的语料库中进行匹配,匹配到满足所述泛化模式的人物关系条件的句子,并将该句子本身,以及位于所述句子上方的两个句子所构成的范围确定为指代消解范围。
[0081]例如,在某一文本的语料库中进行匹配,得到满足所述泛化模式的人物关系“她的父亲〈Father〉”这一条件的所有句子;以一个满足条件的句子“德国名将史.格拉夫去监狱探望了她的父亲彼得.格拉夫。”为例,将该句子以及该句子上方的两个句子构成的语句范围确定为指代消解范围。其他满足条件的句子也采用该种方式确定指代消解范围。
[0082]步骤S104,在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名;
[0083]该步骤S104实际上是在确定的指代消解范围内执行指代消解。该指代消解为:将泛化模式中的人称代词替换为其所指代的人名。其中,如果要替换的人称代词指代的人名与该人称代词位于同一个句子内,且如果某个人名先于该人称代词,那么该句中的人称代词应指向本句内的某个人物,即其符合句内指代消解情况为句内消解;如果要替换的人称代词指代的人名未位于同一个句子中,则为句间消解。
[0084]基于例句“德国名将史.格拉夫去监狱探望了她的父亲彼得.格拉夫。”说明,其所述泛化模式中“她的父亲”的人称代词“她”所指向的第一人名为史.格拉夫。
[0085]在本步骤S104中的第一人名中的“第一”仅用于与其他非人称代词指代的人名进行区别。
[0086]步骤S105,抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
[0087]在步骤S105中,按照泛化后的模式抽取出待消解代词所指代的人名和位于泛化模式后端的人名,即构成人物关系实例。至此,已完成人物关系抽取的所有过程。基于上述例句“德国名将史.格拉夫去监狱探望了她的父亲彼得?格拉夫。”说明,抽取步骤S104确定的第一人名“史.格拉夫”,再抽取第一人名“史.格拉夫”对应的泛化模式的人物关系“她的父亲”后端的第二人名“彼得.格拉夫”,即得到第一人名“史.格拉夫”和第二人名“彼得.格拉夫”的人物关系为父女关系。
[0088]本申请实施例通过采用泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过将模式匹配与指代消解技术相结合,使得在面对海量文本资源时,可以抽取出基于单纯的模式匹配而无法捕获到的人物关系,从而提升人物关系抽取的性能和效率。
[0089]实施例二
[0090]在上述本申请实施例一公开的从大规模文本中抽取人物关系的抽取方法的基础上,步骤S102,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式的过程主要包括以下步骤:
[0091]步骤S201,利用人称代词替换所述人物关系中位于前端的人名,得到所述人物关系的泛化模式;
[0092]其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组口 ο
[0093]本申请使用了常见的单数人称代词进行泛化,其中包括“我、你、您、他、她、自己、它”等。如基本模式“〈Parent〉的儿子〈Child〉”,用人称代词进行泛化后,可以拓展为“我的儿子〈Child〉”、“你的儿子〈Child〉”、“他的儿子〈Child〉”等。
[0094]具体执行步骤S201的过程,举例说明。如,所述基本模式中的语义表述相同的多种字符串包括:“〈Husband〉的妻子〈Wife〉”、“〈Husband〉和夫人〈Wife〉”,基于此,利用人称代词“他”替换人物关系中位于前端的人名后,获得的扩展模式为“他的妻子〈Wife〉”,“他和妻子〈Wife〉”。
[0095]基于上述本申请实施例一公开的从大规模文本中抽取人物关系的抽取方法的基础上,步骤S103,所述在所述语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围的过程如图2所示,主要包括以下步骤:
[0096]步骤S301,确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成;
[0097]在步骤S301中提到的模式关键字的结构如“他的妻子〈Wife〉”。需要说明的是,若泛化模式中表述人物关系的字符串为“的朋友〈Friend〉”基于上述步骤201,根据人称代词的不同,该人物关系“的朋友〈Friend〉”的泛化模式可以为“她的朋友〈Friend〉”,“他的朋友〈Friend〉”等等。基于此例子,步骤S301中确定的所述泛化模式中的模式关键词则包括“她的朋友〈Friend〉”,“他的朋友〈Friend〉”。也就是说,根据步骤201中给出的人称代词的不同,此处基于一种人物关系即可得到多个模式关键词。
[0098]步骤S302,按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系,获取匹配满足所述泛化模式的人物关系所在的句子;
[0099]对文本的语料库中进行匹配,匹配到满足所述泛化模式的人物关系条件的句子。匹配句子是指使用泛化后的泛化模式在文本的语料库中进行字符串匹配。如使用泛化模式“她的父亲〈Parent〉”,匹配时使用模式关键词“她的父亲”可以匹配到句子“德国名将史?格拉夫去监狱探望了她的父亲彼得?格拉夫。”例如,在某一文本的语料库中进行匹配,得到满足所述泛化模式的人物关系“他的妻子〈Wife〉”这一条件的所有句子,可以匹配到句子“机分队助理工程师王义德的妻子佐茹”,“飞行员李伟的妻子阮琴”等等。
[0100]步骤S303,以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围;
[0101]在步骤S303中,保留匹配得到的句子,将该句子作为基准句子,同时保留该句子上文中的两句(共3句)作为指代消解范围;为后续的指代消解做准备。
[0102]步骤S304,对保留的句子进行人物实体识别,得到所述保留的句子中的人名;
[0103]在步骤S304中对保留的句子进行人物实体识别。如上述例句“德国名将史?格拉夫去监狱探望了她的父亲彼得?格拉夫。”经过人物实体识别后可以得到两个人名“史?格拉夫”和“彼得.格拉夫”。
[0104]步骤S305,根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法息。
[0105]依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。在步骤S305中,依存句法分析指对于给定的句子,确定词语之间的依存关系,以此来揭示句子的语法结构。对保留的句子进行依存句法分析,获得其内部相应的依存句法信息,为后续的指代消解做准备。
[0106]基于上述本申请实施例一公开的从大规模文本中抽取人物关系的抽取方法的基础上,步骤S104,所述在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名的过程为对人称代词的指代消解过程,即确定它所指向的人物名称,需要联系上下文环境,考虑语言的连贯性问题。在代词消解范围的选择上,本申请的选取策略基于语言表达中的一个事实:先行语与指示语的距离往往不会很远,否则会引起理解困难。因而针对某一个代词的消解,本申请取其所在句子作为基准句子,结合其上文中的2句(如果存在),共3句作为该代词的消解范围,且三句分别标识为A1、A2和A3 (基准句子)。在指代消解过程中,人称代词作为照应语,人名作为先行语。在消解范围,照应语之前的所有人名都是其潜在的先行语。本申请的指代消解过程就是寻找代词指代的实际人物名称的过程,具体如图3所示,包括以下步骤:
[0107]步骤S401,在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词;
[0108]本申请中的待消解代词为在模式匹配阶段所得到的拓展模式中的人称代词,而对文本中可能出现的其他代词,本申请未做消解处理。
[0109]步骤S402,查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链;
[0110]在一个句子中,与待消解代词具有相同“表述形式”的代词,认为与待消解代词指向同一人物,它们可以形成一条代词链。例如以下指代消解范围内的片段:
[0111]A、“ (记者朱克川)韩国现代集团名誉董事长郑周永今天离开韩国前往朝鲜,开始他为期8天的回乡访问。”
[0112]B、“今天上午10点,郑周永在{他}的弟弟郑顺永、郑世永、郑相永和[他]的儿子郑梦九、郑梦宪等亲属的陪同下’经过板门店进入朝鲜境内。”
[0113]其中,A和B是一个指代消解范围内的待消解片段。方括号“[]”内的代词是待消解代词;下划线所标识的人名为代词的候选先行语。B句中的两个代词“他”(另一个用“ {} ”括起来),均应表示同一人物,故这两个代词可以形成一条代词链。
[0114]步骤S403,在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中,若是,则执行步骤S404,若否,则执行步骤S405 ;
[0115]步骤S404,标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名;
[0116]步骤S405,将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
[0117]执行步骤S403至步骤S405中,代词的指代消解一般可以分为句内消解和句间消解两种方法。如果所述待消解代词指代的人名与所述待消解代词位于同一个句子内,则为句内消解;如果所述待消解代词指代的人名未位于同一个句子中,则为句间消解。
[0118]如以下例句:
[0119]C、“他们约定了去北京的时间、地点,并由王进东统一购买火车票。”
[0120]D、“l月16日,郝惠君、刘云芳、刘葆荣在王进东的安排下,一同登上了开往北京的火车。”
[0121]E、“同去的还有12岁的小学牛刘思影和[她]的母亲刘春玲。”
[0122]F、“朱利亚尼担仟纽约市长期间,曾主持过200多场婚礼,他自己的婚礼,由现任市长彭博主持。”
[0123]G、“朱利亚尼的男傧相是他的儿子安德鲁(17岁)。”
[0124]H、“ [他]的女儿卡罗琳(13岁)和朱迪思的小女儿惠特尼也出席婚礼。”
[0125]其中,C、D和E是一组确定的指代消解范围,F、G和H是另一组确定的指代消解范围。从例句中可以发现,E中的“她”指代句内人物“刘思影”,其适合于句内消解方式出中的“他”则指代上文中的人物“朱利亚尼”,其适合于句间消解方式。
[0126]需要说明的是,针对某一个代词的消解,本申请取其所在句子作为基准句子,结合其上文中的2句(如果存在),共3句作为该代词的消解范围,且三句分别标识为A1、A2和A3(基准句子)。在一个含有待消解代词的句子A3中,本申请依据以下原则对该代词的消解方式进行判断:
[0127](I)如果某个人名先于待消解代词,那么该句中的待消解代词应指向本句内的某个人物,即其符合句内指代消解情况;
[0128](2)如果某个待消解代词先于人名出现,那么该句中的待消解代词应指向前一句中的某个人物,即其符合句间指代消解情况。
[0129]在步骤S405中,话题中心指一个句子中的话题人物,句子主要围绕话题人物展开。
[0130]基于上述例子,
[0131]如果消解方式是句内指代消解,则选取距离待消解代词所在代词链最近的人名作为其指代对象,并结束消解过程。如B中的代词链含有2个代词“他”,最近人名为“郑周永”;E中的代词链只有I个代词“她”,最近人名为“刘思影”。
[0132]当待消解代词适合于句间指代消解时,待消解代词往往指向其他句子的话题中心关键字。即将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名的具体过程如图4所示,主要包括以下步骤:
[0133]步骤S501,基于位于基准句子上一个句子判断所述待消解代词是否位于该句子中所包含的人名之后或是否该句子中只有人名,如果是,则执行步骤S502,如果否,则执行步骤 S503。
[0134]步骤S502,查找所述基准句子的上一个句子(也就是该句子中)中的话题中心关键字,判断所述话题中心关键字是否为所述待消解代词所指代的人名,若是,则执行步骤S504,若否,则执行步骤S503 ;
[0135]步骤S503,再向上查找位于所述基准句子上方的第二个句子中的话题中心关键字,判断所述话题中心关键字是否为所述待消解代词所指代的人名,若是,则执行步骤S504,若否,则消解失败。
[0136]步骤S504,将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
[0137]以上述标识为Al、A2和A3的句子为例:
[0138]在确定待消解代词位于作为基准句子A3的上一个句子A2上,且所述待消解代词位于所述后一个句子A2中所包含的人名之后,执行步骤S502,查找句子A2。判定A2的话题中心关键字。如果A2的话题中心关键字在其内部,则该话题中心关键字即为待消解代词所指代的人物;否则,A2句的话题中心关键字应与Al句的话题中心关键字保持一致,转入执行步骤S503。查找Al句,判定Al的话题中心关键字。如果Al的话题中心关键字在其内部,则该话题中心关键字即为待消解代词所指代的人物;否则,认为在3句的消解范围内,指代消解失败,待消解代词无法消解。
[0139]在判定一个句子的话题中心关键字时,本申请采用如下方法:
[0140]步骤S601,获取根据依存句法分析所述指代消解范围中保留的句子后得到的所述保留的句子内的相应的依存句法信息;
[0141]在步骤S601中,得到利用依存句法分析结果对句子内包含主宾语成分的相应的依存句法息。
[0142]步骤S602,针对每一个句子中相应的依存句法信息中的依存关系类型查找所述每一个句子的语句成分,所述语句成分至少包括主语核心词语和宾语核心词语;
[0143]在步骤S602中,通过依存关系类型“nsubj”找到主语核心词语,同样,通过类型“dobj”找到宾语核心词语等;
[0144]其中,依存关系类型如下表1所示:
[0145]

【权利要求】
1.一种人物关系抽取方法,其特征在于,包括: 确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串; 对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式; 在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围包括:所述句子本身,以及位于所述句子上方的两个句子; 在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名; 抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
2.根据权利要求1所述的方法,其特征在于,对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,包括: 利用人称代词替换所述人物关系的基本模式中位于前端的人名,得到所述人物关系的泛化模式; 其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组合。
3.根据权利要求1所述的方法,其特征在于,所述在所述语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,包括: 确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成; 按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系; 获取匹配满足所述泛化模式的人物关系所在的句子; 以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围; 对保留的句子进行人物实体识别,得到所述保留的句子中的人名; 根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
4.根据权利要求3所述的方法,其特征在于,所述在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名,包括: 在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词; 查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链; 在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;若是,则标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名; 若否,则将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
5.根据权利要求4所述的方法,其特征在于,所述将依据在所述指代消解范围内查找到的话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名,包括: 基于位于基准句子的上一个句子判断所述待消解代词是否位于该句子中所包含的人名之后或是否该句子中只有人名; 如果是,则查找所述基准句子的上一个句子中的话题中心关键字,并将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名; 若否,则再向上查找位于基准句子上方的第二个句子中的话题中心关键字,若所述话题中心关键字为所述待消解代词所指代的人名,则将所述话题中心关键字所指代的人名标记为所述待消解代词所指向的第一人名。
6.根据权利要求5所述的方法,其特征在于,所述话题中心关键字的获取过程包括: 获取根据依存句法分析所述指代消解范围中保留的句子后得到的所述保留的句子内的相应的依存句法信息; 针对每一个句子中相应的依存句法信息中的依存关系类型查找所述每一个句子的语句成分,所述语句成分至少包括主语核心词语和宾语核心词语; 查找所述每一个句子中位于所述语句成分中的人名; 对所述每一个句子中的同一类型语句成分中的多个人名,按照距离依存根结点的词汇长短进行排序,确定所述距离最短的人名为所在句子的话题中心关键字; 其中,所述依存根结点的词汇为每一个句子中的目的词汇。
7.一种人物关系抽取装置,其特征在于,包括: 确定单元,用于确定待抽取的人物关系的基本模式,所述基本模式包含所述待抽取的人物关系的多种语义表述相同的字符串; 泛化单元,用于对所述人物关系的基本模式中位于前端的人名进行人称代词的泛化,得到泛化模式,所述泛化模式根据不同的人称代词具有多种扩展模式; 模式匹配单元,用于在语料库中匹配满足所述泛化模式的人物关系所在的句子,并依据所述句子确定指代消解范围,其中,所述指代消解范围至少包括:所述句子本身,以及位于所述句子上方的两个句子; 指代消解单元,用于在所述指代消解范围内确定所述泛化模式中的人称代词所指向的第一人名; 人物关系抽取单元,用于抽取所述第一人名,以及与所述第一人名对应的所述泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。
8.根据权利要求7所述的装置,其特征在于,所述泛化单元包括: 替换模块,用于利用人称代词替换所述人物关系的基本模式中位于前端的人名,得到所述人物关系的泛化模式; 其中,所述人称代词包括单数人称代词:你,我,她,他,它中的任意一种或任意组合。
9.根据权利要求7所述的装置,其特征在于,所述模式匹配单元包括: 第一确定模块,用于确定所述泛化模式中的模式关键词,所述模式关键词由人称代词和所述泛化模式中表述人物关系的字符串构成; 匹配模块,用于按照所述模式关键词在所述语料库中匹配满足所述泛化模式的人物关系; 第二获取模块,用于获取匹配满足所述泛化模式的人物关系所在的句子; 第二确定模块,以获取到的所述句子为基准,将保留的所述句子本身,以及位于所述句子上方的两个句子构成的范围确定为指代消解范围; 第三获取模块,用于对保留的句子进行人物实体识别,得到所述保留的句子中的人名; 依存句法分析模块,用于根据依存句法分析所述保留的句子,得到所述保留的句子内的相应的依存句法信息。
10.根据权利要求9所述的装置,其特征在于,所述指代消解单元包括: 第三确定模块,用于在所述指代消解范围内,确定所述泛化模式对应的扩展模式中的人称代词为待消解代词; 第二查找模块,用于查找同一个句子中与所述待消解代词具有相同表述形式的代词,构成一代词链; 判断模块,用于在所述指代消解范围内,判断所述待消解代词所指代的人名是否位于同一句子中;若是,则执行第一标记模块,若否,则执行第二标记模块; 第一标记模块,用于标记距离所述待消解代词所在的所述代词链最小的人名为所述待消解代词所指向的第一人名; 第二标记模块,用于将依据在所述指代消解范围内查找到的话题中心所指代的人名标记为所述待消解代词所指向的第一人名。
【文档编号】G06F17/30GK104182535SQ201410436852
【公开日】2014年12月3日 申请日期:2014年8月29日 优先权日:2014年8月29日
【发明者】钱龙华, 顾静航, 李军辉, 周国栋 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1