实体关系识别方法及装置的制造方法

文档序号:10577334阅读:305来源:国知局
实体关系识别方法及装置的制造方法
【专利摘要】本发明涉及一种实体关系识别方法及装置,所述方法包括:从语料库的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记获得标记后的文本句子;基于实体关系种子对标记后的文本句子进行匹配检索得到训练样例;将训练样例中的实体关系种子词替换为预定标识,结合命名实体识别和依存语法标记对替换后的训练样例进行处理,生成候选规则;对侯选规则进行模糊化得到模糊规则;判断模糊规则中是否包括新规则;当模糊规则中包括新规则时,根据模糊规则检索语料库得到种子集合,将所得种子集合作为实体关系识别结果。本发明能有效地降低人工参与度,降低对标定语料库的依赖,同时能及时发现新实体关系,自适应不同领域的实体关系挖掘。
【专利说明】
实体关系识别方法及装置
技术领域
[0001] 本发明涉及信息处理技术领域,尤其涉及一种基于语法分析和自扩展的实体关系 识别方法及装置。
【背景技术】
[0002] 信息抽取(Information extraction,简写为IE)技术能够帮助人们在海量信息中 快速定位到自己真正需要的信息,信息抽取是一个以无结构的自然语言文档作为输入,产 生固定格式、无歧义的格式化数据的过程。信息抽取是自然语言处理的一个研究热点。信息 抽取系统有两个重要方向,其一是从文本中抽取实体,其二是确定文本之间存在的关系。 [0003] 命名实体识别(Named Entity Recognition,简写为NER)的主要任务是识别出文 本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。命名实体之间 存在的关系就是实体关系。实体关系抽取是信息抽取中的重要任务,对信息抽取技术的研 究与应用都有重要的意义,同时它也是篇章理解的一项核心技术,对信息检索、问答系统、 信息过滤、机器翻译等都有非常积极的意义。
[0004] 目前,命名实体关系识别的主要方法有两种,一种是基于规则库算法,这种方法需 要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写 者有较高的要求,且移植性不高;相关研究表明命名实体识别呈现弱领域相关性。不同领域 具有类似特点,但是从某个领域移植到一个新领域,通常会遇到严重的性能下降问题,主要 原因在于命名实体的标记定义不同、不同领域有着不同的形态语法特点。
[0005] 另一种是基于统计的机器学习算法,这种算法采用不同的模型,并利用人工标注 的训练集进行学习,对于新的数据集则采用模型算出相关的概率,并以此来得到最终的结 果。这种方法代价较小,性能较高,便于移植,所以是当前研究的热点。但是基于统计的方法 对语料库的依赖比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又 比较少。SIGHANBakeoff08测评中,中文命名实体识别使用的语料库主要包括:香港城市大 学语料库(1772202字,训练集)、微软亚洲研究院语料库(1089050字,训练集)、北京大学语 料库(1833177字,训练集)。这些语料库比较小、应用不广泛,无法应用于大规模的NER系统。 因此,目前的问题是如何最大限度地使用这些有限的语料库。基于统计机器学习的方法主 要包括:隐马尔可夫模型(Hidden Markov Model,简写为HMM)、最大熵(Maxmium Entropy, 简写为ME)、支持向量机(Support Vector Machine,简写为SVM)、条件随机场(Conditional Random Fields,简写为CRF)等。
[0006] 语法分析是自然语言处理领域的一个非常的关键技术手段,其一方面可对相应树 库构建体系的正确性和完善性进行验证,另一方面也可直接服务于各种上层应用,比如搜 索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处 理相关的任务。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张 句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有 受支配成分都以某种依存关系从属于支配者。
[0007]自扩展(Bootstrapping)技术是一种无监督的机器学习方法,该方法是一种被广 泛用于知识获取的机器学习技术,而且是一种循序渐进的学习方法,只需要很小数量的种 子,以此为基础,通过一次次的训练,把种子进行有效的扩充,最终达到需要的数据信息规 模。自扩展技术它首先基于无结构文本数据构造实体关系的模式,然后使用这些模式从文 档集合中抽取关系,这些新抽取关系用来对原有的模式进行泛化,然后再进行新一轮抽取, 如此循环操作,直到抽取的关系满足我们的要求位置,这种方法虽然具有自举学习能力,但 是其并不能及时有效地排出学习过程中产生的错误的关系模式,而如果错误的关系模式不 能被及时排出,则可能会引入更多错误的关系,进一步使用后,会导致错误的扩大。而且,也 还未见有将语法分析和Bootstrapping技术结合起来实现实体关系识别的方法。
[0008] 综合上述可知,随着网络信息量的增大,对海量文本数据的命名实体关系识别变 得越来越复杂,如何利用海量文本数据来挖掘更多更准确的相关领域实体关系是目前亟待 解决的技术难题而成为了重要的研究方向。

【发明内容】

[0009] 本发明所要解决的技术问题在于,提供一种实体关系识别方法,能高效地利用海 量文本数据来挖掘更多更准确的相关领域实体关系。
[0010] 本发明进一步要解决的技术问题在于,提供一种实体关系识别装置,能高效地利 用海量文本数据来挖掘更多更准确的相关领域实体关系。
[0011] 为解决上述技术问题,本发明提供如下技术方案:一种实体关系识别方法,包括以 下步骤: 从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语 法标记,获得标记后的文本句子; 基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例; 将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存 语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则; 对所述侯选规则进行模糊化,得到模糊规则; 判断所述模糊规则中是否包括新规则; 当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合, 将所述种子集合作为实体关系识别结果。
[0012] 进一步地,所述对所述侯选规则进行模糊化,得到模糊规则,包括: 求得所述候选规则的最长公共子序列的长度,并根据最长公共子序列长度将各候选规 则的字符串进行对齐,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规 则。
[0013] 进一步地,所述得到模糊规则之后还包括: 根据预设阈值对获得的模糊规则进行评价和过滤,保留精准度符合要求的模糊规则。
[0014] 进一步地,所述获得标记后的文本句子,包括: 对目标文本进行切分,以获得语句序列; 对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注; 对每个预处理后的语句进行命名实体识别和标定;以及 对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得 标记后的文本句子。
[0015] 进一步地,将训练样例中的关系种子词替换为预定标识,结合所述命名实体识别 和依存语法标记对替换后的训练样例进行处理生成上下文特征模板作为候选规则的具体 处理流程如下: 将训练样例中的关系种子词替换为预定标识; 根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子 词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关 联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句 子; 对候选句子中的作为种子的实体词予以保留,而对非种子的实体词仅保留实体类型; 对于处理了实体词的第一候选句子,再对所述第一候选句子中的非实体词进行分析, 保留形容词、名词、动词的词和词性信息,其他的非实体词仅保留词性信息;以及 对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处 理,以最终获得的特征模板作为候选规则。
[0016] 进一步地,所述求得所述候选规则的最长公共子序列的长度包括: 假设字符串a[0. . .n],b[0. . .m],字符串a对应的是二维数组num的行,字符串b对应的 是二维数组num的列,按照以下递推公式获得各候选规则的对应的字符串的最长公共子序 列的长度:
[001/」 近一步地,很聒t贝坟_但对犾得的悮糊规则近仃评价和]Q:源的具怀探作卯卜: 根据以下公式获得待评价的模糊规则下的每个类别的概率值P(ci I rule):
其中,rule为待评价的模糊规则,ci是类别信息,p(Ci)是类别i模糊规则数占比概率,p (rule I ci)是ci类别下某模糊规则rule的概率; 过滤掉P(ci I rule) <预定阈值的模糊规则,保留p(ci I rule) >预定阈值的模糊规则。
[0018] 进一步地,基于若干实体关系种子对标记后的文本句子进行匹配检索时,所依据 的实体关系种子的来源如下:在进行初次检索时,实体关系种子事先由人工标定或者由系 统自动抓取标定;在循环执行的检索过程中,直接采用在上一个循环执行过程中所产生的 实体关系种子集合。
[0019] 另一方面,本发明实施例还提供一种实体关系识别装置,其包括: 文本数据处理及语法分析模块,从语料库中的目标文本中获取语句序列,对所述语句 序列进行命名实体识别和依存语法标记,获得标记后的文本句子; 训练样例生成模块,基于实体关系种子对所述标记后的文本句子进行匹配检索,得到 训练样例; 候选规则生成模块,将所述训练样例中的实体关系种子词替换为预定标识,结合所述 命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候 选规则; 规则模糊化模块,对所述侯选规则进行模糊化,得到模糊规则;以及 判断模块,判断所述模糊规则中是否包括新规则; 种子集合提取模块,当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语 料库,得到种子集合,将所述种子集合作为实体关系识别结果。
[0020] 进一步地,所述规则模糊化模块包括: 最长公共子序列长度计算单元,求得所述候选规则的最长公共子序列的长度; 对齐单元,根据最长公共子序列长度将各候选规则的字符串进行对齐;以及 替代单元,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
[0021] 进一步地,所述装置还包括: 规则评价模块,根据预设阈值对获得的模糊规则进行评价和过滤,保留精准度符合要 求的模糊规则。
[0022] 进一步地,所述文本数据处理及语法分析模块包括: 切分单元,用于对目标文本进行切分,以获得语句序列; 预处理单元,用于对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词 和词性标注; 实体识别及标定单元,用于对每个预处理后的语句进行命名实体识别和标定;以及 依存语法分析单元,用于对每个进行命名实体识别和标定的语句进行依存语法分析, 并进行依存语法标记获得标记后的文本句子。
[0023] 进一步地,所述候选规则生成模块包括: 替换单元,将训练样例中的关系种子词替换为预定标识; 候选句子获取单元,根据依存语法标记,先确定句子主干并予以保留,再对于未包含在 句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系 链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有 句子主干的候选句子; 实体词处理单元,对候选句子中的作为种子的实体词予以保留,而对非种子的实体词 保留实体类型; 非实体词处理单元,对于处理了实体词的第一候选句子,对所述第一候选句子中的非 实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息; 以及 同义词合并单元,对于处理了非实体词的第二候选句子,对所述第二候选句子中的同 义词进行合并处理,以最终获得的特征模板作为候选规则。
[0024] 进一步地,所述最长公共子序列长度计算单元采用以下递推公式计算所述候选规 则的对应的字符串的最长公共子序列的长度: 假设字符串a[0. . .n],b[0. . .m],字符串a对应的是二维数组num的行,字符串b对应的 是二维数组num的列,则递推公式为:
[0025] 进一步地,所述规则评价模块计算待评价的模糊规则下的每个类别的概率值p (ci I rule)的公式如下·
其中,rule为待评价的模糊规则,ci是类别信息,p(Ci)是类别i模糊规则数占比概率,p (rule I ci)是ci类别下某模糊规则rule的概率; 过滤掉P(ci I rule) <预定阈值的模糊规则,保留p(ci I rule) >预定阈值的模糊规则。
[0026] 采用上述技术方案后,本发明至少具有如下有益效果:本发明一方面基于语法分 析识别句子的语法标记,可实现更准确的规则构建,实现更精准的实体关系抽取;基于最长 公共子序列发现的规则模糊化,可实现灵活可扩展的规则构建,实现更多的实体关系抽取 覆盖;另一方面,基于自扩展技术的自迭代策略,可以基于较少的种子实体关系,不断迭代 发现更多的实体关系加入种子集合,进一步发现更为准确的模板规则,实现精准的领域实 体挖掘。从而,能最大程度地降低人工的参与度,降低对标定语料库的依赖,同时能够及时 的发现新的实体关系,并能自适应不同领域的挖掘。
【附图说明】
[0027] 图1是本发明实体关系识别方法的流程图。
[0028] 图2是本发明实体关系识别方法的根据依存语法标记对例句进行标记识别的结果 示意图。
[0029] 图3是本发明实体关系识别方法的生成的模糊规则匹配表示意图。
[0030] 图4是本发明实体关系识别装置的原理方框图。
[0031 ]图5是本发明实体关系识别装置的文本数据处理及语法分析模块的构成示意图。
[0032] 图6是本发明实体关系识别装置的候选规则生成模块的构成示意图。
[0033] 图7是本发明实体关系识别装置的规则模糊化模块的构成示意图。
【具体实施方式】
[0034] 下面结合附图和具体实施例对本申请作进一步详细说明。应当理解,以下的示意 性实施例及说明仅用来解释本发明,并不作为对本发明的限定,而且,在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相互结合。
[0035] 本发明提供一种实体关系识别方法及装置,该方法是基于自动规则发现的识别方 法,规则库基于语法分析和自扩展(bootstrapping)策略,从无标注文本数据中自动生成。
[0036] 本发明实体关系识别方法及装置的基本原理是:基于标定的少量高质量关系种子 集合,采用依存语法识别句子主干,定义了候选规则抽取及其模糊化策略,并基于多类别的 概率判别策略,同时使用Bootstrapping策略进行自举式模式挖掘,从未标注语料库中迭代 地挖掘实体关系模式,抽取关系元祖。本发明的方法及装置在整个实施过程中仅需很少的 关系种子作为启动种子,可适应新领域的实体关系挖掘。
[0037] 基于上述基本原理,本发明实施例首先提供了一种实体关系识别方法,其包括以 下步骤: 从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语 法标记,获得标记后的文本句子; 基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例; 将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存 语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则; 对所述侯选规则进行模糊化,得到模糊规则; 判断所述模糊规则中是否包括新规则; 当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合, 将所述种子集合作为实体关系识别结果。
[0038] 上述方法基于依存语法分析识别句子的语法标记,可实现更准确的规则构建,实 现更精准的实体关系抽取,对候选规则模糊化,可实现灵活可扩展的规则构建,实现更多的 实体关系抽取覆盖。从而,能最大程度地降低人工的参与度,降低对标定语料库的依赖,同 时能够及时的发现新的实体关系。
[0039] 以下结合图1所示对本发明实施例实体关系识别方法的各具体步骤详细描述。
[0040] 步骤Sl、文本数据处理及语法分析 对大规模语料库中的目标文本进行数据处理获得语句序列,并对语句序列中的每一个 语句进行命名实体识别和标定以及依存语法标记,获得标记后的文本句子,在一个实施例 中,以采用一篇文章作为目标文本为例,本步骤Sl的具体流程如下: Sl 1、对文章进行切分,以获得语句序列; 512、 对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词、词性标注 等; 513、 对每个语句进行命名实体识别并标定,具体可包括领域实体标定,如电影名称; 514、 对每个语句进行依存语法分析并标记,获得标记后的文本句子。
[0041] 以从一篇文章中切分获得的例句一"寻龙诀是乌尔善执导的动作电影"、例句二 "寻龙诀是由乌尔善执导的悬疑动作电影"为例,在进行分词及实体识别后的结果分别如 下: 寻龙诀/filmname是/v乌尔善/nh执导/v的/u动作/n电影/n 寻龙诀/filmname是/v由/p乌尔善/nh执导/v的/u悬疑/n动作/n电影/n 其中,f i Imname是指电影名称,nh是指人名,V是指动词,η是指名词,u是指不可数名称, P是指介词。
[0042]依存语法中,主要有以下依存关系标记(共24个):定中关系ATT(attribute)、数量 关系 QUN( quantity)、并列关系 C00( coordinate)、同位关系 APP(appositive)、前附加关系 LAD(left adjunct)、后附加关系RAD(right adjunct)、动宾关系V0B(verb-object)、介宾 关系 POB(preposition-object)、主谓关系 SBV(subject-verb)、比拟关系 SIM (similarity)、核心HED(head)、连动结构VV( verb-verb)、关联结构CNJ( con junctive)、语 态结构MT(mood-tense)、独立结构 IS(independent structure)、状中结构 ADV (adverbial)、动补结构CMP(complement)、"的"字结构DE、"地"字结构DI、"得"字结构DEI、 "把"字结构BA、"被"字结构BEI、独立分句ICXindependent clause)、依存分句DC (dependent clause)〇
[0043] 而根据依存语法标记对以上的例句一和例句二进一步进行标记识别的依存语法 结构如图2所示。
[0044] 步骤S2、训练样例生成 基于若干实体关系种子对所述标记后的文本句子进行匹配检索,匹配出包含实体关系 种子的相关文本句子生成训练样例。在初次执行所述检索时,需要事先由人工标定或者由 系统自动抓取标定的来获得所述实体关系种子,而在后续的循环执行的检索过程中,则可 以直接采用在上一个循环执行过程中所产生的实体关系种子集合。实体关系种子通常是指 具有某种内在关联的实体词对,例如:电影改编关系,"鬼吹灯之寻龙诀根据盗墓小说鬼吹 灯改编而成",其中的"鬼吹灯之寻龙诀"和"鬼吹灯"就是改编关系种子对;电影执导关系, 例如"寻龙诀是由乌尔善执导的悬疑动作电影",其中的"寻龙诀"和"乌尔善"就是执导关系 种子对。以"寻龙诀"和"乌尔善"就是执导关系种子对为例,从文本数据处理及语法分析后 的文本句子中即可匹配出包含该实体关系种子的文本句子"寻龙诀是乌尔善执导的动作电 影"、"寻龙诀是由乌尔善执导的悬疑动作电影"作为训练样例。
[0045] 步骤S3、候选规则生成 针对训练样例,将关系种子词替换为预定标识,例如:元祖T,结合所述命名实体识别和 依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则。其具体 处理流程如下: 531、 种子词替换为预定标识,例如元祖T; 532、 根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的 种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐 层关联关系链上的词予以保留,然后将其余词都替换为第一替代符,例如:*,进而获得包含 有主干的候选句子; 533、 对候选句子进行实体词取舍处理,具体是将其中为种子的实体词予以保留,而非 种子的实体词仅保留实体类型; 534、 对进行了实体词取舍处理后的第一候选句子再进行非实体词取舍处理,具体地, 对第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的 非实体词仅保留词性信息;以及 535、 对于处理了非实体词的第二候选句子,对所述第二候选句子中同义词进行合并处 理,以最终获得的特征模板作为候选规则。
[0046] 仍以前述的例句一和例句二作为训练样例,按照上述流程处理后生成的候选规则 分别如下:
[T]/filmname是/v乌尔善/nh执导/v *电影/n [T]/filmname是/v /p乌尔善/nh执导/v *电影/n 步骤S4、基于最长子序列的规则模糊化 一个字符串的子序列,是指从该字符串中去掉任意多个字符后剩下的字符在不改变顺 序的情况下组成的新字符串。最长公共子序列,是指多个字符串可具有的长度最大的公共 的子序列。
[0047] 采用动态规划求最长公共子序列的长度。字符串a[0. . .n],b[0. . .m],字符串a对 应的是二维数组num的行,字符串b对应的是二维数组num的列。下面就是递推公式:
将所述候选规则按照以上公式求得的最长公共子序列的长度,并根据最长公共子序列 将各候选规则的字符串进行对齐,将对齐的词予以保留,其他词替换为第一替代符,例如*, 从而获得模糊规则。如图3所示,仍以由"寻龙诀是由乌尔善执导的悬疑动作电影"、"寻龙诀 是乌尔善执导的动作电影"这两个例句为例,按照以上各步骤的处理后所生成候选规则再 进一步进行模糊化后获得的模糊规则为"[T]/filmname是/v * [T]/nh执导/V *电影/ η 〇
[0048] 步骤S5、多类别模糊规则的评价 根据预设阈值对获得模糊规则进行评价和过滤,仅保留精准度符合要求的模糊规则, 以有效地避免不必要的噪音因素的影响。明显地,虽然本步骤S5不是必须实施的,但是由于 可以提升所获得的模糊规则的精准度,而建议采用。具体地,根据以下公式先获得待评价的 模糊规则下的每个· 1 一I、
其中,rule为待评价的模糊规则,ci是类别信息,p(Ci)是类别i关系模糊规则数占比概 率,p(rule I ci)是ci类别下某模糊规则rule的概率。
[0049] 通过预设一个阈值,过滤掉p(ci I rule) <预定阈值的模糊规则,保留p(ci I rule) >预定阈值的模糊规则,从而提高规则的精准度。
[0050] 步骤S6、判断所述模糊规则中是否包括新规则 经过判断,当确认包括有新规则时,进行后续的步骤S7,而确认未包括新规则时,则终 止执行。当然,在一些实际实施的方案中,为提高运行效率,也还可以在生成的新的关系实 体数量低于预设的实体数量阈值、发现的新的模式数量低于预设的模式数量阈值或者到达 预设置的次数上限时,即终止执行。例如,在一个实施例中,预先设定生成的新的关系实体 数量少于上一个循环中生成的新的关系实体数量的5%时,即停止执行,从而,每一次循环结 束时都计算本次循环中所获得的新的关系实体数量和上一个循环中所获得的新的关系实 体数量的比值,一旦所得比值低于5%,则停止,不再循环执行。
[0051] 步骤S7、基于规则抽取实体 根据所获得的模糊规则再检索语料库,匹配出满足规则的关系实体对,使用实体对评 价函数,过滤筛选得到进一步使用的种子集合,所述种子集合即作为实体关系识别结果,而 且还可用于后续执行循环中在生成训练样例时的实体关系种子。
[0052]另一方面,为配合上述方法的实施,本发明实施例还提供了一种基于语法分析和 自扩展的实体关系识别装置,如图4所示,所述装置包括: 文本数据处理及语法分析模块10,从语料库中的目标文本中获取语句序列,对所述语 句序列进行命名实体识别和依存语法标记,获得标记后的文本句子; 训练样例生成模块20,连接至文本数据处理及语法分析模块10,基于若干实体关系种 子对所述标记后的文本句子进行匹配检索,获得训练样例; 候选规则生成模块30,将所述训练样例中的实体关系种子词替换为预定标识,结合所 述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为 候选规则; 规则模糊化模块40,对所述侯选规则进行模糊化,得到模糊规则,其具体是采用动态规 划求最长公共子序列的长度,对句子和句子生成的字串进行对齐,对齐的词予以保留,对于 其余词,如果是获得句子的实体词,则替换为预定标识(如元祖T),其他词替换为第一替代 符; 规则评价模块50,连接至规则模糊化模块40,根据预设的阈值对待评价的每个类别模 糊规则进行过滤,保留精准度符合要求的模糊规则,所述规则评价模块50可以进一步提升 模糊规则的精准度,因此,虽然不是必须的模块,但仍优选设置规则评价模块50; 判断模块60,判断所述模糊规则中是否包括新规则以输出相应的指令;以及 实体抽取模块70,当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料 库,匹配出满足规则库的关系实体对,使用实体对评价函数,对经过规则评价模块50过滤后 的每个类别模糊规则进一步过滤筛选得到进一步使用的种子集合,将所述种子集合作为实 体关系识别结果。
[0053]其中,如图5所示,所述文本数据处理及语法分析模块10又还可以进一步包括: 切分单元100,用于对目标文本进行切分,以获得语句序列; 预处理单元102,用于对语句序列中的每一个语句进行预处理,所述预处理至少包括: 分词和词性标注; 实体识别及标定单元104,用于对每个预处理后的语句进行命名实体识别和标定;以及 依存语法分析单元106,用于对每个进行命名实体识别和标定的语句进行依存语法分 析,并进行依存语法标记获得标记后的文本句子。
[0054]如图6所示,所述候选规则生成模块30又进一步包括: 替换单元300,将训练样例中的关系种子词替换为预定标识; 候选句子获取单元302,根据依存语法标记,先确定句子主干并予以保留,再对于未包 含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联 关系链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包 含有句子主干的候选句子; 实体词处理单元304,对候选句子中的作为种子的实体词予以保留,而对非种子的实体 词保留实体类型; 非实体词处理单元306,对于处理了实体词的第一候选句子,对所述第一候选句子中的 非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信 息;以及 同义词合并单元308,对于处理了非实体词的第二候选句子,对所述第二候选句子中的 同义词进行合并处理,以最终获得的特征模板作为候选规则。
[0055]如图7所示,所述规则模糊化模块40又进一步包括: 最长公共子序列长度计算单元400,求得所述候选规则的最长公共子序列的长度; 对齐单元402,根据最长公共子序列长度将各候选规则的字符串进行对齐;以及 替代单元404,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
[0056] 其中,所述最长公共子序列长度计算单元400采用以下递推公式计算所述候选规 则的对应的字符串的最长公共子序列的长度: 假设字符串a[0. . .n],b[0. . .m],字符串a对应的是二维数组num的行,字符串b对应的 是二维数组num的列,则递推公式为:
[0057] 所述规则评价模块50计算待评价的模糊规则下的每个类别的概率值p(ci I rule) 的公式如下:
其中,rule为待评价的模糊规则,ci是类别信息,p(Ci)是类别i模糊规则数占比概率,p (rule I ci)是ci类别下某模糊规则rule的概率; 过滤掉P(ci I rule) <预定阈值的模糊规则,保留p(ci I rule) >预定阈值的模糊规则。
[0058] 本发明通过上述方法及其配套的装置,基于语法分析和Bootstrapping的领域实 体关系识别,可实现从海量无结构文本数据中自动挖掘实体关系识别规则库,从而发现新 的实体关系,更具有以下几点优势:第一,本发明能缓解目前标定语料库的不足,采用 bootstrapping模板发现策略,基于较少的种子实体集合,自动生成实体识别规则,实现海 量数据的实体自动发现。第二,本发明使用了语法分析的特征,建立了更准确的规则描述, 使用了更多的特征,具有更好的实体识别效果。第三,本发明基于最长子序列发现的规则模 糊化策略,实现了更灵活更具扩展的规则库,提供了实体识别的召回率。第四,本发明基于 多类别概率规则评价,过滤掉低可信度的规则,提高最终规则识别的精准度。
[0059] 本发明实施例所述的功能如果以软件功能模块或单元的形式实现并作为独立的 产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明 实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出 来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人 计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或 部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、 随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的 介质。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实 施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
[0060]尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换 和变型,本发明的范围由所附权利要求及其等同范围限定。
【主权项】
1. 一种实体关系识别方法,其特征在于,包括W下步骤: 从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语 法标记,获得标记后的文本句子; 基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例; 将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存 语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则; 对所述侯选规则进行模糊化,得到模糊规则; 判断所述模糊规则中是否包括新规则; 当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合, 将所述种子集合作为实体关系识别结果。2. 根据权利要求1所述的实体关系识别方法,其特征在于,所述对所述侯选规则进行模 糊化,得到模糊规则,包括: 求得所述候选规则的最长公共子序列的长度,并根据最长公共子序列长度将各候选规 则的字符串进行对齐,将对齐的词予W保留,未能对齐的词替换为第一替代符,获得模糊规 则。3. 根据权利要求1或2所述的实体关系识别方法,其特征在于,所述得到模糊规则之后 还包括: 根据预设阔值对获得的模糊规则进行评价和过滤,保留精准度符合要求的模糊规则。4. 根据权利要求1所述的实体关系识别方法,其特征在于,所述获得标记后的文本句 子,包括: 对目标文本进行切分,W获得语句序列; 对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注; 对每个预处理后的语句进行命名实体识别和标定;W及 对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得 标记后的文本句子。5. 根据权利要求1所述的实体关系识别方法,其特征在于,将训练样例中的关系种子词 替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理生 成上下文特征模板作为候选规则的具体处理流程如下: 将训练样例中的关系种子词替换为预定标识; 根据依存语法标记,先确定句子主干并予W保留,再对于未包含在句子主干内的种子 词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关 联关系链上的词予W保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句 子; 对候选句子中的作为种子的实体词予W保留,而对非种子的实体词保留实体类型; 对于处理了实体词的第一候选句子,对所述第一候选句子中的非实体词进行分析,保 留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息;W及 对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处 理,W最终获得的特征模板作为候选规则。6. 根据权利要求2所述的实体关系识别方法,其特征在于,所述求得所述候选规则的最 长公共子序列的长度包括: 假设字符串a[〇. . .n],b[0. . .m],字符串a对应的是二维数组num的行,字符串b对应的 是二维数组num的列,按照W下递推公式获得各候选规则的对应的字符串的最长公共子序 列的长度:7. 根据权利要求3所述的实体关系识别方法,其特征在于,根据预设阔值对获得的模糊 规则进行评价和过滤的具体操作如下: 根据W下公式获得待评价的模糊规则下的每个类别的概率值P(ci I rule):其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,P (rule I ci)是ci类别下某模糊规则rule的概率; 过滤掉P(ci Irule)<预定阔值的模糊规则,保留p(ci Irule)>预定阔值的模糊规则。8. -种实体关系识别装置,其特征在于,其包括: 文本数据处理及语法分析模块,从语料库中的目标文本中获取语句序列,对所述语句 序列进行命名实体识别和依存语法标记,获得标记后的文本句子; 训练样例生成模块,基于实体关系种子对所述标记后的文本句子进行匹配检索,得到 训练样例; 候选规则生成模块,将所述训练样例中的实体关系种子词替换为预定标识,结合所述 命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候 选规则; 规则模糊化模块,对所述侯选规则进行模糊化,得到模糊规则;W及 判断模块,判断所述模糊规则中是否包括新规则; 实体抽取模块,当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库, 得到种子集合,将所述种子集合作为实体关系识别结果。9. 根据权利要求1所述的实体关系识别装置,其特征在于,所述规则模糊化模块包括: 最长公共子序列长度计算单元,求得所述候选规则的最长公共子序列的长度; 对齐单元,根据最长公共子序列长度将各候选规则的字符串进行对齐;W及 替代单元,将对齐的词予W保留,未能对齐的词替换为第一替代符,获得模糊规则。10. 根据权利要求8或9所述的实体关系识别装置,其特征在于,所述装置还包括: 规则评价模块,根据预设阔值对获得的模糊规则进行评价和过滤,保留精准度符合要 求的模糊规则。11. 根据权利要求8所述的实体关系识别装置,其特征在于,所述文本数据处理及语法 分析模块包括: 切分单元,用于对目标文本进行切分,W获得语句序列; 预处理单元,用于对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词 和词性标注; 实体识别及标定单元,用于对每个预处理后的语句进行命名实体识别和标定;W及 依存语法分析单元,用于对每个进行命名实体识别和标定的语句进行依存语法分析, 并进行依存语法标记获得标记后的文本句子。12. 根据权利要求8所述的实体关系识别装置,其特征在于,所述候选规则生成模块包 括: 替换单元,将训练样例中的关系种子词替换为预定标识; 候选句子获取单元,根据依存语法标记,先确定句子主干并予W保留,再对于未包含在 句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系 链,并将在此逐层关联关系链上的词予W保留,将其余词都替换为第一替代符,获得包含有 句子主干的候选句子; 实体词处理单元,对候选句子中的作为种子的实体词予W保留,而对非种子的实体词 保留实体类型; 非实体词处理单元,对于处理了实体词的第一候选句子,对所述第一候选句子中的非 实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息; W及 同义词合并单元,对于处理了非实体词的第二候选句子,对所述第二候选句子中的同 义词进行合并处理,W最终获得的特征模板作为候选规则。13. 根据权利要求9所述的实体关系识别装置,其特征在于,所述最长公共子序列长度 计算单元采用W下递推公式计算所述候选规则的对应的字符串的最长公共子序列的长度: 假设字符串a[〇. . .n],b[0. . .m],字符串a对应的是二维数组num的行,字符串b对应的 是二维数组num的列,则递推公式为:14. 根据权利要求10所述的实体关系识别装置,其特征在于,所述规则评价模块计算待 评价的模糊规则下的每个类别的概率值P(ci|rule)的公式如下:其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,P (rule I ci)是ci类别下某模糊规则rule的概率; 过滤掉P(ci Irule)<预定阔值的模糊规则,保留p(ci Irule)>预定阔值的模糊规则。
【文档编号】G06F17/27GK105938495SQ201610285633
【公开日】2016年9月14日
【申请日】2016年4月29日
【发明人】祁立
【申请人】乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1