信息提取模型训练装置、信息提取装置和信息提取系统及其方法

文档序号:6615922阅读:287来源:国知局
专利名称:信息提取模型训练装置、信息提取装置和信息提取系统及其方法
技术领域
本发明涉及自然语言处理的技术领域,更具体地,涉及一种信息 提取模型训练装置及其方法、 一种信息提取装置及其方法、 一种包括 信息提取模型训练装置和信息提取装置的信息提取系统及其方法。
背景技术
信息提取是一种信息检索方式,目的在于从非结构的机器可读文件 中提取结构化或半结构化的信息。信息提取的重要性取决于非结构形 式的可利用信息的增长量,例如,因特网上的成千上万的网页决定了 信息提取技术的重要性。然而,从海量的语料中手工提取信息即费时 又不实际可行。
例如,由于商业原因, 一个商务管理者想从新闻中收集其公司的竞 争者的所有供货商。以手工方式实现的信息提取步骤如下首先,创 建竞争者列表;第二,下载由搜索引擎搜索到的与列表中的公司有关 的新闻;第三,认真的读取每一条新闻,以找到是否涉及任意一个竞 争者的供货商。上述的每一步骤都是非常耗费人力和耗费时间的,因 此,能够从非结构化文件中提取预定信息的方法将是非常有用的。
通常,信息提取的结构可以划分为两种方法,手工结构和基于机 器学习的结构。
手工的结构化信息提取系统通常由专家来构造。该结构化系统的 精确率和效率较好。但是,所采用的规则必须由特定领域的专家构造, 以及针对该特定领域构造的结构处理并不一定适用于其它领域。
基于机器学习的系统是由各种机器学习技术构造的,例如,符号 学习,归纳逻辑规划,分装器归纳,统计方法以及语法归纳。从带标签的数据中学习该系统的规则或模型。对于所有的信息提取系统来说, 该学习过程相同,但是学习的数据通常是由不同的人出于不同的目的 来标记的。
申请US2006161531提供了一种从以半结构化或非结构化格式写 入的数据集(例如,自然语言文本)中提取与预定上下文有关的信息 的方法和系统。与预定上下文有关的该信息按照预定的结构设置存储 在信息存储器中。此外,将提取的信息中的各个数据值依据其与预定 上下文的属性的相关性分配权重。向结构化信息分配权重的操作提供 了用于比较多个结构化设置的信息与预定的上下文的属性的相关性的 方法。
申请JP2006244262提出了一种系统,用于以高精确率检索对问 句的示例应答句子。会话单元候选生成装置执行形态学分析以及问句 的文法分析以生成会话单元中的候选实例。会话单元提取装置将存储 在存储装置中的会话单元提取规则应用于会话单元中的候选实例,并 从问句中提取会话单元。示例数据寄存器装置将从问句示例中提取的 多个会话单元以及问句和应答句子寄存在存储装置中。示例问题应答 句子数据检索装置为每一个新的问句的每一个特定会话单元检索具有 与来自存储装置的特定会话单元相同的会话类型的特定会话单元的示 例问题应答句子。相互问句比较装置根据句子之间的相似度来确定检 索的示例问题应答句子的问句和新的问句是否是与类似内容有关的问 句。

发明内容
为了解决现有技术中存在的上述问题,提出了本发明。从而能够 精确地训练信息提取模型,以及可以以很高的效率和较高的精确度从 海量语料中提取预定信息。
根据本发明第一方面,提出了一种信息提取模型训练装置,包括:
IES模型训练单元,用于利用语料来生成IES模型训练集和MRE规 则训练集,并根据IES模型训练集和MRE规则训练集生成训练后的IES 模型;以及MRE规则训练单元,用于利用语料和MRE规则训练集生成训练后 的MRE规则库。
根据本发明第二方面,提出了一种信息提取模型训练装置,包括 MRE规则训练单元,用于利用语料来生成第一IEA模型训练集;
以及
IEA模型训练单元,用于利用语料来生成第二IEA模型训练集以及 第一MRE规则训练集,并根据第一和第二IEA模型训练集以及第一 MRE训练集生成训练后的IEA模型;
其中,MRE规则训练单元根据第一MRE规则训练集生成训练后的 MRE模型。
根据本发明的第三方面,提出了一种信息提取模型训练装置,包

IES模型训练单元,用于利用语料来生成IES模型训练集和第一 MRE规则训练集;以及
MRE规则训练单元,用于利用语料和MRE规则训练集生成第一 IEA模型训练集;
IEA模型训练单元,用于利用语料来生成第二IEA模型训练集以及 第二MRE规则训练集;
其中MRE规则训练单元根据第一MRE规则训练集和第二MRE规 则训练集生成训练后的MRE规则库,IES模型训练单元用于根据IES模 型训练集以及第一和第二MRE规则训练集生成训练后的IES模型;IEA 模型训练单元用于根据IEA模型训练集以及第一和第二MRE规则训练 集生成训练后的IEA模型。
根据本发明第四方面,提出了一种信息提取模型训练方法,包括 IES模型训练步骤,利用语料来生成IES模型训练集和MRE规则训
练集,并根据IES模型训练集和MRE规则训练集生成训练后的IES模
型;以及
MRE规则训练步骤,利用语料和MRE规则训练集生成训练后的 MRE规则库。
根据本发明第五方面,提出了一种信息提取模型训练方法,包括:MRE规则训练步骤,利用语料来生成第一IEA模型训练集库;以

IEA模型训练步骤,利用语料来生成第二IEA模型训练集以及第一 MRE规则训练集,并根据第一和第二IEA模型训练集以及第一MRE训 练集生成训练后的IEA模型;
其中,MRE规则训练步骤根据第一MRE规则训练集生成训练后的 MRE模型。
根据本发明第六方面,提出了一种信息提取模型训练方法,包括
IES模型训练步骤,利用语料来生成IES模型训练集和第一MRE规 则训练集;以及
MRE规则训练步骤,利用语料和MRE规则训练集生成第一IEA模 型训练集;
IEA模型训练步骤,利用语料来生成第二IEA模型训练集以及第二 MRE规则训练集;
其中MRE规则训练步骤根据第一 MRE规则训练集和第二 MRE规 则训练集生成训练后的MRE规则库,IES模型训练步骤根据IES模型训 练集以及第一和第二MRE规则训练集生成训练后的IES模型;IEA模型 训练步骤是用于根据IEA模型训练集以及第一和第二MRE规则训练集 生成训练后的IEA模型。
根据本发明第七方面,提出了一种用于从文本段中提取实例集的 信息提取装置,包括
IES,用于基于IES模型从语料中经过分段的文本段中选出表述了 预定信息的文本段作为候选实例并提供给MRE;
MRE,用于基于MRE规则库将候选实例分别与预定的第1至第N
级规则进行匹配,并将与相应级规则匹配的候选实例分别添加到第l 至第N个实例集的相应的实例集中;
其中,MRE通过向IES提供调整参数来动态地调整IES精确率和 IES召回率至少之一。
根据本发明第八方面,提出了一种用于从文本段中提取实例集的 信息提取装置,包括MRE,用于基于MRE规则库将语料中经过分段的文本段分别与预 定的第1至第N级规则进行匹配,并将与相应级规则匹配的候选实例分 别添加到第1至第N个实例集的相应实例集中,以及将与不确定级规则 匹配的候选实例作为不确定实例提供给IEA;以及
IEA,用于基于IEA模型从不确定实例中选出表述了预定信息的实 例并添加到第N+1个实例集中;
其中,MRE通过向IEA提供调整参数来动态地调整IEA精确率以及 IEA召回率中的至少之一。
根据本发明第九方面,提出了一种用于从文本段中提取实例集的 信息提取装置,包括
IES,用于基于IES模型从语料中经过分段的文本段中选出表述了
预定信息的文本段作为候选实例;
MRE,用于基于MRE规则库将来自IES的候选实例分别与预定的 第1至第N级规则进行匹配,并将与相应级规则匹配的候选实例分别添 加到第1至第N个实例集的相应实例集中,其中将与不确定级规则匹配 的候选实例作为不确定实例提供给IEA;以及
IEA,用于基于IEA模型从不确定实例中选出表述了预定信息的实 例并添加到第N+1个实例集中;
其中,MRE通过向IES和IEA中的至少之一提供调整参数来动态地 调整IES精确率、IES召回率、IEA精确率以及IEA召回率中的至少之一。
根据本发明第十方面,提出了一种用于从文本段中提取实例集的 信息提取方法,包括
利用IES模型IES从语料中经过分段的文本段中选出表述了预定 信息的文本段作为候选实例并提供给MRE;
基于MRE规则库MRE将候选实例分别与预定的第1至第N级规则 进行匹配;并将与相应级规则匹配的候选实例分别添加到第1至第N个
实例集的相应的实例集中;以及
MRE向IES提供调整参数来动态地调整IES精确率和IES召回率至
少之一。
根据本发明第十一方面,提出了一种用于从文本段中提取实例集的信息提取方法,包括
利用MRE规则库MRE将语料中经过分段的文本段分别与预定的 第1至第N级规则进行匹配,并将与相应级规则匹配的候选实例分别添 加到第1至第N个实例集的相应实例集,以及将与不确定级规则匹配的 候选实例作为不确定实例提供给IEA;
基于IEA模型IEA从不确定实例中选出表述了预定信息的实例并 添加到第N+1个实例集中;以及
MRE通过向IEA提供调整参数来动态地调整IEA精确率以及IEA 召回率中的至少之一。
根据本发明第十二方面,提出了一种用于从文本段中提敢实例集 的信息提取方法,包括
基于IES模型IES从语料中经过分段的文本段中选出表述了预定
信息的文本段作为候选实例;
利用MRE规则库MRE将来自IES的候选实例分别与预定的第1至 第N级规则进行匹配,将与相应级规则匹配的候选实例分别添加到第l 至第N个实例集的相应实例集中,其中将与不确定级规则匹配的候选 实例作为不确定实例提供给IEA;
基于IEA模型IEA从不确定实例中选出表述了预定信息的实例并 添加到第N+1个实例集中;
MRE通过向IES和IEA中的至少之一提供调整参数来动态地调整 IES精确率、IES召回率、IEA精确率以及IEA召回率中的至少之一。
以及本发明提出一种包括信息提取模型训练装置和信息提取装 置的信息提取系统和信息提取方法。


图l是示出了根据本发明的用于训练信息提取模型和提取信息的系统 的硬件示意图2是示出了根据本发明的信息提取模型训练装置和信息提取装置之 间的交互关系的示意图3a是示出了根据本发明第一实施例的信息提取模型训练装置的示意图3b是示出了根据本发明第二实施例的信息提取模型训练装置的示意 图3c是示出了根据本发明第三实施例的信息提取模型训练装置的示意 图4a—4c是分别示出了根据本发明第一实施例的信息提取模型训练装
置的各个部件执行信息提取模型训练的流程图5a是示出了根据本发明第一实施例的信息提取装置的示意图5b是示出了根据本发明第二实施例的信息提取装置的示意图5c是示出了根据本发明第三实施例的信息提取装置的示意图6是示出了己知的信息提取分类器的示意图7a是示出了根据本发明的MRE的示意结构图7b是示出了多级规则的示例表。
图8是示出了根据本发明第一实施例的信息提取方法的流程图; 图9示出了应用本发明的系统的一个示意结构图。
具体实施例方式
下面,将参考附图描述本发明的优选实施例。在附图中,相同的 元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中, 将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。
图l是示出了根据本发明的用于训练信息提取模型和提取信息的 系统的硬件结构图。其中08指示了该系统的关键部件。所述系统包括 CPU 01,用于对应用程序提供计算功能;内部总线05,所述系统通过 内部总线05在内存06和永久存储器07 (可以是硬盘和闪存)之间交换 数据;输入装置03,例如可以是用于按键输入的键盘或用于语音输入 的麦克风等等;输出装置04和辅助组件02。存储器07存储有操作系统 文件071,信息提取装置文件073,信息提取模型训练装置文件074,提 取的信息实例911,训练语料902,信息提取模型913以及辅助系统工作 的其它文件072。所述内存06包括操作系统061,信息提取装置063,信 息提取模型训练装置064以及其它的应用程序062。图2示出了图1所示的信息提取模型训练装置和信息提取装置之间
的交互关系。信息提取模型训练装置064用于根据训练语料902训练信 息提取模型913,并将训练后的信息提取模型913提供给信息提取装置 063使用。信息提取装置063通过使用信息提取模型913从输入的语料 901中提取出所需的信息实例911。
虽然图1示出了该系统的硬件结构图中包括信息提取装置063和信 息提取模型训练装置064,该系统可以仅包括利用信息提取模型来进行 信息提取的信息提取装置063,或者只包括用于生成信息提取模型的信 息提取模型训练装置064。下面将结合附图分别对信息提取装置063和 信息提取模型训练装置064进行描述。
参考图3a,根据本发明第一实施例的信息提取模型训练装置包括 用于训练IES模型的IES (Information Extraction Sifter,信息提取筛选 器)模型训练单元220,用于训练MRE规则数据库的MRE (Multi-level rule based extractor,基于多级规则的提取器)规则训练单元330以及用 于训练IEA模型的IEA (Information Extraction Arbiter,信息提取仲裁 器)模型训练单元440。首先,IES模型训练单元220, MRE规则训练 单元330以及IEA模型训练单元440可以利用训练集-I 9021、训练集-II 9022和训练集-111 9023对IES模型、MRE规则和IEA模型进行训练,得 到初始IES模型9131, MRE规则9132和IEA模型9133。但是,也可以使 用训练好的初始IES模型,MRE规则和IEA模型。训练集-II 9022和训 练集-III卯23初始可以为空集合。可以利用训练集-I 9021训练初始的 正S模型,MRE规则和IEA模型。之后,由IES模型训练单元220, MRE 规则训练单元330以及IEA模型训练单元440对上述训练集进行训练, 从而分别生成所需的IES模型,MRE规则和IEA模型。
图4a—4c是分别示出了根据本发明第一实施例的信息提取模型训
练装置的各个部件如何执行信息提取模型训练的流程图。
图4a示出了IES模型训练单元220如何生成训练集-I 9021,训练集 -II 9022的流程图。参考图4a,首先,在S401, IES模型训练单元220 利用初始的IES模型从语料9024中选择所有可能的表述了预定信息的 文本段作为IES接受的样本。该初始的IES模型可以利用IES模型训练样本和IES模型训练参数在IES模型的训练过程中产生。在本实施例中, IES可以是一个分类器IEC (Information Extraction Classifier)。
在S402,将IES模型训练单元220在S401中选出的所有样本进行手 工标记将表述了预定信息的样本标记为正类的样本,而将没有表述 预定信息的样本标记为负类的样本。
在S403,将手工标记后的所有样本添加到训练集-119022,用于提 高IES的召回率和精确率。其中IES精确率的定义为IES正确分为正 类的文本的数目/IES分类正类的文本的数目*100%。 IES的召回率定 义为IES正确分为正类的文本的数目/正类文本的数目*100%。
在S404,为了优化MRE规则训练单元330的训练集-I 9021,使得 训练集-I9021能够识别出MRE规则训练单元330选出的全部样本,IES 模型训练单元220将MRE规则训练单元标记的样本与手工标记的样本 不一致的样本作为错误识别的样本添加到训练集-I 9021,用于提高 MRE的精确率。
图4b示出了MRE规则训练单元330如何生成训练集-n卯22的流程 图。参考图4b,首先,在S421,由MRE规则训练单元330利用初始的 MRE规则数据库9132从语料9024中选择所有可能的未表述预定信息 的文本段,作为MRE接受的样本。该初始的MRE规则数据库可以利用 MRE规则训练样本在MRE规则训练过程中产生。
在S422,将MRE在S421选出的所有样本进行手工标记将表述预 定信息的文本段标识为正类,而将没有表述预定信息的文本段标记为 负类。之后,在S423,将MRE规则训练单元330接受的样本与手工标 记的样本不一致的样本作为错误识别的样本添加到训练集-III 9023, 以改进IEA的精确率。
图4c示出了IEA模型训练单元440如何生成训练集-I 9021,训练集 -II 9022和训练集-111 9023的流程图。参考图4c,首先,在S431, IEA 模型训练单元440利用初始的IEA模型从语料9024中选择所有可能的 表述了预定信息的文本段作为IEA接受的样本。该初始的IEA模型可以 利用IEA模型训练样本和IEA模型训练参数在IEA的训练过程中产生。 IEA可以是一个信息提取分类器IEC。在S432,将IEA模型训练单元440在S431中选出的所有样本进行手 工标记将表述了预定信息的样本标记为正类的样本,而将没有表述 预定信息的样本标记为负类的样本。
在S433,将手工标记后的所有样本添加到训练集-111 9023,用于提 高IEA的召回率和精确率。其中,IEA的精确率的定义为IEA正确分 为正类的文本的数目/IEA分类正类的文本的数目* 100M。IEA召回率 的定义为IEA正确分为正类的文本的数目/正类文本的数目* 100%
在S434,为了优化MRE规则训练单元330的训练集-I,使得训练集 -19021能够识别出1/[1^规则训练单元330选出的全部样本,IEA模型训 练单元440将MRE规则训练单元标记的样本与手工标记的样本不一致 的样本作为错误识别的样本添加到训练集-19021,用于提高MRE的精确率。
最后,在获得了最终的训练集-19021,训练集-II9022和训练集-m 9023之后,IES模型训练单元220根据训练集-I卯21和训练集-II9022生 成IES模型9131, MRE规则训练单元330根据训练集-I卯21生成MRE规 则库9132' IEA模型训练单元440根据训练集-in 9023和训练集-1 9021 生成IEA模型9133。
图3b示出了根据本发明第二实施例的信息提取模型训练装置。图 3b和3a的区别在于信息提取模型训练装置仅包括IES模型训练单元220 和MRE规则训练单元330。 IES模型训练单元220执行的步骤与图4a所 示的类似,这里仅简单描述。IES模型训练单元220将MRE错误识别的 样本添加到训练集-1卯21,以提高MRE的精确率,并将手工标记后的 全部样本添加到训练集-11 9022,以提高IES的召回率和精确率。MRE 规则训练单元330利用初始的MRE规则数据库9132从语料9024中选择 所有可能的未表述预定信息的文本段,作为MRE接受的样本。该初始 的MRE规则数据库可以利用MRE规则训练样本在MRE规则训练过程 中产生。之后,MRE对选出的所有样本进行手工标记将表述预定信 息的文本段标识为正类,而将没有表述预定信息的文本段标记为负类。 MRE规则训练单元330将接受的样本与手工标记的样本不一致的样本作为错误识别的样本添加到训练集-I 9021。最后,IES模型训练单元220 基于训练集-II 9022和训练集-1 9021生成IES模型,而MRE规则训练单 元330基于训练集-I 9021生成MRE规则数据库。
图3c示出了根据本发明第三实施例的信息提取模型训练装置。图3c 和3a的区别在于信息提取模型训练装置仅包括MRE规则训练单元330 和IEA模型训练单元440。 MRE规则训练单元330和IEA模型训练单元 440执行的步骤与图4b和4c所示的类似,这里仅简单描述。MRE规则 训练单元330将其错误识别的所有样本添加到训练集-111 9023,以提高 IEA的精确率。IEA模型训练单元440将MRE错误识别的样本添加到训 练集-19021,以提高MRE的精确率,并将手工标记后的全部样本添加 到训练集-111 9023,以提高IEA的召回率和精确率。最后,IEA模型训 练单元440基于训练集-111 9023和训练集-1 9021生成IEA模型,而MRE 规则训练单元330基于训练集-I 9021生成MRE规则数据库。
在得到例如图4a训练获得的IES模型,MRE规则库以及IEA模型之 后,信息提取模型训练装置可以利用上述训练模型来提取信息。由于 这些模型经过训练而被优化,所以能够更准确地提取出所需的信息。 虽然本发明采用了手工标记的方式对样本进行标记,也可以采用其它 的标记方式,或者采用已经标记好的样本等,只要是能够获得正确标 记的样本。
图5a示出了根据本发明第一实施例的信息提取装置。该信息提取装 置包括信息提取模型913,所述的信息提取模型913包括IES模型9131, MRE规则库9132以及IEA模型9133;文本段数据库912,包括IES拒 绝的文本段9121, MRE拒绝的文本段9122以及IEA拒绝的文本段9123; 用于对输入的语料进行分段的语料分段器l;利用IES模型用于从文本 段提取信息的IES2;利用MRE规则库中的多级规则对信息进行提取的 MRE3;以及利用IEA模型进行信息提取的IEA4,其中MRE 3通过向 IES 2和IEA 4分别提供调整数据981和982来动态调整IES 2和IEA 4的 性能。
在本实施例中,IES2可以是一个信息提取分类器IEC。 IES 2应 该具有较高的召回率以及可接受的精确率,从而可以从输入语料中挑
20选出候选实例,其中对于IEC,精确率的定义二IEC正确分为正类的 文本的数目/IEC分类为正类的文本的数目* 100%,召回率的定义= IEC正确分为正类的文本的数目/正类文本的数目*100%。可以通过 向IES 2提供不同的参数来分别改变IES 2的精确率和召回率(要定 义)。例如,使用风险参数来调整IES2的精确率和召回率。IEA4也 可以是一个信息提取分类器,IEA 4具有较高的精确率以及可接受的 召回率,从而IEA4可以确保提取的信息实际上是预定义的信息实例。 可以通过向IEA 4提供不同的参数来分别改变IEA 4的精确率和召回 率。例如,使用风险参数来调整IEA 4的精确率和召回率。IEA2和 IEA 4的结构可以相同,但是各自的训练参数和训练数据不同。
图6示出了己知的信息提取分类器IEC 5的一个示例。IEC是一 个两类文本信息分类器,根据文本分类模型把输入的文本分成正、负 两类,正类表示输入文本包含预定义的信息,负类表示输入文本不包 含预定义的信息。IEC的输入包括 一系列的文本段591,文本分类 模型592,外部文本分类参数593。 IEC的输出包括IEC分类为-1的 文本段作为拒绝的文本段581, IEC分类为+1的文本段作为接受的文 本段582。
文本分类模型592例如包括文本分类特征和内部文本分类参数。 在输入了外部文本分类参数593之后,IEC5修改文本分类模型592中 的内部分类参数。之后,每次在IEC5读入一条文本时,利用文本分 类模型592对读取的文本进行分类。例如,如果预定义的信息是A 和B公司之间的竞争关系,那么IEC5就会对表述了公司之间的竞争 关系的文本标记为正类,否则标记为负类。
一个具体的IEC可以用一个两类支撑向量机SVM(Support Vector Machine)分类器来实现。SVM分类器可以使用SVMLIGHT训练生 成,特征采用TF-IDF特征,文本分类模型中所包含的文本分类特征 可以包括支撑向量,松弛变量等内容,内部文本分类参数可以是SVM 的训练参数,比如风险参数等。
图7a示出了 MRE 3的一个示意图。MRE 3包括1级规则匹配 单元21, 2级规则匹配单元22直到n级规则匹配单元23n,以及未确定级规则匹配单元24。 MRE 3还可以包括多级规则数据库9132,该 多级规则数据库包括1级规则91321, 2级规则91322直到n级规则 91323,以及不确定级规则91324。 MRE 3将候选实例(也可以是文本 段)分别与1级规则匹配单元21, 2级规则匹配单元22直到n级规则 匹配单元23n,以及不确定级规则匹配单元24匹配,并将匹配成功的 候选实例分别作为实例集19111,实例集2 9112,…实例集n9113以 及不确定实例集923中的相应的实例集。
图7b示出了用于识别一句话是否表述了两个公司之间是竞争者 的多级规则数据库的一个实例。标签〈SUB1〉表示第一个公司的名 称,而标签<SUB2>表示第二个公司的名称。标签<MODIFIER—1> 表示0~1个任意词(包括数字等),标签<MODIFffiR—10〉表示0 10 个任意词,以及标签〈COMPETE〉表示具有竞争含义的任意词。图 7b的示例表示出了三级规则1级规则,2级规则,以及不确定级规 则。MRE3可以利用规则匹配单元将图7b的规则与输入的文本进行匹 配,从而获得所需的信息。
下面将参考图5a和图8具体描述根据本发明第一实施例的信息 提取方法。在S801,输入语料。在S802,由语料分段器l将语料分段 为文本段,分段后的文本段可以是一个短语, 一个句子,或一个段落。 在S803,由IES 2根据IES模型9131对所有的输入文本段进行过滤。 IES 2将没有表述预定信息的文本段放入拒绝的文本段数据库9121 中,将表述了预定信息的所有文本段作为候选实例提供给MRE3。在 S804, MRE 3将候选实例与MRE数据库9132中的规则进行匹配。 MRE规则库9132中已有的多级规则已经分类为不同的级别,具有更 低等级的规则具有更高的优先级和可信度。MRE首先将候选实例与较
低等级的规则进行匹配。与1级规则匹配的候选实例被添加到实例集 9111,与2级规则匹配的候选实例被添加到实例集9112,而与n级规 则匹配的候选实例被添加到实例集N 9133, MRE将这些可以匹配的 候选实例作为接受的实例,而将与不确定级规则匹配的候选实例作为 不确定实例集923输出。在S805, MRE确定是否需要对IES和IEA 进行调整,如果需要,则进行相应的调整。具体地,当MRE的拒绝率(拒绝的实例数目与输入的候选实例数目之间的比率)大于第一预
定值时,MRE将利用一个用于增加精确率的调整参数981来通知IES2 增加精确率。如果MRE的接受率(接受的实例数目与输入的候选实 例数目之间的比率)大于第二预定值时,MRE3将利用一个用于增加 召回率的调整参数981来通知IES2增加召回率。当MRE3的不确定
率(不确定实例的数目与接受的实例数目之间的比率)大于第三预定 值时,MRE3将利用一个用于增加召回率的调整参数982通知IEA4 增加召回率。如果MRE3的不确定实例接受率(接受的实例数目与不 确定的实例数目之间的比值)大于第四预定值时,MRE3将利用一个 用于增加精确率的调整参数982来通知IEA4增加精确率。上述的调 整参数可以是风险参数。本领域的技术人员可以根据算法的不同采用 不同的调整参数以及可以根据需要对第一至第四预定值进行设置。可 以使用SVMLIGHT中的一j参数来调整风险参数,以获得上述调整参 数981和982。
之后,在S806,由IEA4根据IEA模型9133判断每个不确定的 候选实例是否表述了预定信息。如果没有,则IEA4将拒绝该不确定 的候选实例,将其放入拒绝的文本段9123。如果是,则将接受该不确 定的候选实例并添加到实例集9114中。此后,如果还有未处理的文本, 则重复执行S803 — S806,从而获得了多个实例集。
由于在运行阶段,由MRE3向IES2和IEA4动态地提供调整数据, 以调整IES2和IEA4的精确率和召回率中的至少一个,从而能够增加 对输入的文本的分析的精确度和准确率。
图5b是根据本发明第二实施例的信息提取装置。参考图5b,其 与图5a的区别在于该信息提取装置仅包括语料分段器1, IES 2以及 MRE3,而不包括IEA4。 MRE3将从IES2输出的候选实例与多级规则 数据库匹配,并生成相应的实例集。此外,MRE3动态地向IES2提供 用于调整IES2的精确率和召回率的调整参数。其提取信息的方法与图 8所示的流程图中对应的部分类似。
图5c是根据本发明第三实施例的信息提取装置。参考图5c,其 与图5a的区别在于该信息提取装置仅包括语料分段器1, MRE 3,以及IEA4而不包括IES 2。 MRE3将输入的候选实例与多级规则数据 库匹配,并生成相应的实例集。此外,MRE3动态地向IEA4提供用 于调整IEA4的精确率和召回率的调整参数。其提取信息的方法与图8 所示的流程图中对应的部分类似。
图9示出了应用本发明的信息提取模型训练装置和信息提取装置 的系统的一个示例。该系统用于从因特网新闻中提取公司之间的商业 关系(例如,竞争,合作,等)。
在训练阶段,由信息提取模型训练装置根据训练语料来训练商业 关系提取模型。在提取信息阶段,使用浏览器从因特网下载新闻,作 为语料,信息提取装置根据训练的信息提取模型从下载的新闻(语料) 提取商业关系实例。之后,向用户呈现提取的信息实例。
尽管已经参照具体实施例,对本发明进行了描述,但本发明不应 当由这些实施例来限定,而应当仅由所附权利要求来限定。应当清楚, 在不偏离本发明的范围和精神的前提下,本领域普通技术人员可以对 实施例进行改变或修改。
权利要求
1. 一种信息提取模型训练装置,包括IES模型训练单元,用于利用语料来生成IES模型训练集和MRE规则训练集,并根据IES模型训练集和MRE规则训练集生成训练后的IES模型;以及MRE规则训练单元,用于利用语料和MRE规则训练集生成训练后的MRE规则库。
2. 如权利要求l所述的信息提取模型训练装置,其中 IES模型训练单元基于初始的IES模型,将语料中表述了预定信息的文本作为IES模型训练单元接受的样本,并对其进行标记作为IES模 型训练样本放入IES模型训练集中;以及将MRE规则训练单元对所述 IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练 样本放入MRE规则训练集中。
3. 如权利要求l所述的信息提取模型训练装置,其中-MRE规则训练单元基于初始的MRE规则库,将语料中未表述预定信息的文本作为MRE规则训练单元接受的样本,并对其进行标记,之 后将MRE错误识别的样本放入MRE规则训练集中。
4. 一种信息提取模型训练装置,包括MRE规则训练单元,用于利用语料来生成第一IEA模型训练集;以及IEA模型训练单元,用于利用语料来生成第二IEA模型训练集以及 第一MRE规则训练集,并根据第一和第二IEA模型训练集以及第一 MRE训练集生成训练后的IEA模型;其中,MRE规则训练单元根据第一MRE规则训练集生成训练后的 MRE模型。
5. 如权利要求4所述的信息提取模型训练装置,还包括-IES模型训练单元,用于利用语料来生成IES模型训练集和第二MRE规则训练集,并根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型,其中MRE规则训练单元根据第一MRE规 则训练集和第二MRE规则训练集生成训练后的MRE模型。
6. 如权利要求4所述的信息提取模型训练装置,其中 MRE规则训练单元基于初始的MRE规则库,将语料中未表述预定信息的文本作为MRE规则训练单元接受的样本,并对其进行标记后将 MRE规则训练单元错误识别的样本为IEA模型训练样本放入第一IEA模型训练集中。
7. 如权利要求4所述的信息提取模型训练装置,其中 IEA模型训练单元基于初始的IEA模型训练模型,将语料中表述了预定信息的文本作为IEA模型训练单元接受的样本,并对其进行标记 作为IEA模型训练样本放入第二IEA模型训练集中;以及将MRE规则训 练单元对所述IEA模型训练样本进行识别所获得的错误识别样本作为 MRE规则训练样本放入第一MRE规则训练集中。
8. 如权利要求5所述的信息提取模型训练装置,其中 IES模型训练单元基于初始的IES模型,将语料中表述了预定信息的文本作为IES模型训练单元接受的样本,并对其进行标记作为IES模 型训练样本放入IES模型训练集中;以及将MRE规则训练单元对所述 IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练 样本放入第二MRE规则训练集中。
9. 一种信息提取模型训练装置,包括IES模型训练单元,用于利用语料来生成IES模型训练集和第一 MRE规则训练集;以及MRE规则训练单元,用于利用语料和MRE规则训练集生成第一 IEA模型训练集;IEA模型训练单元,用于利用语料来生成第二IEA模型训练集以及 第二MRE规则训练集;其中MRE规则训练单元根据第一MRE规则训练集和第二MRE规 则训练集生成训练后的MRE规则库,IES模型训练单元用于根据IES模 型训练集以及第一和第二MRE规则训练集生成训练后的IES模型;IEA 模型训练单元用于根据IEA模型训练集以及第一和第二MRE规则训练集生成训练后的IEA模型。
10. —种信息提取模型训练方法,包括IES模型训练步骤,利用语料来生成IES模型训练集和MRE规则训 练集,并根据IES模型训练集和MRE规则训练集生成训练后的IES模 型;以及MRE规则训练步骤,利用语料和MRE规则训练集生成训练后的 MRE规则库。
11. 如权利要求10所述的信息提取模型训练方法,其中IES模型训练步骤还包括步骤基于初始的IES模型,将语料中表述了预定信息的文本作为IES模 型训练步骤接受的样本,并对其进行标记作为IES模型训练样本放入 IES模型训练集中;以及将MRE规则训练步骤对所述IES模型训练样本 进行识别所获得的错误识别样本作为MRE规则训练样本放入MRE规则训练集中。
12. 如权利要求10所述的信息提取模型训练方法,其中 MRE规则训练步骤还包括步骤基于初始的MRE规则库,将语料中未表述预定信息的文本作为 MRE规则训练步骤接受的样本,并对其进行标记,之后将MRE规则训 练步骤错误识别的样本放入MRE规则训练集中。
13. —种信息提取模型训练方法,包括MRE规则训练步骤,利用语料来生成第一IEA模型训练集库;以及IEA模型训练步骤,利用语料来生成第二IEA模型训练集以及第一 MRE规则训练集,并根据第一和第二IEA模型训练集以及第一MRE训 练集生成训练后的IEA模型;其中,MRE规则训练步骤根据第一MRE规则训练集生成训练后的 MRE模型。
14. 如权利要求13所述的信息提取模型训练方法,还包括-IES模型训练步骤,IES模型训练步骤利用语料来生成IES模型训练集和第二MRE规则训练集,并根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型,其中MRE规则训练步骤根据 第一MRE规则训练集和第二MRE规则训练集生成训练后的MRE模型。
15. 如权利要求13所述的信息提取模型训练方法,其中 MRE规则训练步骤还包括步骤基于初始的MRE规则库,将语料中未表述预定信息的文本作为 MRE规则训练步骤接受的样本,并对其进行标记后将MRE规则训练步 骤错误识别的样本为IEA模型训练样本放入第一IEA模型训练集中。
16. 如权利要求13所述的信息提取模型训练方法,其中 IEA模型训练步骤还包括步骤基于初始的IEA模型训练模型,IEA模型训练步骤将语料中表述了 预定信息的文本作为IEA模型训练步骤接受的样本,并进行标记作为 IEA模型训练样本放入第二IEA模型训练集中;以及将MRE规则训练步 骤对所述IEA模型训练样本进行识别所获得的错误识别样本作为MRE 规则训练样本放入第一MRE规则训练集中。
17. 如权利要求14所述的信息提取模型训练方法,其中 IES模型训练步骤还包括步骤IES模型训练步骤基于初始的IES模型,将语料中表述了预定信息 的文本作为IES模型训练步骤接受的样本,并对其进行标记作为IES模 型训练样本放入IES模型训练集中;以及将MRE规则训练步骤对所述 IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练 样本放入第二MRE规则训练集中。
18. —种信息提取模型训练方法,包括-IES模型训练步骤,利用语料来生成IES模型训练集和第一MRE规 则训练集;以及MRE规则训练步骤,利用语料和MRE规则训练集生成第一IEA模 型训练集;IEA模型训练步骤,利用语料来生成第二IEA模型训练集以及第二 MRE规则训练集;其中MRE规则训练步骤根据第一MRE规则训练集和第二MRE规 则训练集生成训练后的MRE规则库,IES模型训练步骤根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型;IEA模型 训练步骤是用于根据IEA模型训练集以及第一和第二MRE规则训练集 生成训练后的IEA模型。
19. 一种用于从文本段中提取实例集的信息提取装置,包括 IES,用于基于IES模型从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例并提供给MRE;MRE,用于基于MRE规则库将候选实例分别与预定的第1至第N 级规则进行匹配,并将与相应级规则匹配的候选实例分别添加到第l 至第N个实例集的相应的实例集中;其中,MRE通过向IES提供调整参数来动态地调整IES精确率和 IES召回率至少之一。
20. 如权利要求19所述的信息提取装置,其中 IES是一个信息提取分类器IEC。
21. 如权利要求19所述的信息提取装置,其中 MRE包括N级规则匹配器。
22. 如权利要求19所述的信息提取装置,其中 MRE在候选实例拒绝率大于第一预定值时,利用第一调整参数向IES通知增加IES精确率;以及MRE在候选实例接受率大于第二预定值时,利用第二调整参数向 IES通知增加IES召回率。
23. —种用于从文本段中提取实例集的信息提取装置,包括 MRE,用于基于MRE规则库将语料中经过分段的文本段分别与预定的第1至第N级规则进行匹配,并将与相应级规则匹配的候选实例分 别添加到第1至第N个实例集的相应实例集中,以及将与不确定级规则 匹配的候选实例作为不确定实例提供给IEA;以及IEA,用于基于IEA模型从不确定实例中选出表述了预定信息的实 例并添加到第N+1个实例集中;其中,MRE通过向IEA提供调整参数来动态地调整IEA精确率以及 IEA召回率中的至少之一。
24. 如权利要求23所述的信息提取装置,其中MRE包括第1至第N级规则匹配器;以及不确定级规则匹配器。
25. 如权利要求23所述的信息提取装置,其中 IEA是一个信息提取分类器IEC。
26. 如权利要求23所述的信息提取装置,其中 MRE在不确定实例拒绝率大于第三预定值时,利用第三调整参数向IEA通知增加IEA精确率;以及MRE在不确定实例接受率大于第四预定值时,利用第四调整参数 向IEA通知增加IE A召回率。
27. —种用于从文本段中提取实例集的信息提取装置,包括 IES,用于基于IES模型从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例;MRE,用于基于MRE规则库将来自IES的候选实例分别与预定的 第1至第N级规则进行匹配,并将与相应级规则匹配的候选实例分别添 加到第1至第N个实例集的相应实例集中,其中将与不确定级规则匹配 的候选实例作为不确定实例提供给IEA;以及IEA,用于基于IEA模型从不确定实例中选出表述了预定信息的实 例并添加到第N+1个实例集中;其中,MRE通过向IES和IEA中的至少之一提供调整参数来动态地 调整IES精确率、IES召回率、IEA精确率以及IEA召回率中的至少之一。
28. 如权利要求27所述的信息提取装置,其中 IES和IEA分别是一个信息提取分类器IEC。
29. 如权利要求27所述的信息提取装置,其中 MRE包括N级规则匹配器;以及 不确定级规则匹配器。
30. 如权利要求27所述的信息提取装置,其中 MRE在候选实例拒绝率大于第一预定值时,利用第一调整参数向IES通知增加IES精确率;MRE在候选实例接受率大于第二预定值时,利用第二调整参数向 IES通知增加IES召回率;MRE在不确定实例拒绝率大于第三预定值时,利用第三调整参数 向IEA通知增加IEA精确率;以及MRE在不确定实例接受率大于第四预定值时,利用第四调整参数 向IEA通知增加IEA召回率。
31. —种用于从文本段中提取实例集的信息提取方法,包括 基于IES模型IES从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例并提供给MRE;基于MRE规则库MRE将候选实例分别与预定的第1至第N级规则 进行匹配;并将与相应级规则匹配的候选实例分别添加到第1至第N个 实例集的相应的实例集中;以及MRE向IES提供调整参数来动态地调整IES精确率和IES召回率至少之一。
32. 如权利要求31所述的信息提取方法,其中MRE提供调整参数 来执行动态调整的步骤包括在候选实例拒绝率大于第一预定值时,MRE利用第一调整参数向 IES通知增加IES精确率;以及在候选实例接受率大于第二预定值时,MRE利用第二调整参数向 IES通知增加IES召回率。
33. —种用于从文本段中提取实例集的信息提取方法,包括 利用MRE规则库MRE将语料中经过分段的文本段分别与预定的第1至第N级规则进行匹配,并将与相应级规则匹配的候选实例分别添 加到第1至第N个实例集的相应实例集,以及将与不确定级规则匹配的 候选实例作为不确定实例提供给IEA;基于IEA模型IEA从不确定实例中选出表述了预定信息的实例并 添加到第N+1个实例集中;以及MRE通过向IEA提供调整参数来动态地调整IEA精确率以及IEA召回率中的至少之一。
34. 如权利要求33所述的信息提取方法,其中MRE提供调整参数来执行动态调整的步骤包括在不确定实例拒绝率大于第三预定值时,MRE利用第三调整参数向IEA通知增加IEA精确率;以及在不确定实例接受率大于第四预定值时,MRE利用第四调整参数 向IEA通知增加IEA召回率。
35. —种用于从文本段中提取实例集的信息提取方法,包括 基于IES模型IES从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例;利用MRE规则库MRE将来自IES的候选实例分别与预定的第1至 第N级规则进行匹配,将与相应级规则匹配的候选实例分别添加到第l 至第N个实例集的相应实例集中,其中将与不确定级规则匹配的候选 实例作为不确定实例提供给IEA;基于IEA模型IEA从不确定实例中选出表述了预定信息的实例并 添加到第N+1个实例集中;MRE通过向IES和IEA中的至少之一提供调整参数来动态地调整 IES精确率、IES召回率、IEA精确率以及IEA召回率中的至少之一。
36. 如权利要求35所述的信息提取方法,MRE提供调整参数来执 行动态调整的步骤包括在候选实例拒绝率大于第一预定值时,MRE利用第一调整参数向 IES通知增加IES精确率;在候选实例接受率大于第二预定值时,MRE利用第二调整参数向 IES通知增加IES召回率;在不确定实例拒绝率大于第三预定值时,MRE利用第三调整参数 向IEA通知增加IEA精确率;以及在不确定实例接受率大于第四预定值时,MRE利用第四调整参数 向IE A通知增加IE A召回率。
37. —种信息提取系统,包括根据权利要求1或4或9所述的信息提取模型训练装置;以及 根据权利要求19, 23和27之一所述的信息提取装置。
38. —种信息提取方法,包括根据权利要求10或13或18所述的信息提取模型训练方法;以及 根据权利要求31或33或35所述的信息提取方法。
全文摘要
本发明提供一种信息提取模型训练装置,包括IES模型训练单元,用于利用语料来生成IES模型训练集和MRE规则训练集,并根据IES模型训练集和MRE规则训练集生成训练后的IES模型;以及MRE规则训练单元,用于利用语料和MRE规则训练集生成训练后的MRE规则库。此外,本发明提供了一种用于从文本段中提取实例集的信息提取装置,一种信息提取模型训练方法和信息提取方法,以及包括该信息提取模型训练装置和信息提取装置的系统和方法。通过本发明,可以精确、快速地从大量信息中查找出所需信息。
文档编号G06F17/27GK101470699SQ20071030662
公开日2009年7月1日 申请日期2007年12月28日 优先权日2007年12月28日
发明者吴根清, 靳简明 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1