信息抽取方法及装置与流程

文档序号:15636693发布日期:2018-10-12 21:33阅读:191来源:国知局

本发明涉及文本处理与信息抽取领域,具体涉及一种信息抽取的方法。此外,本发明还涉及一种信息抽取的装置。



背景技术:

信息抽取(informationextraction)是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。它可以作为智能问答、语义信息深层挖掘、规范化信息提取等操作的前置信息处理流程。

信息抽取主要采用的方法是基于规则的抽取方法,一般包括两个阶段:构建规则表达式,以及应用规则表达式获取用户所需要的信息。构建规则表达式主要是由建模人员根据抽取需求和经验来构建。多个规则表达式以特定的形式组织起来,可以称之为规则模型。应用规则模型中的规则表达式与文本匹配,就可以从文本中抽取出用户所需要的信息。

一个好的规则模型可以在准确性和精确度达到较高的标准,但是规则模型构建时候不仅需要专业的建模人员,还需要穷举需要匹配到的文本元素,耗费大量的人力和时间。例如,如果需要用地名来作为规则表达式的构建元素,即需要准确地从文本中识别出地名,并尽量减少遗漏,这就要求建模人员将所有的地名都一一穷举出来。因此,构建用于信息抽取的规则模型需要耗费大量的人力和时间,这是本领域技术人员亟待解决的问题。



技术实现要素:

为解决上述技术问题,本申请提供一种信息抽取方法,以减少构建规则所耗费的大量的人力和时间,更加全面准确地从文本中抽取出信息。

第一方面,提供一种信息抽取方法,包括:获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述区域确定规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;

利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;

利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域;

从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

结合第一方面,在第一方面第一种可能的实现方式中,所述信息抽取规则中包含统计算子;

从所述有效抽取区域中抽取出与信息抽取规则匹配的字符串的步骤,具体包括:

利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,所述统计模型包括用于识别命名实体的第一模型和用于识别依存成分的第二模型,所述识别标签包括第一标签和第二标签;

如果所述区域确定规则仅包括表征第一模型的统计算子和表征第二模型的统计算子中的任一个,并且所述信息抽取规则包括表征第一模型的统计算子和表征第二模型的统计算子中的另外一个,则用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签的步骤,具体包括:

利用第一模型/第二模型识别所述文本中的命名实体/依存成分,为每一个识别出的命名实体/依存成分标记第一标签/第二标签;

利用第二模型/第一模型识别所述有效抽取区域中的依存成分/命名实体,为每一个识别出的依存成分/命名实体标记第二标签/第一标签。

结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,所述第一标签的种类包括人名标签、地名标签和机构标签,所述第二标签的种类包括核心成分标签、依存词标签、施事成分标签和受事成分标签;

为每一个识别出的命名实体标记第一标签的步骤,包括:

如果利用所述第一模型识别出的命名实体为人名、地名或机构,则为所述识别出的命名实体标记相应的人名标签、地名标签或机构标签;

为每一个识别出的依存成分标记第二标签的步骤,包括:

如果利用所述第二模型识别出的依存成分为核心成分、依存词、施事成分或受事成分,则为所述识别出的依存成分标记相应的核心成分标签、依存词标签、施事成分标签或受事成分标签;

利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域的步骤,包括:

比对所述区域确定规则和所述文本,其中,如果所述区域确定规则中的统计算子所带有的指定标签与所述第一标签/第二标签的种类相匹配,则所述统计算子与标记所述第一标签/第二标签的字符串匹配,所述指定标签用于表征用户期望从文本中识别出的命名实体的类型或依存成分的类型;

根据所述区域确定规则与所述文本匹配的位置,确定有效抽取区域。

结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串的步骤,包括:

比对所述信息抽取规则和所述有效抽取区域,其中,如果所述信息抽取规则中的统计算子所带有的指定标签与所述第一标签/第二标签的种类相匹配,则所述统计算子与标记所述第一标签/第二标签的字符串匹配;

抽取与所述信息抽取规则匹配的字符串。

结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,所述区域确定规则还包括正则表达式,其中,所述统计算子与所述正则表达式之间具有先后顺序关系和/或逻辑运算关系。

结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,所述区域确定规则或所述信息抽取规则还包括业务要素概念/通用概念,所述业务要素概念/所述通用概念与所述统计算子,或与所述正则表达式之间具有先后顺序关系和/或逻辑运算关系。

第二方面,提供一种信息抽取方法,包括:

获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述信息抽取规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;

利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;

利用所述区域确定规则确定所述文本中的有效抽取区域;

利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

第三方面,提供一种信息抽取装置,包括:

第一获取单元,用于获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述区域确定规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;

第一处理单元,用于利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域;以及,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

第四方面,提供一种信息抽取装置,包括:

第二获取单元,用于获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述信息抽取规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;

第二处理单元,用于利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;利用所述区域确定规则确定所述文本中的有效抽取区域;以及,利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

本申请的信息抽取方法中,首先获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述区域确定规则和/或所述信息抽取规则中包含统计算子,从而将用于识别命名实体和/或依存成分的统计模型定义为统计算子,引入到抽取表达式中,得到抽取表达式。然后利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签。再利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串;或者,利用所述区域确定规则确定所述文本中的有效抽取区域,利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。通过这样的方式,以规则的方式来调用用于识别命名实体和/或依存成分的统计模型,使其参与到抽取表达式与文本匹配的过程中,使用起来非常方便灵活。与单纯的规则表达式相比,扩大了识别词汇的范围,可以更加全面地抽取出用户需要的信息,同时避免在构建规则表达式时耗费大量的人力和时间;与单纯的基于统计模型的方法相比,可以更加准确地抽取出用户需要的信息。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请信息抽取方法的第一个实施例的流程图;

图2为本申请信息抽取方法的第一个实施例的具体实现方式之一的流程图;

图3为本申请信息抽取方法的第一个实施例的具体实现方式之二的流程图;

图4为本申请信息抽取方法的第一个实施例的具体实现方式之三的流程图;

图5为本申请信息抽取方法的第一个实施例中,s300步骤的其中一种实现方式的流程图;

图6为本申请信息抽取方法的第一个实施例中,s410步骤的其中一种实现方式的流程图;

图7为本申请信息抽取方法的第二个实施例中的流程图;

图8为本申请的信息抽取装置的具体实施方式之一的结构示意图;

图9为本申请的信息抽取装置的具体实施方式之二的结构示意图。

具体实施方式

下面对本申请的实施例作详细说明。

在基于规则的抽取方法中,规则表达式中包括信息抽取规则,信息抽取规则用于在文本中抽取出用户期望抽取出的信息。例如,将信息抽取规则“中等身材|体型一般”与文本匹配,当文本中出现“中等身材”或“体型一般”时,这样的在文本中形容体型的信息就会被抽取出来。为了更全面地抽取信息,建模人员需要一一穷举出所有可能的表述形式来构建规则表达式,耗费大量的人力和时间。

除了基于规则的抽取方法以外,还可以利用基于统计的抽取方法来抽取信息。即首先使用标记了用户希望抽取出的信息的语料来训练统计模型,例如隐马尔科夫模型(hmm)、最大熵模型(memm)、条件随机场模型(crf)、支持向量机模型(svm)等,然后利用训练好的统计模型来抽取信息。采用基于统计的抽取方法无需专业的建模人员来构建规则表达式,节约的人力和时间。但是,与基于规则的抽取方法相比,总体来说基于统计的抽取方法在准确性和精确度方面较差。这是主要是因为一方面,训练语料不够全面会对统计模型应用的准确性造成影响;另一方面,当用户的抽取需求较复杂,不仅仅是简单地抽取统计模型所擅长的命名实体等时,基于统计模型的抽取方法在应用时的准确性也会受到影响。

为此,本申请提出一种新的信息抽取方法,将用于识别命名实体和/或依存成分的统计模型定义为统计算子,引入到规则表达式中,从而得到抽取表达式。以规则的方式来调用用于识别命名实体和/或依存成分的统计模型,使其参与与文本匹配的过程,使用起来非常方便灵活。利用该抽取表达式来处理文本,与单纯的规则表达式相比,扩大了识别词汇的范围,可以更加全面地抽取出用户需要的信息,同时避免在构建规则时耗费大量的人力和时间;与单纯的基于统计模型的方法相比,可以更加准确地抽取出用户需要的信息。

本申请中的抽取表达式包括两部分:区域确定规则和信息抽取规则。表征统计模型的统计算子既可以仅引入到区域确定规则中,也可以仅引入到信息抽取规则中,还可以同时引入到区域确定规则和信息抽取规则中。为了便于清晰地阐述清楚这三种情况,以下将通过两个实施例来分别描述:在第一个实施例中,区域确定规则中包含统计算子,信息抽取规则中可包含也可以不包含统计算子;在第二个实施例中,信息抽取规则中包含统计算子,区域确定规则中可包含也可以不包含统计算子。

请参考图1,在第一个实施例中,提供一种信息抽取方法,包括以下s100-s400的步骤。

s100:获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述区域确定规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型。

在本申请中,待抽取信息的文本可以是来源于互联网的文本,也可以是来源于某个特定的数据库的文本等,本申请对于抽取信息的文本的来源和形式不作限定。

命名实体是(namedentity)就是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还可以包括数字、日期、货币、地址等。

依存成分是指句子所包含的句法成分,例如核心成分、依存词、施事成分、受事成分等。在一个句子中,词与词之间存在带有方向的支配与被支配的关系,处于支配地位的称为支配词,也就是本申请中的核心成分,处于被支配地位的称为从属词,也就是本申请中的依存词。一般来说,动词作为句子的中心,支配着句子中的其他成分,也就是说这些成分以各种依存关系从属于动词,这种关系是单向的。除了可以分析出核心成分和依存词等句法成分之外,在一个句子中,还可以分析出包括谓词(动词或名词)的语义角色,如施事者、受事者等,每个语义角色都被赋予一定的语义含义,句子中的施事者就是本申请中的施事成分,受事者就是本申请中的受事成分。

统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型,也就是说,将统计模型用统计算子的形式来表示,从而便于应用到抽取表达式中。这里的统计模型是指已经用带标注的训练语料训练好的模型,也就是参数已经确定的统计模型。

抽取表达式包括两部分:区域确定规则和信息抽取规则。区域确定规则用于在文本中确定有效抽取区域。在一种实施方式中,区域确定规则可以包括前置定位规则和后置定位规则,前置定位规则用于在文本中确定起始位置,后置定位规则用于在文本中确定结束位置。在确定了起始位置和结束位置以后,二者之间的文本即为有效抽取区域。在这种情况下,前置定位规则和后置定位规则这二者中至少一个包含统计算子,就认为定位规则中包含了统计算子。在另一种实施方式中,区域确定规则可以包括中心定位规则,中心定位规则用于在文本中确定中心位置,然后根据中心位置往上下文扩展预设区域,从而确定有效抽取区域。

对于一条包括统计算子的区域确定规则而言,它可以仅包含统计算子,也可以包含统计算子和正则表达式。当包括统计算子和正则表达式时,二者之间具有先后顺序关系和/或逻辑运算关系。例如,前置定位规则可以是“pd十分美丽”的形式,其中,pd为实体识别算子,表示用于识别命名实体的统计模型,“十分美丽”是正则表达式。在这个例子中,统计算子和正则表达是之间具有先后顺序关系。该规则能够匹配到类似“王二妮十分美丽”这样的字符串。又例如,前置定位规则还可以是“pd(十分美丽|很美)”这样的形式,其中,“十分美丽”、“很美”都是正则表达式,二者之间具有逻辑运算关系“或”,而pd与(十分美丽|很美)这个整体之间具有先后顺序关系。也就是说,统计算子与统计算子之间,正则表达式与正则表达式之间,或者统计算子与正则表达式之间都可以存在先后顺序关系和/或逻辑运算关系。

信息抽取规则用于在有效抽取区域中抽取出用户期望抽取出的信息。在本实施例中,信息抽取规则可以仅包含正则表达式,也可以包含正则表达式和统计算子。当包含正则表达式和统计算子时,二者之间具有先后顺序关系和/或逻辑运算关系,与前述的类似,此处不再赘述。

在一种实施方式中,信息抽取规则可以在前置定位规则和后置定位规则之间,两两之间用“@”分隔,即抽取表达式为“前置定位规则@信息抽取规则@后置定位规则”。这里,前置定位规则或后置定位规则可以为空。当前置定位规则为空时,则默认为以整篇文本的第一个字符为起始位置;当后置定位规则为空时,则默认为以整篇文本的最后一个字符为结束位置。前置定位规则或后置定位规则为空的情况可以视为该定位规则仅包含正则表达式的一种特殊情况。

可选地,统计模型包括用于识别命名实体的第一模型和用于识别依存成分的第二模型。统计算子包括实体识别算子pd和依存成分算子dc,实体识别算子pd表征第一模型,依存成分算子dc表征第二模型。

第一模型可以采用hmm模型、crf模型等。在训练的阶段,使用带标注的语料来训练,确定出模型的主要参数,从而得到一个训练好的第一模型。在使用阶段,将待识别文本输入到统计模型中,就可以输出该待识别文本中的命名实体。与此类似地,第二模型也可以采用hmm模型、memm模型、crf模型等来进行训练,只是训练使用的带标注的语料与训练第一模型的不同,故而训练得到的模型的主要参数也不同,即得到不同的第二模型。对于第一、第二模型的训练,如果采用不同的应用场景下的带标注的语料来作为训练语料,则训练得到的模型参数就会不同,从而使得训练好的统计模型能够更加适用于处理特定应用场景下的语料。例如,如果训练语料都是标注好的财经类新闻,则训练好的统计模型会更加适用于处理财经类新闻,即从财经类新闻中识别出命名实体或者依存成分。具体训练统计模型的方法可以采用现有技术中的方法,此处不再赘述。

举例来说,抽取表达式1为“pd@(中等身材|体型一般)@”。在这个例子中,前置定位规则仅包括了统计算子pd,当前置定位规则与文本进行匹配的时候,就会调用相应的统计模型来识别文本中的命名实体,如果识别到命名实体,就将该位置确定为起始位置;后置定位规则为空,也就是以文本的最后一个字符为结束位置;信息抽取规则为“(中等身材|体型一般)”,也就是说,在有效抽取区域中,如果包含“中等身材”或“体型一般”,就将其抽取出来。

s200:利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签。

在s200的步骤中,利用统计模型识别所述文本中的命名实体和/或依存成分,将文本作为统计模型的输入数据,将识别出的命名实体和/或依存成分作为统计模型的输出数据,采用现有技术中的方法进行即可,此处不再赘述。文本中每一个识别出的命名实体和/或依存成分都分别标记一个对应的识别标签。

当抽取表达式中包含了多种统计算子时,可以为每一种统计模型所识别出的命名实体或依存成分标记对应的不同的识别标签。例如在一个实施方式中,可参考表1,统计算子可以包括实体识别算子和依存成分算子,分别以“pd”和“dc”来表示。统计模型可以包括用于识别命名实体的第一模型和用于识别依存成分的第二模型,实体识别算子表征第一模型,依存成分算子表征第二模型。识别标签包括第一标签和第二标签,利用第一模型识别出的内容都是命名实体,为其标记第一标签,利用第二模型识别出的内容都是依存成分,为其标记第二标签。

表1多个统计算子、多个统计模型及多个识别标签的对应关系实例一

s300:利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域。

由于区域确定规则存在多种具体实现形式,因此确定有效抽取区域的具体步骤也存在些许差异。例如,在一种实现方式中,区域确定规则是包括前置定位规则和后置定位规则的规则,在本实施例中前置定位规则和后置定位规则中至少一者包含有统计算子。通过前置定位规则与所述文本匹配就可以确定起始位置,通过后置定位规则与文本匹配就可以确定结束位置。在确定了起始位置和结束位置以后,二者之间的文本即为有效抽取区域。又例如,在另一种实现方式中,区域确定规则包括中心定位规则,中心定位规则包含统计算子,利用中心定位规则与文本匹配就可以确定中心位置,然后根据中心位置往上下文扩展预设区域,从而确定有效抽取区域。但无论是哪一种实现形式,在前置定位规则和/或后置定位规则,或者中心定位规则与文本进行比对匹配的时候,都需要利用相应的识别标签来判断前置定位规则、后置定位规则或中心定位规则与文本是否匹配。

具体来说,如果前置定位规则、后置定位规则或中心定位规则中仅包含统计算子,那么只要一个识别标签对应的统计模型与统计算子表征的统计模型是同一个模型,就可以认为该识别标签标记的字符串(命名实体或依存成分)与该规则中的统计算子匹配。由于前置定位规则、后置定位规则或中心定位规则中仅包含统计算子,故而该规则与该识别标签标记的字符串匹配。如果前置定位规则、后置定位规则或中心定位规则中既包含统计算子又包含正则表达式,那么规则需要整体上与文本匹配,也就是说,文本中的字符串除了需要与统计算子匹配上以外,与统计算子匹配的字符串前后的字符串也需要与规则中统计算子前后的正则表达式匹配,即统计算子、正则表达式以及二者之间具有先后顺序关系和/或逻辑运算关系都能够与文本匹配上。

例如,假设前置定位规则为“pd(十分美丽|很美)”,则该规则可以匹配上文本中的字符串“王二妮十分美丽”、“李二妹很美”等,但是无法匹配上类似“王二妮很漂亮”、“王二妮的妹妹十分美丽”这样的字符串。

s400:从所述有效抽取区域中抽取出与信息抽取规则匹配的字符串。

在一种实现方式中,信息抽取规则中仅包含了正则表达式,不包含统计算子,则利用正则表达式与有效抽取区域中的文字进行匹配,就可以抽取出与信息抽取规则匹配的字符串,也就是用户期望从文本中抽取出的信息。

以下以一个实例来说明。

待抽取信息的文本1:

王二柱以前体型一般,后来他每天坚持锻炼,现在非常强壮健硕。

抽取表达式1:pd@(中等身材|体型一般)@

利用区域确定规则中的统计算子pd,也就是实体识别算子所表征的统计模型识别出文本1中“王二柱”为命名实体,为文本1中的“王二柱”标记识别标签——第一标签。然后将区域确定规则中的前置定位规则“pd”与文本1比对,由于文本1中的“王二柱”上标记的第一标签所对应的统计模型与前置定位规则“pd”中pd所表征的统计模型是同一个模型,因此“王二柱”与前置定位规则“pd”匹配,将“王二柱”在文本1中的位置确定为起始位置。后置定位规则为空,故而将文本1的最后一个字符确定为结束位置。从而确定出文本1中有效抽取区域1为“以前体型一般,后来他每天坚持健身,现在非常强壮健硕。”。

在该实例中,如果待抽取表达式1的后置定位规则替换为“(dc).{0,10}健硕”,其中dc是依存成分算子,利用该算子所表征的统计模型可以识别出文本中的依存成分;“.{0,10}健硕”是正则表达式。如果文本中存在一个依存成分,并且该依存成分之后的0-10个字符中包含了“健硕”这两个字符,就表示该依存成分至健硕这一段字符串与该后置定位规则相匹配。应用在文本1中,采用dc所表征的统计模型可以识别出“锻炼”这个依存成分,为其标记对应的识别标签——第二标签。由于第二标签对应的统计模型与dc所表征的统计模型是同一个,因此第二标签所标记的字符串“锻炼”与该后置定位规则中的“(dc)”能够匹配。在“锻炼”之后的10个字符内又匹配到了“健硕”,故而“锻炼,现在非常强壮健硕”这个字符串就与该后置定位规则匹配。从而确定出文本1中有效抽取区域2为“以前体型一般,后来他每天坚持”。

信息抽取规则为“中等身材|体型一般”,因此在有效抽取区域1中可以抽取出“体型一般”这个字符串。

可选地,请参考图2,在s400的另一种实现方式中,信息抽取规则中包含统计算子,即如图2中步骤s101所示,则从所述有效抽取区域中抽取出与信息抽取规则匹配的字符串的步骤,具体包括:

s410:利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

这里,当信息抽取规则中包含统计算子,其与有效抽取区域中的字符串匹配的过程与前述s300的步骤中前置定位规则等与文本进行匹配的过程类似。如果信息抽取规则中仅包含统计算子,那么只要识别标签对应的统计模型与统计算子表征的统计模型是同一个模型,就可以认为该识别标签标记的字符串(命名实体或依存成分)与统计算子匹配。由于信息抽取规则中仅包含统计算子,故而该识别标签标记的字符串与该规则匹配,将该字符串抽取出即可。如果信息抽取规则中既包含统计算子又包含正则表达式,那么该规则需要整体上与文本匹配,也就是说,文本中的字符串除了需要与统计算子匹配上以外,与统计算子匹配的字符串前后的字符串也需要与规则中统计算子前后的正则表达式匹配,即统计算子、正则表达式以及二者之间具有先后顺序关系和/或逻辑运算关系都能够与文本匹配上,才能抽取出匹配的字符串作为从文本中抽取出的信息。

仍然沿用前述的文本1的例子,抽取表达式2为:pd@(中等身材|体型一般).{0,10}dc@。

通过前置定位规则和后指定为规则,可以确定有效抽取区域1为“以前体型一般,后来他每天坚持锻炼,现在非常强壮健硕。”。

利用依存成分算子dc所表征的统计模型可以识别出文本1中“锻炼”为依存成分,为其标记第二标签。以第二标签取代有效抽取区域中的“锻炼”,由于该第二标签对应的统计模型与dc所表征的统计模型是同一个,因此第二标签标记的字符串“锻炼”与该后置定位规则中的“dc”能够匹配。在“锻炼”之前的0-10个字符内匹配到“体型一般”,故而“体型一般,后来他每天坚持锻炼”这个字符串就与该信息抽取规则匹配,将其从有效抽取区域中抽取出。

通过上述方法,将规则与统计结合起来,可以灵活地在区域确定规则和/或信息抽取规则中调用统计模型,还可以与正则表达式进行组合,得到形式更加丰富的抽取表达式。利用该抽取表达式来提取信息,与单纯的规则表达式相比,扩大了识别词汇的范围,可以更加全面地抽取出用户需要的信息,同时避免在构建规则时耗费大量的人力和时间;与单纯的基于统计模型的方法相比,可以更加准确地抽取出用户需要的信息。

当一个抽取表达式中包含了多种统计算子时,可以将这些统计算子所表征的统计模型分别都对所述文本识别一遍,并为识别出的内容分别标记对应的识别标签。此外,可选地,请参考图3和图4,如果所述区域确定规则仅包括表征第一模型的统计算子和表征第二模型的统计算子中的任一个,并且所述信息抽取规则包括表征第一模型的统计算子和表征第二模型的统计算子中的另外一个,则s200的步骤包括:

s201:利用第一模型识别所述文本中的命名实体,为每一个识别出的命名实体标记第一标签;

s202:利用第二模型识别所述有效抽取区域中的依存成分,为每一个识别出的依存成分标记第二标签。

或者,s200的步骤包括:

s203:利用第二模型识别所述文本中的依存成分,为每一个识别出的依存成分标记第二标签;

s204:利用第一模型识别所述有效抽取区域中的命名实体,为每一个识别出的命名实体标记第一标签。

在信息抽取规则中包含了区域确定规则中没有包含的其他统计算子的情况下,无需将抽取表达式中的所有统计算子所表征的统计模型都用来对文本识别一遍,而是可以先采用区域确定规则中的统计算子所表征的统计模型对文本识别一遍,在确定有效抽取区域以后,再用信息抽取规则中包含的、区域确定规则中未包含的统计算子所表征的统计模型,对有效抽取区域识别一遍,从而减少部分统计模型所需要识别的文本的长度,提升识别速度,进而提升信息抽取速度。

此处需要说明的是,在该实现方式中,s202和s204的步骤从逻辑上可知处于s300的步骤之后。在本申请中,步骤的编号仅仅是为了便于描述,不用于限定方法中各个步骤的顺序,方法中的各个步骤,只要逻辑上合理,执行的先后顺序可以发生变化。

可选地,如表2所示,所述第一标签的种类可以包括人名标签、地名标签和机构标签,所述第二标签的种类包括核心成分标签、依存词标签、施事成分标签和受事成分标签。

在步骤s201和/或步骤s204中,为每一个识别出的命名实体标记第一标签的步骤,包括:

如果利用所述第一模型识别出的命名实体为人名、地名或机构,则为所述识别出的命名实体标记相应的人名标签、地名标签或机构标签。

在步骤s202和/或步骤s203中,为每一个识别出的依存成分标记第二标签的步骤,包括:

如果利用所述第二模型识别出的依存成分为核心成分、依存词、施事成分或受事成分,则为所述识别出的依存成分标记相应的核心成分标签、依存词标签、施事成分标签或受事成分标签。

如果区域确定规则中包括统计算子,那么请参考图5,s300的步骤可以包括:

s301:比对所述区域确定规则和所述文本,其中,如果所述区域确定规则中的统计算子所带有的指定标签与所述第一标签/第二标签的种类相匹配,则所述统计算子与标记所述第一标签/第二标签的字符串匹配,所述指定标签用于表征用户期望从文本中识别出的命名实体的类型或依存成分的类型;

s302:根据所述区域确定规则与所述文本匹配的位置,确定有效抽取区域。

如果信息抽取规则中包括统计算子,那么请参考图6,s410的步骤可以包括:

s411:比对所述信息抽取规则和所述有效抽取区域,其中,如果所述信息抽取规则中的统计算子所带有的指定标签与所述第一标签/第二标签的种类相匹配,则所述统计算子与标记所述第一标签/第二标签的字符串匹配;

s412:抽取与所述信息抽取规则匹配的字符串。

表2多个统计算子、多个统计模型及多个识别标签的对应关系实例二

无论是区域确定规则还是信息抽取规则中的统计算子,都可以对其表征的统计模型所识别出的命名实体/依存成分进一步进行分类,对应地标记上不同种类的标签,从而更准确地通过抽取表达式中统计算子的指定标签来限定用户期望从文本中抽取出的信息,减少抽取错误的情况,提高抽取出的信息的准确性。

例如,信息抽取规则a是“pd{0,2}十分美丽”,信息抽取规则b是“(pd_per){0,2}十分美丽”。

文本2的有效抽取区域为:河南省十分美丽,出生于河南省的王二妮也十分美丽。

采用信息抽取规则a来抽取时,利用pd所表征的第一模型识别有效抽取区域中的命名实体“河南省”、“河南省”、“王二妮”,分别为这两个字符串标记上第一标签。然后将信息抽取规则a与文本2的有效抽取区域进行匹配,由于第一个“河南省”上的第一标签所对应的统计模型是第一模型,与pd所表征的相同,故而第一个“河南省”与pd能够匹配。第一个“河南省”后面存在“十分美丽”,并且二者之间的间隔为0个字符,能够与信息抽取规则a中的正则表达式“{0,2}十分美丽”匹配上。因此,“河南省十分美丽”与规则a匹配,可以将其抽取出来。

类似的,第二个“河南省”与pd也能够匹配,但是其后的字符串中虽然包含了“十分美丽”,与第二个“河南省”之间的间隔却超过了2个字符,故而无法匹配上。

类似的,“王二妮”与pd也能够匹配,并且其后的字符串“十分美丽”与“王二妮”之间的间隔为1个字符,能够与信息抽取规则a中的正则表达式“{0,2}十分美丽”匹配上。因此,“王二妮也十分美丽”与规则a匹配,可以将其抽取出来。

采用信息抽取规则b来抽取时,利用pd所表征的第一模型识别有效抽取区域中的命名实体“河南省”、“河南省”、“王二妮”,由于两个“河南省”为地名,故而为其分别标记地名标签;“王二妮”为人名,为其标记人名标签。

然后将信息抽取规则b与文本2的有效抽取区域进行匹配,虽然第一个和第二个“河南省”上的地名标签所对应的统计模型是也第一模型,与pd所表征的相同,但规则b中统计算子所带有的指定标签为“_per”,即用户期望从文本中识别出的命名实体的类型是人名这一类型,与地名标签不能匹配,故而规则b中的统计算子“(pd_per)”与两个“河南省”均不能匹配上。

类似的,对于“王二妮”,其标签为人名标签,与规则b中的统计算子“(pd_per)”能够匹配上。并且,“王二妮”后面的“也十分美丽”与规则b中的正则表达式“{0,2}十分美丽”也能匹配上,故而“王二妮”也十分美丽”与规则b匹配,可以将其抽取出来。

可以看出,采用信息抽取规则a来抽取,会从有效抽取区域中抽取出“河南省十分美丽”、“王二妮也十分美丽”两个字符串。采用信息抽取规则b来抽取,则只会从同一个有效抽取区域中抽取出“王二妮也十分美丽”这一个字符串。

可选地,无论是区域确定规则还是信息抽取规则中,都可以包括业务要素概念和/或通用概念。

在本申请中,通用概念是指文本中的与具体业务无关的词汇的词义信息,以及词汇之间的语义关联性。一个通用概念可以代表一组词汇,也可以表示一句话。通用概念是对对象的描述,反映它所描述对象的本质属性的抽象表达,比如时间、地点、情绪、评价等。通用概念在不同的领域、不同的应用场景中往往是可以复用的。通用概念可以用“c”表示。

例如,对于一个通用概念“否定”,即“c_否定”,它可以代表“未”、“没有”、“不曾”等词汇。也就是说,当一个文本中包括了“未”、“没有”和“不曾”中的任一个,就认为该文本中的该词汇与“c_否定”这一通用概念是匹配的。

又例如,对于一个通用概念“不满”,即“c_不满”,它可以表示“[^不].{0,5}不满”。其中,“[^不].{0,5}不满”表示,在匹配文本时,只要“不满”之前包括0~5个字符的文本,都会被“[^不].{0,5}不满”匹配上,例如“很不满”等,同时排除“不是不满”、“不算不满”等反向语义的语句。因此,如果一个文本中“不满”之前包括0~5个字符的文本,并且这0~5个字符中未包括“不”,则认为这个字符串与“c_不满”这个通用概念是匹配的。

业务要素概念是指与具体业务有关的词汇的语义信息,以及词汇之间的语义关联性。与通用概念类似的,业务要素概念也可以代表一组词汇,也可以表示一句话。业务要素概念是对与业务相关的对象或其属性的描述,往往与领域、不同的业务相关,在不同的领域或不同的应用场景下不能复用。业务要素概念可以用“e”表示。

例如,在银行信用卡客服领域,业务要素概念“伪冒信息”,即“e_伪冒信息”,可以代表“伪冒短信”、“伪冒消息”、“伪冒来电”、“伪冒邮件”等词汇。当一个文本中包括了“伪冒短信”、“伪冒消息”、“伪冒来电”和“伪冒邮件”中的任一个,就表示该文本中的该词汇与“e_伪冒信息”这一通用概念是匹配的。

语义模型是指面向已知概念,从样本数据中归纳穷举出的用于描述已知概念语义的文本表现形式。将多个与业务无关的通用概念,以树形结构组织起来,就组成了概念树。一棵概念树就可理解为是一个语义模型。将多个与业务相关的业务要素概念,以树形结构组织起来,就组成了要素树。一棵要素树也可理解为是一个语义模型。利用这样的语义模型可以对文本进行识别,确定文本中是否存在与语义模型中的通用概念或业务要素概念匹配的字符串。

在本申请的方案中,可以将这样的通用概念或业务要素概念也引入到规则中,以构成形式更加丰富的抽取表达式,从而准确全面地抽取出信息。

由于在本实施例中,区域确定规则包含统计算子,故而当区域确定规则中也包含业务要素概念和/或通用概念时,与还包含正则表达式的情况类似的,统计算子与业务要素概念和/或通用概念之间也具有先后顺序关系和/或逻辑运算关系。此外,区域确定规则中还可以统计算子、正则表达式、业务要素概念和/或通用概念这几者都包含。

对于本实施例中的信息抽取规则,其可以包含统计算子,也可以不包含统计算子。其可以包含业务要素概念、通用概念、统计算子和正则表达式中的一种或任意几种,根据应用场景的不同选择其中的一种或数种进行组合,从而达到更加准确抽取信息的目的。当包含几种时,要素概念/通用概念与统计算子,或与所述正则表达式之间具有先后顺序关系和/或逻辑运算关系。

以下以一个实例来进一步说明。

抽取表达式3:@(pd_per|pd_pos)@c_褒义评价

其中,通用概念(c)有:

c_褒义评价:十分美丽,物产丰富,很聪明。

文本3:王二妮虽然没读过书,但是她儿子张飞很聪明。

前置定位规则为空,以文本3的第一个字符为开始位置。后置定位规则为“c_褒义评价”,可以匹配到文本3中的“很聪明”,以此匹配的位置为结束位置。根据开始位置和结束位置,可以确定文本3中的有效抽取区域为“王二妮虽然没读过书,但是她儿子张飞”。

在有效抽取区域中用pd所表征的第一模型进行识别,可以识别到“王二妮”、“张飞”,分别为二者标记人名标签。由于二者的种类均与信息抽取规则中的pd带有的指定标签“_per”想匹配,故而“王二妮”、“张飞”均与信息抽取规则“(pd_per|pd_pos)”匹配,可以从文本3中抽取出“王二妮”、“张飞”这两个字符串。

可选地,还可以限定区域确定规则与信息抽取规则之间的间隔距离。

例如,抽取表达式4:@(pd_per|pd_pos)@{0,2}c_褒义评价

其中,区域确定规则中的“{0,2}”表示抽取的人名或地名与通用概念c_褒义评价匹配的位置之间的间隔距离为0-2个字符。

沿用前述的文本3,由于“王二妮”虽然能匹配上信息抽取规则,但是其与“很聪明”之间的间隔距离超过了2个字符;“张飞”与“很聪明”之间的间隔距离为0个字符,故而仅从文本3中抽取出“张飞”这一个字符串。

请参考图7,在第二个实施例中,提供一种信息抽取方法,包括以下s500-s800的步骤。

s500:获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述信息抽取规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型。

s600:利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签。

s700:利用所述区域确定规则确定所述文本中的有效抽取区域。

s800:利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

步骤s500中待抽取信息的文本、命名实体、依存成分、统计算子、抽取表达式等的描述可参考第一个实施例中s100步骤的相关描述,此处不再赘述。本步骤与s100步骤的区别在于,本步骤中获得的抽取表达式中,信息抽取规则包含了统计算子,而区域确定规则中可包含也可不包含统计算子。

步骤s600与第一个实施例中s200步骤的相关描述,此处不再赘述。

如果区域确定规则中不包括任何一个统计算子,那么s600的步骤从逻辑上应处于s700的步骤之后,具体可以包括:利用统计模型识别所述有效抽取区域中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签。

在步骤s700中,如果不包含统计算子,利用该规则确定有效区域的方法可以直接采用正则表达式匹配等现有技术中的方法。如果区域确定规则中也包含统计算子,步骤s700的步骤具体可以包括:利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域。

此步骤具体可参考第一个实施例中s300步骤的相关描述,此处不再赘述。

步骤s800的步骤可以参考第一个实施例中在信息抽取规则中包含统计算子的情况下s410的相关描述,此处不再赘述。

与第一个实施例类似地,如果信息抽取规则包括表征第一模型的统计算子和表征第二模型的统计算子中的任一个,并且区域确定规则仅包括表征第一模型的统计算子和表征第二模型的统计算子中的另外一个,则s600的步骤包括:

s601:利用第一模型识别所述文本中的命名实体,为每一个识别出的命名实体标记第一标签;

s602:利用第二模型识别所述有效抽取区域中的依存成分,为每一个识别出的依存成分标记第二标签。

或者,s600的步骤包括:

s603:利用第二模型识别所述文本中的依存成分,为每一个识别出的依存成分标记第二标签;

s604:利用第一模型识别所述有效抽取区域中的命名实体,为每一个识别出的命名实体标记第一标签。

通过这样的方式,无需将抽取表达式中的所有统计算子所表征的统计模型都用来对文本识别一遍,而是可以先采用区域确定规则中的统计算子所表征的统计模型对文本识别一遍,在确定有效抽取区域以后,再用信息抽取规则中包含的、区域确定规则中未包含的统计算子所表征的统计模型,对有效抽取区域识别一遍,从而减少部分统计模型所需要识别的文本的长度,提升识别速度,进而提升信息抽取速度。

可选地,与第一个实施例类似地,第一标签的种类可以包括人名标签、地名标签和机构标签,第二标签的种类包括核心成分标签、依存词标签、施事成分标签和受事成分标签。无论是区域确定规则还是信息抽取规则中,都可以包括正则表达式、业务要素概念和/或通用概念。当区域确定规则中包括正则表达式、业务要素概念、通用概念、统计算子中的一种或多种时,不同的正则表达式、业务要素概念、通用概念和/或统计算子可以进行组合,即他们之间具有先后顺序关系和/或逻辑运算关系。具体可参考第一个实施例中的相关描述,此处不再赘述。

在本申请的第三个实施例中,提供了一种与前述信息抽取方法对应的信息抽取装置,请参考图8,在第一种实现方式中,包括:

第一获取单元1,用于获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述区域确定规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;

第一处理单元2,用于利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域;以及,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

可选地,所述第一处理单元2具体用于在所述信息抽取规则中包含统计算子的情况下,利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

可选地,所述统计模型包括用于识别命名实体的第一模型和用于识别依存成分的第二模型,所述识别标签包括第一标签和第二标签;所述第一处理单元2具体还用于在所述信息抽取规则包括表征第一模型的统计算子和表征第二模型的统计算子中的任一个,并且所述区域确定规则仅包括表征第一模型的统计算子和表征第二模型的统计算子中的另外一个的情况下,利用第一模型/第二模型识别所述文本中的命名实体/依存成分,为每一个识别出的命名实体/依存成分标记第一标签/第二标签;以及,利用第二模型/第一模型识别所述有效抽取区域中的依存成分/命名实体,为每一个识别出的依存成分/命名实体标记第二标签/第一标签。

可选地,所述第一标签的种类包括人名标签、地名标签和机构标签,所述第二标签的种类包括核心成分标签、依存词标签、施事成分标签和受事成分标签。

所述第一处理单元2具体还用于在利用所述第一模型识别出的命名实体为人名、地名或机构的情况下,为所述识别出的命名实体标记相应的人名标签、地名标签或机构标签;在利用所述第二模型识别出的依存成分为核心成分、依存词、施事成分或受事成分的情况下,为所述识别出的依存成分标记相应的核心成分标签、依存词标签、施事成分标签或受事成分标签;比对所述区域确定规则和所述文本;以及,根据所述区域确定规则与所述文本匹配的位置,确定有效抽取区域。其中,如果所述区域确定规则中的统计算子所带有的指定标签与所述第一标签/第二标签的种类相匹配,则所述统计算子与标记所述第一标签/第二标签的字符串匹配,所述指定标签用于表征用户期望从文本中识别出的命名实体的类型或依存成分的类型。

可选地,所述第一处理单元2具体还用于比对所述信息抽取规则和所述有效抽取区域,以及,抽取与所述信息抽取规则匹配的字符串。其中,如果所述信息抽取规则中的统计算子所带有的指定标签与所述第一标签/第二标签的种类相匹配,则所述统计算子与标记所述第一标签/第二标签的字符串匹配。

可选地,所述信息抽取规则或区域确定规则还包括正则表达式,其中,所述统计算子与所述正则表达式之间具有先后顺序关系和/或逻辑运算关系。所述区域确定规则或所述信息抽取规则还包括业务要素概念/通用概念,所述业务要素概念/所述通用概念与所述统计算子,或与所述正则表达式之间具有先后顺序关系和/或逻辑运算关系。

请参考图9,在第二种实现方式中,该装置包括:

第二获取单元3,用于获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述信息抽取规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;

第二处理单元4,用于利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;利用所述区域确定规则确定所述文本中的有效抽取区域;以及,利用所述识别标签,从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。

第二处理单元4具体可以与第一种实现方式相互参考,此处不再赘述。上述的信息抽取装置与第一个实施例和第二个实施例中的信息抽取方法相对应,具有与前述信息抽取方法相应的有益效果,此处也不再赘述。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1