一种中文句子中并列信息提取方法及装置制造方法

文档序号:6506411阅读:382来源:国知局
一种中文句子中并列信息提取方法及装置制造方法
【专利摘要】本发明涉及一种中文句子中并列信息提取方法及装置,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行计算,以概念类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可降低语义分析的复杂度,可对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,可改善和提高译文的翻译效果。
【专利说明】一种中文句子中并列信息提取方法及装置
【技术领域】
[0001]本发明涉及一种中文信息处理技术,具体是一种中文句子中并列信息提取方法及 装置,属于自然语言处理【技术领域】。
【背景技术】
[0002]中文信息处理技术经历了面向词语、面向语法结构、面向短语等几个阶段。现在, 中文信息处理技术的热点转向面向语义分析。并列信息是一种语义信息,目前对并列信息 的研究还只是对句间并列复合句进行研究。另一种较多的并列信息研究还处于词语级并列 研究,如并列式词语、并列式合成词的研究,对并列结构内部构造的粘合性、并列结构中并 列项的句法结构和序列也有所研究。
[0003]苗艳军等提出,并列结构的自动识别对提高句法分析器的性能和工作效率具有重 要意义,同时,该识别结果可以直接应用于机器翻译、信息抽取等领域。他们分析了并列结 构的相似性,以及边界特征词分布的规则性,探索了基于规则方法的并列结构自动识别,具 体地,根据并列成分中心词词性,将并列结构分为五大类,分别针对每类并列结构特点实 现自动识别。该方法实现了基于最大熵模型的并列结构自动识别,将并列结构的自动识别 转化为一个分类问题,根据连接词的位置分别向左、向右搜索出并列结构的左右边界,并利 用校正规则集对识别结果进行校正。这种依赖连接词的左右边界识别的并列信息是一种句 内并列信息。且该并列词识别方法基于统计学方法,由于抽取的连接词前后的词语、词性和 词形受限,导致后续识别精确度低,识别的边界可能过前或者过后,导致识别出的并列结构 残缺、不完整,进而导致后续译文的翻译效果不佳。

【发明内容】

[0004]本发明所要解决的技术问题是现有基于最大熵模型的并列结构自动识别方法基 于统计学基础导致的识别出的并列结构残缺影响后续翻译效果的技术问题,从而提供不依 赖于统计学的一种中文句子中并列信息提取方法及装置。
[0005]为解决上述技术问题,本发明是通过以下技术方案实现的:
一种中文句子中并列信息提取方法,包括:
S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位 序列集合;
52:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述 分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭 配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语 素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信 息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在 中文句子中所占的长度;
53:加载并列信息标注规则集;S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规 则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文 本;
S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构 成所述中文句子的最终的并列信息并输出。
[0006]所述步骤SI中进一步包括:
使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语 构成的所述分词单位;
对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:
合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述 分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的 单个且连续的英语字母生成英文专名。
[0007]所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息 候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:
S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点 符号;
S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词 形包括短语、词语、语素和语素与词语首字或尾字;
S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占 的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选的生成步骤如下:
S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列 集合;
S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的 概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并 列信息侯选。
[0008]所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的 值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的 开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键 对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中 的开始位置及其所占的长度。
[0009]所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:
541:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;
542:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列 集合进行标记。
[0010]本发明中,还有许多并列信息标注规则,可以通过不断分析语言现象逐步增加,本 发明没有对所有的并列信息标注规则进行一一说明,也不可能列举所有的并列信息标注规 则。
[0011]同时,提供一种中文句子中并列信息提取装置,包括:分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的 所有分词单位构成的分词单位序列集合;
并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出 现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所 述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的 最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应 的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文 句子中出现的位置和在中文句子中所占的长度;
并列信息标注规则集加载单元,用于加载并列信息标注规则集;
带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列 信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列 集合中,形成带并列信息标记的标注文本;
并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围 最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
[0012]分词单位序列集合获取单元进一步包括:
前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前 向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
合并单元,进一步包括:
数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数 字生成数词短语;
英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字 母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。
[0013]所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和 概念的并列信息候选子单元,其中,
除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频 停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并 列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对 出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存 储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选子单元,用于从概念层次网络词语知识库中加载所述分词单位序 列集合对应的概念类别序列集合;并根据所述分词单位序列集合对应的所述概念类别序列 集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数 据结构中,生成概念的并列信息侯选。
[0014]所述除概念外的并列信息候选获取子单元中的所述数据结构为映射表,其键是所 述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所 述并列词形在中文句子中的开始位置及其所占的长度;所述概念的并列信息候选获取子单 元中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数 组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
[0015]所述并列信息标注规则集加载单元和所述带并列信息标记的标注文本生成单元中的并列信息标注规则为产生式规则,进一步包括:
约束检测子单元,用于检测当前所述中文句子是否匹配所述并列信息标注规则集中规 则左边的约束;如匹配,则转入标记子单元;
标记子单元,用于根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集 合进行标记。
[0016]本发明的上述技术方案相比现有技术具有以下优点:
(I)本发明所述的中文句子中并列信息提取方法,采用中文句子为单位的并列信息检 测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行 了计算,以概念的类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对 并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义 分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括了 严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取 中文句子中的并列信息可以降低中文句子语义分析的复杂度,可以对句子的主要谓语动词 的识别进行消歧,在中英机器翻译系统中,提取的并列信息可以有效地应用于语块格式转 换阶段,对于语块的调序有重要作用。作为一种浅层语块分析技术,并列信息的利用可改善 和提高译文的翻译效果。本专利完全基于语言学特点实现识别,尤其是长句识别效果好,特 备适合对于专利文献的翻译。
[0017](2)本发明的一种中文句子中并列信息提取方法和装置,采用前向最大长度词语 对所述中文句子进行分割,简单快速,便于推广实施。
【专利附图】

【附图说明】
[0018]为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作进一步详 细的说明,其中,
图1是本发明一个实施例的一种中文句子中并列信息提取方法的方法流程图;
图2为本发明一个实施例的一种中文句子中并列信息提取装置的结构框图。
【具体实施方式】
[0019]本发明所述的一种中文句子中并列信息提取方法,包括将中文句子转换成带并列 标记的标注文本的标注步骤和从所述标注文本中提取并列信息的提取步骤,其中,参见图1 所示,所述标注步骤具体包括如下步骤:
S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位并将所述分词单 位按照在所述句子中出现的顺序顺次排列得到分词单位序列集合。
[0020]S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成 所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能 够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所 述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别,不同的分 词单位可能对应同样的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及 所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;本实施例中,所述并 列信息候选是基于标准模板库的方法产生,当然作为本发明的其他实施例,也可基于关系数据库产生。作为一种具体实施例,所述概念为黄曾阳概念层次网络定义了概念类别,具体包括如下十一类概念:空间、主块标志符、辅块标志符、指代说明符、作用者语块标志符、对象语块标志符、动态、属性、无生命物、人造物和生命体。
[0021]S3:加载并列信息标注规则集。所述并列信息标注规则定义了对所述并列信息候选进行标注的规则,一般而言,不同的入口点有不同的标注规则,根据入口点的不同选择加载不同的标注规则;所述入口点是一个表达并列结构可能存在的词语,比如“和、或、以及、 与、及、或者”,也可以是一个表达并列结构可能存在的标点符号,比如“、”,也可以是上一条规则已经发现的入口点,即已经加上入口点标记的。
[0022]S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本。
[0023]S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
[0024]当然,实际中可能需要处理的是中文文本,在使用本发明的方法处理之前,需要将中文文本中的每个中文句子分离出来,对分离后的每个 所述中文句子再使用本发明的一种中文句子中并列信息提取方法进行并列信息提取即可。
[0025]作为本发明其他实施例的一种中文句子中并列信息提取方法,在上述实施例的基础上,所述步骤S2进一步包括如下步骤:
包括使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
其中,所述前向最大长度词语分割还包括对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:
合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
[0026]本实施例中以前向最大分词处理分割所述中文句子,得到前向最大长度词语的分词单位,所述中文句子中的所有所述分词单位构成分词单位序列集合,采用前向最大分词法分割所述中文句子简单、快速;当然作为本发明其他实施例对所述中文句子进行分割得到分词单位的方法,可以为双向最大分词法,或者中科院张华平提出的隐马尔科夫模型法, 都能实现得到分词单位的目的。
[0027]作为本发明其他实施例的一种中文句子中并列信息提取方法,在上述实施例的基础上,所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,
其中,除概念外的并列信息候选的生成步骤如下:
S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;
S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;
S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选的生成步骤如下:
525:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列 集合;
526:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的 概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并 列信息侯选。
[0028]作为一种【具体实施方式】,所述步骤S23中的所述数据结构为映射表,其键是所述 四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述 并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映 射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一 类所述概念在中文句子中的开始位置及其所占的长度。以归类语素为例进行说明,按词形 归类词向量,保存归类的数据结构是一个映射表,其键是词形,其值是一个动态数组,数组 的每一项记录了词出现的位置。在归类时,如果词形在归类映射表中已存在,则将词出现位 置添加到该词形对应的动态数组中;如果不存在,则创建一个新的动态数组,记录该词形的 出现位置。使用上述方法按语素归类单字语素向量,使用同样的数据结构类型的新变量和 算法来归类单字语素。
[0029]作为本发明的其他实施例的一种中文句子中并列信息提取方法,在上述任一的一 种并列信息提取方法的基础上,所述步骤S3和S4中的并列信息标注规则为产生式规则,进 一步包括如下步骤:
S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束; S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列 集合进行标记。
[0030]其中,产生式规则,或简称规则,一般形式为〈前件〉一〈后件〉,其中,前件就是 前提,后件是结论或动作,前件和后件可以是由逻辑运算符AND、OR、NOT组成的表达式。 产生式规则的语义是:如果前提满足,则可得结论或者执行相应的动作,即后件由前件 来触发。所以,前件是规则的执行条件,后件是规则体。
[0031]本实施例中,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词 形,键对应的值是一个动态数组,所述动态数组的每一项记录用于每一类所述并列词形在 中文句子中开始位置及其的分词单位长度。作为本发明其他实施例,所述数据结构也可通 过关系数据库实现,均能实现本发明的目的。
[0032]所述步骤S23中形成三类并列信息:并列单字语素、并列词中语素、并列词语;具 体方法为:扫描归类单字语素映射表,如果其键所应的动态数组的长度大于等于2,表明存 在并列的单字语素,记录到并列串的并列单字语素中;扫描上述获取的单字语素在词语中 频率表,如果其键所对应的动态数组的长度大于或等于2,表明存在并列的词中语素,其可 能与一个单字对应,也可能与一个词的首字或尾字对应,记录到并列串的并列词中语素数 中;扫描保存所有频率大于或者等于2的并列词语动态数组,对该并列词语动态数组按词 形、开始位置、分词单位长度形成的键进行去重,然后加入到归类数据结构中,该结构类型 与上述方法的映射表类型相同,为一个新的变量;对该变量中的每一个连续短语,拆分形成可能的子短语;将上述连续短语和连续子短语或词语加入到并列词语中。
[0033]获得所述分词单位序列集合所对应的概念类别序列集合,生成概念映射表,所述 概念映射表是一个数据结构,其键是概念类别的代号,其值是一个动态数组,数组的项是该 概念出现在句中的位置;扫描所述分词单位序列集合所对应的概念类别,首先判断该概念 是否是目标概念,目标概念是13类已知概念,如果不是,则继续处理下一个所述分词结果 序列所对应的概念类别;如果该概念类别在该数据结构中存在,仅需要加入该出现位置到 所述的动态数组中;如果不在,则新建一个动态数组,保存该概念类别,加入到所述数据结 构中;对所述概念映射表迭代,如果其键所对应的动态数组的长度超过1,则该键所对应的 概念类别出现了并列,否则,从所述概念映射表中删除掉该概念类别。最后形成的概念类别 映射表中保存了所需要的并列概念。本实施例中,对分词单位序列集合从左到右取词,并对 词所对应的概念类别,取其概念类别;检查词或语义属性是否为入口点,如果不是,继续对 分词单位序列集合从左到右取词及词所对应的概念类别;根据当前分词单位的词形和语义 特征,从所述并列信息标注规则集中加载所述并列信息标注规则;对每一条所述并列信息 标注规则,迭代;判断加载的所述并列信息标注规则是否匹配成功,根据匹配成功的右边内 容,对所述分词单位序列集合加并列标注;
判断所述侯选规则是否迭代完成,如果没有,继续对每一条所述并列信息标注规则,迭 代;判断是否超过了所述分词单位序列集合,如果没有,继续对分词单位序列集合从左到右 取词及词所对应的概念类别,重复上述步骤;判断是否生成了新的标记,如果在所述分词 单位序列集合中该位置已经有一个相同类型的标记,则认为没有生成新的内容,处理结束; 否则,继续对分词单位序列集合从左到右取词及词所对应的概念类别,重复上述步骤。
[0034]下面以中文句子“优选的是透氧性111大分子单体alll和透离子性112单体all2 的共聚产物。”为例,对本发明所述的中文句子中并列信息提取方法作进一步的说明。
[0035]I)经过前述步骤SI前向最大分词处理以及数字和英语字母进行合并的步骤后, 中文句子的分词单位序列集合为:
优选\的\是\透氧性\ 111 \大分子\单体\ alll \和\透\离子\性\ 112 \单体\ all2 \的\共聚\产物\。\
其中,“ \ ”是分词分割符。
[0036]2)经前述步骤S2处理,其输出的并列信息侯选如下:
词中语素:体,次数:2 (注:相同词中后语素的并列)
并列位置:
6 (注:单体)
13 (注:单体)
词中语素:子,次数:2 (注:不同词中后语素的并列)
并列位置:
5 (注:大分子)
10(注:离子)
词中语素:性,次数:2 (注:单字语素与词的后语素的并列)
并列位置:
3 (注:透氧性)11(注:性)
词中语素:透,次数:2 (注:单字语素与词的前语素的并列)
并列位置:
3 (注:透氧性)
9 (注:透)
并列短语:单体,次数:2 (注:并列词或并列短语的并列)
并列位置:
开始位置:6 (注:单体)
长度:I (注:一个分词单位长)
开始位置:13 (注:单体)
长度:I (注:一个分词单位长)
3)经前述步骤S2的处理,其输出的并列概念侯选(也就概念的并列信息候选)如下: 并列概念:
特征:LC_CC ww (注:无生命物概念的并列)
开始位置:5 (注:大分子)
开始位置:6 (注:单体)
开始位置:10 (注:离子)
开始位置:13 (注:单体)
开始位置:17 (注:产物)
并列概念:
特征:LC_CC V (注:动态概念的并列)
开始位置:0 (注:优选)
开始位置:2 (注:是)
并列概念:
特征:LC_CC NUM (注:数概念的并列)
开始位置:4 (注:111)
开始位置:12 (注:112)
并列概念:
特征:LC_CC SPN (注:英语专名概念的并列)
开始位置:7 (注:alll)
开始位置:14 (注:all2)
经过前述步骤SI和S2的处理,使用并列信息标注规则集,反复迭代,直到没有能够匹配的规则、或虽然匹配上规则,但匹配上的规则没有生成新的标记记号时为止。在本例中, 匹配上了下述两条规则:
匹配上的规则1:
(b){!CHN[、]} + (b){(_l)R} + (0)CHN[和,或,与,及,或者,以及]+ ⑴RR=>LC_ TREE(AND_TQ_S, -1, -1)+LC_TREE(ANDMK, 0, 0)$
其中,“(O)CHN[和,或,与,及,或者,以及]”是检测的入口点,表明当前词汇是一个中文词:“和,或,与,及,或者,以及”中之一时,入口点检测成功,将“和”字的位置记为0 ;“⑴RR”表示与入口点紧邻的右边一个短语是上述输出的并列串(该并列串是“透”字)时,将“透”字的位置记为I (b) K-1)R}”表示从入口点的位置向左查找,首次发现的一个短语是上述步骤S2输出的与“(I) RR”相对应的一个并列串(该并列串是“透氧性”词)时,将“透氧性”的位置记为-1 (b) {!CHN[、]} ”表示从“透氧性”的左边开始查找,没有发现中文标点“、”时;“LC_TREE (AND_TQ_S, -1, -1) ”表示在位置-1标注记号“AND_TQ_S”(并列信息前边界标记),也就是在词“透氧性”上加上该记号;“LC_TREE (ANDMK, O, O) ”表示在位置O标注记号“ANDMK”(并列连接标记),也就是在词“和”上标记该记号;则在所述分词单位序列集合的基础上,得到如下新增的标记:
优选\的\是\透氧性<AND_TQ_S> \ 111 \大分子\单体\ alll \和〈ANDMK〉\透\离子\性\ 112 \单体\ all2 \的\共聚\产物\。\
匹配上的规则2:
(b){!CHN[、]} + (_l)LCR+(0)CHN[和,或,与,及,或者,以及]+ (f) {(I) CR} =>LC_TREE (AND_TH_S, I, I) +LC_TREE (ANDMK, 0, 0) $
其中,“ (-1) LCR”表 示与入口点紧邻的左边一个词语是上述步骤S4输出的并列概念(该并列概念是“alll”,英语专名SPN概念)时,将“alll”字的位置记为-1 (f) {(I) CR}"表示从入口点的位置向右查找,首次发现的一个概念是上述步骤S4输出的与“(-l)LCR”相对应的一个并列概念(该并列概念是“all2”,英语专名SPN概念)时,将“all2”的位置记为I ;“LC_TREE(AND_TH_S,I, I) ”表示在位置I标注记号“AND_TH_S”(并列信息后边界标记),也就是在词“all2”上加上该记号;则在规则I结果的基础上,得到如下新增的标记:
优选\的\是\透氧性\ 111 \大分子\单体\ alll \和〈ANDMK〉\透 \离子\性\ 112 \单体\ all2<AND_TH_S> \的\共聚\产物\。\
经自动标注处理后,其输出为:
优选\的\是\透氧性<AND_TQ_S> \ 111 \大分子\单体\ alll \和 〈ANDMK〉\ ;all2<AND_TH_S> \ 的 \ 共聚 \ 产物 \。\
采用最大范围方法,既根据前后标记的不同向前或者向后提取出最大范围的并列信息,从所述标注文本中提取并列信息的提取步骤所提取的信息如下:
并列信息I 透氧性111大分子单体alll”
连接词:“和”
并列信息2 透离子性112单体all2”。
[0037]下面再以中文句子“优选的是大分子单体和离子单体。”为例,对本发明所述的中文句子中并列信息提取方法作进一步的说明。
[0038]按照如上述具体实施例中规则应用后的结果是:
优选 \ 的 \ 是 \ 大分子 <AND_TQ_S> \ 单体 <AND_TQ_S> \ 和 <ANDMK>\ 离子 <AND_TH_S> \ 单体 <AND_TH_S> \。\
采用最大范围方法,最后提取到的并列信息应该是:
左边并列信息:大分子\单体
右边并列信息:单体\离子
上述例子中共匹配成功了四条规则,其中:
1.通过词匹配,分别找到了重复的“单体”,重复的语素“子”(对应到“大分子”,“离子”),应用了二条规则。
[0039]2.通过概念匹配,分别找到了重复的“单体”与“离子”、“离子”与“单体”,应用了另外二条规则。
[0040]本实施例中出现了一个特殊情况:所述连接词的左边同时出现两个以上的前标记,并且在连接词的右边同时出现两个以上的后标记,这样就需要以最左边或者最右边作为提取的边界。
[0041]参见图2所示的结构框图,相应地,本发明一个实施例的一种中文句子中并列信息提取装置,包括:
分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合。
[0042]并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度。
[0043]并列信息标注规则集加载单元,用于加载并列信息标注规则集。
[0044]带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本。
[0045]并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
[0046]作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,分词单位序列集合获取单元进一步包括:
前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
合并单元,进一步包括:
数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;
英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。
[0047]作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和概念的并列信息候选子单元,其中,
除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选; 概念的并列信息候选子单元,用于从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;并根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
[0048]作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,所述除概念外的并列信息候选获取子单元中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述概念的并列信息候选获取子单元中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
[0049]作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,所述并列信息标注规则集加载单元和所述带并列信息标记的标注文本生成单元中的并列信息标注规则为产生式规则,进一步包括:
约束检测子单元,用于检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;如匹配,则转入标记子单元;
标记子单元,用于根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
[0050]本发明所述的中文句子中并列信息提取方法,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行了计算,以概念的类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括了严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可以降低中文句子语义分析的复杂度,可以对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,提取的并列信息可以有效地应用于语块格式转换阶段,对于语块的调序有重要作用。作为一种浅层语块分析技术,并列信息的利用可改善和提高译文的翻译效果。本专利完全基于语言学特点实现识别,尤其是长句识别效果好,特备适合对于专利文献的翻译。
[0051]显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
【权利要求】
1.一种中文句子中并列信息提取方法,其特征在于,包括:S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;52:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;53:加载并列信息标注规则集;54:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
2.根据权利要求1所述的中文句子中并列信息提取方法,其特征在于,所述步骤SI中进一步包括:使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
3.根据权利要求1或2所述的中文句子中并列信息提取方法,其特征在于,所述步骤S2进一步包括除概念外的并列.信息候选的生成步骤和概念的并列信息候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:521:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;522:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;概念的并列信息候选的生成步骤如下:S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
4.根据权利要求3所述的中文句子中并列信息提取方法,其特征在于,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度; 所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组, 所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
5.根据权利要求1-4任一所述的中文句子中并列信息提取方法,其特征在于,所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:541:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;542:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
6.一种中文句子中并列信息提取装置,其特征在于,包括:分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最·小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;并列信息标注规则集加载单元,用于加载并列信息标注规则集;带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
7.根据权利要求6所述的一种中文句子中并列信息提取装置,其特征在于,分词单位序列集合获取单元进一步包括:前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;合并单元,进一步包括:数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。
8.根据权利要求6或7所述的中文句子中并列信息提取装置,其特征在于,所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和概念的并列信息候选子单元,其中,除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;概念的并列信息候选子单元,用于从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;并根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
9.根据权利要求8所述的一种中文句子中并列信息提取装置,其特征在于,所述除概念外的并列信息候选获取子单元中的所述数据结构为映射表,其键是所述四类并列词形, 键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述概念的并列信息候选获取子单元中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
10.根据权利要求6-9任一所述的一种中文句子中并列信息提取装置,其特征在于,所述并列信息标注规则集加载单元和所述带并列信息标记的标注文本生成单元中的并列信息标注规则为产生式规则,进一步包括: 约束检测子单元,用于检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;如匹配,则转入标记子单元;标记子单元,用于根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
【文档编号】G06F17/30GK103440252SQ201310315217
【公开日】2013年12月11日 申请日期:2013年7月25日 优先权日:2013年7月25日
【发明者】熊文, 晋耀红, 朱筠 申请人:北京师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1