模板提取方法和装置的制作方法

文档序号:6596979阅读:206来源:国知局
专利名称:模板提取方法和装置的制作方法
技术领域
本发明涉及自然语言处理领域,具体而言涉及一种从语料中提取模板的方法和装置。
背景技术
随着自然语言处理技术的发展,越来越多的语料库资源被应用于机器翻译和自然 语言理解等自然语言处理领域以便获取知识。而模板作为自然语言处理过程中的一项重要 工具,受到了广泛关注。模板指的是通过对大规模语料的统计分析,提取出一些固定的语言搭配,这些搭 配在语料中具有普遍的意义,能够反映语料的特定语言结构特征。但是目前模板很大程度上依赖于人工提取和加工,效率低,成本高,难以满足需 求° 在机器番羽译领域,在 David Chiang 的"A Hierarchicalphrase-based model for statistical machine translation,, (Proceeding of43rd Annual Meeting of the ACL, 2005年,第263-270页)中,提出了一种模板提取方法,但是这种方法提取的模板数量庞大, 存在很多噪声和冗余。

发明内容
鉴于以上问题,本发明的一个目的是提供一种模板提取方法和装置,其能够高效 地、低噪声地从语料中提取模板。本发明的另一个目的是提供一种模板提取方法和装置,其能够低冗余地从语料中 提取模板。为了实现上述目的,根据本发明的一个方面,提供了一种模板提取方法,其包括 对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对 提取出的候选模板进行优化。其中,所述优化步骤包括针对每一个候选模板,计算由该候 选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符 分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在 语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现 的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模 板。根据本发明的一个实施例,所述从预处理后的语料中提取出候选模板的步骤包 括针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短 语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短 语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以 形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。根据本发明的一个实施例,在去除干扰模板之后,所述方法还包括从提取出的候 选模板中去除重复的候选模板。
根据本发明的另一个方面,一种模板提取装置包括预处理单元,配置用于对语料 进行包括分句和分词在内的预处理;候选模板提取单元,配置用于从预处理后的语料中提 取出候选模板;以及优化单元,配置用于对提取出的候选模板进行优化。其中,所述优化单 元进一步配置用于针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词 序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现 的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板 中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干 扰模板,并从所提取出的候选模板中去除所述干扰模板。使用本发明的方法和装置,可以自动地从大规模的语料中提取语言模板,节省了 大量的人工劳动。本发明的另一优点在于,通过对候选模板的优化剪枝,去除了候选模板中的干扰 模板,降低了模板中的噪声。本发明的又一优点在于,通过从提取出的候选模板中去除重复的候选模板,降低 了模板中的冗余。根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的 程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设 备执行根据本发明的上述方法。根据本发明的另一方面,还提供了一种程序产品。所述程序产品包括机器可执行 的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据 本发明的上述方法。


参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。图1示出根据本发明的实施例的模板提取方法的流程图;图2示出根据本发明的实施例的候选模板提取步骤的流程图;图3示出根据本发明的实施例的优化步骤的流程图;图4示出根据本发明的实施例的模板提取装置的示意性框图;以及图5示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施例方式下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。图1示出根据本发明的实施例的模板提取方法的流程图。如图1所示,所述方法 包括语料预处理步骤S110、候选模板提取步骤S120和优化步骤S130。在语料预处理步骤SllO中,利用现有技术的方法,对语料进行包括分句和分词在内的预处理。可以根据现有技术的分句方法,例如根据诸如句号、问号、叹号之类的标点符号, 对输入的语料进行分句,以得到多个句子。作为示例,通过分句得到以下句子Sl 与所述物理差错对应的下载请求S2 一种发光二极管的制作方法S3 本发明提供一种发光二极管的制作方法及装置注意,由于各种情况,例如在分句过程中存在对标点符号的误读,或者标题等也作 为一个句子,因此对语料分句所得到的句子有可能并不严格符合语言学中对句子的要求。 例如,以上的句子Sl和S2,并不完整具备语言学中句子的主语、谓语和宾语。可以利用现有技术的分词方法,对分句后得到的句子进行分词,以将语料中的句 子切分成词。作为示例,上述句子可以切分为Sl 与所述物理差错对应的下载请求S2 一种发光二极管的制作方法S3 本发明提供一种发光二极管的制作方法及装置在候选模板提取步骤S120中,从预处理后的语料中提取出候选模板。这里,可以 使用各种现有的和将要开发的模板提取方法来从语料中提取出候选模板。例如,可以使 用在 David Chiang 的"A Hierarchicalphrase-based model for statistical machine translation". In Proceeding of43rd Annual Meeting of the ACL, 2005 263-270 页中提出的模板提取方法。在以下,为说明目的,将结合附图2来说明根据本发明的实施例 的候选模板提取步骤。如图2所示,根据本发明的实施例的候选模板提取步骤包括子步骤S1210和 S1220。在子步骤S1210中,针对语料的经分词后的每一个句子,枚举出该句子中包含的长 度低于预定长度的短语。这里,短语由句子中的一个词或更多个连续词的序列组成。例如,
对于上面示例中的句子Si,可以枚举出长度低于例如7的短语“与”、“与所”........“物
理”、“物理差错”、“物理差错对应”........“物理差错对应的下载请求”等等,这里不
一一列出。在子步骤S1220中,对于枚举出的每一个短语,将该短语中的至少一个词或词序 列替换为代表所述至少一个词或词序列的通配符,以形成候选模板。在该实施例中,所述至 少一个词或词序列是从短语中截取的一部分,也称为子短语,其长度小于所述短语的长度。例如,对于上面示例中枚举出的短语Pl “物理差错对应的下载请求”,其包含的一 个词序列是SPl = “物理差错对应”。将SPl替换为通配符X,可以得到一个候选模板Tl = “X的下载请求”。另外,Pl也包含词序列SP2 = “下载请求”。因此,将SP2替换为通配符X,可以得到另外一个候选模板T2 = “物理差错对应的X”。此外,将Pl中的词序列“物理差错”和“下载请求”分别替换为通配符Xl和X2,可以得到另一候选模板T3 = “XI 对应的 X2”。诸如此类,不再一一列举。在实际应用中,可以将每个候选模板中的通配符个数限制为低于预定通配符个数。通过上述过程,能够自动地从大规模的语料中快速提取语言模板,节省了大量的
人工劳动。作为示例,给定一个如上所述分句后包含N个词的汉语句子S = W1, W2,...ffN,其 中Wn是如上所述分词后得到的汉语词,其中η = 1,2,...,N,n、N均为自然数。上述候选 模板提取步骤可以用以下算法来表示
1.PT = NULL//将短语表PT初始化为空
2.Forstart = 1 to N
3.For end = start to N
4.LEN = start-end+1 -J/ 短语长度 LEN
5.If LEN < LT//LT是短语长度阈值
6.Then
7.Insert [start, end] to PT//在短语表PT中插入短语 [start, end]
8.End if
9.End For
10.EndFor
11.For each A = Wil. . . ffi2in PT//对于短语表PT中的每一个短语
12.If there exists a sub-phrase B = Wjl. . . Wj2 and il < jl < = j2 < i2 Il 如果存在子短语 B = Wjl. . . Wj2 且 il < jl <= j2 < i213. Then14. C = Wil. . . WjnXWj2+!. . . Wi2is a candidate template// 得至Ij含 有通配符X的候选模板C
15.Insert C into PT//将候选模板C插入短语表PT中
16.End if
17.End for
第1步初始化短语表PT为空,第2-10步枚举出初始短语,并将其插入到短语表PT 中,第11-17步用通配符替换存储在短语表PT中的短语中的至少一个词或词序列(子短 语),最终得到一个短语表PT,其中含有通配符的短语为候选模板。

从上面的示例中可以看出,通过候选模板提取步骤,将会从语料中提取数量庞大 的候选模板。这些候选模板中包含了许多冗余及噪声,因此要对提取的候选模板进行优化 剪枝,以滤除无用的干扰模板。返回来参考图1,在优化步骤S130中,针对每个候选模板,计算根据该候选模板中 的通配符所代表的词或词序列以及该候选模板中由通配符分隔出的词或词序列在语料中 出现的频率,将上述频率满足预定条件的候选模板确定为干扰模板,然后从在候选模板提取步骤S120中提取出的候选模板中去除干扰模板。具体而言,本发明可采用TF/DF方法进行优化剪枝。TF(TermFrequency)表示一个 词w在语料的某篇来源文档中出现的次数。DF(Document Frequency)表示在整个语料的来 源文档中,包含词w的文档篇数。TF-DF值的意义在于,DF值高的词可以认为更具有一般性,因为该词普遍存在于 各文档之中;而TF值高的词,可以认为该词只出现在某些特定的文档之中,不具有一般性, 但是这些词很可能是某篇文档的关键词。因为模板要具有较好的泛化能力,所以对于模板中含有的非通配符部分,即通配 符所分隔开的词或词序列,希望它的DF值较高,这意味着它更具有普遍性;而对于模板中 的通配符部分,希望其代表的词或词序列的TF值较高而DF值较低,这意味着它只频繁地出 现在某一篇或几篇文档中,对于这一篇或几篇文档是关键词,但是不具有普遍性。例如,在专利文献中,“发明”、“方法”、“权利”等词汇具有一定的代表性,即具有高 DF值;而一部分词汇例如“发光二极管”、“电容”、“荧光灯”等词汇只在某些特定领域的文 档中频繁出现,即具有低DF值、高TF值,这些词汇应该被替换为通配符。下面举例进一步 说明例如短语“一种发光二极管的制作方法”,模板提取的结果应该是“一种Xl的制作方 法”。这样的模板具有很好的泛化能力,因为“一种”、“的”、“制作”、“方法”在专利文档中经 常出现,更容易泛化。因此,在对候选模板进行优化剪枝时,通过设定阈值,保留模板中DF值高的词,对 其他词进行泛化,从而除去不希望的干扰模板。另外,为了降低模板提取的冗余度,还可以去除候选模板中的重复候选模板。图3示出根据本发明的实施例的优化步骤的流程图。如图3所示,在根据该实施 例的优化步骤中,对于步骤S120中得到的每个候选模板,如果该候选模板中由通配符分隔 出的每个词或词序列的DF值低于第一预定阈值THl (步骤S1310),即表明该词或词序列不 具有普遍性,或者该候选模板中的每个通配符所代表的词或词序列的TF值低于第二预定 阈值TH2 (步骤S1320),即表明该词或词序列在单篇文档中出现的频率不高,则确定该候选 模板为干扰模板并删除该候选模板(步骤S1330)。然后对下一个候选模板进行判断。考虑到某些通配符所代表的词或词序列可能不仅在单篇文档中频繁出现,而且在 多篇文档中也都出现,这种词或词序列具有普遍性,应作为词汇保留。因此,在根据另一实 施例的优化步骤中,如果候选模板中的每个通配符所代表的词或词序列的DF值高于第三 阈值TH3 (步骤S132Q,则确定该候选模板为干扰模板并删除该候选模板(步骤S1330)。应当理解,这里的步骤S1310、S1320和S1325的顺序可以任意调整,而不限于图3 所示出的顺序。这些步骤顺序的调整对本发明的方法并没有实质性影响。以下分别使用函数TF (w) = counttf (W)和DF (w) = Countdf (W)来表示词或短语w 的TF值和DF值。例如,“方法”一词,在某篇文档中出现了 10次,那么TF( “方法”)就等 于10;整个语料包括5篇文档,其中有3篇都出现了“方法”,那么DF( “方法”)就等于3。 则作为示例,上述优化步骤可以用以下的过滤算法来表示1. For each candidate template T in PT//对于短语表 PT 中的每个候选模板T2. If (DF (W(T)) < THl) or (TF (V (T)) < TH2)
Il如果T中的词或词序列的DF值低于第一阈值THl或者T中的通配符所对应的词或词序列的TF值低于第二阈值TH23.T is an interferential template and Discard TIl确定候选模板T为干扰模板,并去除T4. Else if (DF(V(T)) > TH3)//如果T中的通配符所对应的词或词序列的DF值高于第三阈值5.T is an interferential template and Discard TH确定候选模板T为干扰模板,并去除T6.Else7.T is a template//T 为模板8.End If9. End If10. End For其中,W⑴代表T中的由通配符分隔开的词或词序列,V(T)代表T中的通配符所 对应的词或词序列。根据上述过滤算法,如果候选模板中的每个词或词序列的DF值等于或高于第一 预定阈值且每个通配符所代表的词或词序列的TF值等于或高于第二预定阈值,则可以认 为该候选模板为模板。优选地,当候选模板中的每个词或词序列的DF值等于或高于第一预 定阈值、每个通配符所代表的词或词序列的TF值等于或高于第二预定阈值、且每个通配符 所代表的词或词序列的DF值等于或低于第三预定阈值时,才确认该候选模板为模板。为说明目的,作为例子,以下分别依据上述过滤算法对从上面示例中枚举出的短 语Pl “物理差错对应的下载请求”中得到的候选模板Tl =“X的下载请求”、T2= “物理差 错对应的X”和T3 = “XI对应的X2”进行判断。在该例子中,通常Tl要比T2和T3更有普遍性。因为Tl中“的下载请求”经常出 现在多个文档中,而T2中“物理差错对应的”和T3中的“物理差错”可能只出现在某个或 某些特定文档中。在该例子中,假设Tl、T2及T3中的各个词或词序列对应的DF和TF值如下
权利要求
1.一种模板提取方法,包括对语料进行包括分句和分词在内的预处理; 从预处理后的语料中提取出候选模板;以及 对提取出的候选模板进行优化, 其中,所述优化步骤包括针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出 现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所 述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板, 并从所提取出的候选模板中去除所述干扰模板。
2.如权利要求1所述的方法,其中,如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出 现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词 或词序列的来源文档的篇数低于第二预定阈值,则确定该候选模板为干扰模板。
3.如权利要求1所述的方法,其中,如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出 现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词 或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表的 词或词序列的来源文档的篇数高于第三阈值,则确定该候选模板为干扰模板。
4.如权利要求1-3中任一项所述的方法,其中在去除干扰模板之后,所述方法还包括 从提取出的候选模板中去除重复的候选模板。
5.如权利要求1-3中任一项所述的方法,其中,所述从预处理后的语料中提取出候选 模板的步骤包括针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短 语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一 个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语 的长度。
6.一种模板提取装置,包括预处理单元,配置用于对语料进行包括分句和分词在内的预处理; 候选模板提取单元,配置用于从预处理后的语料中提取出候选模板;以及 优化单元,配置用于对提取出的候选模板进行优化, 其中,所述优化单元进一步配置用于针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出 现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所 述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板, 并从所提取出的候选模板中去除所述干扰模板。
7.如权利要求6所述的装置,其中,如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出 现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词 或词序列的来源文档的篇数低于第二预定阈值,则所述优化单元确定该候选模板为干扰模 板。
8.如权利要求6所述的装置,其中,如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出 现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词 或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表 的词或词序列的来源文档的篇数高于第三阈值,则所述优化单元确定该候选模板为干扰模 板。
9.如权利要求6-8中任一项所述的装置,其中,所述优化单元进一步配置用于 在去除干扰模板之后,从提取出的候选模板中去除重复的候选模板。
10.如权利要求6-8中任一项所述的装置,其中,所述候选模板提取单元进一步配置用于针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短 语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一 个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语 的长度。
全文摘要
本发明公开了一种模板提取方法和装置。所述模板提取方法包括对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
文档编号G06F17/27GK102129422SQ20101000420
公开日2011年7月20日 申请日期2010年1月14日 优先权日2010年1月14日
发明者于浩, 何中军, 孟遥, 郑仲光, 长濑友树 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1