一种借助统计机器翻译的答案检索方法及装置的制作方法

文档序号:6403056阅读:133来源:国知局
专利名称:一种借助统计机器翻译的答案检索方法及装置的制作方法
技术领域
本发明涉及自然语言处理技术领域,是一种借助统计机器翻译的答案检索方法及
>J-U ρ α装直。
背景技术
随着互联网技术的快速发展,基于用户生成(User-Generated Content,UGC)的互联网服务越来越流行。社区问答正是在这一背景下出现的一种新的以“提问-回答”为主的信息交流和知识分享系统,例如Yahoo ! Answers、百度知道等。区别于自动问答系统,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。答案检索是社区问答分析的基础,占有很重要的位置。答案检索的任务是指从大规模的候选答案库中检索出与查询问题在语义上相似或相近的答案,用户回答该查询问题。因此,答案检索具有重要的理论意义和实用价值。目前答案检索面临的主要挑战是查询问题与候选答案之间的词汇不匹配以及词汇歧义问题。词汇不匹配通常会引发答案检索模型检索出许多与用户查询意图不匹配的答案,主要原因是社区问答中查询问题和答案都是由用户给出的,而用户的查询意图高度多样化。例如,依据不同的用户,词语“interest”既可以指“curiosity”也可以指“a chargefor borrowing money”。“词语歧义”是查询问题与候选答案之间的常见现象,具体表现在,很多词语在查询问题和候选答案中出现的次数并不多,甚至都没有在查询问题或候选答案中出现过,无法用传统的基于词条匹配的方法。解决上述“词汇歧义”和“词汇鸿沟”问题的一个方法就是借助统计机器翻译,将原始语言中的歧义词 以及字面上表示不一样的词汇用它们对应的翻译来表示。而借助统计机器翻译的方法前提是首先要建立一个合理的目标函数,将原始语言及其对应的翻译集成在一个框架中,其次是如何尽量减少统计机器翻译带来的噪声,最后是如何设计一种快速的求解方法来解决上述目标函数。而直接将得到的翻译词汇添加到原始语言中,答案检索的准确率会大打折扣,主要原因是将翻译词汇直接添加到原始语言中会大大增加计算的复杂度,同时机器翻译的错误也会带来很多噪音。答案检索的任务是指对用户输入的查询问题,从答案文档集合中检索出能够回答该查询的答案。答案检索面临的主要困难是用户查询问题与候选答案在表达相同或相似的意思时使用不同的用词形式,容易导致词汇不匹配和词汇歧义的问题。传统的方法主要依靠挖掘单语之间的词语关联,忽视了多语言信息之间的语义关联。

发明内容
为解决上述问题,本发明首先需要设计一个合理的目标函数,将原始语言及其对应的翻译有效地集成到一个框架中,同时在该框架下约束机器翻译的噪声对答案检索的影响。然后根据建立的目标函数及其约束,设计了一种快速的求解方法。通过对目标函数的求解,得到原始语言及其对应翻译的隐含表示,最后在隐含空间上计算用户查询和候选答案之间的相似度。根据上述思路,本发明主要针对答案检索存在的两大难点问题入手,成功地将统计机器翻译引入到答案检索的过程中,通过实验证明,该方法有效地提高了答案检索的准确率。本发明的基本思想是充分借助统计机器翻译,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。本发明公开了一种借助统计机器翻译的答案检索方法,包括如下步骤:步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语H ;步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。本发明还公开了一种借助统计机`器翻译的答案检索装置,其包括:候选答案翻译模块,用于将候选答案翻译成其它语言;矩阵分解模块,将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;优化求解模块,利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到每一个问题的所有候选答案的所述每种语言表示的低维表达;查询问题翻译模块,用于将查询问题翻译成其它语言;基于低维空间的相似度计算模块,其用于将查询问题转化到低维空间上,并计算查询问题与候选答案在低维空间上的相似度;所述结果排序学习模块,其用于根据所述相似度计算模块计算得到的相似度,最终得到检索答案。本发明采用借助统计机器翻译的思想来提升答案检索的性能。利用统计机器翻译工具Google Translate,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。


图1是本发明中借助统计机器翻译的答案检索方法。图2是本发明中借助统计机器翻译的答案检索装置结构图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。本发明公开了一种借助统计机器翻译的答案检索方法及装置。其可以分为离线过程和在线过程两部分。离线过程分由三个模块实现,即候选答案翻译模块、矩阵分解模块,优化求解模块。在线过程也分三个模块进行,即查询问题翻译模块、基于低维空间的相似度计算模块以及结果排序学习模块。图1示出了本发明提出的一种借助统计机器翻译的答案检索方法。如图1所示,其包括离线部分和在线部分两个阶段。其中离线过程包括:步骤(I)、利用统计机器翻译工具将用原始语言I1 (例如英语)表示的所有候选答案进行翻译,获得L-1种不同语言的等价表示{11; I2,…,1M},其中L表示所有语言的数目,所述统计机器翻译工具可选用Google Translate等。步骤(2)、对每种语言表示的候选答案集合表示成一AMpXN的词-文档矩阵万丨,其中Mp表示第P种语言表示的候选答案集合中的所有词汇,N表示候选答案集合中答案的数目。步骤(3)、设计一个新的目标函数,采用非负矩阵分解的方法将P种不同语言表示的候选答案集成到一个统一的框架中,并且采用正则化的策略来减少统计机器翻译带来的噪声。步骤(4)、设计一 个基于最小二乘的快速梯度下降算法,通过对上述目标函数求解得到L种不同语言的低维表示形式,即系数矩阵$和重构矩阵Vp所述在线过程包括:步骤(I)、利用统计机器翻译工具将原始语言I1 (例如英语)表示的查询问题翻译成L-1种不同语言的等价表示,所述统计机器翻译工具可选用Google Translate等。步骤(2)、利用上述离线过程(4)中求解得到的系数矩阵尸SI),将查询
问题及其对应的L-1种翻译表示转化到低维空间上。;步骤(3)、在低维空间表示上计算查询问题与候选答案的相似度。步骤(4)、采用线性排序学习的策略,将L种不同语言在低维空间表示的相似度进行融合,得分最高的若干个候选答案作为最终的答案返回。图2示出了本发明中提出的借助统计机器翻译的答案检索装置。如图2所示,该检索装置包括:候选答案翻译模块、矩阵分解模块,优化求解模块、查询问题翻译模块以及基于低维空间的相似度计算模块。所述候选答案翻译模块,用于在离线阶段时,将用原始语言I1 (例如英语)表示的所有候选答案进行翻译,获得L-1种不同语言的等价表示{11; I2,…,U,其中L表示所有语言的数目,即通过对候选答案集合D1翻译得到另外L-1种语言表示的候选答案集合D2,…,Dl。候选答案翻译是本发明的技术之一。为了将候选答案从一种语言翻译成另外L-1种语言,采用人工翻译费时费力,尤其是针对社区问答答案检索这个真实任务来说,对大规模的候选答案进行翻译显然是不现实的。幸运的是,目前机器翻译的水平在自然语言处理中得到了较好的发展,尽管在翻译质量上还不是令人十分满意。目前已经有许多公开的免费翻译工具提供日常翻译服务。本发明优选实施例中采用Google Translate,该翻译工具利用统计机器学习方法在构建的大规模平行语料库上训练翻译模型,在从一种语言翻译成另一种语言的过程中,可以考虑丰富的上下文信息,在众多的翻译工具中表现出了良好的翻译性能。通过对候选答案集合D1翻译后,可以得到另外L-1种语言表示的候选答案集合D2,…,Dl。所述矩阵分解模块,用于在离线阶段,对每种语言表示的候选答案集合表示成一个MpXN的词-文档矩阵
权利要求
1.一种借助统计机器翻译的答案检索方法,包括如下步骤: 步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言; 步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架; 步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达; 步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译; 步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上; 步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。
2.如权利要求1所述的方法,其特征在于,所述基于非负矩阵分解的框架具体如下表示:
3.如权利要求2所述的方法,其特征在于,利用所述基于最小二乘法的快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,具体为找到和的局部最优解;其中,当优化第P个系数矩阵匕时,保持K,…A和疚,...,%—U%+U...,広不变,对系数矩阵匕进行迭代更新,上述目标函数广丨'...,「,)转成为如下的优化问题:
4.如权利要求3所述的方法,其特征在于,当优化第ρ个重构矩阵时,保持系数矩阵U1,…,Oi和重构矩阵 ,. + #,...,Vi不变,对重构矩阵己进行迭代更新,上述目标函数矿(反,…,^^,…,匕)转成为如下两类的优化问题: 第一类优化问题:当P e [2,L],^(反,…,広名,…,匕)转化为下面的目标函数:
5.如权利要求3所述的方法,其特征在于,对系数矩阵歹ρ进行迭代更新时,所述目标函数的优化问题分解成Mp个相互独立的子优化问题,每一个子优化问题对应系数矩阵的一行:
6.如权利要求4所述的方法,其特征在于,对重构矩阵P-进行迭代更新时,所述第一类优化问题分解成N个相互独立的子优化问题,每一个子优化问题对应重构矩阵:的一列:
7.如权利要求5所述的方法,其特征在于,所述Mp个相互独立的子优化问题对应的数值解为:mu
8.如权利要求6所述的方法,其特征在于,所述第一类子优化问题对应的数值解为:
9.如权利要求2所述的方法,其特征在于,步骤3中利用所述所有候选答案的所述每种语言表示的低维表达将查询问题转化到低维空间上,其计算方法如下:
10.如权利要求2所述的方法,其特征在于,步骤3中利用所述所有候选答案的所述每种语言表示的低维表达,将其它多种语言翻译转化到低维空间上,具体如下表示:
11.如权利要求1所述的方法,其特征在于,查询问题Q1与候选答案Cl1在低维空间上的相似度,如下计算:
12.—种借助统计机器翻译的答案检索装置,其包括: 候选答案翻译模块,用于将候选答案翻译成其它语言; 矩阵分解模块,将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架; 优化求解模块,利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到每一个问题的所有候选答案的所述每种语言表示的低维表达; 查询问题翻译模块,用于将查询问题翻译成其它语言; 基于低维空间的相似度计算模块,其用于将查询问题转化到低维空间上,并计算查询问题与候选答案在低维空间上的相似度; 所述结果排序学习模块,其用于根据所述相似度计算模块计算得到的相似度,最终得到检索答案。
全文摘要
本发明公开了一种借助统计机器翻译的答案检索方法及装置。首先利用统计机器翻译工具将候选答案翻译翻译成其它若干种语言,得到候选答案的若干种等价表示。然后利用矩阵分解的方法,对候选答案的若干种等价表示进行降维数,得到低维的隐含表示形式。其次,利用统计机器翻译和矩阵分解方法将查询问题转化成低维的隐含表示形式。最后,在隐含空间上计算查询问题与候选答案之间的相似度,返回相似度最高的若干个候选答案作为该查询问题的答案。本发明提出的方法,可以有效地解决词汇不匹配和词汇歧义的问题。经过试验证明,在大规模的社区问答数据集中,答案检索的性能提高了29.36%。
文档编号G06F17/30GK103235833SQ20131018014
公开日2013年8月7日 申请日期2013年5月15日 优先权日2013年5月15日
发明者周光有, 赵军 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1