一种翻译短句的方法及装置的制作方法

文档序号:6597855阅读:252来源:国知局
专利名称:一种翻译短句的方法及装置的制作方法
技术领域
本申请涉及机器翻译技术,特别涉及一种翻译短句的方法及装置。
背景技术
目前,用于进行语句翻译的机译系统可划分为基于规则的机译系统和基于语料库 的机译系统两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料 库构成知识源,既不需要词典也不需要规则,以统计规律为主。进一步地,机译方法主要分别为三种,分别为基于翻译规则的规则法,基于翻译 实例的实例法,以及基于概率统计的统计法。其中,实例法的基本思想为在翻译简单句子(以下称短句)时不做语言的深层分 析,而是先将短句分解为几个短语,然后,借助于已有短语的翻译,将分解出的每个短语翻 译成目标短语,最后再将这些目标短语组合起来形成一个短句。基于上述思想,对应地,实 例法的实施也分为三大部分1、将实例划分为片断;2、确定各个片断的翻译;3、将翻译后 的片断进行组合。例如,需要翻译的短句为“她买了一本计算语言学入门书”;假定计算机内已经存储了如下的实例对A、她买了一件时髦的夹克衫 _> She bought a sharp jacket ;B、他正在读一本计算语言入门书-> He has been reading a book onintroduction to Computational Linguistics。采用实例法对“她买了一本计算语言学入门书”进行翻译时,可以将A句中“她买 了”对应的翻译短语“Sie bought”和B句中“一本计算语言学入门书”对应的翻译短语“a book on introduction to Computational Linguistics,,进对于重组产生She bought a book on introduction to Computational Linguistics.从而获得短句她买了一本计算语 言学入门书的翻译短句。采用实例法进行短句翻译时,颗粒度小且不易出错,但基于实施句进行翻译的匹 配操作过于具体,匹配成功的可能性很小,应用的范围也有限。并且,采用实例法进行短句翻译,需要将短句中包含的短语提取出来,再逐个与数 据库中已翻译的短语进行匹配,从而获得相应的英文译文,显然,这会大大增加数据库的读 取/写入次数,提高系统运算量,从而给系统带来一定程度的运行负荷,也降低了短句翻译 流程的执行效率。

发明内容
本申请实施例提供一种翻译短句的方法及装置,用以提高机器翻译的匹配成功率。本申请实施例提供的具体技术方案如下一种短句翻译方法,包括
接收用户输入的源短句,并对该源短句包含的各词语进行词性分析,再按照各词 语的语序获得相应的词性串,所述词性串用于表示所述源短句中各词语的属性;获取与所述词性串相匹配的目标模板短句,并确定所述源短句与所述目标模板短 句之间的异或词,对所述源短句内的异或词进行翻译,并采用翻译后的异或词替换所述模板短句的 译文中对应的异或词,以及将替换后的译文作为所述源短句的译文。一种用于短句翻译的装置,包括分析单元,用于接收用户输入的源短句,并对该源短句包含的各词语进行词性分 析,再按照各词语的语序获得相应的词性串,所述词性串用于表示所述源短句中各词语的 属性;获取单元,用于获取与所述词性串相匹配的目标模板短句;确定单元,用于确定所述源短句与所述目标模板短句之间的异或词,处理单元,用于对所述源短句内的异或词进行翻译,并采用翻译后的异或词替换 所述模板短句的译文中对应的异或词,以及将替换后的译文作为所述源短句的译文。本发明实施例中,在对源短句进行翻译时,无需将源短句中包含的每个短语都提 取出来,而是通过将源短句转换为对应的词性串,找到与该词性串匹配的目标模板短句,接 着,仅仅针对源短句与目标模板短句之间的异或词执行相应的替换操作,即可获得源短句 的译文,这样,大大减少了数据库的读取/写入次数,降低了系统运算量,从而有效减轻了 系统运行负荷,也提升了短句翻译流程的执行效率。


图1为本申请实施例中机译装置功能结构示意图;图2为本申请实施例中对短句进行机译流程图。
具体实施例方式为了提高机器翻译的匹配成功率,本申请实施例中,采用新设计的泛实例引擎进 行机译,泛实例引擎是一种实现机器翻译的机译系统,基于词性串对短句进行翻译,能够有 效地提高匹配成功率,以及在保证翻译结果正确性的前提下,也同时保证了翻译方法适用 范围的覆盖率。采用泛实例引擎时的具体操作为接收用户输入的源短句,并对该源短句包 含的各词语进行词性分析,再按照各词语的语序获得相应的词性串,所述词性串用于表示 所述源短句中各词语的属性;获取与所述词性串相匹配的目标模板短句,并确定所述源短 句与所述目标模板短句之间的异或词,对所述源短句内的异或词进行翻译,并采用翻译后 的异或词替换所述模板短句的译文中对应的异或词,以及将替换后的译文作为所述源短句 的译文。实际应用中,获取与所述词性串相匹配的目标模板短句时,分为以下两种情况若确定仅存在一条与所述词性串相匹配的模板短句,则将所述模板短句直接确定 为目标模板短句;若确定存在至少两条与所述词性串相匹配的模板短句,则分别确定所述源短句与 各模板短句的相似度,再将相似度最高的模板短句确定为目标模板短句。
下面以上述第二种情况为例并结合附图对本申请优选的实施例进行详细说明。参阅图1所示,本申请实施例中,采用泛实例引擎进行短句翻译的装置包括分析 单元10、获取单元11、确定单元12和处理单元13,其中,分析单元10,用于接收用户输入的源短句,并对该源短句包含的各词语进行词性 分析,再按照各词语的语序获得相应的词性串,所述词性串用于表示所述源短句中各词语 的属性;获取单元11,用于获取与所述词性串相匹配的目标模板短句;确定单元12,用于确定所述源短句与所述目标模板短句之间的异或词,处理单元13,用于对所述源短句内的异或词进行翻译,并采用翻译后的异或词替 换所述模板短句的译文中对应的异或词,以及将替换后的译文作为所述源短句的译文。基于上述原理,参阅图2所示,本申请实施例中,对短句进行机器翻译的详细流程 如下步骤200 接收用户输入的源短句。例如,假设用户输入的短句为“我爱吃香蕉”。步骤210 将用户输入的源短句进行词性分析,获得相应的词性串。本实施例中,所谓词性即是指词语的属性,如、η表示名词,ν表示动词;那么,上述源短句“我爱吃香蕉”经过词性分析后,获得的相应的词性串为r vi vt n,其中,r为pron的缩写,意为代词;vi意为不及物动词;Vt意为及物动词;η意为名词。步骤220 根据获得的词性串在本地数据库中获取与该词性串相匹配的模板短 句。例如,本实施例中,假设资料库内的模板短句按照原文、词性串、译文的顺序进行 保存,其具体如下- > r vi vt η- > I like eating rice ;B、他讨厌吃肉-> r vi vt η- > ;he dislike to eat beefC、明天天气很好一> t η d a- > the weather is fine tomorrow ;那么,显然,与词性串“r vi vt η”相匹配的模板短句是A句和B句。步骤230 将源短句与对应的各模板短句分别进行相似度分析,确定相似度最高 的模板短句,也称为最相似模板短句(即目标模板短句)。本发明实施例中,将“我爱吃香蕉”与A句和B句分别进行相似度分析,可以确定 出最相似的模式短句为A句“我爱吃大米”。所谓相似度分析,即是指按照一定语序,判断源短句与模板短句所使用文字的相 同程度,本实施例中,计算相似度的方法为按照一定的语序,将源短句包含的文字,与模板 短句中相同语序位置包含的文字逐一进行匹配,根据匹配结果,计算匹配成功的文字字数 占源短句文字字数的百分比。步骤MO 确定源短句与最相似模板短句的异或词,即存在差异的短语。本实施例中,确定源短句与最相似模板短句的相异短语时,可以将源短句与最相 似模板短句进行对齐操作,按照源语句和模板语句的分词(即短语)次序,做相同位置的逐 一比对,如我爱吃香蕉
我爱吃大米将源短句和A句对齐后,可以看出,两者之间的异或词是“香蕉”和“大米”。步骤250 对源短句中的异或词进行翻译,即将“香蕉”翻译为“banana”。实际应用中中,异或词的数量可以是一个,也可以是多个,只要将源短句和最相似 的模板短句进行对齐操作,即可可以区分出相应部分的异或词。步骤沈0 采用源短句中经翻译后的异或词,替换最相似模板短句的译文中对应 的异或词。例如,采用“banana”替换A句的译文“I like to eat rice”中的异或词“rice,,, 从而得到新的译文“I like to eat banana”。步骤270:将替换后获得的译文作为源短句的译文呈现给用户,“I like toeat banana"ο本发明实施例中,以词性串为模板对源短句进行转换,并通过词性串找到与源短 句最佳相似的模板短句,再通过对齐与替换操作,完成源短句的翻译,词性串是一种颗粒度 介于“翻译规则”和“翻译实例”之间的翻译知识表示形式,因此是一种比较合适的知识表示 形式,词性串以整句为单位的,很好保证了自然语序,因此,有效提高了翻译过程中源短句 与模板短句的匹配成功率;同时词性串的又是基于泛化实例的,因此,其覆盖范围非常广, 能够适用当前绝大多数情况下的短句翻译。综上所述,本发明实施例中,在对源短句进行翻译时,无需将源短句中包含的每个 短语都提取出来,而是通过将源短句转换为对应的词性串,找到与该词性串匹配的目标模 板短句,接着,仅仅针对源短句与目标模板短句之间的异或词执行相应的替换操作,即可获 得源短句的译文,这样,大大减少了数据库的读取/写入次数,降低了系统运算量,从而有 效减轻了系统运行负荷,也提升了短句翻译流程的执行效率。显然,本领域的技术人员可以对本申请中的实施例进行各种改动和变型而不脱离 本申请的精神和范围。这样,倘若本申请实施例中的这些修改和变型属于本申请权利要求 及其等同技术的范围之内,则本申请中的实施例也意图包含这些改动和变型在内。
权利要求
1.一种短句翻译方法,其特征在于,包括接收用户输入的源短句,并对该源短句包含的各词语进行词性分析,再按照各词语的 语序获得相应的词性串,所述词性串用于表示所述源短句中各词语的属性;获取与所述词性串相匹配的目标模板短句,并确定所述源短句与所述目标模板短句之 间的异或词,对所述源短句内的异或词进行翻译,并采用翻译后的异或词替换所述模板短句的译文 中对应的异或词,以及将替换后的译文作为所述源短句的译文。
2.如权利要求1所述的方法,其特征在于,获取与所述词性串相匹配的目标模板短句 时,包括确定仅存在一条与所述词性串相匹配的模板短句; 将所述模板短句直接确定为目标模板短句。
3.如权利要求1所述的方法,其特征在于,获取与所述词性串相匹配的目标模板短句 时,包括确定存在至少两条与所述词性串相匹配的模板短句; 分别确定所述源短句与各模板短句的相似度; 将相似度最高的模板短句确定为目标模板短句。
4.如权利要求1、2或3所述的方法,其特征在于,所述异或词的数量为一个或多个。
5.一种用于短句翻译的装置,其特征在于,包括分析单元,用于接收用户输入的源短句,并对该源短句进行词性分析,获得相应的词性 串,所述词性串用于表示所述源短句中各词语的属性;获取单元,用于获取与所述词性串相匹配的目标模板短句; 确定单元,用于确定所述源短句与所述目标模板短句之间的异或词, 处理单元,用于对所述源短句内的异或词进行翻译,并采用翻译后的异或词替换所述 模板短句的译文中对应的异或词,以及将替换后的译文作为所述源短句的译文。
6.如权利要求5所述的装置,其特征在于,所述获取单元获取与所述词性串相匹配的 目标模板短句时,若确定仅存在一条与所述词性串相匹配的模板短句,则将所述模板短句 直接确定为目标模板短句。
7.如权利要求5所述的装置,其特征在于,所述获取单元获取与所述词性串相匹配的 目标模板短句时,若确定存在至少两条与所述词性串相匹配的模板短句,则分别确定所述 源短句与各模板短句的相似度,并将相似度最高的模板短句确定为目标模板短句。
8.如权利要求5、6或7所述的装置,其特征在于,所述处理单元替换异或词的数量为一 个或多个。
全文摘要
本申请涉及机器翻译技术,公开了一种翻译短句的方法,用以提高机器翻译的匹配成功率,该方法为接收用户输入的源短句,并对该源短句包含的各词语进行词性分析,再按照各词语的语序获得相应的词性串,所述词性串用于表示所述源短句中各词语的属性;获取与所述词性串相匹配的目标模板短句,并确定所述源短句与所述目标模板短句之间的异或词,对所述源短句内的异或词进行翻译,并采用翻译后的异或词替换所述模板短句的译文中对应的异或词,以及将替换后的译文作为所述源短句的译文。可见,基于词性串对短句进行翻译能够有效地提高匹配成功率。本发明同时公开了一种用于机器翻译的装置。
文档编号G06F17/28GK102135957SQ201010104409
公开日2011年7月27日 申请日期2010年1月22日 优先权日2010年1月22日
发明者张坚, 胡覃 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1