基于上下文的译文自动调序方法

文档序号:6604731阅读:174来源:国知局
专利名称:基于上下文的译文自动调序方法
技术领域
本发明涉及模式识别和自然语言处理技术领域,特别涉及一种基于上下文的译文 自动调序方法。
背景技术
现有的在线电子词典,如金山词霸,采用的技术是存储已有的纸版词典,如“简明 英汉词典”、“现代英汉综合大词典”等。该方法存在的问题是,当实现“即指即译”功能时, 只是简单的按照词典罗列出的英语单词所对应汉语翻译词顺序,而无法根据当前英语单词 所在的上下文,动态的调整翻译词的顺序。下面以英语名词bank为例,进行说明Welcome to Bank of America.This walk follows the Thames west from B arnes bridge,keeping tothe north bank of the Thames.很显然,在一句话中,bank应指“银行”,而第二句话则为“河岸”。但现有的技术没 有实现自动的调整翻译词顺序。

发明内容
(一)要解决的技术问题本发明要解决的技术问题是如何实现对多义词译文的顺序、即时自动调整。( 二 )技术方案为了达到上述目的,本发明提供了一种基于上下文的译文自动调序方法,包括以 下步骤Si,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标 注了其中多义词的第二预设语种译文;S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该 多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个 译文按正确概率从大到小排列输出。其中,所述用于分类的数学模型为带概率输出的数学模型。其中,所述带概率输出的数学模型为支持向量机。其中,利用核函数进行步骤S3的训练过程,所述核函数为支持向量机中的线性 核。其中,所述相邻词为与多义词紧挨的前后各三个词。其中,所述第一预设语种为英文,第二预设语种为中文。(三)有益效果本发明的技术方案通过将动态调序问题视作分类问题,利用多义词出现的上下文的单词为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现 有的全文翻译系统,例如在线词典,可以提高此类系统的性能。


图1是本发明实施例的方法流程图。
具体实施例方式下面结合附图和实施例,对本发明的具体实施方式
作进一步详细描述。以下实施 例用于说明本发明,但不用来限制本发明的范围。本发明的主要思想是将动态调序问题视作分类问题,利用多义词出现的上下文的 单词为特征,来实现对翻译词顺序的自动调整。本发明实施例的方法的步骤如图1所示Si、获得训练语料库。搜集大量的多义词出现的句子。对多义词在句子中的每一 次出现,由人工标注好正确的翻译词。经过人工标注的这些句子构成训练语料库。可以将 针对现代英语,主要选择新闻文章(比如1999-2009,共计10年的纽约时报;或者英国国家 语料库、英文网站的文章等),对文章中的每一个多义词标注正确的中文翻译。这里涉及的 一个问题是词典的选择,第一可以选择任何一部已有的英汉词典;第二可以选择多部英汉 词典,综合其中的翻译词。S2、特征提取。根据这些训练语料库,提取每个多义词每次出现的相邻词作为特 征。之所以这么做,其语言学原理是“观其伴,知其意”(You shall know a word by the company it ke印s)(参见文献[Firth,1957])。其实除了多义词出现的周围的词外,还可 以提取许多特征,比如周围词的词性;若多义词是动词,则往往需要判断在当前句子中是否 有宾语和主语,如果有是哪个词等等。但本发明主要适用于在线词典,它能够获得的上下文 很短,且需要很快的响应时间(秒级),而得到动词的主语和宾语,需要获得比较长的上下 文,且需要花费额外时间对上下文进行句法分析,因此这里仅选择相邻词作为特征。这也是 我们的一个特色。然后对同一多义词的所有特征顺序编号,根据这些编号将每个句子转化 为向量表示形式以bank为例,bank出现的一句话,对应下面的一行16:142:1 521 59:1 63167:1
16:124:1 301 42:1 43159:1
21291 146:1148:1 1611202:…其中,每一行行首的数字表示类别号码(比如“1”对应“河岸”,“2”对应“银行”)。 “x:l”表示第X个特征在当前句子中出现。这些向量表示,构成多义名词bank的训练文件。 可将该文件命名为bank_n_train. txt。S3、训练模型。针对每个多义词,利用这些特征,训练一个用于分类的数学模型。准 确的说,是训练这些模型的参数,我们可以对所有的多义词都使用相同的数学模型,比如支 持向量机(Support VectorMachines, SVM)。但不同的多义词,所用特征不同,训练出的参 数各不相同。目前可以用于分类的数学模型非常多,比如贝叶斯、决策表、最大熵、支持向量 机。在此需要一个带概率输出的数学模型,上述几个模型都带概率输出,但实验表明支持向量机效果最好,所以选择使用它。SVM的数学原理可以参考文献[Vapnik,1995]。目前已经有许多开源软件实现了 SVM。在此采用一种实现版本lib-svm(参见文献[Chang and Lin 2001])。训练时,只需输入步骤S2中的文件bank_n_train. txt,然后调用lib-svm的命 令svmtrain-tO-bl bank_n_train. txt bank_n. model其中“-t0”表示使用的是SVM中的线性核,“-bl”表示预测时需要概率信息。bank_ η. model是执行该命令后,为名词bank得到的模型文件。使用什么样的核函数,将对预测结 果产生很大影响。可以选择的核函数很多,比如高斯核、多项式核,实验表明线性核效果最 好。关于核函数可以参考文献[Jin et al.,2008]。S4、完成调序。利用此分类模型,对多义词在一个句子中的出现,预测各个翻译词 可能为正确翻译的概率,并按照概率从大到小顺序排列。仍以bank为例,有了模型文件bank_n. model以后,我们就可以对bank的任意一 次出现,进行翻译词预测了。当鼠标指向bank时,获取bank出现前后各三个词,并用向量 表示,不妨表示为1 8:1 12:1 13:1 46:1 53:1 69:1存入 bank_test. txt 然后调用1 ib-svm的命令svm-predict. exe~bl bank_test.txt bank_n. model bank_n. out则bank_n. out中就会存放bank的翻译词1和2对应的概率,如1 0. 32 0. 7我们将根据这个结果进行显示“1.银行2河岸”而不是词典中默认的顺序“1.河 岸2银行”。因为判定为类别1的概率(0.3)(译成“河岸”的概率)小于判定为2的概率 (0.7)(译成“银行”的概率)。如果两个概率相等,都是0.5,可以仍然保持词典顺序不变。以上提到的参考文献如下[Firth,1957]John R. Firth, A synopsis of linguistic theory 1930-55. In Studies in Linguistic Analysis (Special Volume of the PhilologicalSociety), Oxford. The Philological Society. 1957, pp.1-32.[Vapnik,1995]Vladimir N.Vapnik. The Nature of StatisticalLearning Theory. Springer-Verlag, New York,1995.[Chang and Lin 2001]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.[Jin et al. ,2008]Peng Jin, Fuxin Li, Danqing Zhu, Yufang Wu andShiwen Yu. Exploiting External Knowledge Sources to ImproveKerne1-based Word Sense Disambiguation,Proceedings of IEEEInternational Conference on Natural Language Processing an (!Knowledge Engineering (IEEE NLP-KE). 2008. pp. 222-227.本发明实施例通过将动态调序问题视作分类问题,利用多义词出现的上下文的单 词作为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰 也应视为本发明的保护范围。
权利要求
一种基于上下文的译文自动调序方法,其特征在于,包括以下步骤S1,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标注了其中多义词的第二预设语种译文;S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。
2.如权利要求1所述的基于上下文的译文自动调序方法,其特征在于,所述用于分类 的数学模型为带概率输出的数学模型。
3.如权利要求2所述的基于上下文的译文自动调序方法,其特征在于,所述带概率输 出的数学模型为支持向量机。
4.如权利要求3所述的基于上下文的译文自动调序方法,其特征在于,利用核函数进 行步骤S3的训练过程,所述核函数为支持向量机中的线性核。
5.如权利要求1所述的基于上下文的译文自动调序方法,其特征在于,所述相邻词为 与多义词紧挨的前后各三个词。
6.如权利要求1 5任一项所述的基于上下文的译文自动调序方法,其特征在于,所述 第一预设语种为英文,第二预设语种为中文。
全文摘要
本发明公开了一种基于上下文的译文自动调序方法,包括以下步骤获取由包含多义词的第一预设语种句子组成的训练语料库,在该语料库的每个句子中标注了其中多义词的第二预设语种译文;提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;将向量表示形式的句子所形成的文件,训练一个用于分类的数学模型,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。本发明实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
文档编号G06F17/28GK101882158SQ20101021024
公开日2010年11月10日 申请日期2010年6月22日 优先权日2010年6月22日
发明者宋刚 申请人:河南约克信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1