面向计算机辅助翻译的输入方法与装置制造方法

文档序号:6635441阅读:158来源:国知局
面向计算机辅助翻译的输入方法与装置制造方法
【专利摘要】本发明是一种面向计算机辅助翻译的输入方法,包括步骤S1:对源语言句子进行分词;步骤S2:获得分词后的源语言句子对应的机器翻译译文候选列表和最优机器翻译译义候选;获得多元文法提示短语;步骤S3:响应按键选择多元文法提示短语或者接收输入按键序列,获得输入法短语候选;步骤S4:响应用户按键选择多元文法提示短语或者输入法短语候选后,获得多元文法提示短语,重复步骤S3,直到用户完成录入源语言句子的译文。本发明还提供面向计算机辅助翻译的输入装置,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面。本发明充分利用机器翻译知识,能使按键节省率至少上升11.04%,大幅提升人工翻译的效率。
【专利说明】面向计算机辅助翻译的输入方法与装置

【技术领域】
[0001] 本发明涉及自然语言处理【技术领域】,更具体地,涉及一种面向计算机辅助翻译的 输入方法与装置。

【背景技术】
[0002] 机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语 言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。
[0003] 计算机辅助翻译就是充分运用大量重复或相似的句子和片断来提高翻译人员的 工作效率。它不同于机器翻译,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻 译过程。计算机辅助翻译使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻 译质量。
[0004] 近几年来,许多研究者尝试通过机器翻译知识来进一步提高计算机辅助翻译的效 率。目前研究的热点是译后编辑,即对机器翻译系统的译文进行编辑操作以生成高质量的 译文。但由于目前的机器翻译难以产生让人相对满意的译文,直接导致译员没有动力仔细 修改机器翻译的译文,所以译后编辑并未被广泛采用。另外,有学者曾提出基于交互式机器 翻译方法的辅助翻译(例如参见 Sergio Barrachinaetc. ,"Statistical Approaches to Computer-Assisted Translation,',Computational Linguistics, 35 (I), p3_28, 2009),以 牺牲全自动的翻译要求而获取较高质量译文的一种翻译方法,基本思想就是在当前翻译系 统翻译结果上,用户指出一些错误并提供正确翻译,然后提交给翻译系统重新解码翻译,迭 代多次后满足用户要求为止。但交互式翻译方法严重干扰了人工翻译流程,并且同样耗时 费力,因此这类系统主要应用在用户对目标语言的知识有限或者对目标语言知之甚少的情 况下。而计算机辅助翻译的主要用户是专业译员,所以交互式翻译方法几乎从未被商业翻 译系统采用。Guy Lapalme和Philippe Langlais于1997-2005年间基于交互式翻译框架 实现了 TransType翻译系统,在用户输入过程中实时给出后续翻译的提示。但这要求译员 必须从左至右开始翻译,机器翻译根据已经输入的部分更新翻译结果以给出尽可能准确的 提示。升级后的TransTypd实现了三种语言对的翻译,即英语一西班牙语、英语一法语、英 语一德语,但因难于结合人工翻译的流程,TransTypd这种交互方式并没有被其他系统采 用。因此,研究如何结合机器翻译知识以进一步提高翻译效率和翻译质量是迫切需要解决 的一个难题。


【发明内容】

[0005] 针对上述技术问题,本发明的主要目的在于提出一种面向计算机辅助翻译的输入 方法与装置,以在输入过程中能够充分利用机器翻译知识来提高翻译效率和翻译质量。
[0006] 为了实现所述目的,作为本发明的一个方面,本发明提供了一种面向计算机辅助 翻译的输入方法,包括如下步骤:
[0007] 步骤Sl :对源语言句子进行分词;
[0008] 步骤S2 :利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文 候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置 界面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装 置界面,等待用户按键选择;
[0009] 步骤S3 :对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按 键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个 输入法短语候选并输出到输入装置界面,等待用户按键选择;
[0010] 步骤S4 :对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入 按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已 录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置 界面,等待用户按键选择,并跳转到步骤S3 ;
[0011] 其中,N、M为正整数。
[0012] 其中,所述多元文法提示短语包括:第一个提示短语为一元文法,只包含一个词; 第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个 提示词,且第一个提示短语的词是第二个提示短语的前缀;以此类推,第N-I个提示短语的 所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词,其中N为预先设 定的大于零的正整数,缺省值为4。
[0013] 在步骤S3中还包括下列步骤:
[0014] 步骤S31 :对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的 输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的 全部或者文字输入法编码的前缀;
[0015] 步骤S32 :将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中 每一个编码单元依次进行如下计算:
[0016] 根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合;
[0017] 利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选 列表计算,得到新的输入法短语候选列表;
[0018] 利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选 进行打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阈值M时, 仅保留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目 等于已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码 的编码单元顺序一致;
[0019] 用所述新的输入法短语候选列表替代所述输入法短语候选列表。
[0020] 其中,所述对数线性模型使用的特征包括:
[0021] (1)打字模型概率;
[0022] (2)语言模型概率;
[0023] (3)输入法短语候选中的词的出现概率;
[0024] (4)输入法短语候选出现概率;
[0025] (5)输入法短语候选中的词是否在机器翻译译文候选中的二值特征;
[0026] (6)输入法短语候选是否在机器翻译译文候选中的二值特征;
[0027] (7)输入法短语候选是否在用户术语库中的二值特征。
[0028] 步骤S33 :完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输 入法短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数, 缺省值为5。
[0029] 在步骤S4中还包括下列步骤:
[0030] 步骤S41 :响应用户按键选择多元文法提示短语或者输入法短语候选后,对已录 入译文部分进行分词得到分词后的已录入译文部分;
[0031] 步骤S42 :如果所述最优机器翻译译文包含分词后的已录入译文部分的最后一个 词,则利用最大前缀匹配算法,对最优机器翻译译文候选和分词后的已录入译文部分计算, 生成N个多元文法提示短语;
[0032] 步骤S43 :如果所述最优机器翻译译文不包含分词后的已录入译文部分的最后一 个词,则在机器翻译译文候选列表中选择所有包含分词后的已录入译文部分的最后一个词 的机器翻译译文候选,得到次优机器翻译译文候选列表,并将其中打分最高的机器翻译译 文候选作为次优机器翻译译文;利用前缀匹配算法,对次优机器翻译译文候选和分词后的 已录入译文部分计算,生成N个多元文法提示短语。
[0033] 作为本发明的另一个方面,本发明还提出了一种面向计算机辅助翻译的输入装 置,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面,其中: [0034] 分词模块,用于将源语言句子和已录入译文部分生成并输出分词后的源语言句子 和分词后的已录入译文部分;
[0035] 翻译模块与分词模块连接,利用机器翻译引擎,得到分词后的所述源语言句子对 应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译 文输出到输入装置界面的模块;
[0036] 第一生成模块与翻译模块、输入装置界面连接,用于对机器翻译译文候选列表和 输入按键序列计算,利用对数线性模型,生成M个输入法短语候选并输出到输入装置界面;
[0037] 第二生成模块与翻译模块、输入装置界面连接,用于对已录入译文部分和机器翻 译译文候选列表计算,生成N个多元文法提示短语并输出到输入装置界面;
[0038] 输入装置界面,用于显示最优机器翻译译文、输入法短语候选和多元文法提示短 语,并接收用户按键选择命令和输入按键序列,录入源语言句子的译文。
[0039] 作为本发明的再一个方面,本发明还提出了一种面向计算机辅助翻译的输入装 置,包括:
[0040] 对源语言句子进行分词的装置;
[0041] 利用机器翻译引擎,得到分词后的所述源语言句子对应的目标语言机器翻译译文 候选列表,将其中打分最高的机器翻译译文候选生成短语候选列表,并输出到输入装置界 面的装置;
[0042] 接收到用户输入的按键序列之后,利用对数线性模型,结合机器翻译译文候选列 表,实时动态调整所述短语候选列表并输出到所述输入装置界面的装置;
[0043] 响应用户按键选择,直到用户完成源语言句子翻译的装置。
[0044] 其中,所述输入装置还包括:
[0045] 当用户录入一个短语后结合机器翻译候选列表得到N元文法提示的装置;以及
[0046] 在输入法界面显示所述N元文法提示,供用户选择的装置。
[0047] 通过上述技术方案可知,本发明的方法和装置具有如下的积极效果:
[0048] (1)由于输入法直接影响到翻译效率,将机器翻译知识和面向计算机辅助翻译的 输入方法融入到文字输入法中,能够顺利突破现有交互方式(如译后编辑、交互式机器翻 译)的局限性,从而在不影响用户体验的前提下,更快捷的输入方法必能进一步提高译员 的翻译效率和翻译质量;
[0049] (2)本发明能够有效利用机器翻译知识,在使用含有机器翻译的计算机辅助翻译 工具过程中,在不干扰正常翻译流程的前提下,自动有效减少敲键数。通过英中政治新闻翻 译实验,结果表明,相对于谷歌拼音输入法,单就容易量化的敲键数这一指标,本发明至少 使按键节省率上升了 11. 04%,相当于工作效率至少提高了 11.04%。如果将机器翻译译文 帮助译员更快的组织最终译文的作用计算在内,效率提升则更为明显。

【专利附图】

【附图说明】
[0050] 图1是本发明的面向计算机辅助翻译的输入方法和装置的整体框架图;
[0051] 图2是本发明的面向计算机辅助翻译的输入方法和装置细化后的整体框架图;
[0052] 图3是本发明方法和装置嵌入到计算机辅助翻译平台后的示意图;
[0053] 图4是禁用多元文法提示短语与启用多元文法提示短语两种情况的输入按键序 列对比示意图;
[0054] 图5是本发明结合机器翻译知识后对输入按键序列解码的一个实例;

【具体实施方式】
[0055] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明作进一步的详细说明。
[0056] 本发明所有代码实现都是用Java和Apache Flex编程语目完成,后台为Java编程 语言,容器为Tomcat,输入法前台用Apache Flex编程语言完成,开发平台为Ubuntu 12. 04 和Windows 7,但不限于此,这些并不是对本发明的限制;由于所写程序没有用到任何平台 相关的代码,因此所述的系统实现也可以运行于其他版本的操作系统上。本输入方法为面 向计算机辅助翻译,与文字输入法融合的输入方法、非通用文字输入法。具体的计算机辅助 翻译软件、机器翻译引擎、文字输入法均不受限。所述文字输入法可以是五笔输入法、拼音 输入法等各种文字输入法。
[0057] 本发明的基本思想是恰当地利用机器翻译知识,提出一种面向计算机辅助翻译的 输入方法,以提高译员的翻译质量和翻译效率。本发明的系统框架图如图1所示。图1中: 分词模块接收源语言句子,输出分词后的源语言句子到翻译模块;分词模块接收人工译文 已录入部分,输出分词后的人工译文已录入部分到第二生成模块;翻译模块与分词模块、 第二生成模块连接,输出分词后的源语言句子对应的机器翻译译文候选列表到第一生成模 块;第一生成模块与翻译模块、输入装置界面连接,接收用户的输入按键序列、机器翻译译 文候选列表,生成并输出输入法短语候选到输入装置界面;第二生成模块与分词模块、翻译 模块连接,接收分词后的人工译文已录入部分和机器翻译译文候选列表,生成并输出多元 文法提示短语到输入装置界面;输入装置界面直接与用户交互,用于显示最优机器翻译译 文、输入法短语候选和多元文法提示短语,并接收用户按键选择命令和输入按键序列,录入 源语言句子的译文。
[0058] 图3给出了本发明的一个实例(假定文字输入法为拼音输入法)嵌入计算机辅助 软件后的示意图。图3主要分为A、B左右两块区域。A区域为机器翻译译文候选列表供用 户参考,用户可以设置显示机器翻译译文候选的个数。B区域为本发明主要作用区域。当用 户刚开始录入译文或者有多元文法提示短语可用时,用户可以通过回车键或者数字键5到 8选择对应的提示,如区域Bl所示。在区域B2中,当没有多元文法提示短语可用时,机器翻 译仍然能通过本发明帮助用户提高效率:优先将机器翻译译文候选列表中的词赋予较高的 分值,如"fl"对应的"福利"直接排首位,避免了选词的麻烦。因此,本发明不仅可以显式地 通过多元文法提示短语加快翻译效率,还可以隐式地通过实时调整输入法候选短语的排列 顺序来加快翻译效率。与其他机器翻译交互方法不同的是,如果把A区域的机器翻译设置 为不可见状态,即用户完全不用理会机器翻译结果,本发明依然能帮助用户提高翻译效率。
[0059] 本发明提出了一种面向计算机辅助翻译的输入方法。下面我们以拼音输入法替代 所述文字输入法,以英语到汉语翻译任务作为实施例,并结合如下示例来详细阐述本发明 的原理与实现方法。
[0060] 假设源语言句子S :
[0061] China mulls change to officials' welfare system
[0062] 机器翻译译文候选之一 MT :
[0063] 中国考虑改变才能官员福利制度
[0064] 对应的人工译文HT :
[0065] 中国考虑改革公务员福利制度
[0066] 1、对源语言句子和已录入译文部分进行分词。【具体实施方式】如下:
[0067] 在本例中,对英语和汉语进行分词的方法有很多种。在本发明的实施例中我们以 开源的分词工具Urheen对英语和汉语进行分词。所述Urheen也可以对其它语言进行分词, 如日语等,可以在以下网址免费下载:
[0068] http ://www.openpr.org.cn/index. php/zh/NLP-Toolkit-For-Natural-Langua ge-Processing/68-Urheen-A-Chinese/English-Lexical-Analysis-Toolkit/View-d etails. html
[0069] 在示例中,机器翻译译文候选和人工译文均已自动分词,并用空格隔开相邻词。
[0070] 2、利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列 表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面; 利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置界 面,等待用户按键选择。
[0071] (1)得到机器翻译译文候选列表。
[0072] 从所述步骤1得到分词后的源语言句子之后,就可以通过机器翻译引擎得到机器 翻译译文候选列表,即n-best列表。将n-best列表中打分最高的机器翻译译文候选作为 最优机器翻译译文并输出到输入装置界面,供用户参考,等待用户录入人工翻译译文。这里 的机器翻译引擎可以是任何翻译引擎,如著名的开源翻译引擎Moses,可以在以下网址免费 下载:
[0073] http ://www. statmt. org/moses/ ? n = Moses. Releases
[0074] 所述Moses拥有比较完善的文档,根据这些文档可以轻松地部署翻译服务器。
[0075] (2)利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语。
[0076] 所述N个多元文法提示短语由连续多个词组成,所述多元文法提示短语包括:第 一个提示短语为一元文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述 两个词含有第一个提示短语的词和第二个提示词,且第一个提示短语是第二个提示短语的 前缀;以此类推,第N-I个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N 元文法包含N个词,其中N为预先设定的大于零的正整数。实施例中N的缺省值为4,可自 定义。示例中,利用所述最优机器翻译译文的前N个词生成4个多元文法提示短语为:"中 国"、"中国考虑"、"中国考虑改变"、"中国考虑改变才能"。将所述4个多元文法提示短语输 出到输入装置界面后,4个多元文法提示短语及其序号为:5.中国、6.中国考虑、7.中国考 虑改变、8.中国考虑改变才能。用户可以通过与序号对应的数字键按键选择相应的多元文 法提示短语,如按数字键"6"选择"中国考虑"。
[0077] 3、响应用户按键选择对应的多元文法提示短语,或者接收用户的输入按键序列; 利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法 短语候选并输出到输入装置界面,等待用户按键选择。
[0078] 在本例中,由于所用文字输入法为拼音输入法,则所述输入按键序列指用户输入 的文字输入法编码即汉语拼音串,如"中国考虑"对应的"zhongguokaolv"。
[0079] 步骤S31 :对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的 输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的 全部或者文字输入法编码的前缀。
[0080] 把拼音字符串按汉字字符,以" "为分字符切开。如把拼音串"zhongguokaolv" 切成"叾1101^'8110'1?10'1¥",把拼音串"281^1"切成"2'8'1^1"。分字算法采用基于1:1^6树 的最大前缀匹配算法(详细描述见文献D.E.Knuth,"The art of Computer Programming", vol. I, pp.295-304 "'Sorting and Searching",Fundamental Algorithms, vol.Ill, pp. 481-505, Addison-Wesley Reading Mass,1973)。
[0081] 步骤S32 :将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中 每一个编码单元依次进行如下计算:
[0082] 步骤S321 :根据文字输入法编码规则,对所述编码单元计算得到目标字候选集 合。如拼音串"z'g'k'l"中,"z"对应汉字即目标字候选集合"在、这、再、中、着、最、做、字、 早、造、者……","g"对应目标字候选集合"过、该、给、个、更、高、跟、刚、各、干、国……","k" 对应目标字候选集合"可、看、快、开、卡、考、空、快、客……","1"对应目标字候选集合"来、 了、李、里、老、虑、啦、路、类、林……"。
[0083] 步骤S322 :利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻 译译文候选列表计算,得到新的输入法短语候选列表。
[0084] 对于本实施例而言,解码是指将分字后的输入按键序列(如"中国考虑"对应的 "zhong'guo'kao'lv")转换成对应的输入法短语候选的过程。这里的输入按键序列可以是 全拼,也可以是简拼或者双拼。本发明的目的之一是将"zhong' guo' kao' lv"这种比较长的 按键序列尽可能缩至最短的"z' g'k' 1",这是提交本专利时文字输入法无法做到的。
[0085] 由于每个编码单元的目标字候选集合搜索空间非常大,各编码单元组合之后的 输入法短语候选数目呈指数级上升,需要利用解码算法(如柱搜索解码算法,详细描述 见文献 Och,Franz Josef, Nicola Ueffing, and Hermann Ney,"An EfficientA^Search Algorithm for Statistical Machine Translation",vol. I, pp. 295-304 "'Sorting and Searching,',Proceedings ofthe workshop on Data-driven methods in machine transIation-Volume 14. Association for Computational Linguistics, 2001)来快速搜 索各个编码单元的目标字候选集合并扩展输入法短语候选。
[0086] 步骤S323 :利用对数线性模型对所述新的输入法短语候选列表中的每一个输入 法短语候选进行打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的 阈值M时,仅保留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候 选的数目等于已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序 与已解码的编码单元顺序一致。
[0087] 在用解码算法快速搜索各个编码单元的目标字候选集合并扩展输入法短语候选 过程中,由于输入法短语候选列表的长度呈指数级上升,因此有必要对其剪枝,以将其长度 限制在一定范围以内。剪枝过程中,利用对数线性模型(详细描述见文献Knoke,David,and Peter J. Burke,eds,"Log_linear Models",vol. 20, Sage,1980)对所述新的输入法短语候 选列表中的每一个输入法短语候选进行打分并按降序排列。用所述新的输入法短语候选列 表替代所述输入法短语候选列表。
[0088] 假设分字后的输入按键序列为yi = ...yn,对应输入法短语候选集合为H, 其中概率最大的输入法短语候选为= Fnh2 ...hn,。本发明对应的对数线性模型为:

【权利要求】
1. 一种面向计算机辅助翻译的输入方法,包括w下步骤: 步骤S1 ;对源语言句子进行分词; 步骤S2 ;利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选 列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界 面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置 界面,等待用户按键选择; 步骤S3 ;对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序 列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入 法短语候选并输出到输入装置界面,等待用户按键选择; 步骤S4 ;对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键 序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入 译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置界 面,等待用户按键选择,并跳转到步骤S3 ; 其中,N、M为正整数。
2. 根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述N个多元 文法提示短语是连续多个词组成的提示短语,所述提示短语包括:第一个提示短语为一元 文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提 示短语的词和第二个提示词,且第一个提示短语的词是第二个提示短语的前缀;W此类推, 第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N 个词,其中N为预先设定的大于零的正整数。
3. 根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述利用对 数线性模型,对机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选,包 括W下步骤: 步骤S31 ;对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的输入 按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的全部 或者文字输入法编码的前缀; 步骤S32 ;将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中每一 个编码单元依次进行如下计算: 根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合; 利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选列表 计算,得到新的输入法短语候选列表; 利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选进行 打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阔值M时,仅保 留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目等于 已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码的编 码单元顺序一致; 用所述新的输入法短语候选列表替代所述输入法短语候选列表; 步骤S33;完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输入法 短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数。
4. 根据权利要求3所述的面向计算机辅助翻译的输入方法,其特征在于,所述对数线 性模型使用的特征包括: (1) 打字模型概率; (2) 语言模型概率; (3) 输入法短语候选中的词的出现概率; (4) 输入法短语候选出现概率; (5) 输入法短语候选中的词是否在机器翻译译文候选中的二值特征; (6) 输入法短语候选是否在机器翻译译文候选中的二值特征; (7) 输入法短语候选是否在用户术语库中的二值特征。
5. 根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述利用已 录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,包括W下步骤: 步骤S41 ;响应用户按键选择多元文法提示短语或者输入法短语候选后,对已录入译 文部分进行分词得到分词后的已录入译文部分; 步骤S42 ;如果所述最优机器翻译译文包含分词后的已录入译文部分的最后一个词, 则利用最大前缀匹配算法,对最优机器翻译译文候选和分词后的已录入译文部分计算,生 成N个多元文法提示短语; 步骤S43 ;如果所述最优机器翻译译文不包含分词后的已录入译文部分的最后一个 词,则在机器翻译译文候选列表中选择所有包含分词后的已录入译文部分的最后一个词的 机器翻译译文候选,得到次优机器翻译译文候选列表,并将其中打分最高的机器翻译译文 候选作为次优机器翻译译文;利用前缀匹配算法,对次优机器翻译译文候选和分词后的已 录入译文部分计算,生成N个多元文法提示短语。
6. -种使用权利要求1所述的面向计算机辅助翻译的输入方法的面向计算机辅助翻 译的输入装置,其特征在于,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模 块、输入装置界面,其中: 分词模块,用于将源语言句子和已录入译文部分生成并输出分词后的源语言句子和分 词后的已录入译文部分; 翻译模块与分词模块连接,利用机器翻译引擎,得到分词后的所述源语言句子对应的 机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输 出到输入装置界面的模块; 第一生成模块与翻译模块、输入装置界面连接,用于对机器翻译译文候选列表和输入 按键序列计算,利用对数线性模型,生成M个输入法短语候选并输出到输入装置界面; 第二生成模块与翻译模块、输入装置界面连接,用于对已录入译文部分和机器翻译译 文候选列表计算,生成N个多元文法提示短语并输出到输入装置界面; 输入装置界面,用于显示最优机器翻译译文、输入法短语候选和多元文法提示短语,并 接收用户按键选择命令和输入按键序列,录入源语言句子的译文。
7. -种面向计算机辅助翻译的输入装置,包括: 对源语言句子进行分词的装置; 利用机器翻译引擎,得到分词后的所述源语言句子对应的目标语言机器翻译译文候选 列表,将其中打分最高的机器翻译译文候选生成短语候选列表,并输出到输入装置界面的 装置; 接收到用户输入的按键序列之后,利用对数线性模型,结合机器翻译译文候选列表,实 时动态调整所述短语候选列表并输出到所述输入装置界面的装置; 响应用户按键选择,直到用户完成源语言句子翻译的装置。
8.根据权利要求7所述的面向计算机辅助翻译的输入装置,所述输入装置还包括: 当用户录入一个短语后结合机器翻译候选列表得到N元文法提示的装置;W及 在输入法界面显示所述N元文法提示,供用户选择的装置。
【文档编号】G06F3/023GK104462072SQ201410678005
【公开日】2015年3月25日 申请日期:2014年11月21日 优先权日:2014年11月21日
【发明者】宗成庆, 黄国平 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1