计算机辅助翻译的方法和装置的制作方法

文档序号:6574684阅读:148来源:国知局
专利名称:计算机辅助翻译的方法和装置的制作方法
技术领域
本发明涉及信息处理技术,具体地,涉及基于双语对齐技术的计算机辅助翻译(Computer Aided Translation,CAT)技术。

背景技术
计算机辅助翻译系统是一种利用计算机来帮助人工翻译的系统。辅助翻译系统使用翻译记忆(Translation Memory)技术来存储已经翻译过的句子及其译文作为翻译实例(Translation Example)。在用户进行翻译的过程中,系统会自动查找与输入句子相似的例句及其译文,并将查到的例句的译文提供给用户作为参考译文,从而对人工翻译提供帮助。但是,用户必须根据输入句子和例句之间的差异手工编辑参考译文来确定最终正确的译文。
目前,机器辅助翻译系统在显示参考例句时,输入句子和参考例句的源语言句子中的相同部分(或区别部分)会被突出显示。但是这些突出显示的部分在例句的译文中对应的译文部分没有被标识或识别出来。所以,在译文中包含了不需要的译文片段。因此,在编辑参考译文的过程中,翻译者必须反复对照输入句子和例句源语言句子中的相同或区别部分,来确定所需的译文片段。这个过程中翻译者需要浏览整个参考例句,降低了翻译效率。


发明内容
为了解决上述现有技术中存在的问题,本发明提供了计算机辅助翻译的方法和计算机辅助翻译的装置。
根据本发明的一个方面,提供了一种计算机辅助翻译的方法,包括为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
根据本发明的另一个方面,提供了一种计算机辅助翻译的方法,包括为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;判断上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预定阈值;当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片段;以及利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应关系。
根据本发明的另一个方面,提供了一种计算机辅助翻译的装置,包括查找单元(searching unit),用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;翻译单元(translating unit),用于当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;组合单元(combining unit),用于将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及提示单元(indicating unit),用于利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
根据本发明的另一个方面,提供了一种计算机辅助翻译的装置,包括查找单元(searching unit),用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;判断单元(determining unit),用于判断上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预定阈值;组合单元(combining unit),用于当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片段;以及提示单元(indicating unit),用于利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应关系。



相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的计算机辅助翻译的方法的流程图; 图2是根据图1的实施例的显示参考译文的示意图; 图3是根据本发明的另一个实施例的计算机辅助翻译的方法的流程图; 图4是根据图3的实施例的查找最佳例句对组合的方法的流程图; 图5是根据图3的实施例的显示参考译文的示意图; 图6是根据图3的实施例的进行显示和编辑的流程图; 图7是根据图3的实施例的突出显示编辑部分的示意图; 图8是根据图3的实施例的例句对的对齐信息的示意图; 图9是根据本发明的另一个实施例的计算机辅助翻译的装置的方框图;以及 图10是根据本发明的另一个实施例的计算机辅助翻译的装置的方框图。

具体实施例方式 下面就结合附图对本发明的各个实施例进行详细的说明。
图1是根据本发明的一个实施例的计算机辅助翻译的方法的流程图。如图1所示,首先,在步骤101,输入待翻译的第一语种的句子。
例如Mary played a small role in the drama. 接着,在步骤102,为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对互为译文的相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。例如查找到的相似例句对及其对齐信息如下。

接着,在步骤103,将待翻译的第一语种的句子和相似的第一语种的例句进行比较,如果待翻译的第一语种的句子和相似的第一语种的例句不完全相同,找出它们之间的区别部分,并可以利用相似的第一语种的例句和与其对应的第二语种的例句之间的词对齐信息,确定所述区别部分在对应的第二语种的例句中位置。
对于上述实例,待翻译句子和相似例句之间的区别在于Mary和John,以及small和critical。这两个区别部分在与相似例句对应的中文例句中的位置分别为第一位置和第五位置。
接着,在步骤104,为待翻译的第一语种的句子和相似的第一语种的例句之间的区别部分准备相应的译文。这里,可以从字典里查找所述区别部分的译文,或优选从上述双语例句库中查找,本发明对此并没有限制。
具体地,可以得到Mary和small的译文分别为“玛丽”和“小”。
接着,在步骤105,将与相似的第一语种的例句对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文,其中根据在步骤103中确定的区别部分在对应的第二语种的例句中的位置,用所述区别部分的译文替换与相似的第一语种的例句对应的第二语种的例句中的区别部分。
在此步骤中,用“玛丽”代替中文例句中的第一位置处的“约翰”,并用“小”代替中文例句中的第五位置处的“重要”,从而得到如下参考译文。

最后,在步骤106,利用上述相似的第一语种的例句与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的相同部分和/或区别部分以及其在上述参考译文中对应的部分的对应关系。这里,提示区别部分和/或相同部分的方法可以多种多样,例如利用方框、下划线、不同颜色、不同字体或其组合等,以一种模式显示对应的区别部分,而以另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的“Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语言句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示在待翻译句子中的“small”、相似例句对的源语言句子中的“critical”、相似例句对的目标语言句子中的“重要”以及参考译文中的“小”,而以正常模式显示对应的相同部分。
通过本实施例的计算机辅助翻译的方法,利用进行了对齐的双语例句库构造参考译文,在参考译文中不会包含不需要的译文片段,从而提高了翻译效率。此外,对于待翻译句子、相似例句对和参考译文中对应的部分用同一模式显示,使用户对参考译文的组成、出处及翻译质量一目了然。同时,用户只需关注相似例句对中与待翻译句子相关的部分,从而进一步提高了翻译效率。
此外,本实施例的计算机辅助翻译的方法还允许用户对参考译文进行编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑译文。当用户编辑参考译文中的任何一部分时,其在待翻译句子、相似例句对中对应的部分会同时被突出显示。这些将在下面的实施例中参考图6和7进行详细描述。
此外,本实施例的计算机辅助翻译的方法还允许用户对待翻译句子和参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和待翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充了上述进行了对齐的双语例句库。
在同一发明构思下,图3是根据本发明的另一个实施例的计算机辅助翻译的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先,在步骤301,输入待翻译的第一语种的句子。
例如 There is a red jacket on the bed. 或者 Mary played a small role in the drama. 接着,在步骤302,为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对互为译文的相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。例如,为上述两个实例查找到的相似例句对及其对齐信息分别如下。

或者
接着,在步骤303,判断相似例句与待翻译句子之间的相似性是否大于预先设定的阈值φ。
计算两个字符串相似性的方法例如参见Levenshtein,V.的文献“Binary codes capable of corresting deletions,insertions,and reversals.”Soviet Physics-Doklady 10,10(1996),707-710,在此引入其整个内容作为参考。其中,利用“编辑距离”来衡量两个字符串的相似性。编辑距离是从原字符串转换到目标字符串所需要的最少插入、删除和替换的操作次数。通过操作次数的多少确定两个字符串的相似性情况。如果原字符串和目标字符串完全一致,那么编辑距离是零,否则编辑距离是所述操作的次数。
例如,如果s=“test”,t=“test”,那么s和t之间的编辑距离等于0,因为两个句子完全一样。如果s=“test”,t=“tent”,那么s和t之间的编辑距离等于1,因为有一次替换操作“s”→“n”发生。
通常,应用归一化的编辑距离作为两个字符串之间的相似性 d’(s,t)=1-d(s,t)/max(|s|,|t|) 其中,d(s,t)是编辑距离,d’(s,t)是归一化的编辑距离,|s|是字符串s的长度,以及|t|是字符串t的长度。归一化的编辑距离的取值在0-1之间,如果原字符串和目标字符串完全不一样,那么编辑距离是0,如果原字符串和目标字符串完全一致,那么编辑距离是1。在此情况下,相似性的阈值φ可以预先设定为0-1之间的任何数值,例如0.6,其可以根据用户的需求进行设定,在此并不限制。
因此,当待翻译句子为“There is a red jacket on the bed.”时,可以计算其和相似例句“There is such a thing in agitation.”之间的编辑距离d(s,t)=25,待翻译句子的长度|s|=32,相似例句的长度|t|=34,则归一化的编辑距离d’(s,t)=1-25/max(32,34)=0.265。
如果φ=0.6,则在步骤303判断待翻译句子和相似例句之间的相似性小于预先设定的阈值φ,方法进行到步骤304。
在步骤304,利用上述进行了对齐的双语例句库获得最佳例句对组合,其中最佳例句对组合的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片段。
在上述进行了对齐的双语例句库中获得最佳例句对组合的方法可以有多种,本实施例采用动态规划算法,具体的流程图如图4所示,下面将参考图4描述获得最佳例句对组合的具体过程。
动态规划算法开始于步骤401,对于待翻译句子的从ith单词到jth单词的连续片段[wi,wj],在步骤401,计算包含连续片段[wi,wj]的例句对组合的得分δ(i,j)。
接着,在步骤402,输入连续片段[wi,wj]。
接着,在步骤403,将最大得分MaxScore设定为0。
接着,在步骤404,判断在上述进行了对齐的双语例句库中是否存在包含连续片段[wi,wj]的例句对。
如果在步骤404判断为是,则方法进行到步骤405,其中,计算连续片段[wi,wj]的权重Ψ(i,j,fre)作为上述最大得分MaxScore。该权重基于连续片段[wi,wj]的长度、在所述双语例句库中出现的次数或例句对的对齐信息计算。其中,连续片段[wi,wj]的长度越长,权重越大;连续片段[wi,wj]在所述双语例句库中出现的次数越多,权重越大;以及如果在根据例句对的对齐信息切分例句对获得的片段中包含连续片段[wi,wj],则权重大,否则权重小。
然后,在步骤413,返回MaxScore和例句对,并在步骤414结束。
如果在步骤404中找不到包含连续片段[wi,wj]的例句对,则方法进行到步骤406。
在步骤406,判断是否存在mi,mj满足i<mi<mj<j。
如果在步骤406判断为否,则在步骤414结束。
如果在步骤406判断存在mi,mj满足i<mi<mj<j,则将连续片段[wi,wj]分割为连续片段[wi,m1]、[m1,m2]和[m2,wj],并且方法进行到步骤407。
在步骤407,分别计算包含连续片段[wi,m1]的例句对组合的得分δ(i,m1),以及包含连续片段[m2,wj]的例句对组合的得分δ(m2,j)。
接着,在步骤408,计算惩罚因子γ(m1,m2),对于两个片段重叠或中间存在没有覆盖的单词,那么γ将给一个小于零的惩罚值。
接着,在步骤409,计算得分Score=δ(i,m1)+δ(m2,j)+r(m1,m2)。
接着,在步骤410,判断得分Score是否大于最大得分MaxScore,如果得分Score大于最大得分MaxScore,则将得分Score赋予最大得分MaxScore,并进行到步骤412,如果得分Score小于最大得分MaxScore,则直接进行到步骤412。
在步骤412,判断是否存在不同的mi,mj满足i<mi<mj<j,如果存在,则继续对连续片段[wi,wj]进行分割,并返回到步骤407,如果不存在,则方法进行到步骤413,返回MaxScore和例句对,并在步骤414结束。
最后,将得分最高的例句组合作为所需的最佳例句对组合,例如包括三对例句 第一例句对
第二例句对
第三例句对
对于待翻译句子“There is a red jacket on the bed.”,第一例句对的源语言句子中的“There is”和待翻译句子的片段[1..2]相同,其对应的译文是“有”;第二例句对的源语言句子中的“a red jacket”和待翻译句子的片段[3..5]相同,其对应的译文是“一件红色的夹克”;第三例句对的源语言句子中的“on the bed”和待翻译句子的片段[6..8]相同,其对应的译文是“在床上”。
返回到步骤304,在上述进行了对齐的双语例句库中获得最佳例句对组合之后,方法进行到步骤307,在此步骤,根据该最佳例句对组合,系统合并所有片段对应的译文来生成参考译文。也就是说,合并待翻译句子的片段[1..2]、片段[3..5]和片段[6..8]的译文“有”、“一件红色的夹克”和“在床上”,得到参考译文为“有一件红色的夹克在床上”。
最后,在步骤308,利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应关系。这里,提示相应片段的对应关系的方法可以多种多样,例如利用方框、下划线、不同颜色、不同字体或其组合等,分别以不同的模式显示各个片段的对应关系,本发明对此并没有限制。
具体地,如图5所示,分别地利用模式C1显示待翻译句子中的“Thereis”、第一例句对的源语言句子中的“There is”、第一例句对的目标语句子中的“有”和参考译文中的“有”,利用模式C2显示待翻译句子中的“a red jacket”、第二例句对的源语言句子中的“a red jacket”、第二例句对的目标语句子中的“一件红色的夹克”和参考译文中的“一件红色的夹克”,利用模式C3显示待翻译句子中的“on the bed”、第三例句对的源语言句子中的“on the bed”、第三例句对的目标语句子中的“在床上”和参考译文中的“在床上”。
此外,如果例句对的源语言句子和目标语音句子比较长,那么例句对中没有参考价值的部分没有被显示出来,例如,在图5中的第一例句对中,只有例句的前面部分被显示出来。如果用户希望浏览整个例句或了解例句对的对齐情况,那么使用鼠标点击例句,该例句及对齐信息被显示出来,如图8所示。
此外,本实施例的计算机辅助翻译的方法还允许用户对参考译文进行编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑译文,如图6所示。当用户编辑参考译文中的任何一部分时,其在待翻译句子、相似例句中对应的部分会同时被突出显示,如图7所示。
具体地,图6是根据图3的实施例的进行显示和编辑的流程图,在图6中,单元608是片段索引表,该片段索引表存储了每个片段在其句子中对应的单词(该表中的数据来源于图5中的句子)。单元601是鼠标点击片段的操作;单元602是用户编辑参考译文中片段的操作;单元603表示待翻译句子中的片段;单元604表示例句对中的片段;单元605表示参考译文中的片段;单元606是对应片段查找模块;单元607是片段突出显示模块。当用户执行单元601点击单元603、604、605中任何一个或执行单元602编辑单元605时,单元606在单元608中查找被操作的片段所对应的其它相关片段的信息。然后单元607在待翻译句子、例句对和参考译文中突出显示所操作的片段和其对应的片段。
图7是根据图3的实施例的突出显示编辑部分的示意图,在图7中,利用模式C4突出显示待翻译句子中的“on the bed”、第三例句对的源语言句子中的“on the bed”、第三例句对的目标语句子中的“在床上”和参考译文中的“在床上”。
图8是根据图3的实施例的例句对的对齐信息的示意图,在图8中,示出了图5中的第一例句对及其对齐信息。
返回到步骤303,当待翻译句子为“Mary played a small role in thedrama.”时,可以计算其和相似例句“John played a critical role in thedrama.”之间的编辑距离d(s,t)=12,待翻译句子的长度|s|=38,相似例句的长度|t|=41,则归一化的编辑距离d’(s,t)=1-12/max(38,41)=0.707。
如果φ=0.6,则在步骤303判断待翻译句子和相似例句之间的相似性大于预先设定的阈值φ,方法进行到步骤305。
在步骤305,将待翻译的第一语种的句子和相似的第一语种的例句进行比较,如果待翻译的第一语种的句子和相似的第一语种的例句不完全相同,找出它们之间的区别部分,并可以利用相似的第一语种的例句和与其对应的第二语种的例句之间的词对齐信息,确定所述区别部分在对应的第二语种的例句中位置。
对于上述实例,待翻译句子和相似例句之间的区别在于Mary和John,以及small和critical。这两个区别部分在与相似例句对应的中文例句中的位置分别为第一位置和第五位置。
接着,在步骤306,为待翻译的第一语种的句子和相似的第一语种的例句之间的区别部分准备相应的译文。这里,可以从字典里查找所述区别部分的译文,或优选从上述双语例句库中查找,本发明对此并没有限制。
具体地,可以得到Mary和small的译文分别为“玛丽”和“小”。
接着,在步骤307,将与相似的第一语种的例句对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文,其中根据在步骤305中确定的区别部分在对应的第二语种的例句中的位置,用所述区别部分的译文替换与相似的第一语种的例句对应的第二语种的例句中的区别部分。
在此步骤中,用“玛丽”代替中文例句中的第一位置处的“约翰”,并用“小”代替中文例句中的第五位置处的“重要”,从而得到如下参考译文。

最后,在步骤308,利用上述相似的第一语种的例句与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的相同部分和/或区别部分以及其在上述参考译文中对应的部分的对应关系。这里,提示区别部分和/或相同部分的方法可以多种多样,例如利用方框、下划线、不同颜色、不同字体或其组合等,以一种模式显示对应的区别部分,而以另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的“Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语言句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示在待翻译句子中的“small”、相似例句对的源语言句子中的“critical”、相似例句对的目标语言句子中的“重要”以及参考译文中的“小”,而以正常模式显示对应的相同部分。
通过本实施例的计算机辅助翻译的方法,利用进行了对齐的双语例句库构造参考译文,在参考译文中不包含不需要的译文片段,并且可以在双语例句库中找不到相似例句的情况下,利用例句组合构造参考译文,从而提高了翻译效率。此外,对于待翻译句子、例句对和参考译文中对应的部分用同一模式显示,使用户对参考译文的组成、出处及翻译质量一目了然。同时,用户只需关注相似例句对中与待翻译句子相关的部分,从而进一步提高了翻译效率。
此外,本实施例的计算机辅助翻译的方法还允许用户对参考译文进行编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑译文。当用户编辑参考译文中的任何一部分时,其在待翻译句子、例句对中对应的部分会同时被突出显示。
此外,本实施例的计算机辅助翻译的方法还允许用户对待翻译句子和参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和待翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充了上述进行了对齐的双语例句库。
在同一发明构思下,图9是根据本发明的另一个实施例的计算机辅助翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
本实施例的计算机辅助翻译装置900包括查找单元(searching unit)901,用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;翻译单元(translating unit)902,用于当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;组合单元(combining unit)903,用于将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及提示单元(indicating unit)904,用于利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
优选,上述翻译单元902配置为从上述双语例句库中查找上述至少一个区别部分的每一个的译文。
优选,提示单元904包括显示单元(displaying unit),用于利用方框、下划线、不同颜色、不同字体或其组合等,以一种模式显示对应的区别部分,而以另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的“Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语言句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示在待翻译句子中的“small”、相似例句对的源语言句子中的“critical”、相似例句对的目标语言句子中的“重要”以及参考译文中的“小”,而以正常模式显示对应的相同部分。
通过使用本实施例的计算机辅助翻译装置900,利用进行了对齐的双语例句库构造参考译文,在参考译文中不会包含不需要的译文片段,从而提高了翻译效率。此外,对于待翻译句子、相似例句对和参考译文中对应的部分,利用显示单元用同一模式显示,使用户对参考译文的组成、出处及翻译质量一目了然。同时,用户只需关注相似例句对中与待翻译句子相关的部分,从而进一步提高了翻译效率。
此外,计算机辅助翻译装置900还可以包括编辑单元(editing unit),用于允许用户编辑由上述组合单元903生成的参考译文,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑译文。当用户编辑参考译文中的任何一部分时,其在待翻译句子、相似例句对中对应的部分会同时被上述显示单元突出显示。
此外,计算机辅助翻译装置900还可以包括设定单元(setting unit)和保存单元(storing unit),用于允许用户对待翻译句子和参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和待翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充了上述进行了对齐的双语例句库。
在同一发明构思下,图10是根据本发明的另一个实施例的计算机辅助翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
本实施例的计算机辅助翻译装置1000包括查找单元(searching unit)1001,用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;判断单元(determining unit)1002,用于判断上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预定阈值;组合单元(combining unit)1003,用于当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片段;以及提示单元(indicating unit)1004,用于利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应关系。
优选,上述提示单元1004包括显示单元(displaying unit),用于利用方框、下划线、不同颜色、不同字体或其组合等,分别以不同的模式显示各个片段的对应关系,本发明对此并没有限制。
具体地,如图5所示,分别地利用模式C1显示待翻译句子中的“Thereis”、第一例句对的源语言句子中的“There is”、第一例句对的目标语句子中的“有”和参考译文中的“有”,利用模式C2显示待翻译句子中的“a red jacket”、第二例句对的源语言句子中的“a red jacket”、第二例句对的目标语句子中的“一件红色的夹克”和参考译文中的“一件红色的夹克”,利用模式C3显示待翻译句子中的“on the bed”、第三例句对的源语言句子中的“on the bed”、第三例句对的目标语句子中的“在床上”和参考译文中的“在床上”。
此外,如果例句对的源语言句子和目标语音句子比较长,那么例句对中没有参考价值的部分没有被显示出来,例如,在图5中的第一例句对中,只有例句的前面部分被显示出来。如果用户希望浏览整个例句或了解例句对的对齐情况,那么使用鼠标点击例句,该例句及对齐信息被显示出来,如图8所示。
优选,上述组合单元1003还可以包括分割单元(dividing unit)和计算单元(calculating unit),并配置为利用动态规划算法获得上述多个例句对的组合,具体过程与上述参考图4的实施例相同,在此不在赘述。
优选,本实施例的计算机辅助翻译装置1000还包括翻译单元(translating unit),用于当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性大于上述预定阈值,并且与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个准备相应的译文;上述组合单元1003进一步配置为,将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及上述提示单元1004进一步配置为,利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
优选,上述翻译单元进一步配置为从上述双语例句库中查找上述区别部分的译文。
优选,上述提示单元1004包括显示单元(displaying unit),用于利用方框、下划线、不同颜色、不同字体或其组合等,以一种模式显示对应的区别部分,而以另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的“Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语言句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示在待翻译句子中的“small”、相似例句对的源语言句子中的“critical”、相似例句对的目标语言句子中的“重要”以及参考译文中的“小”,而以正常模式显示对应的相同部分。
通过本实施例的计算机辅助翻译装置1000,利用进行了对齐的双语例句库构造参考译文,在参考译文中不包含不需要的译文片段,并且可以在双语例句库中找不到相似例句的情况下,利用例句组合构造参考译文,从而提高了翻译效率。此外,对于待翻译句子、例句对和参考译文中对应的部分,利用显示单元用同一模式显示,使用户对参考译文的组成、出处及翻译质量一目了然。同时,用户只需关注相似例句对中与待翻译句子相关的部分,从而进一步提高了翻译效率。
此外,本实施例的计算机辅助翻译装置1000还可以包括编辑单元(editing unit),用于允许用户对参考译文进行编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑译文。当用户编辑参考译文中的任何一部分时,其在待翻译句子、例句对中对应的部分会同时被上述显示单元突出显示。
此外,本实施例的计算机辅助翻译装置1000还可以包括设定单元(setting unit)和保存单元(storing unit),用于允许用户对待翻译句子和参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和待翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充了上述进行了对齐的双语例句库。
以上虽然通过一些示例性的实施例详细地描述了本发明的计算机辅助翻译的方法和计算机辅助翻译的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
权利要求
1. 一种计算机辅助翻译的方法,包括以下步骤
为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;
将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及
利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
2. 根据权利要求1所述的计算机辅助翻译的方法,其中,上述提示步骤包括分别对应地显示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中的部分。
3. 根据权利要求1或2所述的计算机辅助翻译的方法,进一步包括允许用户编辑上述参考译文。
4. 根据权利要求1-3中任何一项所述的计算机辅助翻译的方法,进一步包括允许用户设定上述待翻译的第一语种的句子和上述参考译文之间的对齐信息。
5. 根据权利要求1-4中任何一项所述的计算机辅助翻译的方法,进一步包括将用户确认后的第二语种的参考译文和上述待翻译的第一语种的句子以及它们之间的对齐信息保存到上述双语例句库中。
6. 根据权利要求1-5中任何一项所述的计算机辅助翻译的方法,其中,为上述至少一个区别部分的每一个分别准备相应的译文的步骤包括从上述双语例句库中查找与该区别部分对应的第二语种的译文。
7. 一种计算机辅助翻译的方法,包括以下步骤
为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
判断上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预定阈值;
当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片段;以及
利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应关系。
8. 根据权利要求7所述的计算机辅助翻译的方法,其中,上述提示步骤包括分别对应地显示上述待翻译的第一语种的句子中的每个片段和其在上述参考译文中的片段。
9. 根据权利要求7或8所述的计算机辅助翻译的方法,其中,利用动态规划算法获得上述多个例句对的组合。
10. 根据权利要求9所述的计算机辅助翻译的方法,其中,上述动态规划算法包括以下步骤
将上述待翻译的第一语种的句子分割成多个片段;以及
为每个上述分割的多个片段,在上述双语例句库中查找包括该片段的例句对。
11. 根据权利要求10所述的计算机辅助翻译的方法,其中,上述动态规划算法还包括以下步骤
如果在上述双语例句库中没有包括上述片段的例句对,将上述片段再次分割成多个片段;以及
为每个上述再次分割的多个片段,在上述双语例句库中查找包括该片段的例句对。
12. 根据权利要求10或11所述的计算机辅助翻译的方法,还包括以下步骤
计算上述多个片段的每一个的权重;
根据上述计算的权重,计算上述多个例句对的组合的得分;
其中,将得分最高的例句对的组合作为上述多个例句对的组合。
13. 根据权利要求12所述的计算机辅助翻译的方法,其中,所述计算上述多个片段的每一个的权重的步骤基于每个片段的长度、在所述双语例句库中出现的次数或上述多个例句对的对齐信息进行。
14. 根据权利要求7所述的计算机辅助翻译的方法,还包括
当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性大于上述预定阈值,并且与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个准备相应的译文;
将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及
利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
15. 根据权利要求14所述的计算机辅助翻译的方法,其中,上述提示步骤包括分别对应地显示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中的部分。
16. 根据权利要求14或15所述的计算机辅助翻译的方法,其中,为上述至少一个区别部分的每一个分别准备相应的译文的步骤包括从上述双语例句库中查找与该区别部分对应的第二语种的译文。
17. 根据权利要求7-16中任何一项所述的计算机辅助翻译的方法,进一步包括允许用户编辑上述参考译文。
18. 根据权利要求7-17中任何一项所述的计算机辅助翻译的方法,进一步包括允许用户设定上述待翻译的第一语种的句子和上述参考译文之间的对齐信息。
19. 根据权利要求7-18中任何一项所述的计算机辅助翻译的方法,进一步包括将用户确认后的第二语种的参考译文和上述待翻译的第一语种的句子以及它们之间的对齐信息保存到上述双语例句库中。
20. 一种计算机辅助翻译的装置,包括
查找单元(searching unit),用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
翻译单元(translating unit),用于当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;
组合单元(combining unit),用于将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及
提示单元(indicating unit),用于利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
21. 根据权利要求20所述的计算机辅助翻译的装置,其中,上述提示单元包括显示单元(displaying unit),用于分别对应地显示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中的部分。
22. 根据权利要求20或21所述的计算机辅助翻译的装置,还包括编辑单元(editing unit),用于允许用户编辑由上述组合单元生成的参考译文。
23. 根据权利要求20-22中任何一项所述的计算机辅助翻译的装置,还包括设定单元(setting unit),用于允许用户设定上述待翻译的第一语种的句子和上述参考译文之间的对齐信息。
24. 根据权利要求20-23中任何一项所述的计算机辅助翻译的装置,还包括保存单元(storing unit),用于将用户确认后的第二语种的参考译文和上述待翻译的第一语种的句子以及它们之间的对齐信息保存到上述双语例句库中。
25. 根据权利要求20-24中任何一项所述的计算机辅助翻译的装置,其中,上述翻译单元配置为从上述双语例句库中查找上述至少一个区别部分的每一个的译文。
26. 一种计算机辅助翻译的装置,包括
查找单元(searching unit),用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
判断单元(determining unit),用于判断上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预定阈值;
组合单元(combining unit),用于当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片段;以及
提示单元(indicating unit),用于利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应关系。
27. 根据权利要求26所述的计算机辅助翻译的装置,其中,上述提示单元包括显示单元(displaying unit),用于分别对应地显示上述待翻译的第一语种的句子中的每个片段和其在上述参考译文中的片段。
28. 根据权利要求26或27所述的计算机辅助翻译的装置,其中,上述组合单元配置为利用动态规划算法获得上述多个例句对的组合。
29. 根据权利要求28所述的计算机辅助翻译的装置,其中,上述组合单元还包括分割单元(dividing unit),将上述待翻译的第一语种的句子分割成多个片段;以及
上述查找单元进一步配置为,为每个上述分割的多个片段,在上述双语例句库中查找包括该片段的例句对,以获得上述多个例句对的组合。
30. 根据权利要求29所述的计算机辅助翻译的装置,其中,上述分割单元进一步配置为,如果在上述双语例句库中没有包括上述片段的例句对,将上述片段再次分割成多个片段;以及
上述查找单元进一步配置为,为每个上述再次分割的多个片段,在上述双语例句库中查找包括该片段的例句对。
31. 根据权利要求29或30所述的计算机辅助翻译的装置,其中,上述组合单元还包括计算单元(calculating unit),计算上述多个片段的每一个的权重;以及
上述计算单元进一步配置为,根据上述计算的权重,计算上述多个例句对的组合的得分;
其中,将得分最高的例句对的组合作为上述多个例句对的组合。
32. 根据权利要求31所述的计算机辅助翻译的装置,其中,上述计算单元基于每个片段的长度、在所述双语例句库中出现的次数或上述多个例句对的对齐信息计算上述权重。
33. 根据权利要求26所述的计算机辅助翻译的装置,还包括
翻译单元(translating unit),用于当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似性大于上述预定阈值,并且与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个准备相应的译文;
上述组合单元进一步配置为,将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及
上述提示单元进一步配置为,利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
34. 根据权利要求33所述的计算机辅助翻译的装置,其中,上述提示单元包括显示单元(displaying unit),用于分别对应地显示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中的部分。
35. 根据权利要求33或34所述的计算机辅助翻译的装置,其中,上述翻译单元配置为从上述双语例句库中查找上述区别部分的译文。
36. 根据权利要求26-35中任何一项所述的计算机辅助翻译的装置,还包括编辑单元(editing unit),用于允许用户编辑由上述组合单元生成的参考译文。
37. 根据权利要求26-36中任何一项所述的计算机辅助翻译的装置,还包括设定单元(setting unit),用于允许用户设定上述待翻译的第一语种的句子和上述参考译文之间的对齐信息。
38. 根据权利要求26-37中任何一项所述的计算机辅助翻译的装置,还包括保存单元(storing unit),用于将用户确认后的第二语种的参考译文和上述待翻译的第一语种的句子以及它们之间的对齐信息保存到上述双语例句库中。
全文摘要
本发明提供了计算机辅助翻译的方法和计算机辅助翻译的装置。根据本发明的计算机辅助翻译的方法包括为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
文档编号G06F17/28GK101271451SQ20071008916
公开日2008年9月24日 申请日期2007年3月20日 优先权日2007年3月20日
发明者刘占一, 华 吴, 王海峰, 凯 唐 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1