翻译验证的制作方法

文档序号:6544608阅读:150来源:国知局
翻译验证的制作方法
【专利摘要】本发明涉及一种工具、系统和方法,用于对照术语词典验证翻译记忆,术语词典包括源术语和对应的目标术语,翻译记忆包括源片段和对应的目标片段,该方法包括:针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中近似匹配根据语法规则;针对源片段中的每次标识的源术语出现计算对应的目标术语与对应的目标术语在对应的目标片段中的对应的出现之间的数字接近度分数;以及报告源片段中的每次标识的源术语出现,在目标片段中的对应的出现;对应的目标术语和所计算出的接近度分数。
【专利说明】翻译验证

【技术领域】
[0001] 本发明涉及用于验证翻译的工具和方法。

【背景技术】
[0002] 工具和方法针对用于衡量与双语词典相关的现有翻译的质量度量的计算机辅助 翻译工具的领域。计算机辅助翻译工具对于翻译专业人士而言是有用的:帮助他们评估翻 译是否与参考双语词典相符;衡量使满足所希望的标准所需要的工作量;和/或了解哪些 是为了改进给定段的翻译而要集中的区域。
[0003] 很多计算机辅助翻译工具利用已建立的资源,例如术语词典和翻译记忆。一般而 言,对大段文本的翻译中的第一步涉及建立双语术语词典并且第二步是将文本段翻译到翻 译记忆中。术语词典定义文本段中所涉及到的最重要的术语和概念。翻译记忆是存储用于 翻译的源与目标片段之间的所有对应关系的大型数据库。翻译记忆有助于大段作品内的重 用和一致性检查。
[0004] 在翻译过程中的各点处,能够衡量给定翻译记忆与术语词典之间的相对差异是有 用的。这可以为了以下目的而在翻译之后被完成:1)衡量翻译过程遵守术语词典所记载的 指导原则的程度;2)评估术语词典是否看起来足够用于构成(structure)翻译;或者3)评 估为了改进翻译以使得其质量匹配预设的准则所要完成的工作量。
[0005] SDL Trados Studio是包括翻译出的术语与翻译出的片段之间的类比计算的已知 的翻译校验产品。SDL和Trados是SDL PLC的商标。
[0006] SynchroTerm是以术语为基础进行研究的已知的翻译校验产品。源和目标语 言两者可以同时被搜索。一些构词法功能被包括以使得搜索可以按10种语言被执行。 SynchroTerma 和 Terminotix 是 Terminotix Inc.的商标。
[0007] ApSIC Xbench是以术语为基础进行研究的已知的翻译校验工具。ApSIC和Xbench 是ApSIC SL的商标。
[0008] 所有以上工具使用翻译记忆和术语词典。


【发明内容】

[0009] 在本发明的第一方面,提供了一种用于对照术语词典验证翻译记忆的方法,所述 术语词典包括源术语和对应的目标术语,翻译记忆包括源片段和对应的目标片段,所述方 法包括:针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中近似匹配根 据语法规则;针对源片段中的每次标识的源术语出现计算对应的目标术语与对应的目标术 语在对应的目标片段中的对应的出现之间的接近度分数;以及报告源片段中的每次标识的 源术语出现以及所计算出的目标片段中的对应的出现与对应的目标术语的接近度分数。 [0010] 实施例为灵活的术语形式识别提供了简单和一般化的答案。大多数术语可以作为 灵活的形式(例如具有同一根术语的单数术语和复数术语)出现在目标(和源)中。所提 供的词典与目标文本之间的精确匹配的缺失并不意味着翻译是不精确的。因此,实施例对 术语之间的对应性进行计数和衡量并且允许采用源语言的灵活形式与采用目标语言的灵 活形式相匹配。
[0011] 根据语法规则(例如针对单词的后缀变形的语法规则)标识匹配或者近乎匹配的 术语相比计算字符串的接近度值的较不计算密集。这允许实施例在比查找接近度分数时要 短得多的时间帧中检查术语词典中的每个术语来看该术语是否被包括在翻译记忆中。一旦 出现已经被定位,则更处理器密集的计算可以在较小的数据子集上被执行。此两级验证允 许处理快速且实时地被实现。
[0012] 该解决方案要求所提供的术语词典作为整体被处理以提供全局衡量结果和统计 信息。
[0013] 有利地,每个接近度分数被归类为:精确匹配;大致匹配和不匹配。
[0014] 更有利地,标识的源术语如果在不翻译的情况下与目标术语相匹配,则被归类为 '已使用'。
[0015] 更加有利地,该方法还包括利用样式表来呈现报告以提供更加容易的用户导航和 理解。这样的样式表提供允许快速标识问题区域的可视化工具。例如,数据可以被记录为 可扩展标记语言(XML)数据,然后利用可扩展样式表语言(XSL)以视觉上有用的方式被呈 现以提供包含具有匹配或者部分匹配的术语的被突出显示的对应的词典术语的源和目标 片段的并排对比。
[0016] 最有利地,标记颜色被用于在不同的接近度分类之间进行区分。
[0017] 优选地,该方法还包括利用个体的接近度值计算翻译记忆与翻译词典之间的总匹 配接近度。
[0018] 这帮助用户理解有多少工作需要在翻译修正上执行并且可以按人时校准。
[0019] 更优选地,该方法还提供允许快速标识问题区域的可视化工具。
[0020] 为了避免为可能的源语言定义构词法规则,同时还最少化手动分类的候选匹配的 数目,实施例依赖一组假设和模糊匹配方法以提供基于丰富的构词法知识的服务。源语言 是具有简单语法规则的单一语言。例如,英语是相对简单并且良好形式化的,具体而言,很 多语法是基于后缀的,因而易于从源检测规范条目。然而,实施例是语言不可知的并且依赖 一组模式匹配规则,这些规则的大部分提取和比较术语条目和单词的根。实施例被设计为 使用特定格式的双语术语词典和双语翻译记忆作为输入,但是设想了具有两种或更多种目 标语言的术语词典和翻译记忆。虽然优选的是使用具有基于简单后缀的语法的源语言,但 是对于目标语言没有限制。
[0021] 在类似的使用情况中,术语员需要利用完整的术语一致性报告快速评估翻译文本 的术语准确性。这可以以很高的成本逐个术语地人工进行。这是非常慢且容易出错的过程。
[0022] 实施例将从一组翻译记忆上认出来自术语词典的每个源语言术语的所有出现并 且针对每次出现确定其是否被正确翻译。根据所使用的术语的正确性的每个片段的状态由 实施例确定。结果,需要被改变的所有出现被标识并在HTML文件中向用户示出。此外,具 有不匹配术语的片段被编号并且使翻译与词典一致所必需的工作量可以被评估。
[0023] 实施例工作在计算机的机器层,因为它们对于工作在应用层的任意翻译应用而言 是透明的。利用实施例而不是已知的验证工具,由于验证的计算上高效的操作而导致计算 机的速度或可靠性的提升。
[0024] 在本发明的第二方面,提供了一种用于对照术语词典验证翻译记忆的系统,所述 术语词典包括源术语和对应的目标术语,所述翻译记忆包括源片段和对应的目标片段,所 述系统包括:规则匹配引擎,用于针对每个源术语标识该源术语在源片段内的精确或近似 的出现,其中近似匹配根据语法规则;模糊匹配引擎,用于针对源片段中的每次标识的源术 语出现计算对应的目标术语与对应的目标术语在对应的目标片段中的对应的出现之间的 接近度分数;以及报告生成器,用于报告源术语在源片段中的每次标识的出现;对应的目 标术语;对应的目标术语在目标片段中的对应的出现;以及所计算出的接近度分数。
[0025] 在本发明的第三方面,提供了一种用于对照源和目标语言的术语词典验证翻译记 忆的计算机程序产品,该计算机程序产品包括包含有计算机可读程序代码的计算机可读存 储介质,并且该计算机可读程序代码被配置为执行方法的全部步骤。
[0026] 计算机程序产品包括一系列计算机可读指令,这些计算机可读指令或者被固定在 诸如计算机可读介质(例如光盘、磁盘、固态驱动器)之类的有形介质上,或者可利用调制 解调器或其它接口设备、通过包括但不限于光或模拟通信线路的有形介质、或者无形地利 用包括但不限于微波、红外或其它传送技术的无线技术传送到计算机系统。一系列计算机 可读指令体现这里之前所描述的所有或部分功能。
[0027] 本领域技术人员将理解这样的计算机可读指令可以用与很多计算机体系结构或 操作系统一起使用的很多种编程语言来编写。此外,这样的指令可以利用现有的或将来的、 包括但不限于半导体、磁或光的任何存储器技术来存储,或者利用现有的或将来的包括但 不限于光、红外或微波的任何通信技术来传送。设想到这样的计算机程序产品可以作为具 有附带的印刷或电子文档(例如收缩包装软件)的可移除介质而被分发,利用计算机系统 被预装载在例如系统ROM或者固定盘上,或者通过例如因特网或万维网的网络从服务器或 者电子公告板被分发。
[0028] 在本发明的第四方面,提供了一种被存储在计算机可读介质上并且可被载入到数 字计算机的内部存储器中的计算机程序,该计算机程序包括当所述程序在计算机上运行时 用于执行方法权利要求的所有步骤的软件代码部分。
[0029] 在本发明的第五方面,提供了优选实施例的数据载体方面,该数据载体包括功能 性计算机数据结构以在被载入到计算机系统中并且在其上由其操作时允许所述计算机系 统执行方法权利要求的所有步骤。合适的数据载体可以是固态存储器、磁驱动器或光盘。用 于数据传输的信道可以类似地包括所有描述的存储介质以及信号承载介质,例如有线或无 线信号承载介质。

【专利附图】

【附图说明】
[0030] 现在将参考以下附图仅以示例的方式描述本发明的优选实施例,其中:
[0031] 图1是优选实施例的部署图;
[0032] 图2A至2G是优选实施例的组件图;
[0033] 图3是优选实施例的过程的流程图;并且
[0034] 图4是客户端服务器计算实施例的部署图。

【具体实施方式】
[0035] 参考图1,描述了计算机处理系统10中的优选实施例的部署。计算机处理系统10 可与许多其它通用或专用计算系统环境或配置一起操作。可适于与计算机处理系统10 - 起使用的已知的计算处理系统、环境和/或配置的示例包括但不限于:个人计算机系统、月艮 务器计算机系统、瘦客户端、胖客户端、手持或膝上设备、多处理器系统、基于微处理器的系 统、机顶盒、可编程消费电子产品、网络PC、迷你计算机系统、主机计算机系统以及包括以上 系统或设备中的任一系统或设备的分布式云计算环境。
[0036] 计算机处理系统10可以在被计算机处理器执行的诸如程序模块之类的计算机系 统可执行指令的总的上下文中被描述。一般而言,程序模块可以包括执行特定任务或者实 现特定的抽象数据类型的例程、程序、对象、组件、逻辑和数据结构。计算机处理系统10可 以被体现在分布式云计算环境中,其中任务由通过通信网络被链接的远程处理设备执行。 在分布式云计算环境中,程序模块可以被置于包括存储器存储设备的本地和远程计算机系 统存储介质中。
[0037] 计算机处理系统10包括:通用计算机服务器12和被直接附接到计算机服务器12 的一个或多个输入设备14和输出设备16。计算机处理系统10被连接到网络20。计算机 处理系统10利用输入设备14和输出设备16与用户18通信。输入设备14包括键盘、扫描 仪、鼠标、最总球或者另一指向设备中的一项或多项。输出设备16包括显示器或打印机中 的一项或多项。计算机处理系统10在网络20上与网络设备(未示出)通信。网络20可 以是局域网(LAN)、广域网(WAN)或因特网。
[0038] 计算机服务器12包括:中央处理单元(CPU) 22 ;网络适配器24 ;设备适配器26 ;总 线28和存储器30。
[0039] CPU22从存储器30载入机器指令并且响应于指令执行机器操作。这样的机器操作 包括:递增或递减寄存器(未示出)中的值;将值从存储器30传送到寄存器或者与之相反; 在条件为真或假的情况下从存储器中的不同位置获取指令(也被公知为条件分支指令); 以及将两个不同寄存器中的值相加或相减并将结果放在另一寄存器中。典型的CPU可以执 行很多不同的机器操作。一组机器指令被称为机器代码程序,机器指令用被称为低级语言 的机器代码语言来编写。用高级语言编写的计算机程序在其可以被运行之前需要被编译为 机器代码程序。可替换地,诸如虚拟机或解译器之类的机器代码程序可以关于机器操作解 译高级语言。
[0040] 网络适配器24被连接到总线28和网络20以用于实现计算机服务器12与网络设 备之间的通信。
[0041] 设备适配器26被连接到总线28以及输入设备14和输出设备16以用于实现计算 机服务器12与输入设备14和输出设备16之间的通信。
[0042] 总线28将包括存储器30在内的主系统组件一起耦合到CPU22。总线28代表若干 种总线结构中的任一种中的一个或多个总线结构,包括存储器总线或存储器控制器、外围 总线、加速图形端口和使用各种总线体系结构中的任一种总线体系结构的处理器或本地总 线。作为示例而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结 构(MCA)总线、增强型ISA (EISA)总线、视频电子标准协会(VESA)本地总线以及外围组件 互连(PCI)总线。
[0043] 存储器30包括采用易失性存储器32和非易失性或者永久性存储器记忆34的形 式的计算机系统可读介质。易失性存储器32的示例为随机访问存储器(RAM)36和高速缓 存存储器38。一般而言易失性存储器因为它更快速而被使用并且一般而言非易失性存储器 因为它保存数据更持久而被使用。计算机处理系统10还可以包括其它可移除和/或不可 移除的、易失性和/或非易失性的计算机系统存储介质。仅仅通过示例的方式,永久性存储 器34可以被提供用于从不可移除的非易失性磁介质(未示出并且通常是磁硬盘或固态驱 动器)中读取并且向该介质写入。虽然未示出,但是可以提供其它的存储介质,包括:用于 可移除的非易失性固态存储器的外部端口;用于从诸如紧致盘(CD)、数字视频盘(DVD)或 蓝光之类的可移除的非易失性光盘中读取或向其写入的光盘驱动器。在这些实例中,每个 实例可以通过一个或多个数据介质接口被连接到总线28。如下面将进一步示出和描述的, 存储器30可以包括具有被配置为执行本发明的实施例的功能的一组(例如至少一个)程 序模块的至少一个程序产品。
[0044] 被配置为执行优选实施例的功能的程序模块包括:翻译应用99、翻译验证模块 100、术语词典102、一个或多个翻译记忆104和验证报告106。支持优选实施例但未示出的 另外的程序模块包括固件、引导程序、操作系统和支持应用。操作系统、支持应用、其它程序 模块以及程序数据中的每一个或者它们的某种组合可以包括联网环境的实现方式。
[0045] 计算机处理系统10经由网络适配器24与至少一个网络20 (例如局域网(LAN)、 一般广域网(WAN)和/或像因特网这样的公共网络)通信。网络适配器24经由总线28与 计算机服务器12的其它组件通信。应当理解虽然未示出,但是其它硬件和/或软件组件可 以与计算机处理系统10-起被使用。示例包括但不限于:微代码、设备驱动器、冗余处理单 元、外部盘驱动器阵列、独立盘冗余阵列(RAID)、磁带驱动器和数据存档存储系统。
[0046] 翻译应用99是用于根据独立的语言资源创建一个或多个翻译记忆104的工作在 应用层的独立(standalone)程序。可替换地,翻译记忆由翻译人员人工创建。
[0047] 翻译验证模块100在由计算机服务器12操作时提供一种翻译验证工具,用于对照 术语词典102验证一个或多个翻译记忆104以便产生验证报告106。根据优选实施例,这些 组件将关于附图被更详细地描述。
[0048] 参考图2A,术语词典102和一个或多个翻译记忆104被输入到翻译验证模块100。 验证报告106被显示为来自翻译验证模块100的输出。
[0049] 参考图2B,术语词典102包括采用语言1和语言2的源术语(S)和目标术语(T) (具体被称为 DTerml. S/DTerml. T ;DTerm2. S/DTerm2. T ;DTermN. S/DTermN. T)的术语对 (总地被称为DTerml、DTerm2... DTermN)。对于一些术语,存在另一种翻译。例如,DTerml. S. 1(采用第一语言的第一词典术语)包括"computer"并且对应的DTerml. Τ· 1(采用第二 语言的第一词典术语)包括"ordinateur"。DTerml. S. 1 ( "computer")的另一种翻译是包 括"calculateur"的DTerml. T. 2。在该不例中,第一语目是英语且第二语目是法语。常规 的术语词典将包含成千上万个关联的术语并且两个术语的示例是为了方便描述实施例而 被简化的。
[0050] 参考图2C,翻译记忆104包括采用第一语言的文档的源片段和采用第二语言的翻 译文档的目标片段,其中文档被分成对应的片段对(Segl. S/Segl. T ;Seg2. S/Seg2. T ;…; SegN. S/SegN. T)。采用第一语言的源文本片段应当在意思上与采用第二语言的目标文本片 段等同。正常的翻译记忆将包括成千上万个关联的片段并且该示例是为了便于描述实施例 而被简化的。
[0051] 参考图2D,验证报告106包括示出针对每个片段对的验证措施的片段对的结构 化列表。该结构化列表包括三个顺序的收起的片段(用正号+指示)DTermX、DTermX+Ι和 DTermX+2并且在附图中,展开的片段(用负号-指示)被示出。在这一示例中,报告没有与 它相关联的程式化的样式表并且用纯文本显示。
[0052] 参考图2E,相同的示例验证报告在DTermX处被展开以揭示词典术语在术语记 忆中的出现和匹配值。加粗且有下划线的文本突出显示了位于翻译记忆的目标和源片 段中的DTermX对。DTermX+Ι和DTermX+2被收起地显示。在该示例中,其中DTermX为 英语单词"build"的DTermX的五次出现被定位。第一次出现具有针对对应的目标术语 "development"的对应的目标片段精确匹配(接近度分数=100%)。第二次出现具有针对 第二个对应的目标术语"generation"的对应的目标片段精确匹配(接近度分数=100% )。 第三、第四和第五次出现被收起地显示。
[0053] 参考图2F,相同的示例验证报告在DTermX+Ι处被展开以揭示源术语 "computer-aided translation"在翻译记忆中的出现。加粗且有下划线的文本突出显示了 位于翻译记忆的目标和源片段中的DTermX+Ι源术语对。该示例突出显示了如下情况,其中 对应的目标术语在目标片段中未被精确匹配而是具有分隔目标术语的元素的单词(在这 一情况中为"g6n6ralement")。在这一情况下,接近度分数是针对小于精确匹配的80%。 DTermX和DTermX+2被收起地显示。
[0054] 参考图2G,翻译验证模块100包括:翻译验证方法200 ;规则匹配引擎110 ;模糊匹 配引擎112、结果数据114 ;以及报告呈现器116。
[0055] 翻译验证方法200控制翻译验证模块100的子组件的处理和操作并且在下面被更 详细地描述。
[0056] 规则匹配引擎110被用于发现翻译记忆的源片段中的源术语。被定位的源术语具 有在术语词典中的对应的目标术语。源片段具有在翻译记忆中的对应的目标片段。
[0057] 模糊匹配引擎112被用于基于字符串相似性将对应的目标术语(对应于匹配的源 术语)与翻译记忆中的对应的目标片段(即与具有源术语的出现的源片段相对应的目标片 段)匹配。
[0058] 结果数据114用于存储在被呈现为报告之前的验证结果。
[0059] 报告呈现器116用于根据结果数据114呈现验证报告106。
[0060] 参考图3,翻译验证方法200包括逻辑过程步骤202到216。
[0061] 步骤202用于定义循环以使得每个翻译记忆可以通过步骤204到216被验证。只 有一个翻译记忆对于实施例的执行是必要的,但是两个或更多个翻译记忆可以有利地作为 批而被验证。
[0062] 步骤204用于定义针对翻译词典中的所有片段的循环,以使得每个片段被检查以 发现重复。步骤204还用于记录并从翻译记忆中移除所有重复片段。由此处理不针对重复 片段而被重复,但是包括重复片段中的所有出现都被报告。
[0063] 步骤206用于如果存在一个或多个要处理的片段则循环回到步骤204,否则去往 步骤208。
[0064] 步骤208用于定义针对术语词典中的每个源术语的测试循环。
[0065] 调用规则匹配引擎110以针对每个源术语与翻译记忆中的源片段的规则基础 匹配进行测试。当发现匹配时,记录片段中的出现,所有的无关片段标记被剥离(strip out)。例如,英语术语通过比较单词的相似词干,剥去词典条目和记忆片段两者中的诸 如-s、-e、-es、-ies、-ed、-ing及其它之类的常用英语结尾而被标识。其它构词法规则也 可以被使用。
[0066] 步骤210用于定义针对源术语在源片段中的每次出现的循环,
[0067] 据此在调用模糊匹配引擎112之后,对对应的目标片段和对应的翻译出的词典术 语执行模糊搜索以呈现接近度分数。如果翻译出的词典术语刚好位于目标片段中或者如果 接近度分数落在特定的阈值限值内,则发现匹配。否则不发现匹配。此外,如果发现词典源 术语被在目标片段中,则匹配被记录为"已通过"。
[0068] 模糊匹配引擎112搜索在对应的目标片段内的对应的词典目标术语的规范形式。 根据接近度分数,翻译出的术语被视为被发现、
[0069] 有待检查或者未被发现。这一评估利用语言不可知的算法来检测1)词典条目翻 译与2)记忆片段翻译之间的模糊匹配。
[0070] 在优选实施例中,目标术语和目标片段串利用确定它们之间的最长共用词块的函 数而被比较。当发现共用词块时,则基于三个参数的进一步的测试被用于确定所预期的目 标术语是否在目标片段中。这三个参数被用于定义阈值以使得在以下情况下目标术语被视 为在目标片段中被发现:
[0071] 共用子串中的符号总数等于或高于共用-字符-最小值(百分
[0072] 比);
[0073] 共用词块的总数等于或低于词块-数目-最大值;
[0074] 任意共用词块的符号的数目等于或高于词块-长度-最小值。
[0075] 如果这些条件中的任意条件未被满足,则词典条目翻译被视为
[0076] 在记忆片段翻译中未被发现。
[0077] 阈值定义在配置文件中被设置。在欧洲语言的情况下,这些参数的值如下:
[0078] 共用-字符-最小值=80%
[0079] 词块-数目-最大值=3
[0080] 词块-长度-最小值=2
[0081] 设置这些参数不需要训练阶段。然而如果必要,这些值可以被测试和改变。
[0082] 步骤212用于如果存在更多的源术语出现有待处理则循环回到步骤210,否则进 行步骤214。
[0083] 步骤214用于如果还有更多的源术语有待处理则循环回到步骤208,否则进行步 骤 216。
[0084] 步骤216用于创建关于术语出现和所记录的接近度分数的报告。这是翻译验证方 法200的结束。
[0085] 现在描述本发明的另外实施例。
[0086] 对于本领域普通技术人员清楚的是优选实施例的全部或部分逻辑过程步骤可以 被可替换地体现在包括被布置为执行方法的逻辑过程步骤的逻辑元件的逻辑装置或多个 逻辑装置中,并且这样的逻辑元件可以包括硬件组件、固件组件或者它们的组合。
[0087] 对于本领域技术人员同样清楚的是优选实施例的全部或部分逻辑组件可以被可 替换地体现在包括执行方法的步骤的逻辑元件的逻辑装置中,并且这样的逻辑元件可以包 括例如可编程逻辑阵列或者专用集成电路中的逻辑门之类的组件。这样的逻辑布置还可以 利用例如可以被存储和利用固定的或者可传送的载体介质被传送的虚拟硬件描述语言、被 体现在用于在这样的阵列或电路中暂时性地或永久性地建立逻辑结构的使能元件中。
[0088] 将理解优选实施例的方法和组件或者可以被完全或部分地体现在包括用于执行 并行软件的两个或更多个处理器的并行计算系统中。
[0089] 在可替换实施例中,本发明可以采用包括计算机程序代码的计算机实现的服务的 形式来实现,该计算机程序代码可操作为在被部署到计算机服务器架构中并且在其上被执 行时,使得计算机服务器架构响应于针对服务的客户端请求执行该方法的所有步骤。
[0090] 例如,参考图4,客户端服务器翻译验证系统10'是包括计算机服务器12'和计算 机客户端13'的示例客户端服务器实施例。计算机服务器12'经由网络20连接到计算机 客户端13'。计算机客户端13'经由输出设备16'向用户18'提供输出并且经由输入设备 14'从用户18'接收输入。在这一客户端服务器实施例中,翻译记忆104'位于客户端上,而 翻译验证模块100'和术语词典102'位于计算机服务器12'中。
[0091] 在这一客户端服务器实施例中,验证作为服务被提供给提供翻译记忆的客户端。 在验证成功完成之后,在客户端13'中广生报告106'。
[0092] 在另一可替换实施例中,本发明可以采用计算机实现的部署服务的方法的形式被 实现,该方法包括部署计算机程序代码的步骤,该计算机程序代码可操作为在被部署到计 算机服务器基础架构中并且在其上被执行时,使得计算机系统响应于针对服务的客户端请 求执行该方法的所有步骤。
[0093] 对于本领域技术人员清楚的是可以在不脱离本发明的范围的情况下对前述示例 性实施例做出许多改进和修改。
【权利要求】
1. 一种用于对照术语词典验证翻译记忆的系统,所述术语词典包括源术语和对应的目 标术语,所述翻译记忆包括源片段和对应的目标片段,所述系统包括: 规则匹配引擎,用于针对每个源术语标识该源术语在源片段内的精确或近似的出现, 其中出现根据语法规则被确定; 模糊匹配引擎,用于针对源片段中的每次标识的源术语出现计算对应的目标术语与所 述对应的目标术语在对应的目标片段中的对应的出现之间的接近度分数;以及 报告生成器,用于报告源术语源片段中的每次标识的出现;以及所计算出的所述对应 的目标术语与所述对应的目标术语在目标片段中的所述对应的出现的接近度分数。
2. 根据权利要求1所述的系统,其中每个接近度分数被归类为:精确匹配;大致匹配; 以及不匹配。
3. 根据权利要求2所述的系统,其中标识的源术语如果在所述对应的目标片段以及所 述源片段中被发现则被归类为已使用。
4. 根据权利要求2所述的系统,其中标记颜色被用于在不同的接近度分数类别之间进 行区分。
5. 根据权利要求1至4中任一项所述的系统,还包括利用样式表来呈现报告以提供更 加容易的用户导航和理解。
6. 根据权利要求1至5中任一项所述的系统,还包括利用个体的接近度分数计算翻译 记忆与翻译词典之间的总接近度分数。
7. 根据权利要求1至6中任一项所述的系统,还提供允许快速标识问题区域的可视化 工具。
8. 根据权利要求1至7中任一项所述的系统,其中所述源语言是具有基于后缀的简单 语法规则的单一语言。
9. 根据权利要求8所述的系统,其中所述源语言为英语。
10. -种用于对照术语词典验证翻译记忆的方法,所述术语词典包括源术语和对应的 目标术语,所述翻译记忆包括源片段和对应的目标片段,所述方法包括: 针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中根据语法规则标 识近似匹配; 针对源片段中的每次标识的源术语出现计算对应的目标术语与所述对应的目标术语 在对应的目标片段中的对应的出现之间的接近度分数;以及 报告源片段中的每次标识的源术语出现以及所计算出的所述对应的目标术语与目标 片段中的所述对应的出现的接近度分数。
11. 根据权利要求10所述的方法,其中每个接近度分数被归类为:精确匹配;大致匹 配;以及不匹配。
12. 根据权利要求10或11所述的方法,其中标识的源术语如果在目标片段以及对应的 源片段中被发现则被归类为已使用。
13. 根据权利要求11或12所述的方法,其中标记颜色被用于在不同的接近度分数类别 之间进行区分。
14. 根据权利要求10至13中任一项所述的方法,还包括利用样式表来呈现报告以提供 更加容易的用户导航和理解。
15. 根据权利要求10至14中任一项所述的方法,还包括利用个体的所述接近度分数计 算所述翻译记忆与所述翻译词典之间的总接近度。
16. 根据权利要求10至15中任一项所述的方法,还提供允许快速标识问题区域的可视 化工具。
17. 根据权利要求10至16中任一项所述的方法,其中所述源语言是具有基于后缀的简 单语法规则的单一语言。
【文档编号】G06F17/28GK104123275SQ201410165429
【公开日】2014年10月29日 申请日期:2014年4月23日 优先权日:2013年4月24日
【发明者】C·D·A·舍农 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1