利用索引查找相似翻译结果的系统及其方法

文档序号：6614733阅读：172来源：国知局

专利名称：利用索引查找相似翻译结果的系统及其方法
技术领域：
一种查找翻译结果的系统及其方法，特别是指一种利用索引查找相似翻译结果的系统及其方法。
背景技术：
电脑辅助翻译(Computer-assistedtranslation),又称机器辅助翻译，顾名思义，是以电脑程序软件辅助人工翻译，电脑辅助翻译中最常见的技术，便是翻译记忆(Translation Memory; TM),这是以资料库的方式储存翻译前的匹配句与翻译后的翻译结果，该资料库称之为翻译记忆库。翻译者在翻译时可利用电脑搜寻分析翻译记忆库，找出相同或相似(相似度高于一定值) 的句子，以提供翻译者使用或参考。使用翻译记忆，对于维持翻译结果中相同词汇以及句型的一致性有很大的帮助。实际中，翻译记忆要达到令使用者满意的翻译效果，翻译记忆库则需要达到一定的规模，也就是翻译记忆库中要有大量的匹配句与翻译结果。
比对与查询句相似度高的匹配句，除了要考量查询句的断词方式用以计算相似度的匹配条件之外，还要考量词汇的顺序、句子的重组、句子的增删修改等情况，所以目前在翻译记忆库中搜寻与查询句相似的匹配句的技术大都是采用逐句比对的方式，因此当要比对的匹配句数量非常大时，将造成使用者花费许多时间等待翻译记忆库的回应。
综上所述，可知翻译记忆进行比对的先前技术中，长期以来一直存在使用逐句比对的问题，因此有必要提出改进的技术手段，来解决此一问题。

发明内容
有鉴于先前技术存在的翻译记忆库使用逐句比对的问题，本发明遂揭露一种利用索引查找相似翻译结果的系统及其方法，其中
本发明所揭露的利用索引查找相似翻译结果的系统，其包括有接收模块、分割模块、储存模块、查找模块、匹配模块及显示模块，分割模块分割查询句为各个单字，由查找模块至储存模块所储存的索引表中查找包含查询句中至少一个单字的匹配句的索引值，并由匹配模块依据查找出来的索引值来判断各个索引值所代表的匹配句是否符合匹配条件，后由显示模块显示符合匹配条件的匹配句的翻译结果，藉以解决先前技术所存在的需逐条比对的问题。
本发明所揭露的利用索引查找相似翻译结果的方法，其包括有下列步骤接收查询句；分割查询句为复数个单字；由索引表中查找各单字分别对应的索引值，其中各索引值分别对应包含各单字至少其中之一的匹配句；依据各索引值判断各索引值对应的匹配句符合匹配条件时，读取索引值所对应的匹配句的翻译结果；显示该翻译结果，其通过索引表储存包含查询句中至少一个单字的匹配句的索引值，并由查找出来的索引值进行是否符合匹配条
件的判断，藉以解决先前技术所存在的需逐条比对的问题。
本发明所揭露的系统与方法如上，其与先前技术之间的差异在于额外使
使得本发明不需要将储存模块中的逐句比对即可获得与查询句相似的匹配句。通过上述的技术手段，本发明可以仅对单字进行比较，达成加快翻译记忆库的搜寻速度的技术功效。

图1是本发明所提的利用索引查找相似翻译结果的系统架构图。
图2A是本发明实施例所提的索引表示意图。
图2B是本发明实施例所提的翻译记忆库示意图。
图3是本发明所提的利用索引查找相似翻译结果的方法流程图。
具体实施方式
以下将配合图式及实施例来详细说明本发明的详细特征与实施方式，内容足以使任何熟习相关技艺者轻易地理解本发明解决技术问题所应用的技术手段并据以实施，及理解实现本发明可达成的功效。
本发明所提的查询句，为使用者欲参考翻译记忆库以进行翻译的句子，而本发明所提的匹配句，则为储存在翻译记忆库中，与查询句语是相同的句子，也就是说若查询句为英文，则匹配句也会是英文。
以下先以图1本发明所提的利用索引查找相似翻译结果的系统架构图来说明本发明的系统运作。如图1所示，本发明的系统主要含有接收模块
110、分割模块120、储存模块140、查找模块130、匹配模块150、显示模块160,而常用字过滤模块170、资料更新模块180、常用字定义模块190 为可附加于本发明系统的功能，将于稍后描述。
接收模块110负责接收使用者所输入的查询句，其中，使用者可以逐字元输入或复制&贴上(copy & paste)的方式输入查询句，但使用者输入查询句的方式并不以上述两者为限。
分割模块120负责将查询句中的各个单字由该查询句中分割出来，其中分割模块120分割查询句的方法包含但不局限于判断查询句中的每一个字元，当被判断的字元为空白(space)或标点符号时，即可分割出一个单字。
储存模块140负责储存与查询句相似的匹配句、匹配句的翻译结果以及索引表310，其中索引表310如图2A所示，包含匹配句中的各单字以及包含各单字的匹配句的索引值，且索引表中的各单字分别与各索引值呈现一对多的对应关系，但索引表310并不以此储存格式为限。
查找模块130负责由储存模块140的索引表310中查找出各个单字所对应的索引值，其中，上述的各个单字为分割模块120分割接收模块IIO所接收的查询句所产生。另外，查找模块130更可以将复数名词转换为单数名词后查询相对应的索引值，也可以将非原型动词转换为原型动词之后再查询对应的索引值。
上述的查找模块130查找各单字的索引值的方式，可以直接在索引表的单字栏中查找出各单字，再读出与单字相对应的索引值；也可以将各单字进行杂凑(hash)函数的运算取得杂凑值后，依据计算所得的杂凑值至杂凑表中查找与杂凑值相对应的各单字在索引表310中的位置，再依据查找出的位置至索引表中读出与该单字相对应的索引值，藉以通过杂凑的方式增加查找模块130查找出各单字所对应的索引值的速率。其中，使用杂凑的方式时，杂凑表会储存在储存模块140中。
匹配模块150负责由查找模块130所查找出的各索引值来判断各索引值所代表的匹配句是否符合匹配条件，当某一索引值符合匹配条件时，匹配模块150会至储存模块140中读取该索引值所代表的匹配句的翻译结果。
显示模块160负责显示匹配模块150读取的翻译结果。
接着以一个实施例来解说本发明的运作系统与方法，并请参照图3，以具体了解本发明所提的利用索引查找相似翻译结果的方法流程。在本实施例中，匹配条件则预先定义为索引值被查找的次数超过l次，但本发明所提的匹配条件并不以此为限。
首先接收模块110会接收使用者所输入的查询句「 Would you like to reply with this words J (步骤210),接着，分割模块120会依据空白以及标点符号把查询句分割为r would」、r you」、r like J 、「 to J 、「 reply J 、 r with J 、「 this」、r丽ds J等单字(步骤220 )。
接着，如图2A所示，查找模块130会至索引表310中查找与各个单字所对应的索引值(步骤232),单字「would」所对应的匹配句的索引值包含UOOO、 1101、 1208」、单字「like」所对应的匹配句的索引值包含U101、 1208 J 、单字r with」所对应的匹配句的索引值包含r 1101」、单字「 word J 所对应的匹配句的索引值包含r 1101」等，其中，由于单字「words」为复数，因此查找模块130所查找的单字是单数的「word」，而非「 words J 。
在查找模块130查找出与各个单字所对应的索引值(步骤232)后，匹配模块150会计算各个索引值被查找出的字数，在本实施例中，索引值 r 1000」与单字「woukn对应，因此被查找出的次数为1次、索引值「 1101 J 与单字r would J 、 r like J 、 r with」、r word」对应，因此淨皮查找出4次，而索引值「 1208」则净皮查找出2次。由于本实施例的匹配条件是判断被查找的次数是否大于1，因此匹配模
块150在计算出各索引值被查找出的次数之后，会进一步判断各索引值被查找出的次数是否大于l，当索引值大于l时，表示该索引值所对应的匹配句符合匹配条件(步骤250 ),因此匹配模块150会依据该索？ 1值将对应的匹配句所对应的翻译结果由储存模块140中读取出来(步骤261);若索引值小于或等于l,表示索引值所对应的匹配句不符合匹配条件，因此将不进行任何动作。所以，如图2B所示，索引值U101」与索引值「 1208」所对应的匹酉己句，也;f尤是r I would like to have a word with you.」与r Would you please come tonight 」将会被匹配模块150判断为与查询句相似，因此由储存才莫块 140的翻译记忆库320中读出相对应的翻译结果f我想跟你说句话。」与「你今晚来一下好吗？ J
在匹配模块150读取出符合匹配条件的各个匹配句所对应的翻译结果 (步骤261)后，显示模块160会显示匹配模块150所读出的匹配的翻译结果(步骤262 )。
在上述的实施例中，若匹配模块150判断与查询句相似的匹配句过多 (步骤250),则将使得系统负载大幅提高，为了避免这样的状况，因此匹配模块150判断出相似的句子过多时，仅会定义某一预定值的相似的句子为匹配句，例如当相似的句子有1000句时，匹配模块150仅会定义其中的100 句(但本发明所提的预定值并不以100句为限)为匹配句。
综上所述，可知本发明与先前技术之间的差异在于具有一个索引表，用来记录匹配句中的各单字以及包含各单字的匹配句的索引值，此一技术手段可以仅对资料笔数少于匹配句的单字进行比对，藉以解决先前技术所存在的需要逐句比对查询句之后，才可以判断出与查询句相似的匹配句的问题，进而达成加快翻译记忆库的搜寻速度的技术功效。
在上述的实施例中，匹配模块150更可以依据匹配句中的单词顺序、位置等条件判断各匹配句的相似程度，并依据相似程度的高低排列被匹配模块 150所读出的翻译结果，使得显示模块160依据相似程度的高低显示各翻译结果(步骤262)。
由于本发明利用了翻译记忆，因此在完成翻译动作后，资料更新模块180将会储存查询句以及将与查询句对应的翻译结果至储存模块130的翻译记忆库320中(步骤281)，藉以满足翻译记忆「一个句子只翻译一次」的特性。而在查询句存入翻译记忆库320后，将会获得一个索引值，这时，资料更新才莫块180会将新获得的索引值存入储存^t块130的索引表310中，藉以更新查询句中的各单字所对应的索引值(步骤282)。
为了避免发生误判与查询句相似的匹配句的情况，本发明更包含了一个常用字过滤模块170,负责在分割模块120分割出各个单字(步骤220)后，将各单字中的常用字删除(步骤231)，使得查找模块140不会查找常用字的索引值，例如在上述实施例中，若单字「would」为常用字，则在常用字过滤模块170删除之后，查找模块140将不会查找单字「 would」所对应的索引值，因此，匹配模块150会判断出只有索引值U101 J符合匹配条件(步骤250)，因为只有索引值「 1101」被查找出3次(与单字「like」、r with J 、「word」对应)，其他索引值都未达匹配条件的标准。
另外，本发明更包含了常用字定义模块190，当分割模块120分割查询句后产生的各单字出现超过预定值时，常用字定义模块190将会定义该单字为常用字，例如，若预定值为3次，则使用者在输入的三个查询句中都包含有单字「 like」后，常用字定义模块190将会发现单字「 like」的被查询次数已经满足了预定值(步骤291、步骤292)，常用字定义模块190会将单字 rlike」定义为常用字(步骤293 )，如此，匹配模块150将可以匹配出更 4青准的匹配句。
再者，本发明的利用索引查找相似翻译结果的方法，可实现于硬件、软件或硬件与软件的组合中，亦可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。
虽然本发明所揭露的实施方式如上，惟所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常知识者，在不脱离本发明所揭露的精神和范围之内，在实施的形式上及细节上所为的更动或润饰，均属本发明的专利保护范围。因此本发明的专利保护范围仍须以本说明书所附的权利要求范围所界定者为准。
权利要求
1、一种利用索引查找相似翻译结果的方法，该方法包含下列步骤接收一查询句；分割该查询句为复数个单字；由一索引表中查找各该单字分别对应的至少一索引值，其中各该索引值分别对应包含各该单字至少其中之一的一匹配句；依据各该索引值判断各该索引值对应的各该匹配句符合一匹配条件时，读取各该匹配句对应的一翻译结果；及显示该翻译结果。
2、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该判断各该匹配句符合该匹配条件的步骤是计算各该索引值被查找出的一次数，当该次数符合一门槛值时，判断该索引值所对应的匹配句符合该匹配条件的步骤。
3、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该方法更包含储存该查询句以获得相对应的索引值，并更新该索引表中的各该单字所对应的各该索引值的步骤。
4、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该方法更包含该查询句分割为各该单字后，将各该单字中的各常用字删除的步骤。
5、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该方法更包含分别计算各该单字的一被查询次数，当该被查询次数符合一预定值时，定义该被查询次数符合该预定值的该单字为一常用字的步骤。
6、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该方法更包含依据各该匹配句对应该查询句的相似程度排列各该匹配句对应的各该翻译结果的步骤。
7、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该判断各该匹配句符合一匹配条件的步骤更包含于该符合该匹配条件的匹配句多于一预定值时，由该符合该匹配条件的匹配句中定义出与该预定值相同数量的该匹配句。
8、如权利要求1所述的利用索引查找相似翻译结果的方法，其中该查找各该单字分别对应的各该索引值的步骤是计算该单字的一杂凑值，并依据该杂凑值至一杂凑表中查找出该单字于该索引表中的一位置，再依据该位置至该索引表中读出该单字所对应的该索引值的步骤。
9、一种利用索引查找相似翻译结果的系统，该系统包含一接收模块，用以接收一查询句；一分割模块，用以将该查询句分割为复数个单字；一储存模块，用以储存一索引表，其中该索引表包含至少一索引值及与该索引值相对应的一单字，其中该单字包含于该索引值所对应的一匹配句中；一查找才莫块，用以由该索引表中查找各该单字所对应的至少一索引值；一匹配模块，用以依据各该索51值判断各该索51值所对应的各该匹配句符合一匹配条件时，至该储存模块中读取该索51值所对应的该匹配句所对应的一翻译结果；及一显示模块，用以显示该翻译结果。
10、如权利要求9所述的利用索引查找相似翻译结果的系统，其中该匹配模块更用以依据各该匹配句对应该查询句的相似程度排列各该匹配句对应的各该翻译结果。
11、如权利要求9所述的利用索引查找相似翻译结果的系统，其中该匹配模块更用以于该符合该匹配条件的匹配句多于一预定值时，读取与该预定值相同数量的该翻译结果。
12、如权利要求9所述的利用索引查找相似翻译结果的系统，其中该系统更包含一资料更新模块，用以储存该查询句以获得该查询句所对应的一索引值，并更新该索引表中的各该单字所对应的各该索引值。
13、如权利要求9所述的利用索引查找相似翻译结果的系统，其中该系统更包含一常用字过滤模块，用以将各该单字中的各常用字删除。
14、如权利要求9所述的利用索引查找相似翻译结果的系统，其中该系统更包含一常用字定义模块，用以计算各该单字的一被查询次数，当该被查询次数符合一预定值时，定义该查询字数符合该预定值的该单字为一常用字。
15、如权利要求9所述的利用索引查找相似翻译结果的系统，其中该储存模块更用以储存一杂凑表，提供该查找模块于计算该单字的一杂凑值后，先依据该杂凑值至一杂凑表中查找出该单字于该索引表中的一位置，再依据该位置至该索引表中读出该单字所对应的该索引值。
全文摘要
一种利用索引查找相似翻译结果的系统及其方法，其通过索引表储存包含查询句中至少一个单字的匹配句的索引值，并由查找出来的索引值进行是否符合匹配条件的判断，如此仅需对资料笔数较少的单字进行比对，可以解决先前技术中所存在的需要逐句比对才可以判断出与查询句相似的匹配句的问题，藉此可以达成加快翻译记忆库的搜寻速度的技术功效。
文档编号G06F17/30GK101452459SQ20071019550
公开日2009年6月10日申请日期2007年11月30日优先权日2007年11月30日
发明者锋林, 邱全成申请人:英业达股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邱全成;林锋
技术所有人：英业达股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。