翻译系统中语料推荐方法

文档序号:9579245阅读:416来源:国知局
翻译系统中语料推荐方法
【技术领域】
[0001]本发明涉及翻译系统领域,具体地,涉及翻译系统中语料推荐方法。
【背景技术】
[0002]翻译软件,将一种语言翻译为另一种语言的软件,分为在线翻译软件和本地翻译软件,无论是我们平时浏览网页还是阅读文献都会或多或少遇到几个难懂的英文词汇,这时我们就不免要翻词典了,且单位、公司、企业对于外文的翻译都有需求,无论是何种语言之间的转换,都关系到其切身利益。
[0003]网上的词典工具大概可以分为两种:离线词典,就是可以不用联网,只要下载安装并运行就可以方便取词在线翻译;另外一种是在线翻译词典,它需要我们访问一个网站,而后输入要查找的词汇等。
[0004]从上世纪80年代中期开始,基于语料和多引擎机译方法的广泛运用,翻译软件的性能和效率有了明显提高,各式各样的翻译软件如雨后春笋般问世。翻译软件消除了不同文字和语言间的隔阂,堪称高科技造福人类之举,但其译文质量长期以来一直是个问题,离理想目标仍相差甚远,原因在于机器翻译具有一些特殊的困难,制约译文质量的瓶颈所在。
[0005]现有的翻译系统中采用的语料推荐方法存在语料匹配度差,最后翻译出的语料准确度差的缺陷。

【发明内容】

[0006]本发明所要解决的技术问题是提供翻译系统中语料推荐方法,在翻译系统中采用该种语料推荐方法,语料匹配度高,语料翻译更准确。
[0007]本发明解决上述问题所采用的技术方案是:翻译系统中语料推荐方法,包括如下步骤:
A)在翻译系统中对用户输入的语料搜索语料库;
B)按匹配算法返回语料内容,其中匹配算法采用以自然语言处理方法和评价排名结合的综合推荐机制,自然语言处理方法是找到某一语料的核心实词,与用户输入进行句句权重匹配后返回匹配的语料,句句权重则是计算输入语料和采用语料之间的采用/展示比的值。
[0008]本方案中语料即为需要翻译的词语或句段,语料采用的分值的计算公式为语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),通过公式计算出语料采用得分和语料展示得分,然后将得分相除,就可得到句句权重的值,通过自然语言处理,找到某一语料的核心实词,与用户输入进行句句权重匹配后返回匹配率较高的语料。而句句权重是以输入语料和采用语料之间的采用/展示比为核心进行计算。即使分词上有一定差异,但越符合输入句段要求的句子,多次使用后也可能达到极高的权重。句句权重的自学习机制则保证了系统的不断自优化。另外,在排序过程中还会参考语料的评价排名情况,采用两种方式相结合的综合推荐机制,最终翻译出来的语料匹配度高,语料翻译更准确。该方法中涉及到的评价排名为动态排名,随时保持常用语料以及语料提供者排前的方式,在进行语料推荐时优先推荐排名靠前的语料,与以往的语料搜索都是简单的整句匹配、分词匹配、规则匹配等方式相比,翻译的准确度更高。
[0009]进一步的,步骤B)中评价排名的方法包括如下步骤:
B1)上传需要翻译的语料到翻译系统中;
B2)在翻译系统中的已有语料中查找是否有重复的需要翻译的语料,对于已重复的语料则在该语料总得分上加0.1倍语料重复得分,在语料提供者得分上减0.3倍重复得分;B3)在使用语料的过程中,采用pagerank思想,针对提供者和语料本身计算各自得分,每当有语料被展示一次,在该语料总得分上减0.1倍语料展示得分,该语料被采用一次,则在语料总得分上加上0.8倍语料采用得分且在语料提供者得分上加0.7倍采用得分;
B4)基于步骤B3)算出语料总得分和语料提供者得分,根据得分得出语料和语料提供者的等级。
[0010]在本方法中语料重复得分=上传人数个数/语料被上传次数,语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),语料展示得分=sum (本语料展示给某一用户的次数/该用户总查看语料数),采用得分=sum (该语料提供者的某一语料被使用的次数/该语料被展示次数),重复得分=sum (重复语料的上传人数个数/被上传次数),语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1,语料提供者得分=采用得分*0.7-重复得分*0.3,前面涉及到的sum代表的是求和函数,前面涉及到的系数均是通过多次试验后得到的最优系数用于统计分数,语料代表的是需要翻译的词语或者是句段,通过该方法能够对语料总得分和语料提供者得分进行实时的统计,并对最终的统计结果进行分数由高到低的排序,从而得出精确的实时排序情况提供给使用者使用,借鉴性更强,随着使用时间的推移,还能不断的进行自我优化,提高翻译的准确度和效率。而原有的翻译系统中只能对语料进行固定排序,当使用者常用语料发生变化时,翻译系统中语料和语料提供者的排序无法不断的进行自我优化,在准确性和效率方面均存在缺陷,与以往的翻译系统的方法相比,该方法优势明显。
[0011]进一步的,步骤B3)中语料总得分的计算公式为:语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1+语料初始值,其中的语料重复得分=上传人数个数/语料被上传次数,其中的语料采用得分=sum (本语料被某一用户使用次数/某一用户总共使用语料数),其中的语料展示得分=sum (本语料展示给某一用户的次数/该用户总查看语料数),其中的语料初始值为人为设定。
[0012]进一步的,步骤B3)中语料提供者得分的计算公式为:语料提供者得分=采用得分*0.7-重复得分*0.3+上传得分*0.2+语料提供者初始值,其中的采用得分=sum (该语料提供者的某一语料被使用的次数/该语料被展示次数),其中的重复得分=sum (重复语料的上传人数个数/被上传次数),其中的上传得分=log (上传语料数)。在语料总得分的基础上加上语料初始值,在语料提供者得分的基础上加上语料提供者初始值,是为了避免语料总得分和语料提供者得分最后出现负数,不方便后面对语料总得分和语料提供者得分进行排序,通过设置初始值则避免出现总分为负数的情况,最后的排序结果更准确,后期的参考价值更高。而在语料提供者得分中还加入了 0.2倍上传得分,对语料提供者得分进行进一步优化,使最后的得分情况更加的合理。
[0013]步骤B4)中语料和语料提供者的等级单独评定,当语料总得分或语料提供者得分小于等于1万且得分排名小于等于10%为A级,当语料总得分或语料提供者得分小于等于
1万且10% <得分排名5 30%为B级,当语料总得分或语料提供者得分小于等于1万且30%<得分排名5 40%为C级;当语料总得分或语料提供者得分大于1万且得分排名小于等于1%为SSS级,当语料总得分或语料提供者得分大于1万且1% <得分排名g 5%为SS级,当语料总得分或语料提供者得分大于1万且5% <得分排名g 10%为S级。该种等级评价方式仅是根据得分得出语料和语料提供者的等级的一种形式,也可以采用其他形式对语料和语料提供者进行等级区分,但该种形式的等级形式已经能够满足后期用户使用的需要。
[0014]综上,本发明的有益效果是:本方案中的语料推荐方法与以往的语料搜索相比不是通过简单的整句匹配、分词匹配、规则匹配等方式,而是采用以自然语言处理+评价排名的综合推荐机制,通过自然语言处理,找到某一语料的核心实词,与用户输入进行句句权重匹配后返回匹配率较高的语料;而句句权重是以输入句段和采用句段之间的采用/展示比为核心进行计算,即使分词上有一定差异,但越符合输入句段要求的句子,多次使用后也可能达到极高的权重,通过该种推荐方法翻译出来的语料匹配度高,语料翻译更准确。
【具体实施方式】
[0015]下面结合实施例对本发明作进一步地的详细说明,但本发明的实施方式不限于此。
[0016]实施例1:
本发明公开了翻译系统中语料推荐方法,包括如下步骤:
A)在翻译系统中对用户输入的语料搜索语料库;
B)按匹配算法返回语料内容,其中匹配算法采用以自然语言处理方法和评价排名结合的综合推荐机制,自然语言处理方法是找到某一语料的核心实词,与用户输入进行句句权重匹配后返回匹配的语料,句句权重则是计算输入语料和采用语料之间的采用/展示比的值。
[0017]本方案中语料即为需要翻译的词语或句段,语料采用的分值的计算公式为语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),通过公式计算出语料采用得分和语料展示得分,然后将得分相除,就可得到句句权重的值,通过自然语言处理,找到某一语料的核心实词,与用户输入进行句句权重匹配后返回匹配率较高的语料。而句句
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1