一种基于动态规划的批量双语术语识别方法与流程

文档序号:11864654阅读:493来源:国知局
一种基于动态规划的批量双语术语识别方法与流程
本发明涉及一种翻译
技术领域
,特别是涉及一种基于动态规划的批量双语术语识别方法。
背景技术
:正常的翻译过程中,对于特定的专业领域,通常会有几万到几十万甚至上百万的术语作为参考,这些术语对于在翻译过程中保证译文前后统一性至关重要。现主流的计算机翻译(CAT,Computeraidedtranslation)软件的翻译流程基本是先导入需要翻译的双语文档,然后CAT进行断句,用户可以进行逐句翻译。在翻译每个句子的过程中,如何让程序能够自动识别数据库中存储的海量专业术语,以提高翻译的准确率和译文的前后一致性成为本领域技术人员亟待解决的问题。应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
背景技术
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。技术实现要素:有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种能够对翻译的准确率有帮助的基于动态规划的批量双语术语识别方法为实现上述目的,本发明提供了一种基于动态规划的批量双语术语识别方法,包括步骤:预先对准备登录的所有专业术语建立中英双语术语的分词倒排索引,并将分词倒排索引存储在内存数据库Redis中;当检测到翻译请求句子输入时,对翻译请求句子进行分词,并从内存数据库Redis中查询分词对应的分词倒排索引;对查询到的分词倒排索引使用动态规划算法求解得到最大匹配度的结果用以返回。优选的,所述对查询到的分词倒排索引使用动态规划算法求解得到最大匹配度的结果用以返回包括:先求解两阶相邻分词倒排索引的交集,再逐次递增求解多阶相邻分词倒排索引的交集,直至求解得到m阶相邻分词倒排索引的交集,并将各阶交集结果利用多维数组进行存储;最后依据求解得到的各阶交集结果返回最大匹配度的结果用以返回;其中,m=max{5,l},l是翻译请求句子分词个数。首先从相邻的两阶分词倒排索引开始求解交集,并依次求得多借分词倒排索引的交集,由于高一阶分词倒排索引交集结果包含与k-1阶分词倒排索引交集结果,因此可以将低阶交集结果利用多维数组进行存储避免多次重复计算,提高求解效率;而由于一般术语的分词个数不超过5个,因此做多求解m阶相邻分词倒排索引的交集即可。优选的,若最终m阶交集结果求解的得到多个术语结果,则优先选取完全被翻译请求句子包含的术语作为最大匹配度的结果用以返回。若存在多个完全被翻译请求句子包含的术语,可以全部返回,以供用户选择。优选的,若不存在完全被翻译请求句子包含的术语,则选取部分被包含程度最大的术语作为最大匹配度的结果用以返回。优选的,假设输入的翻译请求句子的分词结果为{w1,w2...wi...wl},其中i∈(1,l),l为分词个数;设从内存数据库Redis中查询分词结果的倒排索引集合为:{wt1,wt2...wti...wtl};则第k阶相邻分词倒排索引的交集可表示为:wti,i+k=wti,i+k-1+wti+1,k;其中i表示第i个分词下标,wti,i+k表示从第i个分词开始的k阶相邻分词倒排索引的交集结果。优选的,所述预先对准备登录的所有专业术语建立中英双语术语的分词倒排索引的步骤包括:假设某中英术语的集合为T={(t1c,t1e),(t2c,t2e)...(tic,tie)...(tnc,tne)},其中i∈(1,n),n为术语的总条数,tic代表第i条术语的中文表示,tie代表第i条术语的英文表示;设第i条术语的中英文分词集合为W={wi1,wi2...wik...wil},其中k∈(1,l),wik为第k个分词,l为中分词的总数,则第i条术语的分词倒排建立如下:wi1:tiwi2:ti...wik:ti...wil:ti]]>若第j条术语的中英文分词wi1与第i条术语wi2有两个分词相同,则需要插入新的分词倒排,同时更新两个相同的分词倒排如下:wi1:ti-tjwi2:ti-tj。优选的,所述当检测到翻译请求句子输入时,对翻译请求句子进行分词的步骤包括:当检测到翻译请求句子输入时,自动发送句子识别术语请求以对翻译请求句子进行分词。在对翻译请求句子进行分词时,可以是用户自行下达句子识别术语请求,也可以是根据预设规则自动发送句子识别术语请求,自动发送句子识别术语请求可以减少用户的操作。本发明的有益效果是:本发明的技术主要包括海量术语预处理和动态规划识别算法两步骤,通过建立分词倒排索引,并存储在内存数据库Redis中,可以供用户检索时查询使用;而动态规划算法则可以对查询得到分词倒排索引进行求解得到最大匹配度的术语结果返回给用户,使得数据库中存储的海量专业术语能够被识别,这对翻译的准确率和译文的前后一致性带来了很大的帮助。参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明所包括的附图用来提供对本申请实施例的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本发明实施例一种基于动态规划的批量双语术语识别方法的流程图。图2是本发明实施例一输入的翻译请求句子有6个分词结果为例,求解得到的m阶相邻倒排索引的交集结果示意图。具体实施方式为了使本
技术领域
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。图1是本发明实施例一种基于动态规划的批量双语术语识别方法,参见图1,该批量双语术语识别方法,包括步骤:S1:预先对准备登录的所有专业术语建立中英双语术语的分词倒排索引,并将分词倒排索引存储在内存数据库Redis中;S2:当检测到翻译请求句子输入时,对翻译请求句子进行分词,并从内存数据库Redis中查询分词对应的分词倒排索引;S3:对查询到的分词倒排索引使用动态规划算法求解得到最大匹配度的结果用以返回。本发明的有益效果是:本发明的技术主要包括海量术语预处理和动态规划识别算法两步骤,通过建立分词倒排索引,并存储在内存数据库Redis中,可以供用户检索时查询使用;而动态规划算法则可以对查询得到分词倒排索引进行求解得到最大匹配度的术语结果返回给用户,使得数据库中存储的海量专业术语能够被识别,这对翻译的准确率和译文的前后一致性带来了很大的帮助。本发明所涉及的Redis是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。本实施例优选的,对查询到的分词倒排索引使用动态规划算法求解得到最大匹配度的结果用以返回包括:先求解两阶相邻分词倒排索引的交集,再逐次递增求解多阶相邻分词倒排索引的交集,直至求解得到m阶相邻分词倒排索引的交集,并将各阶交集结果利用多维数组进行存储;最后依据求解得到的各阶交集结果返回最大匹配度的结果用以返回;其中,m=max{5,l},l是翻译请求句子分词个数。首先从相邻的两阶分词倒排索引开始求解交集,并依次求得多借分词倒排索引的交集,由于高一阶分词倒排索引交集结果包含与k-1阶分词倒排索引交集结果,因此可以将低阶交集结果利用多维数组进行存储避免多次重复计算,提高求解效率;而由于一般术语的分词个数不超过5个,因此做多求解m阶相邻分词倒排索引的交集即可。本实施例优选的,若最终m阶交集结果求解的得到多个术语结果,则优先选取完全被翻译请求句子包含的术语作为最大匹配度的结果用以返回。若存在多个完全被翻译请求句子包含的术语,可以全部返回,以供用户选择。本实施例优选的,若不存在完全被翻译请求句子包含的术语,则选取部分被包含程度最大的术语作为最大匹配度的结果用以返回。本实施例优选的,假设输入的翻译请求句子的分词结果为{w1,w2...wi...wl},其中i∈(1,l),l为分词个数;设从内存数据库Redis中查询分词结果的倒排索引集合为:{wt1,wt2...wti...wtl};则第k阶相邻分词倒排索引的交集可表示为:wti,i+k=wti,i+k-1+wti+1,k;其中i表示第i个分词下标,wti,i+k表示从第i个分词开始的k阶相邻分词倒排索引的交集结果。以输入句子有6个分词结果为例,最多求解5阶相邻倒排索引的句子id交集,求解示意图如图2所示。本实施例优选的,预先对准备登录的所有专业术语建立中英双语术语的分词倒排索引的步骤包括:假设某中英术语的集合为T={(t1c,t1e),(t2c,t2e)...(tic,tie)...(tnc,tne)},其中i∈(1,n),n为术语的总条数,tic代表第i条术语的中文表示,tie代表第i条术语的英文表示;设第i条术语的中英文分词集合为W={wi1,wi2...wik...wil},其中k∈(1,l),wik为第k个分词,l为中分词的总数,则第i条术语的分词倒排建立如下:wi1:tiwi2:ti...wik:ti...wil:ti]]>若第j条术语的中英文分词wi1与第i条术语wi2有两个分词相同,则需要插入新的分词倒排,同时更新两个相同的分词倒排如下:wi1:ti-tjwi2:ti-tj。本实施例优选的,当检测到翻译请求句子输入时,对翻译请求句子进行分词的步骤包括:当检测到翻译请求句子输入时,自动发送句子识别术语请求以对翻译请求句子进行分词。在对翻译请求句子进行分词时,可以是用户自行下达句子识别术语请求,也可以是根据预设规则自动发送句子识别术语请求,自动发送句子识别术语请求可以减少用户的操作。以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本
技术领域
中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1