语句的翻译方法、装置和存储介质与流程

文档序号:16533921发布日期:2019-01-05 11:01阅读:162来源:国知局
语句的翻译方法、装置和存储介质与流程

本发明涉及语言翻译领域,尤其涉及一种语句的翻译方法、装置和存储介质。



背景技术:

随着全球化的发展,不同文化间的交流愈发密切,语言翻译的要求也越来越高。

在现有技术中,往往是基于不同语言间的词汇关系或语义关系,通过机器学习等方式构建两种语言之间的联系,从而达到翻译的目的。

在实施本发明的过程中,发明人发现,现有的语言翻译技术中,一般是对词语进行翻译并将翻译后的词语组成语句,无法准确地识别出待翻译语句中的惯用词语,例如无法将待翻译语句中的专业术语准确翻译成目标语言中相应的专业术语,导致将所述待翻译语句翻译成所述目标语言中相应的已翻译语句之后,所述已翻译语句的可读性较差,翻译质量不高。



技术实现要素:

本发明实施例的目的是提供一种语句的翻译方法、装置和存储介质,能有效地将包括习惯用语的待翻译语句翻译成目标语言的语句,提高翻译准确性和翻译结果的易读性。

为实现上述目的,本发明实施例提供了一种语句的翻译方法,包括:

提取待翻译语句中的每个词语对应的词向量,以作为输入词向量;

基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系;

根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。

作为上述方案的改进,所述词向量映射通过如下步骤预先构建:

根据获取到的语料,计算所述语料中每一词语对应的词向量;

计算每两个不同词向量之间的词间相似性、词间互信息和左右熵;

针对任意两个不同词向量,计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值,以所述加权计算值作为所述两个词向量之间的相似度;

针对任一词向量,选取与该词向量之间的相似度达到预设要求的词向量,作为该词向量的对应的输出词向量。

作为上述方案的改进,所述计算每两个不同词向量之间的词间相似性、词间互信息和左右熵,在针对任意两个不同的词向量a和词向量b时,还包括:

词向量a和词向量b的词间相似性cos(a,b)满足关系:

词向量a和词向量b的词间互信息pmi(a,b)满足关系:

词向量a和词向量b的左右熵包括左熵和右熵,其中所述左熵el(aorb)满足关系:

其中,a为词向量a或词向量b的左边相邻的可能的词向量的集合;

所述右熵er(aorb)满足关系:

其中,b为词向量a或词向量b的右边相邻的可能的词向量的集合。

作为上述方案的改进,所述针对任意两个不同词向量,计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值,以所述加权计算值作为所述两个词向量之间的相似度,在针对所述任意两个不同的词向量a和词向量b时,还包括:

词向量a和词向量b的相似度sim满足关系:

sim=α1cos(a,b)+α2pmi(a,b)+α3el(aorb)+α4er(aorb)

其中,α1、α2、α3和α4均为常数。

作为上述方案的改进,所述α1、α2、α3和α4均为大于或等于0、且小于或等于1的常数。

作为上述方案的改进,所述针对任一词向量,选取与该词向量之间的相似度达到预设要求的词向量,作为该词向量的对应的输出词向量,包括:

针对任一词向量,选取与该词向量之间的相似度最高的前五个词向量,作为该词向量对应的输出词向量。

作为上述方案的改进,所述根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句,包括:

根据所述输出词向量的集合中的输出词向量,获取所述目标语言中的相应的词语作为备选词语;

选取多个所述备选词语进行排列,得到备选短语;

将所述备选短语的词向量与待翻译语句中相应词语组合的词向量进行词间相似性分析,并以相似性最高的备选短语作为所述相应词语组合的已翻译短语;

将得到的所述已翻译短语进行组合,以得到所述待翻译语句对应的已翻译语句。

本发明实施例还提供了一种语句的翻译装置,包括:

向量提取模块,提取待翻译语句中的每个词语对应的词向量,以作为输入词向量;

映射模块,用于基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系;

造句模块,用于根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。

本发明实施例还提供了一种语句的翻译装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的语句的翻译方法。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的语句的翻译方法。

与现有技术相比,本发明公开的一种语句的翻译方法、装置和存储介质,通过根据不同词语的词向量之间的词间相似性、词间互信息和左右熵,构建词向量映射,并提取待翻译语句中每个词语的词向量作为输入词向量,基于所述词向量映射获取所述输入词向量对应的输出词向量,以获取目标语言中的相应的词语,从而组成对应的已翻译语句。解决了现有技术无法准确识别并翻译待翻译语句中的习惯用语的技术问题,能有效地将包括习惯用语的待翻译语句翻译成目标语言的语句,从而提高翻译准确性和翻译结果的易读性。

附图说明

图1是本发明实施例中一种语句的翻译方法的流程示意图。

图2是与如图1所示的翻译方法配合的预操作的流程示意图。

图3是如图1所示的翻译方法的步骤s130的流程示意图。

图4是本发明实施例中一种语句的翻译装置的结构示意图。

图5是本发明实施例中另一种语句的翻译装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,是本发明实施例提供的一种语句的翻译方法的流程示意图。所述语句的翻译方法包括步骤s110至步骤s130。

s110、提取待翻译语句中的每个词语对应的词向量,以作为输入词向量。

其中,可以是对所述待翻译语句进行分词处理,以将所述待翻译语句中的词语分离出来,并对每个词语进行向量化,从而获得所述每个词语对应的词向量。具体地,可以是采用哈希算法将所述每个词语转化成特定维度的词向量,例如128维的词向量。可以理解的,也可以是通过其他能够进行特征提取的算法得到所述每个词语的词向量,所述每个词语的词向量也不仅限于128维,也可以是其他维数,均不影响本发明可取得的有益效果。

优选地,还可以对所述待翻译语句进行预处理,如过滤其中的特殊符号、分词和标点分析等,以提高得到的词向量的有效性。

s120、基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系。

由于所述预先构建的词向量映射中,记录有每个所述输入词向量映射到所述目标语言中的词向量,即记录有每个所述输入词向量在所述目标语言中对应的词向量,并且以获取到的每个所述输入词向量在目标语言中对应的词向量作为输出词向量,以得到所述输出词向量的集合。具体地,所述输出词向量的集合的形式,可以是由所述输出词向量所构成的矩阵形式,也可以是直接记录每个所述输出词向量的值的数据包的形式,均不影响本发明可取得的有益效果。

由于所述映射关系根据不同词向量之间的词间相似性、词间互信息和左右熵进行构建,因此匹配到所述目标语言中的词向量所对应的词语,与所述输入词向量的对应词语不但具有相近词义,并且具有更为相似的使用习惯,从而提高对习惯用语的翻译准确性,如汉语成语等,尤其是专业术语的翻译,例如准确获取汉语术语“智慧城市”在英语中相应的术语“smartcities”等。

其中,所述不同词向量之间的词间相似性、词间互信息和左右熵,分别为两个不同词向量之间的词间相似度与词间互信息,以及所述两个不同词向量在一个文档中共现的左右熵。具体地,可以是根据预设的关系函数并根据所述两个不同词向量之间的词间相似度、词间互信息和左右熵,计算相应的函数值,从而根据所述函数值确定所述两个不同词向量之间的映射关系是否成立。

优选地,参见图2,所述词向量映射可以是通过步骤s121至步骤s124所示的流程预先构建。

s121、根据获取到的语料,计算所述语料中每一词语对应的词向量。

其中,所述获取到的语料,可以是预先获取的语料,也可以是即时获取的语料。例如,可以是即时或预先从网络上获取语料,例如通过爬虫技术等信息获取技术获取语料,可以理解地,也可以是通过人工手动录入等方式获取语料,均不影响本发明可取得的有益效果。更优选地,可以是从新闻网站等具有双语版本或多语言版本的网站上获取语料,以提高不同语言的语料之间的关联程度。

优选地,还可以对所述获取到的语料进行预处理,如过滤其中的特殊符号、分词和标点分析等,以提高得到的词向量的有效性。

s122、计算每两个不同词向量之间的词间相似性、词间互信息和左右熵。

具体地,以任意两个不同的词向量a和词向量b为例,则词向量a和词向量b的词间相似性cos(a,b)满足关系:

词向量a和词向量b的词间互信息pmi(a,b)满足关系:

词向量a和词向量b的左右熵包括左熵和右熵,其中所述左熵el(aorb)满足关系:

其中,a为词向量a或词向量b的左边相邻的可能的词向量的集合;(aorb)表示词向量a和词向量b中至少一个出现;(wa&eb)表示文档中存在词向量a与左侧的词向量w构成的短语,同时还存在词向量b与左侧的词向量w构成的短语。例如,假设词向量a对应的词语a为“喜欢”,词向量b对应的词语b为“爱”,并设词向量w对应的词语w为“他”,则(wa&wb)可以表示在一个文档中同时存在短语“他喜欢”和短语“他爱”。

所述右熵er(aorb)满足关系:

其中,b为词向量a或词向量b的右边相邻的可能的词向量的集合;(aorb)表示词向量a和词向量b中至少一个出现;(aw&bw)表示文档中存在词向量a与右侧的词向量w构成的短语,同时还存在词向量b与右侧词向量w构成的短语。例如,假设词向量a对应的词语a为“喜欢”,词向量b对应的词语b为“爱”,并设词向量w对应的词语w为“他”,则(aw&bw)可以表示在一个文档中同时存在短语“喜欢他”和短语“爱他”。

s123、针对任意两个不同词向量,计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值,以所述加权计算值作为所述两个词向量之间的相似度。

在得到所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的基础上,进一步计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值。

继续以词向量a和词向量b为例,在步骤s122中得到cos(a,b)、pmi(a,b)、el(aorb)和er(aorb),进一步计算词向量a和词向量b之间的相似度sim:

sim=α1cos(a,b)+α2pmi(a,b)+α3el(aorb)+α4er(aorb)

其中,α1、α2、α3和α4均为常数。更优选地,α1、α2、α3和α4均为大于或等于0、且小于或等于1的常数。例如,可以取α1=0.5、α2=0.3、α3=0.2和α4=0.1,在实际情况中,α1、α2、α3和α4的取值可以根据具体需要进行设定,或是根据实验测试进行调整,均不影响本发明可取得的有益效果。

可以理解地,其他情况下,也可以是根据所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵计算得到矩阵或是得到新的向量,以反映所述任意两个不同词向量之间的相似度,均不影响本发明可取得的有益效果。

s124、针对任一词向量,选取与该词向量之间的相似度达到预设要求的词向量,作为该词向量的对应的输出词向量。

其中,所述预设要求可以是相似度超过预先设定的数值,或是相似度低于预先设定的数值等。优选地,所述预设要求还可以是基于相似度排名进行设置,例如步骤s124可以优化为:

针对任一词向量,选取与该词向量之间的相似度最高的前五个词向量,作为该词向量对应的输出词向量。

可以理解地,在其他情况下,选取的相似度最高的词向量的个数可以根据实际需要进行调整,均不影响本发明可取得的有益效果。

s130、根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。

其中,从步骤s120得到的所述输出词向量的集合中获取输出词向量,以根据获取到的输出词向量得到所述目标语言中相应的词语,再将所述目标语言中相应的词语进行排列以组成所述翻译语句对应的已翻译语句。

优选地,参见图3,步骤s130可以包括步骤s131至步骤s134。

s131、根据所述输出词向量的集合中的输出词向量,获取所述目标语言中的相应的词语作为备选词语。

每个所述输入词向量对应的输出词向量可能为一个或多个。例如在步骤s124的优选方案的基础上,每个所述输入词向量对应的输出词向量为五个,相应的可以得到五个所述备选词语,即可以基于每个所述输入词向量得到五个所述备选词语;而在其他情况下,例如每个所述输入词向量对应的输出词向量为一个的情况下,可以基于每个所述输入词向量得到一个所述备选词语。

s132、选取多个所述备选词语进行排列,得到备选短语。

s133、将所述备选短语的词向量与待翻译语句中相应词语组合的词向量进行词间相似性分析,并以相似性最高的备选短语作为所述相应词语组合的已翻译短语。

优选地,可以是通过word2vec进行所述词间相似性分析,可以理解地,也可以是采用其他的词间相似性分析方法以实现所述词间相似性分析,均不影响本发明可取得的有益效果。

s134、将得到的所述已翻译短语进行组合,以得到所述待翻译语句对应的已翻译语句。

其中,所述已翻译短语的组合可以是根据所述相应词语组合的位置进行排列;也可以是将所述已翻译短语进行组合,并对组合后的已翻译短语进行词间相似性分析,以相似性最高的组合方式作为更高级的短语,直到获得与所述待翻译语句对应的已翻译语句,均不影响本发明可取得的有益效果。

本发明实施例提供的一种语句的翻译方法,通过根据不同词语的词向量之间的词间相似性、词间互信息和左右熵,构建词向量映射,并提取待翻译语句中每个词语的词向量作为输入词向量,基于所述词向量映射获取所述输入词向量对应的输出词向量,以获取目标语言中的相应的词语,从而组成对应的已翻译语句。解决了现有技术无法准确识别并翻译待翻译语句中的习惯用语的技术问题,能有效地将包括习惯用语的待翻译语句翻译成目标语言的语句,从而提高翻译准确性和翻译结果的易读性。

本发明实施例还提供的一种语句的翻译装置,参见图4,翻译装置20包括:

向量提取模块21,提取待翻译语句中的每个词语对应的词向量,以作为输入词向量。映射模块22,用于基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系。造句模块23,用于根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。

所述翻译装置20的工作过程如上述语句的翻译方法,在此不作赘述。

本发明实施例提供的一种语句的翻译装置,通过根据不同词语的词向量之间的词间相似性、词间互信息和左右熵,构建词向量映射,并提取待翻译语句中每个词语的词向量作为输入词向量,基于所述词向量映射获取所述输入词向量对应的输出词向量,以获取目标语言中的相应的词语,从而组成对应的已翻译语句。解决了现有技术无法准确识别并翻译待翻译语句中的习惯用语的技术问题,能有效地将包括习惯用语的待翻译语句翻译成目标语言的语句,从而提高翻译准确性和翻译结果的易读性。

本发明实施例还提供了另一种语句的翻译装置,如图5所示,语句的翻译装置30包括:处理器31、存储器32以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如语句的翻译程序。所述处理器31执行所述计算机程序时实现上述各个计算方法实施例中的步骤,例如图1所示的步骤s120。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如上述实施例中所述的语句的翻译装置。

示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器32中,并由所述处理器31执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述语句的翻译装置30中的执行过程。例如,所述计算机程序可以被分割成向量提取模块、映射模块和造句模块,各模块具体功能如下:所述向量提取模块,提取待翻译语句中的每个词语对应的词向量,以作为输入词向量;所述映射模块,用于基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系;所述造句模块,用于根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。

所述语句的翻译装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语句的翻译装置30可包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,所述示意图仅仅是语句的翻译装置的示例,并不构成对语句的翻译装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述语句的翻译装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器31是所述语句的翻译装置30的控制中心,利用各种接口和线路连接整个语句的翻译装置30的各个部分。

所述存储器32可用于存储所述计算机程序和/或模块,所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块,以及调用存储在存储器32内的数据,实现所述语句的翻译装置30的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,所述语句的翻译装置30集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。

本发明实施例提供的另一种语句的翻译装置,通过根据不同词语的词向量之间的词间相似性、词间互信息和左右熵,构建词向量映射,并提取待翻译语句中每个词语的词向量作为输入词向量,基于所述词向量映射获取所述输入词向量对应的输出词向量,以获取目标语言中的相应的词语,从而组成对应的已翻译语句。解决了现有技术无法准确识别并翻译待翻译语句中的习惯用语的技术问题,能有效地将包括习惯用语的待翻译语句翻译成目标语言的语句,从而提高翻译准确性和翻译结果的易读性。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1