文本处理方法、装置、设备及可读存储介质与流程

文档序号:18526102发布日期:2019-08-24 10:15阅读:193来源:国知局
文本处理方法、装置、设备及可读存储介质与流程

本申请涉及自然语言处理技术领域,更具体地说,涉及一种文本处理方法、装置、设备及可读存储介质。



背景技术:

目前,涉及不同语言的文本处理方法均是由机器将一种语言的文本翻译为另一种语言的文本。这种文本处理方式单一,无法为用户提供优化服务。

因此,有必要提供一种新的文本处理方法,以弥补现有技术中的文本处理方法的不足。



技术实现要素:

有鉴于此,本申请提供了一种文本处理方法、装置、设备及可读存储介质,用于弥补现有技术中的文本处理方法的不足。

为了实现上述目的,现提出如下技术方案:

一种文本处理方法,包括:

获得源语言文本;

获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;

根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

优选的,所述根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段,包括:

根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段;所述第一输入数据为所述源语言文本,或者,由所述源语言文本翻译得到的目标语言文本;所述第二输入数据为所述目标语言内容片段;

当所述第一输入数据为所述目标语言文本时,将所述源语言文本中与所述数据片段对应的源语言文本片段确定为与所述目标语言内容片段对应的源语言文本片段。

优选的,所述根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段,包括:

利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段;所述定位模型被配置为接收所述第一输入数据和所述第二输入数据,并基于两种输入数据的内容相关的特征信息进行处理,以生成所述第一输入数据中与所述第二输入数据对应的数据片段的内部状态表示。

优选的,所述利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段,包括:

确定所述第一输入数据中的各个数据片段的隐层向量表达,以及所述第二输入数据中各个词的隐层向量表达;

对于所述第一输入数据中的每一个数据片段,利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达;

基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应。

优选的,所述利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达,包括:

利用该数据片段的隐层向量表达以及所述第二输入数据中的各个词的隐层向量表达,计算该数据片段与所述第二输入数据中的各个词的相似度系数;

以该数据片段与所述第二输入数据中每个词的相似度系数为权重,对所述第二输入数据中的各个词的隐层向量表达进行加权处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达。

优选的,在基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应之前,还包括:

获得该数据片段与所述第二输入数据的属性匹配度信息;

所述基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应包括:

利用该数据片段的向量表达,该数据片段对应的所述第二输入数据的隐层向量表达,以及所述属性匹配度信息,确定该数据片段是否与所述第二输入数据对应。

优选的,所述根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段,包括:

对于所述第一输入数据中的每一个数据片段,获得该数据片段与所述第二输入数据的属性匹配度信息;

根据所述属性匹配度信息确定所述第一输入数据中与所述第二输入数据对应的数据片段。

优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:

获取该数据片段与所述第二输入数据的最长公共子序列;该数据片段属于所述目标语言文本;

计算所述最长公共子序列的长度与该数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;

将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。

优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:

获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;

获取所述目标语言数据片段与所述第二输入数据的最长公共子序列;

计算所述最长公共子序列的长度与所述目标语言数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;

将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。

优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:

对所述第二输入数据进行关键词提取,得到至少一个关键词;该数据片段属于所述目标语言文本;

对于每一个关键词:将该关键词与该数据片段进行匹配,得到该关键词与该数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;

将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。

优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:

获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;

对所述第二输入数据进行关键词提取,得到至少一个关键词;

对于每一个关键词:将该关键词与所述目标语言数据片段进行匹配,得到该关键词与所述目标语言数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;

将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。

优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:

利用该数据片段中各个词对应的词向量计算该数据片段对应的第一片段向量;

利用所述第二输入数据中各个词对应的词向量计算所述第二输入数据对应的第二片段向量;

计算所述第一片段向量和所述第二片段向量的距离,得到该数据片段与所述第二输入数据的向量相似度。

优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:

获取所述第一输入数据的长度,该数据片段在所述第一输入数据中的第一相对位置,所述第二输入数据在已获得的所有目标语言内容片段中的第二相对位置;

根据所述第一输入数据的长度,所述第一相对位置,以及所述第二相对位置,计算该数据片段与所述第二输入数据的相对位置匹配程度。

优选的,所述文本处理方法还包括:

显示所述源语言文本,其中,所述源语言文本片段的显示效果不同于所述源语言文本中的其它文本片段的显示效果。

优选的,所述文本处理方法还包括:

显示对所述源语言文本进行翻译得到的目标语言文本;

对所述目标语言文本中与所述源语言文本片段对应的目标语言文本片段进行处理,以突出显示所述目标语言文本片段。

优选的,所述文本处理方法还包括:

对所述源语言文本中与所述源语言文本片段相邻的下一源语言文本片段,以及所述目标语言文本中与所述下一源语言文本片段对应的下一目标语言文本片段进行处理,以突出显示所述下一源语言文本片段和所述下一目标语言文本片段;

其中,所述下一源语言文本片段的显示效果不同于所述源语言文本片段的显示效果;所述下一目标语言文本片段的显示效果不同于所述目标语言文本片段的显示效果。

优选的,所述文本处理方法还包括:

对所述源语言文本中与所述源语言文本片段相邻的下一源语言文本片段进行处理,以突出显示所述下一源语言文本片段;

其中,所述下一源语言文本片段的显示效果不同于所述源语言文本片段的显示效果。

优选的,所述获得源语言文本,包括:

接收第一输入语音;

对所述第一输入语音进行识别,得到所述源语言文本。

优选的,所述获得目标语言内容片段,包括:

接收第二输入语音;对所述第二输入语音进行识别,得到所述目标语言内容片段;

或者,

接收第二输入语音,将所述第二输入语音作为所述目标语言内容片段。

一种文本处理装置,包括:

第一获得模块,用于获得源语言文本;

第二获得模块,用于获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;

确定模块,用于根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

优选的,所述确定模块包括:

第一确定模块,用于根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段;所述第一输入数据为所述源语言文本,或者,由所述源语言文本翻译得到的目标语言文本;所述第二输入数据为所述目标语言内容片段;

第二确定模块,用于当所述第一输入数据为所述目标语言文本时,将所述源语言文本中与所述数据片段对应的源语言文本片段确定为与所述目标语言内容片段对应的源语言文本片段。

优选的,第一确定模块包括:

处理模块,用于利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段;所述定位模型被配置为接收所述第一输入数据和所述第二输入数据,并基于两种输入数据的内容相关的特征信息进行处理,以生成所述第一输入数据中与所述第二输入数据对应的数据片段的内部状态表示。

优选的,处理模块包括:

第一隐层向量表达确定模块,用于确定所述第一输入数据中的各个数据片段的隐层向量表达,以及所述第二输入数据中各个词的隐层向量表达;

第二隐层向量表达确定模块,对于所述第一输入数据中的每一个数据片段,利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达;

第一对应关系确定模块,用于基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应。

优选的,第二隐层向量表达确定模块包括:

系数确定模块,用于利用该数据片段的隐层向量表达以及所述第二输入数据中的各个词的隐层向量表达,计算该数据片段与所述第二输入数据中的各个词的相似度系数;

加权模块,用于以该数据片段与所述第二输入数据中每个词的相似度系数为权重,对所述第二输入数据中的各个词的隐层向量表达进行加权处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达。

优选的,第一确定模块还包括:

匹配度获得模块,用于获得该数据片段与所述第二输入数据的属性匹配度信息;

所述第一对应关系确定模块具体用于:利用该数据片段的隐层向量表达,该数据片段对应的所述第二输入数据的隐层向量表达,以及所述属性匹配度信息,确定该数据片段是否与所述第二输入数据对应。

优选的,第一确定模块包括:

匹配度获得模块,用于对于所述第一输入数据中的每一个数据片段,获得该数据片段与所述第二输入数据的属性匹配度信息;

第二对应关系确定模块,用于根据所述属性匹配度信息确定所述第一输入数据中与所述第二输入数据对应的数据片段。

优选的,匹配度获得模块包括:

第一属性获得模块,用于获取所述第一输入数据的长度,该数据片段在所述第一输入数据中的第一相对位置,所述第二输入数据在已获得的所有目标语言内容片段中的第二相对位置;

第一计算模块,用于根据所述第一输入数据的长度,所述第一相对位置,以及所述第二相对位置,计算该数据片段与所述第二输入数据的相对位置匹配程度。

优选的,匹配度获得模块包括:

第二属性获得模块,用于获取该数据片段与所述第二输入数据的最长公共子序列;该数据片段属于所述目标语言文本;

第二计算模块,用于计算所述最长公共子序列的长度与该数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;

第一匹配度确定模块,用于将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。

优选的,匹配度获得模块包括:

目标语言数据片段获得模块,用于获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;

第三属性获得模块,用于获取所述目标语言数据片段与所述第二输入数据的最长公共子序列;计算所述最长公共子序列的长度与所述目标语言数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;

第二匹配度确定模块,用于将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。

优选的,匹配度获得模块包括:

关键词提取模块,用于对所述第二输入数据进行关键词提取,得到至少一个关键词;该数据片段属于所述目标语言文本;

第四属性获得模块,用于对于每一个关键词:将该关键词与该数据片段进行匹配,得到该关键词与该数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;

第三匹配度确定模块,用于将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。

优选的,匹配度获得模块包括:

目标语言数据片段获得模块,用于获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;

关键词提取模块,用于对所述第二输入数据进行关键词提取,得到至少一个关键词;

第五属性获得模块,用于对于每一个关键词:将该关键词与所述目标语言数据片段进行匹配,得到该关键词与所述目标语言数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;

第四匹配度确定模块,用于将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。

优选的,匹配度获得模块包括:

第一向量计算模块,用于利用该数据片段中各个词对应的词向量计算该数据片段对应的第一片段向量;

第二向量计算模块,用于利用所述第二输入数据中各个词对应的词向量计算所述第二输入数据对应的第二片段向量;

向量相似度确定模块,用于计算所述第一片段向量和所述第二片段向量的距离,得到该数据片段与所述第二输入数据的向量相似度。

优选的,文本处理装置还包括:

显示模块,用于显示所述源语言文本,其中,所述源语言文本片段的显示效果不同于所述源语言文本中的其它文本片段的显示效果。

优选的,显示模块还可以用于:对所述源语言文本中与所述源语言文本片段相邻的下一源语言文本片段进行处理,以突出显示所述下一源语言文本片段;其中,所述下一源语言文本片段的显示效果不同于所述源语言文本片段的显示效果。

优选的,文本处理装置还可以包括翻译模块,用于对所述源语言文本进行翻译得到目标语言文本;

优选的,显示模块还可以用于:显示所述目标语言文本,其中,所述目标语言文本中与所述源语言文本片段对应的目标语言文本片段的显示效果不同于所述目标语言文本中其它目标语言文本片段的显示效果。

优选的,显示模块还可以用于:对所述源语言文本中与所述源语言文本片段相邻的下一源语言文本片段,以及所述目标语言文本中与所述下一源语言文本片段对应的下一目标语言文本片段进行处理,以突出显示所述下一源语言文本片段和所述下一目标语言文本片段;其中,所述下一源语言文本片段的显示效果不同于所述源语言文本片段的显示效果;所述下一目标语言文本片段的显示效果不同于所述目标语言文本片段的显示效果。

优选的,第一获得模块可以包括:

第一接收模块,用于接收第一输入语音;

第一语音识别模块,用于对所述第一输入语音进行识别,得到所述源语言文本。

优选的,第二获得模块可以包括:

第二接收模块,用于接收第二输入语音;

第二语音识别模块,用于对所述第二输入语音进行识别,得到所述目标语言内容片段。

优选的,第二获得模块可以包括:

第三接收模块,用于接收第二输入语音,将所述第二输入语音作为所述目标语言内容片段。

一种文本处理设备,包括存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述的文本处理方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的文本处理方法的各个步骤。

通过以上方案可知,本申请提供的文本处理方法、装置、设备及可读存储介质,获得源语言文本和目标语言内容片段后,根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段。基于目标语言内容片段与源语言文本片段的对应关系,可以为用户提供优化服务,如在翻译场景下,机器对发言人的语音进行识别得到源语言文本,翻译人员对发言人的语音进行翻译,得到目标语言内容片段,通过本案可以在翻译过程实时给出源语言文本中与目标语音内容片段对应的源语言文本片段,基于此可以对翻译人员给出翻译进度提示,避免遗漏的情况,为用户提供更优化服务。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本处理方法的一种实现流程图;

图2为本申请实施例提供的在源语言文本中确定与目标语言内容片段对应的源语言文本片段的一种实现流程图;

图3为本申请实施例提供的定位模型的一种示例图;

图4为本申请实施例提供的文本处理装置的一种结构示意图;

图5为本申请实施例提供的文本处理设备的硬件结构框图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供的文本处理方法、装置、设备及可读存储介质的基本思想是:在源语言文本中找到与目标语言内容片段相对应的源语言文本片段,从而可以基于该目标语言内容片段与源语言文本片段的对应关系,为用户提供优化服务。基于本申请的方案,可以在涉及不同语言的应用场景(例如,语言翻译场景)中为用户提供优化服务。当然,本申请方案的应用场景并不仅限于语言翻译场景,还可以包括其它应用场景,例如,语言学习场景,这里不再一一举例说明。

以语言翻译场景为例,该语言翻译场景可以包括交替传译(简称交传)场景,在该场景中,主讲人(演讲者或发言人)首先演讲一段语音,一般为几分钟,所采用的语言记为源语言;当主讲人讲完该语音后,由交传译员快速根据自己所做笔记及记忆中的信息,快速将主讲人的讲述内容翻译成目标语言,该过程时间紧,难度大,译员一般很少有过多时间思考,在高强度的任务下面很有可能会遗漏部分关键信息,造成翻译内容失真。该语言翻译场景可以包括文章翻译场景,由于文章的内容一般较多,且翻译时间较长,在翻译过程中难免会存在遗漏翻译情况。基于本申请公开的方案,可以在译员对源语言内容进行翻译的过程中,在源语言文本中查找与译员实时翻译得到的目标语言内容片段匹配的源内容,根据查找结果,可以在源语言文本中实时确定译员翻译的内容片段,实时为译员提供进度提示。当然,除了上述列举的两种语言翻译场景,本申请方案也可以适用于其它需要人工参与翻译的语言翻译场景,如书籍翻译场景等,这里不再一一举例说明。

以语言学习场景为例,该场景中,用户想要对照一本书的原文和译文进行语言学习,若用户想要知道译文中的某一文本片段(为便于叙述,记为第一文本片段,一个文本片段可以为一个句子,也可以为两个句子或更多个句子)是由原文中的哪一文本片段翻译得到,可以在译文中指定该第一文本片段,然后由机器采集该第一文本片段,并在原文中找到与该第一文本片段对应的原文本片段,之后,在原文中将该原文本片段突出显示给用户即可。该场景中,书籍的原文和译文可以均为电子版的文本。若不是电子版的文本,可以通过扫描非电子版的文本得到电子版的文本。

下文以语言翻译场景为例,对本申请的方案进行说明。

请参阅图1,图1为本申请实施例提供的文本处理方法的一种实现流程图,可以包括:

步骤s11:获得源语言文本。

本申请实施例中,语言翻译的场景不同,源语言文本的获得方式可能不同。例如,在交传场景中,源语言文本可以是对源语言语音进行语音识别得到的。在文章翻译场景或书籍翻译场景,该源语言文本可以是直接从内存中读取的电子文本,或者,可以是扫描纸质文本得到的电子文本。在文章翻译场景中,译员所参看的源语言文本可以是电子文本,也可以是纸质文本。

步骤s12:获得目标语言内容片段;其中,目标语言与源语言为不同的语言。

该目标语言内容片段可以是译员的语音片段,或者,可以是对译员的语音进行识别得到的文本片段,或者,可以是译员通过键盘(可以是虚拟键盘,也可以是物理键盘)输入的文本片段。

不同的语言翻译场景下,获得目标语言内容片段的方式可以相同,也可以不同。例如,在交传场景中,获得目标语言内容片段可以是获得译员的目标语言语音片段,或者,获得对译员的目标语言语音片段进行语音识别得到的目标语言文本片段。在文章翻译场景或书籍翻译场景下,获得目标语言内容片段可以是获得译员的目标语言语音片段,或者,获得对译员的目标语言语音片段进行语音识别得到的目标语言文本片段,或者,获得译员通过键盘输入的目标语言文本片段。

目标语言内容片段可以是一个句子,也可是两个或多个句子。在一优选的实施例中,目标语言内容片段可以是一个句子。

步骤s13:根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段。

具体的,可以在每获得一目标语言内容片段后,在源语言文本中确定与该目标语言内容片段对应的源语言文本片段,即确定目标语言内容片段是由源语言文本中的哪个片段翻译得到的。

本申请提供的文本处理方法,获得源语言文本,以及目标语言内容片段,根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段。基于此,可以为用户提供优化服务,如,辅助译员进行人工翻译,比如,可以在译员对源语言内容进行翻译的过程中,在源语言文本中查找与译员实时翻译得到的目标语言内容片段匹配的源内容,根据查找结果,可以在源语言文本中实时确定译员翻译的内容片段,实时为译员提供进度提示,通过提示,使得译员可以及时、直观地了解其翻译进度,即当前翻译到哪里了,从而有效减少遗漏翻译的情况的发生,提高翻译效率和翻译质量。

在交传场景中,译员所记笔记以及记忆中的信息都以碎片化形式保存,基于本申请提供的文本处理方法,可以在很大程度上辅助译员将信息进行归纳提取,提高翻译效果,使译员的翻译结果更加“信达雅”。

在一可选的实施例中,上述根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段的一种实现流程图如图2所示,可以包括:

步骤s21:将源语言文本翻译为目标语言文本。

可以由机器翻译模块将源语言文本翻译为目标语言文本。具体可以采用通用的机器翻译技术对源语言文本进行翻译,这里不再赘述。

步骤s22:将目标语言文本作为第一输入数据,目标语言内容片段作为第二输入数据,根据第一输入数据与第二输入数据的内容相关的特征信息,在第一输入数据中确定与第二输入数据对应的数据片段。

本实施例中,通过相同语言的文本匹配,在目标语言文本中确定与目标语言内容片段匹配的数据片段。

步骤s23:将源语言文本中与上述数据片段对应的源语言文本片段确定为与目标语言内容片段对应的源语言文本片段。

本实施例中,通过数据片段与源语言文本片段的对应关系,以及数据片段与目标语言内容片段的对应关系,建立了源语言文本片段与目标语言内容片段的对应关系。

在一可选的实施例中,上述根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段的另一种实现方式可以为:

将源语言文本作为第一输入数据,目标语言内容片段作为第二输入数据,根据第一输入数据与第二输入数据的内容相关的特征信息,在第一输入数据中确定与第二输入数据对应的数据片段,将该数据片段作为源语言文本片段。

与图2所示实施例不同,本实施例中,无需对源语言文本进行翻译,直接在源语言文本中查找与目标语言内容片段对应的源语言文本片段。

在一可选的实施例中,上述根据第一输入数据与第二输入数据的内容相关的特征信息,在第一输入数据中确定与第二输入数据对应的数据片段的一种实现方式可以为:

利用预置的定位模型处理第一输入数据和第二输入数据,得到第一输入数据中与第二输入数据对应的数据片段。

其中,上述定位模型被配置为接收第一输入数据和第二输入数据,并基于两种输入数据的内容相关的特征信息进行处理,以生成第一输入数据中与第二输入数据对应的数据片段的内部状态表示。

本申请实施例中,可以预先以目标语言文本(由机器翻译模块对源语言文本进行翻译得到,简记为机器翻译文本)集,以及对应每一个机器翻译文本的源语言文本译员给出的目标语言文本(为便于叙述,将译员给出的目标语言文本简称为译员文本)作为训练样本,将标注的机器翻译文本与对应的译员文本中的句子的对应关系作为样本标签,训练定位模型。

或者,

可以预先以源语言文本集,对应每一个源语言文本的译员文本作为训练样本,将标注的源语言文本与对应的译员文本中的句子的对应关系作为样本标签,训练定位模型。

基于此,可以预先收集若干源语言数据,以及对应每一个源语言数据译员给出的目标语言数据,其中,若源语言数据和/或目标语言数据为语音,则需要对源语言数据和/或目标语言数据进行预处理,即对源语言数据和/或目标语言数据进行语音识别,以将语音转换为文本,并对识别得到的文本进行分词和断句处理。具体的语音识别可以采用通用的识别技术,此处不再赘述。若源语言数据和目标语言数据均为文本,则无需进行预处理。另外,若以机器翻译文本作为训练样本,还需要对源语言文本进行机器翻译,得到机器翻译文本。

为便于叙述,将机器翻译文本集中的机器翻译文本或源语言文本集中的源语言文本记为t1,t1中的各句子记为t1i(i=1,2,...n),n为机器翻译文本或源语言文本中句子的总数,将译员文本集中与t1对应的译员文本记为t2,t2中的各句子记为t2j(j=1,2,...m),m为译员文本中句子的总数。在对句子的对应关系进行标注时,需要标注t1中的各句子与t2中的各句子的对应关系,例如,对于句子t2j,如果该句子和t1i匹配,则可以标注为1,如果不匹配,则标注为0。本示例中,将一个句子作为一个数据片段。

如图3所示,为本申请实施例提供的定位模型的一种示例图。该定位模型包含三个主要模块,其中,模块1为译员文本表征模块;模块2为源语言文本表征模块,或者,模块2为机器翻译文本表征模块;模块3为决策模块。需要说明的是,图3为示例性说明,并不构成对本申请实施例的限定,下面以模块2为机器翻译文本表征模块为例,说明本申请的定位模型的具体训练过程:

模块2的输入为机器翻译文本t1中各个词对应的词向量,即模块2的输入为与机器翻译文本对应的词向量序列。模块2的输出为机器翻译文本t1中各句子t1i对应的隐层向量表达hi。具体的,模块2对输入的词向量序列进行网络变换后,依据断句结果进行下采样,得到对应的句子向量。其中,进行网络变换所使用的网络结构可以采用卷积神经网络(convolutionalneuralnetwork,cnn)、长短期记忆网络(longshort-termmemory,lstm)、双向lstm(bi-directionallstm,blstm)等常用结构;下采样的方式可以采用均值池化(average-pooling)操作,或者,可以采用最大池化(max-pooling)操作,对于双向lstm结构,也可以采用正向句尾向量以及反向句首向量拼接的方式得到每句话的向量特征,得到每句话的向量特征后,送入到下一层网络模型中进行变换,最终得到隐层向量表达hi。

模块1的输入为与机器翻译文本t1对应的译员文本t2中,句子t2j的各个词对应的词向量,即模块1的输入为句子对应的词向量序列。模块1的中间隐层可以采用双向lstm模型,具体本案不做限定,该中间隐层输出各个词的隐层向量表达sjk,模块1利用模块2输出的各句子的隐层向量表达对模块1的中间隐层输出的词的隐层向量表达进行加权,得到与模块2输出的各个句子的隐层向量表达hi对应的加权后的向量,该加权后的向量即为句子t2j的隐层向量表达sijk。具体用公式可以表示为:

其中,αijk为隐层向量表达hi对应的句子和隐层向量表达sjk对应的词的相似度系数,具体可以采用现有技术计算,如计算hi与sjk的内积,或者,通过注意力机制计算等,本申请不做具体限定。

定位模型最终的目的是要在机器翻译文本t1中判断每句话是否是与译员文本t2中的句子t2j对应的句子,因此需要对机器翻译文本t1中的每个句子进行决策,以判断该句子是否是与译员文本t2中的句子t2j对应。前面可以看出,模块1的输入是译员文本t2的句子t2j中的各个词,因此,需要将模块1的输出和模块2的输出进行同步,基于此,本申请采用的策略如下:对于模块2输出的每一个隐层向量表达hi,利用隐层向量表达hi与模块1中每个词对应的隐层向量表达进行相似度度量,得到相似度系数αijk,将模块1中句子t2j中的各个词的隐层向量表达sjk进行加权,得到与隐层向量表达hi对应的句子t2j的隐层向量表达sijk。

将模块2的输出向量hi和与hi对应的模块1输出的句子t2j的隐层向量表达sijk拼接,得到拼接后的向量,将该拼接后的向量作为模块3的输入,模块3的输出为译员文本t2中的句子t2j与机器翻译文本t1中各个句子的匹配得分,如果匹配得分大于阈值,则确定匹配。根据人工标注结果,对定位模型参数进行更新,并进行下一轮训练,直至训练结束,得到精确的定位模型。

可选的,为了进一步提高定位精度,还可以结合一些辅助特征对模型进行训练。具体的,在得到辅助特征后,将辅助特征拼接到前述拼接后的向量之后,得到新的拼接向量,将该新的拼接后的向量作为模块3的输入。也就是说,在结合辅助特征对模型进行训练时,模块3的输入不再是由向量hi和与hi对应的模块1输出的句子t2j的隐层向量表达sijk拼接后的向量,而是由向量hi、与hi对应的模块1输出的句子t2j的隐层向量表达sijk,以及辅助特征拼接后的向量。

其中,辅助特征可以为机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的属性匹配度信息,具体包括如下几项中的至少一项:

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的句子匹配程度。该句子匹配程度体现的是句子包含内容的相似度。可以利用句子t1i与句子t2j的最长公共子序列以及句子t1i的长度和句子t2j的长度等属性计算句子t1i与句子t2j的句子匹配程度。

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的关键信息匹配程度。该关键信息匹配程度体现的是句子包含的关键词的相似度。可以利用从句子t2j中提取的各关键词的长度,以及各关键词与句子t1i的最长公共子序列的长度等属性计算句子t1i与句子t2j的关键信息匹配程度。

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的向量相似度。该向量相似度体现的是句子向量的相似度。可以利用句子t1i的句子向量与句子t2j的句子向量等属性计算句子t1i与句子t2j的向量相似度。

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的相对位置匹配程度。该相对位置匹配程度体现的是句子的相对位置的相似度。可以利用句子t1i在机器翻译文本t1中的第一相对位置,句子t2j在译员已翻译的所有句子中的第二相对位置,以及机器翻译文本t1的长度等属性计算句子t1i与句子t2j的相对位置匹配程度。

其中,

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的句子匹配程度可以通过如下方式计算:

计算句子t1i与句子t2j的最长公共子序列。例如,假设句子t1i与句子t2j具有“深入学习”和“深度神经网络”这两个公共子序列,则句子t1i与句子t2j的最长公共子序列为“深度神经网络”。

计算该最长公共子序列的长度与句子t1i的长度的第一比值,以及该最长公共子序列的长度与句子t2j的长度的第二比值;

将第一比值与第二比值中的较大者确定为机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的句子匹配程度。

机器翻译文本t1中的句子t1i与译员文本t2中的句子t2j的关键信息匹配程度可以通过如下方式计算:

对译员文本t2中的句子t2j进行关键词提取,得到至少一个关键词。

对于每一个关键词,将该关键词与机器翻译文本t1中的句子t1i进行匹配,得到该关键词与机器翻译文本t1中的句子t1i的最长公共子序列;计算该最长公共子序列的长度与该关键词的长度的第三比值。

将所有关键词对应的第三比值加权平均,得到机器翻译文本t1中的句子t1i与译员文本t2中的句子t2j的关键信息匹配程度。

若只有一个关键词,则该最长公共子序列的长度与该关键词的长度的第三比值即为机器翻译文本t1中的句子t1i与译员文本t2中的句子t2j的关键信息匹配程度。

例如,假设在译员文本t2中的句子t2j中只提取了一个关键词“深入学习”,该关键词与句子t1i的最长公共子序列为“深入学”,则句子t1i与句子t2j的关键信息匹配程度关键信息匹配程度为:3/4=0.75。

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的向量相似度可以通过如下方式计算:

利用机器翻译文本t1中句子t1i中各个词对应的词向量计算句子t1i对应的第一句子向量。可选的,可以将句子t1i中各个词对应的词向量进行平均化处理或者加权平均化处理得到第一句子向量。例如,可以利用tf-idf算法计算句子t1i中各词对应的权重,然后利用该权重将句子t1i中各个词对应的词向量进行加权平均化处理。

利用译员文本t2中的句子t2j中各个词对应的词向量计算句子t2j对应的第二句子向量。可以将句子t2j中各个词对应的词向量进行平均化处理或者加权平均化处理得到第二句子向量。例如,可以利用tf-idf算法计算句子t2j中各词对应的权重,然后利用该权重将句子t2j中各个词对应的词向量进行加权平均化处理。

计算第一句子向量和第二句子向量的距离,得到机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的向量相似度。可选的,可以计算第一句子向量和第二句子向量的余弦距离或欧式距离等。

机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的相对位置匹配程度可以通过如下方式进行计算:

获取机器翻译文本t1的长度,机器翻译文本t1中的句子t1i在机器翻译文本t1中的第一相对位置i,译员文本t2中的句子t2j在已获得的所有目标语言内容片段中的第二相对位置j;本示例中,句子在文本中的相对位置用该句子的编号表征。

根据机器翻译文本t1的长度,第一相对位置i,第二相对位置j,以及预设的相对位置匹配系数β,计算机器翻译文本t1中句子t1i与译员文本t2中的句子t2j的相对位置匹配程度pij。具体可以通过如下公式计算:

pij=1-abs(β*i-j)/len(t1)

其中,abs()表示取绝对值运算,len(t1)表示机器翻译文本t1的长度。上述计算公式表明:当句子t2j与句子t1i对应时,则应当公式中第二项为零,译员文本t2中的句子t2j与机器翻译文本t1中句子t1i的相对位置越接近,相对位置匹配程度pij越大,极值为1,即此时位置最匹配。

相对位置匹配系数β可以通过如下方式计算得到:

对于训练数据集(包括机器翻译文本集,以及对应的译员文本集)中的机器翻译文本和对应的译员文本中,对于被标注为对应的句子,计算对应的句子中机器翻译文本中的句子的编号与译员文本中的句子的编号的比值,将所有比值的平均值确定为相对位置匹配系数β。

例如,假设机器翻译文本中有10个句子,编号分别为1,2,3,……,10,对应的译员文本中一共有6句话,编号分别为1,2,3,……,6,如果机器翻译文本中第10个句子与译员文本中第6个句子对应,机器翻译文本中第9个句子与译员文本中第5个句子匹配,机器翻译文本中第8个句子与译员文本中第4个句子匹配,机器翻译文本中第6个句子与译员文本中第3个句子匹配,机器翻译文本中第5个句子与译员文本中第2个句子匹配,机器翻译文本中第4个句子与译员文本中第1个句子匹配,则相对位置匹配系数β为:(6/10+5/9+4/8+3/6+2/5+1/4)/6=101/216,也就是说,从统计意义上来讲,对于译员的每个句子,其句子编号的216/101处对应的翻译文本中的句子应该更与译员文本中的句子匹配,因此该处匹配度特征应该较大,即翻译文本中第i*216/101个句子是与译员翻译的第i个句子对应的句子。

上述定位模型的训练过程是以模块2为机器翻译文本表征模块为例进行说明的。模块2为源语言文本表征模块时,定位模型的训练过程相似,此时模块2的输入为与译员文本t2对应的源语言文本t1中各个词对应的词向量,即模块2的输入为与源语言文本对应的词向量序列。模块2的输出为源语言文本t1中各句子t1i对应的隐层向量表达hi。模块2的具体实现方式可以参看前述模块2为机器翻译文本表征模块时的具体实现过程,这里不再详述。

另外,模块2为源语言文本表征模块时,若结合辅助特征对定位模型进行训练,则源语言文本t1中句子t1i与译员文本t2中的句子t2j的向量相似度的计算方式,以及源语言文本t1中句子t1i与译员文本t2中的句子t2j的相对位置匹配程度的计算方式与前述实施例相同,这里不再赘述。而计算源语言文本t1中句子t1i与译员文本t2中的句子t2j的句子匹配程度,以及计算源语言文本t1中句子t1i与译员文本t2中的句子t2j的关键信息匹配程度时的计算方式与前述的计算方式略有不同,其中,

源语言文本t1中句子t1i与译员文本t2中的句子t2j的句子匹配程度可以通过如下方式计算:

获得对源语言文本t1中的句子t1i进行翻译得到的目标语言句子t1'i;

获取目标语言句子t1'i与译员文本t2中的句子t2j的最长公共子序列;

计算最长公共子序列的长度与目标语言句子t1'i的长度的第一比值,以及最长公共子序列的长度与句子t2j的长度的第二比值;

将第一比值与第二比值中的较大者确定为源语言文本t1中的句子t1i与译员文本t2中的句子t2j的句子匹配程度。

源语言文本t1中的句子t1i与译员文本t2中的句子t2j的关键信息匹配程度可以通过如下方式计算:

获得对源语言文本t1中的句子t1i进行翻译得到的目标语言句子t1'i;

对译员文本t2中的句子t2j进行关键词提取,得到至少一个关键词;

对于每一个关键词,将该关键词与目标语言句子t1'i进行匹配,得到该关键词与目标语言句子t1'i的最长公共子序列;计算最长公共子序列的长度与该关键词的长度的第三比值;

将所有关键词对应的第三比值加权平均,得到源语言文本t1中的句子t1i与译员文本t2中的句子t2j的关键信息匹配程度。

若只有一个关键词,则该最长公共子序列的长度与该关键词的长度的第三比值即为源语言文本t1中的句子t1i与译员文本t2中的句子t2j的关键信息匹配程度。

在得到定位模型后,就可以利用定位模型对译员的实时翻译内容在源语言文本中进行定位了。

在一可选的实施例中,上述利用预置的定位模型处理第一输入数据和第二输入数据,得到第一输入数据中与第二输入数据对应的数据片段的过程,可以包括:

确定第一输入数据中的各个数据片段的隐层向量表达,以及第二输入数据中各个词的隐层向量表达。

对于第一输入数据中的每一个数据片段:

利用该数据片段的隐层向量表达对第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的第二输入数据的隐层向量表达。

本申请实施例中,对应第一输入数据中的不同的数据片段,均计算一次第二输入数据的隐层向量表达。由于每次计算第二输入数据的隐层向量表达时,使用的是第一输入数据中的不同的数据片段,因此,对应第一输入数据中的不同的数据片段,第二输入数据的隐层向量表达可能是不同的。

基于该数据片段的隐层向量表达,以及该数据片段对应的第二输入数据的隐层向量表达,确定该数据片段是否与第二输入数据对应。

在一可选的实施例中,上述利用该数据片段的隐层向量表达对第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的上述第二输入数据的隐层向量表达的过程,可以包括:

利用该数据片段的隐层向量表达以及第二输入数据中的各个词的隐层向量表达,计算该数据片段与第二输入数据中的各个词的相似度系数。

具体的,可以计算该数据片段的隐层向量表达和第二输入数据中的各个词的隐层向量表达的内积,将该内积作为该数据片段与第二输入数据中的各个词的相似度系数;或者,可以通过注意力机制计算该数据片段与第二输入数据中的各个词的相似度系数。

以该数据片段与第二输入数据中每个词的相似度系数为权重,对第二输入数据中的各个词的隐层向量表达进行加权处理,得到与该数据片段对应的上述第二输入数据的隐层向量表达;也就是说,第二输入数据中的每个词的隐层向量表达的权重为:该词与该数据片段的相似度系数。

在一可选的实施例中,还可以结合辅助特征确定该数据片段是否与第二输入数据对应。该辅助特征可以是该数据片段与第二输入数据的属性匹配度信息。

具体的,在基于该数据片段的隐层向量表达,以及该数据片段对应的第二输入数据的隐层向量表达,确定该数据片段是否与第二输入数据对应之前,还可以包括:

获取该数据片段与第二输入数据的属性匹配度信息;该属性匹配度信息可以包括如下至少一项:该数据片段与第二输入数据的片段匹配程度,该数据片段与第二输入数据的关键信息匹配程度,该数据片段与第二输入数据的向量相似度,该数据片段与第二输入数据的相对位置匹配程度。

相应的,基于该数据片段的隐层向量表达,以及该数据片段对应的第二输入数据的隐层向量表达,确定该数据片段是否与第二输入数据对应,可以包括:

利用该数据片段的向量表达,该数据片段对应的第二输入数据的隐层向量表达,以及该数据片段与第二输入数据的属性匹配度信息,确定该数据片段是否与第二输入数据对应。

结合辅助特征,而可以更加精确的确定该数据片段是否与第二输入数据对应,而由于辅助特征的数据量很少,对数据的处理效率不会有影响,或影响很小,几乎可以忽略不记。

在一可选的实施例中,若该数据片段属于目标语言文本,则获取该数据片段与第二输入数据的片段匹配程度的过程,可以包括:利用该数据片段与第二输入数据的最长公共子序列的长度,以及该数据片段的长度和第二输入数据的长度等属性计算该数据片段与第二输入数据的片段匹配程度。具体可以包括:

获取该数据片段与第二输入数据的最长公共子序列。

计算最长公共子序列的长度与该数据片段的长度的第一比值,以及最长公共子序列的长度与第二输入数据的长度的第二比值。

将第一比值与第二比值中的较大者确定为该数据片段与第二输入数据的片段匹配程度。

本实施例中,片段匹配程度为一个数值,即一维向量。

在一可选的实施例中,若该数据片段属于源语言文本,则获取该数据片段与第二输入数据的片段匹配程度的过程,可以包括:

获得对该数据片段进行翻译得到的目标语言数据片段。该目标语言数据片段可以是从预先对第一输入数据进行翻译得到的目标语言文本中提取得到的,或者是在需要计算片段匹配程度这一辅助特征时,才对第一输入数据进行翻译得到的目标语言文本,并从该目标语言文本中提取得到目标语言数据片段。

利用目标语言数据片段与第二输入数据的最长公共子序列的长度,以及该目标语言数据片段的长度和第二输入数据的长度等属性计算该数据片段与第二输入数据的片段匹配程度,具体可以包括:

获取目标语言数据片段与第二输入数据的最长公共子序列。

计算最长公共子序列的长度与目标语言数据片段的长度的第一比值,以及最长公共子序列的长度与第二输入数据的长度的第二比值。

将第一比值与所述第二比值中的较大者确定为该数据片段与第二输入数据的片段匹配程度。

与前一实施例不同,本实施例中,需要先获得对该数据片段进行翻译得到的目标语言数据片段,然后利用该目标语言数据片段计算该数据片段与第二输入数据的片段匹配程度。本实施例中,片段匹配程度为一个数值,即一维向量。

在一可选的实施例中,若该数据片段属于目标语言文本,则获取该数据片段与第二输入数据的关键信息匹配程度的过程,可以包括:利用从第二输入数据中提取的各关键词的长度,以及各关键词与该数据片段的最长公共子序列的长度等属性计算该数据片段与第二输入数据的关键信息匹配程度。具体可以包括:

对第二输入数据进行关键词提取,得到至少一个关键词。

对于每一个关键词:将该关键词与该数据片段进行匹配,得到该关键词与该数据片段的最长公共子序列;计算最长公共子序列的长度与该关键词的长度的第三比值;

将所有关键词对应的第三比值加权平均,得到该数据片段与第二输入数据的关键信息匹配程度。

本实施例中,关键信息匹配程度为一个数值,即一维向量。

在一可选的实施例中,若该数据片段属于源语言文本,则获取该数据片段与第二输入数据的关键信息匹配程度的过程,可以包括:

获得对该数据片段进行翻译得到的目标语言数据片段。该目标语言数据片段可以是从预先对第一输入数据进行翻译得到的目标语言文本中提取得到的,或者是在需要计算片段匹配程度这一辅助特征时,才对第一输入数据进行翻译得到的目标语言文本,并从该目标语言文本中提取得到目标语言数据片段。

利用从第二输入数据中提取的各关键词的长度,以及各关键词与目标语言数据片段的最长公共子序列的长度等属性计算该数据片段与第二输入数据的关键信息匹配程度。具体可以包括:

对第二输入数据进行关键词提取,得到至少一个关键词。

对于每一个关键词:将该关键词与目标语言数据片段进行匹配,得到该关键词与目标语言数据片段的最长公共子序列;计算最长公共子序列的长度与该关键词的长度的第三比值。

将所有关键词对应的第三比值加权平均,得到该数据片段与第二输入数据的关键信息匹配程度。

与前一实施例不同,本实施例中,需要先获得对该数据片段进行翻译得到的目标语言数据片段,然后利用该目标语言数据片段计算该数据片段与第二输入数据的关键信息匹配程度。本实施例中,关键信息匹配程度为一个数值,即一维向量。

在一可选的实施例中,上述获取该数据片段与第二输入数据的向量相似度的过程,可以包括:利用该数据片段的第一片段向量和第二输入数据的第二片段向量计算该数据片段与第二输入数据的向量相似度。具体可以包括:

利用该数据片段中各个词对应的词向量计算该数据片段对应的第一片段向量;可选的,可以将该数据片段中各个词对应的词向量进行平均化处理或者加权平均化处理得到第一片段向量。

利用第二输入数据中各个词对应的词向量计算第二输入数据对应的第二片段向量;可选的,可以将第二输入数据中各个词对应的词向量进行平均化处理或者加权平均化处理得到第二片段向量。

计算第一片段向量和第二片段向量的距离,得到该数据片段与第二输入数据的向量相似度。可选的,可以计算第一片段向量和第二片段向量的余弦距离或欧式距离等。

在一可选的实施例中,上述获取该数据片段与第二输入数据的相对位置匹配程度的过程,可以包括:

获取第一输入数据的长度,该数据片段在第一输入数据中的第一相对位置,第二输入数据在已获得的所有目标语言内容片段中的第二相对位置。

根据第一输入数据的长度,第一相对位置,以及第二相对位置,计算该数据片段与第二输入数据的相对位置匹配程度。

具体可以通过如下公式计算相对位置匹配程度pij:

pij=1-abs(β*i-j)/len(i1)

其中,abs()表示取绝对值运算,len(i1)表示第一输入数据i1的长度。β为预设的相对位置匹配系数,i表示该数据片段在第一输入数据中的第一相对位置,j表示第二输入数据在已获得的所有目标语言内容片段中的第二相对位置。

前述实施例中,是基于定位模型在源语言文本中确定与目标语言内容片段对应的源语言文本片段。但本申请公开的方案中,并不局限于基于定位模型在源语言文本中确定与目标语言内容片段对应的源语言文本片段。例如,本申请公开的根据第一输入数据和第二输入数据的内容相关的特征信息,确定第一输入数据中与第二输入数据对应的数据片段的另一种实现方式可以为:

对于第一输入数据中的每一个数据片段,获得该数据片段与第二输入数据的属性匹配度信息。

其中,属性匹配度信息可以包括如下至少一项:该数据片段与第二输入数据的片段匹配程度,该数据片段与第二输入数据的关键信息匹配程度,该数据片段与第二输入数据的向量相似度,该数据片段与第二输入数据的相对位置匹配程度。

获得该数据片段与第二输入数据的属性匹配度信息的过程可以参看前述实施例,这里不再赘述。

根据属性匹配度信息确定第一输入数据中与第二输入数据对应的数据片段。

具体的,若属性匹配度信息表征该数据片段与第二输入数据的匹配程度越大,说明该数据片段与第二输入数据对应的可能性越大。例如,基于前述计算属性匹配度信息的方法:

该数据片段与第二输入数据的片段匹配程度的取值越大,说明该数据片段与第二输入数据对应的可能性越大。

该数据片段与第二输入数据的关键信息匹配程度的取值越大,说明该数据片段与第二输入数据对应的可能性越大。

该数据片段与第二输入数据的向量相似度为余弦距离时,取值越大,说明该数据片段与第二输入数据对应的可能性越大。该数据片段与第二输入数据的向量相似度为欧式距离时,取值越小,说明该数据片段与第二输入数据对应的可能性越大。

该数据片段与第二输入数据的相对位置匹配程度的取值越大,说明该数据片段与第二输入数据对应的可能性越大。

当第一输入数据为目标语言文本时,若该数据片段与第二输入数据对应,将源语言文本中与该数据片段对应的源语言文本片段确定为与目标语言内容片段对应的源语言文本片段。

本申请实施例中,可以仅利用第一输入数据中各个数据片段与第二输入数据的属性匹配度信息,确定第二输入数据与第一输入数据中各个数据片段是否匹配。

在一可选的实施例中,在前述任一实施例的基础上,本申请提供的文本处理方法还可以包括:

显示源语言文本,其中,源语言文本片段的显示效果不同于源语言文本中的其它文本片段的显示效果。

本申请实施例中,可以在获得该源语言文本后马上显示该源语言文本,或者在需要的时候再显示该源语言文本,例如,在源语言文本中确定与首次获取的目标语言内容片段对应的源语言文本片段后,显示源语言文本。

本申请实施例中,对源语言文本片段进行突出显示的方式不做限定,例如,可以高亮显示,或者,加粗显示,或者,改变显示颜色等。

除了突出显示源语言文本片段外,还可以对源语言文本中与源语言文本片段相邻的下一源语言文本片段进行处理,以突出显示下一源语言文本片段。

其中,下一源语言文本片段的显示效果不同于源语言文本片段的显示效果。

例如,假设源语言文本中包括三个文本片段:abc,对应的目标语言文本片段依次为abc,即,机器翻译模块将a翻译为a,将b翻译为b,将c翻译为c,当前获得的目标语言内容片段(即译员当前给出的翻译内容)为a',此时源语言文本abc中与当前获得的目标语言内容片段a'对应的源语言文本片段为a,本申请中,除了将a突出显示外,还可以将b突出显示,a和b的显示效果不同,以便于译员区分a和b。

通过突出显示相邻的两个源语言文本片段,可以使得译员更加直观的了解其翻译进度,即当前翻译到的内容,以及下一步应该翻译的内容。进一步降低遗漏翻译的情况发生的概率,进一步提高翻译效率和翻译质量。

在一可选的实施例中,除了显示源语言文本外,还可以显示对所述源语言文本进行翻译得到的目标语言文本。该目标语言文本可以是机器翻译模块对源语言文本进行翻译得到的。相应的,

除了对源语言文本片段进行突出显示外,还可以对目标语言文本中与源语言文本片段对应的目标语言文本片段进行处理,以突出显示目标语言文本片段。

例如,假设与译员当前翻译的内容对应的源语言文本片段为a,机器翻译模块对a进行翻译得到a,则本申请中,在将a突出显示的同时,还将a突出显示。

通过显示目标语言文本,并对目标语言文本片段进行突出显示,可以使得译员更直观的了解其翻译进度,在一些情况下,译员还可以将目标语言文本作为参考内容进行翻译,更加节省思考时间,进一步提高翻译效率和翻译质量。

进一步的,本申请提供的文本处理方法还可以包括:

对源语言文本中与源语言文本片段相邻的下一源语言文本片段,以及目标语言文本中与下一源语言文本片段对应的下一目标语言文本片段进行处理,以突出显示下一源语言文本片段和下一目标语言文本片段。

其中,下一源语言文本片段的显示效果不同于源语言文本片段的显示效果;下一目标语言文本片段的显示效果不同于目标语言文本片段的显示效果。

例如,假设源语言文本中包括三个文本片段:abc,对应的目标语言文本片段依次为abc,即,机器翻译模块将a翻译为a,将b翻译为b,将c翻译为c,当前获得的目标语言内容片段(即译员当前给出的翻译内容)为a',此时源语言文本abc中与当前获得的目标语言内容片段a'对应的源语言文本片段为a,则本申请中,除了将a和a突出显示外,还将b和b突出显示。其中,a和b的显示效果不同,a和b的显示效果不同。

通过突出显示下一源语言文本片段以及下一源语言文本片段对应的下一目标语言文本片段,可以使得译员更加直观的了解其翻译进度,在一些情况下,可以更直观、明确的了解其将要翻译的源语言文本,以及翻译参考内容(即将要翻译的源语言文本对应的机器翻译结果),从而进一步提高翻译效率和翻译质量。

在一可选的实施例中,上述获得源语言文本的过程可以包括:

接收第一输入语音。在交传场景中,第一输入语音为主讲人(演讲者,或发言人)的语音,该语音为源语言语音。

对第一输入语音进行识别,得到源语言文本。

在一可选的实施例中,上述获得目标语言内容片段可以包括:

接收第二输入语音;对第二输入语音进行识别,得到目标语言内容片段;

或者,

接收第二输入语音,将第二输入语音作为目标语言内容片段。

在交传场景中,第二输入语音为译员的语音,该语音为目标语言语音。

与方法实施例相对应,本申请还提供一种文本处理装置,请参阅图4,图4为本申请实施例提供的文本处理装置的一种结构示意图,可以包括:

第一获得模块41,用于获得源语言文本;

第二获得模块42,用于获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;

确定模块43,用于根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

本申请提供的文本处理装置,获得源语言文本,以及目标语言内容片段,根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段。基于此,可以为用户提供优化服务。

可选的,确定模块43包括:

第一确定模块,用于根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段;所述第一输入数据为所述源语言文本,或者,由所述源语言文本翻译得到的目标语言文本;所述第二输入数据为所述目标语言内容片段;

第二确定模块,用于当所述第一输入数据为所述目标语言文本时,将所述源语言文本中与所述数据片段对应的源语言文本片段确定为与所述目标语言内容片段对应的源语言文本片段。

优选的,第一确定模块包括:

处理模块,用于利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段;所述定位模型被配置为接收所述第一输入数据和所述第二输入数据,并基于两种输入数据的内容相关的特征信息进行处理,以生成所述第一输入数据中与所述第二输入数据对应的数据片段的内部状态表示。

可选的,处理模块包括:

第一隐层向量表达确定模块,用于确定所述第一输入数据中的各个数据片段的隐层向量表达,以及所述第二输入数据中各个词的隐层向量表达;

第二隐层向量表达确定模块,对于所述第一输入数据中的每一个数据片段,利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达;

第一对应关系确定模块,用于基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应。

可选的,第二隐层向量表达确定模块包括:

系数确定模块,用于利用该数据片段的隐层向量表达以及所述第二输入数据中的各个词的隐层向量表达,计算该数据片段与所述第二输入数据中的各个词的相似度系数;

加权模块,用于以该数据片段与所述第二输入数据中每个词的相似度系数为权重,对所述第二输入数据中的各个词的隐层向量表达进行加权处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达。

可选的,第一确定模块还包括:

匹配度获得模块,用于获得该数据片段与所述第二输入数据的属性匹配度信息;

所述第一对应关系确定模块具体用于:利用该数据片段的隐层向量表达,该数据片段对应的所述第二输入数据的隐层向量表达,以及所述属性匹配度信息,确定该数据片段是否与所述第二输入数据对应。

可选的,第一确定模块包括:

匹配度获得模块,用于对于所述第一输入数据中的每一个数据片段,获得该数据片段与所述第二输入数据的属性匹配度信息;

第二对应关系确定模块,用于根据所述属性匹配度信息确定所述第一输入数据中与所述第二输入数据对应的数据片段。

可选的,匹配度获得模块包括:

第一属性获得模块,用于获取所述第一输入数据的长度,该数据片段在所述第一输入数据中的第一相对位置,所述第二输入数据在已获得的所有目标语言内容片段中的第二相对位置;

第一计算模块,用于根据所述第一输入数据的长度,所述第一相对位置,以及所述第二相对位置,计算该数据片段与所述第二输入数据的相对位置匹配程度。

可选的,匹配度获得模块包括:

第二属性获得模块,用于获取该数据片段与所述第二输入数据的最长公共子序列;该数据片段属于所述目标语言文本;

第二计算模块,用于计算所述最长公共子序列的长度与该数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;

第一匹配度确定模块,用于将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。

可选的,匹配度获得模块包括:

目标语言数据片段获得模块,用于获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;

第三属性获得模块,用于获取所述目标语言数据片段与所述第二输入数据的最长公共子序列;计算所述最长公共子序列的长度与所述目标语言数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;

第二匹配度确定模块,用于将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。

可选的,匹配度获得模块包括:

关键词提取模块,用于对所述第二输入数据进行关键词提取,得到至少一个关键词;该数据片段属于所述目标语言文本;

第四属性获得模块,用于对于每一个关键词:将该关键词与该数据片段进行匹配,得到该关键词与该数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;

第三匹配度确定模块,用于将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。

可选的,匹配度获得模块包括:

目标语言数据片段获得模块,用于获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;

关键词提取模块,用于对所述第二输入数据进行关键词提取,得到至少一个关键词;

第五属性获得模块,用于对于每一个关键词:将该关键词与所述目标语言数据片段进行匹配,得到该关键词与所述目标语言数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;

第四匹配度确定模块,用于将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。

可选的,匹配度获得模块包括:

第一向量计算模块,用于利用该数据片段中各个词对应的词向量计算该数据片段对应的第一片段向量;

第二向量计算模块,用于利用所述第二输入数据中各个词对应的词向量计算所述第二输入数据对应的第二片段向量;

向量相似度确定模块,用于计算所述第一片段向量和所述第二片段向量的距离,得到该数据片段与所述第二输入数据的向量相似度。

进一步的,文本处理装置还可以包括:

显示模块,用于显示所述源语言文本,其中,所述源语言文本片段的显示效果不同于所述源语言文本中的其它文本片段的显示效果。

进一步的,显示模块还可以用于:对所述源语言文本中与所述源语言文本片段相邻的下一源语言文本片段进行处理,以突出显示所述下一源语言文本片段;其中,所述下一源语言文本片段的显示效果不同于所述源语言文本片段的显示效果。

可选的,本申请提供的文本处理装置还可以包括翻译模块,用于对所述源语言文本进行翻译得到目标语言文本;该翻译模块的功能也可以集成在第一获得模块41中。

进一步的,显示模块还可以用于:显示所述目标语言文本,其中,所述目标语言文本中与所述源语言文本片段对应的目标语言文本片段的显示效果不同于所述目标语言文本中其它目标语言文本片段的显示效果。

进一步的,显示模块还可以用于:对所述源语言文本中与所述源语言文本片段相邻的下一源语言文本片段,以及所述目标语言文本中与所述下一源语言文本片段对应的下一目标语言文本片段进行处理,以突出显示所述下一源语言文本片段和所述下一目标语言文本片段;其中,所述下一源语言文本片段的显示效果不同于所述源语言文本片段的显示效果;所述下一目标语言文本片段的显示效果不同于所述目标语言文本片段的显示效果。

可选的,第一获得模块41可以包括:

第一接收模块,用于接收第一输入语音;

第一语音识别模块,用于对所述第一输入语音进行识别,得到所述源语言文本。

可选的,第二获得模块42可以包括:

第二接收模块,用于接收第二输入语音;

第二语音识别模块,用于对所述第二输入语音进行识别,得到所述目标语言内容片段。

可选的,第二获得模块42可以包括:

第三接收模块,用于接收第二输入语音,将所述第二输入语音作为所述目标语言内容片段。

基于目前的语音识别和机器翻译技术,第一语音识别单元和翻译模块的信息处理速度与主讲人的演讲过程“几乎”同步,能够实时的对主讲人数据进行识别和翻译。在译员翻译阶段,第二语音识别单元、确定模块43和显示模块,能够实时的确定译员所说内容在源主讲人所说内容中的位置,将该位置处的内容突出显示。

本申请实施例提供的文本处理装置可应用于文本处理设备,如pc终端、平板电脑等。可选的,图5示出了文本处理设备的硬件结构框图,参照图5,文本处理设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获得源语言文本;

获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;

根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获得源语言文本;

获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;

根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1