即时通话语音的翻译方法、装置以及终端与流程

文档序号:20875966发布日期:2020-05-26 16:31阅读:174来源:国知局
即时通话语音的翻译方法、装置以及终端与流程

本申请涉及语音智能翻译技术领域,具体而言,本申请涉及一种即时通话语音的翻译方法、装置及电子设备。



背景技术:

随着科技的发展,手机已经成为人们日常通信交流的重要工具。随着国家同国家的贸易、交流的不断发展和进步,用户国际化的趋势必然导致不同国家用户在使用手机进行沟通时存在问题。

以中、英文母语用户为例,当使用中文的用户向使用英文的用户发送即时通话时,由于使用中文的用户可能听不懂英文,使用英文的用户可能听不懂中文,双方均需要将接收到的语音录制并输入至翻译软件后,进行翻译,才可以获知对方的意思,从而导致使用不同语种的用户进行即时通话的复杂度较高,用户体验较差。



技术实现要素:

本申请提供了一种即时通话语音的翻译方法、装置及终端,用于解决使用不同语种的用户进行即时通话的复杂度较高以及用户体验较差的问题。技术方案如下:

第一方面,本申请提供一种即时通话语音的翻译方法,该方法包括:

获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧;

确定各个语音帧分别对应的特征向量;

基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;

将语音识别结果翻译为与预设的目标语种匹配的翻译信息;

输出翻译信息。

具体地,基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,包括:

利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值;

对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。

在一个可能的实现方式中,利用基于神经网络的语音识别模型对特征向量进行识别之前,方法还包括:

获取即时通话语音信号中的一个语音片段;

确定语音片段对应的语种;

利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值,包括:

利用与确定的语种对应的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值。

具体地,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:

对语音识别结果进行处理,以确定语音识别结果对应的文本向量;

利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。

具体地,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:

对语音识别结果进行处理,以确定语音识别结果对应的文本向量;

利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息;

将文本信息合成与预设的目标语种匹配的语音信息。

具体地,利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息,包括:

基于文本向量,确定待翻译的即时通信语音信号中是否包含预设类型的文本信息;

若包含预设类型的文本信息,则基于特定的语言词典将预设类型的文本信息转换为源文本信息,并对源文本信息进行处理,得到源文本信息对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量,非源文本向量为文本向量中不包含预设类型的文本信息对应的文本向量;

利用基于注意力机制的翻译模型对合成后的文本向量进行处理,得到与预设的目标语种匹配的文本信息。

在一个可能的实现方式中,预设类型的文本信息包括以下至少一种:成语、俚语、歇后语、网络流行语、古诗词以及文言文。

在一个可能的实现方式中,将文本信息合成与预设的目标语种匹配的语音信息,之前还包括:

确定即时通话语音信号发出者对应的属性信息;

将文本信息合成与预设的目标语种匹配的语音信息,包括:

基于确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息。

具体地,确定即时通话语音信号发出者对应的属性信息,包括:

对获取到的待翻译的即时通话语音信号进行频谱分析,确定基于属性信息的特征量;

根据确定出的基于属性信息的特征量,确定即时通话语音信号发出者对应的属性信息。

在一个可能的实现方式中,即时通话语音信号发出者对应的属性信息包括:静态属性信息以及动态属性信息;

静态属性信息包括以下至少一项:即时通话语音信号发出者的年龄、性别;

动态属性信息包括以下至少一项:即时通话语音信号发出者当前的说话的语速、音调和/或即时通话语音信号发出者当前说话的情绪状态信息。

在一个可能的实现方式中,在对即时通话语音信号进行语音识别之前,该方法还包括:根据用户通过终端设备输入的启动指令,启动语音识别任务和语音翻译任务。

在一个可能的实现方式中,将语音识别结果翻译为与预设的目标语种匹配的翻译信息之前,该方法还包括:

若语音识别结果对应的语种与当前用户的惯用语种不同,则启动语音翻译任务。

在一个可能的实现方式中,该方法还包括:根据用户通过终端设备输入的语种配置指令,确定目标语种。

在一个可能的实现方式中,该方法还包括:根据终端设备当前所处地理位置确定当前所在国家,以确定目标语种。

在一个可能的实现方式中,该方法还包括:获取终端设备的系统语言,将系统语言确定为目标语种。

具体地,输出翻译信息,包括:

确定输出翻译信息的方式;

基于确定出的输出翻译信息的方式,输出翻译信息。

具体地,确定输出翻译信息的方式,包括以下至少一项:

基于待输出翻译信息的设备当前是否连接耳机,确定输出翻译信息的方式;

基于待输出翻译信息的设备当前所设置的情景模式,确定输出翻译信息的方式;

基于待输出翻译信息的设备当前的剩余电量,确定输出翻译信息的方式;

基于待输出翻译信息的设备当前所处的环境信息,确定输出翻译信息的方式;

输出翻译信息的方式包括:语音输出方式以及文本输出方式。

第二方面,本申请提供了一种即时通话语音的翻译装置,装置包括:

第一获取模块,用于获取待翻译的即时通话语音信号;

切分模块,用于将第一获取模块获取到的待翻译的即时语音信号切分为预设个数的语音帧;

第一确定模块,用于确定切分模块切换后的各个语音帧分别对应的特征向量;

语音识别模块,用于基于神经网络的语音识别模型对第一确定模块确定出的各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;

翻译模块,用于将语音识别模块语音识别出的语音识别结果翻译为与预设的目标语种匹配的翻译信息;

输出模块,用于输出翻译信息。

具体地,语音识别模块,具体用于利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值;

语音识别模块,具体还用于对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。

进一步地,装置还包括:第二获取模块、第二确定模块;

第二获取模块,用于获取即时通话语音信号中的一个语音片段;

第二确定模块,用于确定语音片段对应的语种;

语音识别模块,具体还用于利用与确定的语种对应的语音识别模型对特征向量进行识别,以确定特征向量对应的状态值。

具体地,翻译模块,具体用于对语音识别结果进行处理,以确定语音识别结果对应的文本向量;

翻译模块,具体还用于利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。

具体地,翻译模块,具体用于对语音识别结果进行处理,以确定语音识别结果对应的文本向量;

翻译模块,具体还用于利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息;

翻译模块,具体还用于将文本信息合成与预设的目标语种匹配的语音信息。

具体地,翻译模块,具体还用于基于文本向量,确定待翻译的即时通信语音信号中是否包含预设类型的文本信息;

翻译模块,具体还用于当包含预设类型的文本信息时,基于特定的语言词典将预设类型的文本信息转换为源文本信息,并对源文本信息进行处理,得到源文本信息对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量,非源文本向量为文本向量中不包含预设类型的文本信息对应的文本向量;

翻译模块,具体还用于利用基于注意力机制的翻译模型对合成后的文本向量进行处理,得到与预设的目标语种匹配的文本信息。

在一个可能的实现方式中,预设类型的文本信息包括以下至少一种:成语、俚语、歇后语、网络流行语、古诗词以及文言文。

进一步地,该装置还包括:第三确定模块;

第三确定模块,用于确定即时通话语音信号发出者对应的属性信息;

翻译模块,具体还用于基于第三确定模块确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息。

具体地,第三确定模块,具体用于对获取到的待翻译的即时通话语音信号进行频谱分析,确定基于属性信息的特征量;

第三确定模块,具体还用于根据确定出的基于属性信息的特征量,确定即时通话语音信号发出者对应的属性信息。

在一个可能的实现方式中,即时通话语音信号发出者对应的属性信息包括:静态属性信息以及动态属性信息;

静态属性信息包括以下至少一项:即时通话语音信号发出者的年龄、性别;

动态属性信息包括以下至少一项:即时通话语音信号发出者当前的说话的语速、音调和/或即时通话语音信号发出者当前说话的情绪状态信息。

进一步地,该装置还包括:启动模块;

启动语音识别以及语音翻译模块,用于根据用户通过终端设备输入的启动指令,启动语音识别任务和语音翻译任务。

进一步地,该装置还包括:启动语音翻译模块;

启动语音翻译模块,用于当语音识别结果对应的语种与当前用户的惯用语种不同时,启动语音翻译任务。

进一步地,该装置还包括:第四确定模块;

第四确定模块,用于根据用户通过终端设备输入的语种配置指令,确定目标语种。

进一步地,该装置还包括:第五确定模块;

第五确定模块,用于根据终端设备当前所处地理位置确定当前所在国家,确定目标语种。

进一步地,该装置还包括:第三获取模块、第六确定模块;

第三获取模块,用于获取终端设备的系统语言;

第六确定模块,用于将第三获取模块获取到的系统语言确定为目标语种。

进一步地,该输出模块包括:确定单元以及输出单元;

确定单元,用于确定输出翻译信息的方式;

输出单元,用于基于确定出的输出翻译信息的方式,输出翻译信息。

具体地,确定单元,具体用于基于待输出翻译信息的设备当前是否连接耳机,确定输出翻译信息的方式;和/或,

基于待输出翻译信息的设备当前所设置的情景模式,确定输出翻译信息的方式;和/或,

基于待输出翻译信息的设备当前的剩余电量,确定输出翻译信息的方式;和/或,

基于待输出翻译信息的设备当前所处的环境信息,确定输出翻译信息的方式;

其中,输出翻译信息的方式包括:语音输出方式以及文本输出方式。

第三方面,本申请还提供了一种即时通话语音的翻译终端,终端包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面中所示的即时通话语音的翻译方法。

第四方面,本申请还提供了一种计算机可读存储介质,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面中所示的即时通话语音的翻译方法。

本申请实施例提供的技术方案带来的有益效果是:使得用户在即时通话过程中,能够实时获取到与即时通话语音信号同步的翻译信息,帮助用户实时获知通话对方表达的意思,并作出回复,而不需要先进行录制对方的通话语音并输入至翻译软件中才可以获知通话对方表达的意思,从而可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种即时通话语音的翻译方法的流程示意图;

图2为本申请实施例提供的一种即时通话语音的翻译装置的结构示意图;

图3为本申请实施例提供的另一种即时通话语音的翻译装置的结构示意图;

图4为本申请实施例中的一种电子设备的结构示意图;

图5为本申请实施例中的翻译模型的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

实施例一

本申请实施例提供了一种即时通话语音的翻译方法,如图1所示,该方法包括以下步骤:

步骤s101、获取待翻译的即时通话语音信号。

步骤s102、将待翻译的即时语音信号切分为预设个数的语音帧。

其中,可使用移动窗函数将即时通话语音信号切分为若干语音帧,两段相邻的语音帧之间一般有交叠。

步骤s103、确定各个语音帧分别对应的特征向量。

其中,针对每一段语音帧,计算其梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfccs)以及该梅尔频率倒谱系数的一阶差分和二阶差分,并将该梅尔频率倒谱系数与其一阶差分和二阶差分连接起来,作为该语音帧的特征向量。在本实施例中,划分语音帧、计算梅尔频率倒谱系数及其一阶差分和二阶差分的方法可以参考现有技术,本实施例不再进行说明。此外,本实施例不限于此,还可以采用其它的方法来获得每一个语音帧的特征向量。

步骤s104、基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果。

步骤s105、将语音识别结果翻译为与预设的目标语种匹配的翻译信息。

步骤s106、输出翻译信息。

其中,即时通话语音信号为:在通话过程中,由对方终端发送过来的语音信号。终端设备为通话过程中接收对方终端发送的语音的终端。对方终端和终端设备均为具备双向即时通话功能的设备,如手机。

本申请实施例提供了一种即时通话语音的翻译方法,与现有技术相比,本申请实施例通过获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。即用户在即时通话过程中,能够实时获取到与即时通话语音信号同步的翻译信息,帮助用户实时获知通话对方表达的意思,并作出回复,而不需要先进行录制对方的通话语音并输入至翻译软件中才可以获知通话对方表达的意思,从而可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

实施例二

本申请实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,

步骤s104包括步骤s1041(图中未示出)以及步骤s1042(图中未示出),其中,

步骤s1041、利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值。

其中,语音识别模型采用dnn(deepneuralnetworks,深度神经网络)训练得到。dnn使用了至少3层以上的隐层,通过增加隐层数量来进行错层的非线性变换,大大的提升了模型的建模能力。通过积累大量的语料库来训练声学模型以获取这些参数。dnn的训练方法有多种,本实施例采用交叉熵训练方法,交叉熵是对目标后验概率与实际后验概率间差异度的衡量。

步骤s1042、对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。

其中,单词的发音由音素构成,通常一个音素又被划分为3个状态,状态是比音素更细致的语音单位。若干个语音帧对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。因此,对状态值进行解码,包括:将状态值相同的多个语音帧组合成一个音素,将多个相邻的音素组合成单词,最终得到即时通话语音信号对应文本信息。

实施例三

本申请实施例的另一种可能的实现方式,在实施例二所示的基础上还包括实施例三所示的操作,其中,

步骤s1041之前还包括步骤sa(图中未示出)以及步骤sb(图中未示出),其中,

步骤sa、获取即时通话语音信号中的一个语音片段。

步骤sb、确定语音片段对应的语种。

步骤s1041可以包括步骤s1041a(图中未示出),其中,

步骤s1041a、利用与确定的语种对应的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值。

其中,预先训练好不同语种对应的语音识别模型,以识别不同语种对应的语音。每个语种的语音识别模型的训练方法相同,只是训练使用的语料库不同。

本实施例的方法,通过从即时通话语音信息中抽取的一段语音片段识别所对应的语种,快速选取对应语种的语音识别模型,使得本实施例的方法能够识别更多的语种。

实施例四

本发明实施例的另一种可能的实现方式,在实施例一所示的基础上还包括实施例四所示的操作,其中,

步骤s105具体可以包括:步骤s1051(图中未示出)以及步骤s1052(图中未示出),其中,

步骤s1051、对语音识别结果进行处理,以确定语音识别结果对应的文本向量。

其中,语音识别结果为文本,对语音识别结果进行处理包括:首先,对语音识别结果进行分句,再对每个句子进行分词处理,得到各个句子对应的分词片段;然后,利用词向量工具(如word2vec)将句子的各个分词片段转化为词向量,以得到各个句子对应的文本向量。

步骤s1052、利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。

其中,需要预先构建基于注意力机制的翻译模型,该翻译模型包括编码器、解码器和注意力机制三部分。编码器是一个双向循环神经网络(bi-rnn),编码器的输入是每个词的词向量,编码器的输出是双向循环神经网络的隐层节点状态,表示为h=(h1,……,hq),q为双向循环神经网络的隐层节点状态的数量。解码器是一个循环神经网络,其在第j步生成的隐层节点状态为hj,解码器的输出为翻译后的文本信息。注意力机制用来生成作为解码器输入的上下文向量,上下文向量ci是一个在隐层节点状态上的加权平均,即:

其中,i为翻译后得到的文本信息中的第i个词,j为输入的文本向量中的第j个词向量,αij为基于注意力机制得到的注意力分配概率分布数值,m为输入编码器的词向量的数量。如图5所示,解码器的输入值为文本向量x=(x1,x2,x3,x4),其中,x1、x2、x3、x4为词向量,解码器的输出为上下文向量c1、c2、c3,将解码器的输出作为编码器的输入,解码器的输出为翻译后的词y1、y2、y3,根据y1、y2、y3得到与预设的目标语种匹配的文本信息。

其中,计算注意力分配概率分布数值的方法包括:生成记翻译后的文本信息中的第i个词为yi,在解码器生成yi之前,可以获知解码器的隐层节点的输出值为hi,此时,用解码器的隐层节点状态hi去一一和输入编码器的每个分词片段对应的隐层节点状态hj进行对比,通过函数f(hj,hi)以获得目标翻译单词yi和输入的每个分词片段对应的对齐可能性,f函数可采取不同的方法,在此不做限定。然后,函数f的输出经过softmax进行归一化就得到了注意力分配概率分布数值αij,αij表示翻译原始文本中第j词时,注意力分配模型分配给翻译后的第i个词的注意力大小。

同样,利用不同语种的预料,预先训练好不同语种对应的翻译模型。使用翻译模型时,根据待翻译文本的语种以及目标语种,选择对应的翻译模型进行翻译。

本实施例的方法,采用基于注意力机制的翻译模型完成翻译,以原始文本上下文的词语对翻译文本的影响作为翻译模型输出结果的权重,综合考虑了原始文本上下文对翻译文本的影响,提高了翻译精度。

进一步地,在步骤s201、步骤s202基础上,步骤s103包括:在终端设备的通话界面上生成浮动窗口,通过该浮动窗口显示文本信息。

目前,市场上的终端设备的操作系统,例如andriod、ios、windowsphone等,其都是基于窗口机制的,也就是说,可以实现在一个界面上弹出另一个窗口。例如,针对andriod系统来说,可以通过popupwindow、tosat.length_long等实现在一个界面上弹出另一个窗口。因此,本实施例中,通过popupwindow或tosat.length_long的方式,在终端设备的通话界面上生成一个浮动窗口,通过该浮动窗口显示目标翻译文本,使得用户在阅读目标翻译文本时,无需退出通话界面,且依然能够正常操控通话界面的功能,例如,拨打电信运营商的服务热线时,根据语音提示通过点击拨号盘选择对应的语音菜单。

实施例五

本发明实施例的另一种可能的实现方式,在实施例一所示的基础上还包括实施例五所示的操作,其中,

步骤s105具体可以包括:步骤s1053(图中未示出)、步骤s1054(图中未示出)以及步骤s1055(图中未示出),其中,

步骤s1053、对语音识别结果进行处理,以确定语音识别结果对应的文本向量。

步骤s1054、利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。

步骤s1055、将文本信息合成与预设的目标语种匹配的语音信息。

进一步地,在步骤s1053、步骤s1054以及步骤s1055的基础上,还可以播放语音信息。其中,通过终端设备的扬声器或耳机通道播放语音信息,使得用户能够无障碍地听懂对方的语言,使得不同国家、不同语种的人们能够通过手机进行实时有效地通话。

实施例六

本发明实施例的另一种可能的实现方式,在实施例四或实施例五所示的基础上还包括实施例六所示的操作,其中,

利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息,包括:步骤sc(图中未示出)、步骤sd(图中未示出)以及步骤se(图中未示出),其中,

步骤sc、基于文本向量,确定待翻译的即时通信语音信号中是否包含预设类型的文本信息。

其中,预设类型的文本信息包括以下至少一种:成语、俚语、歇后语、网络流行语、古诗词以及文言文。

步骤sd、若包含预设类型的文本信息,则基于特定的语言词典将预设类型的文本信息转换为源文本信息,并对源文本信息进行处理,得到源文本信息对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量。

例如,预设类型的文本信息为“猪八戒照镜子”,则通过歇后语词典,将“猪八戒照镜子”转换为源文本信息为“里外不是人”,然后将源文本信息为“里外不是人”转换为源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量。

其中,非源文本向量为文本向量中不包含预设类型的文本信息对应的文本向量。

步骤se、利用基于注意力机制的翻译模型对合成后的文本向量进行处理,得到与预设的目标语种匹配的文本信息。

对于本申请实施例,在利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息时,先基于文本向量,确定待翻译的即时通信语音信号中是否包括预设类型的文本信息,若包含预设类型的文本信息,则通过特定的语言词典,将该预设类型的文本信息转换为源文本信息,并将转换后的源文本信息处理为对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量,然后在进行翻译,得到与预设的目标语种匹配的文本信息,即将待翻译的信息中包含成语、歇后语等预设类型的文本信息,先通过成语词典、歇后语词典等翻译之后,在通过基于注意力机制的翻译模型进行翻译,可以提高翻译的准确度,提升用户体验。

实施例七

本申请实施例的另一种可能的实现方式,在实施例五所示的基础上还包括实施例七所示的操作,其中,

步骤s1055之前还包括步骤sf(图中未示出),其中,

步骤sf、确定即时通话语音信号发出者对应的属性信息。

在一个可能的实现方式中,即时通话语音信号发出者对应的属性信息包括:静态属性信息以及动态属性信息;静态属性信息包括以下至少一项:即时通话语音信号发出者的年龄、性别;动态属性信息包括以下至少一项:即时通话语音信号发出者当前的说话的语速、音调和/或即时通话语音信号发出者当前说话的情绪状态信息。

基于即时通话语音信号的功率以及音调,确定即时通话语音信号发出者当前说话的情绪状态信息,例如,即时通话语音信号发出者当前说话的情绪状态信息可以为“普通”、“喜”、“悲伤”以及“怒”。

例如,相较于“普通”情感,有声部分最小音调较高、最大功率较低时,即时通话语音信号发出者当前说话的情绪状态为“悲伤”;平均音调较低、平均音调较高时,即时通话语音信号发出者当前说话的情绪状态为“怒”;相较于“普通”情感,特征量较大时,即时通话语音信号发出者当前说话的情绪状态为“喜”。

具体地,步骤sf可以包括:步骤sf1(图中未示出)以及步骤sf2(图中未示出),其中,

步骤sf1、对获取到的待翻译的即时通话语音信号进行频谱分析,确定基于属性信息的特征量。

步骤sf2、根据确定出的基于属性信息的特征量,确定即时通话语音信号发出者对应的属性信息。

具体地,步骤s1055包括步骤s10551(图中未示出),其中,

步骤s10551、基于确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息。

例如,确定出的即时通话语音信号发出者对应的属性信息为:女性;20-30岁;语速较快;音调较高;当前说话的情绪状态为“喜”,则按照这一属性信息,合成与预设的目标语种匹配的语音信号。

对于本申请实施例,通过确定即时通话语音信号发出者对应的属性信息,并基于确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息,即合成后的与预设的目标语种匹配的语音信息中可以包含语音发出者当前说话的情绪、状态等,从而可以提升翻译的准确度,进而可以提升用户体验。

实施例八

本申请实施例的另一种可能的实现方式,在实施例一所示的基础上还包括实施例九所示的操作,其中,

步骤s104之前还包括:步骤sg(图中未示出),其中,

步骤sg、根据用户通过终端设备输入的启动指令,启动语音识别任务和语音翻译任务。

例如,在终端设备的显示界面上设置有启动控件,当用户触发启动控件时,终端设备启动语音识别任务和语音翻译任务,即执行语音识别任务以及语音翻译任务,即可以执行步骤s101-步骤s106。

步骤s105之前可以包括步骤sh(图中未示出),其中,

步骤sh、若语音识别结果对应的语种与当前用户的惯用语种不同,则启动语音翻译任务。

例如,先获取即时通话语音信号中的一个语音片段,对该语音片段进行语音识别,以确定语音片段对应的语种,若识别到的语种与当前用户的惯用语种不同,则启动语音翻译任务,即执行步骤s105和步骤s106。这样,可在用户通话过程中自动识别对方的语种,只有当对方的语种与用户惯用语种不同时,才自动启动翻译功能,节省终端设备的资源开销。

实施例九

本申请实施例的另一种可能的实现方式,在实施例一所示的基础上还包括实施例十所示的操作,其中,

该方法还包括:步骤si(图中未示出)、步骤sj(图中未示出)以及步骤sk(图中未示出)中的至少一项,其中,

步骤si、根据用户通过终端设备输入的语种配置指令,确定目标语种。

对于本申请实施例,用户可在设备终端安装即时通话语音翻译的应用程序,由该应用程序提供目标语种设置界面,用户通过该设置界面设置目标语种。

步骤sj、根据终端设备当前所处地理位置确定当前所在国家,以确定目标语种。

例如,通过终端设备内置的gps定位功能获取当前所处地理位置,以确定用户当前所在国家,将当前所在国家的官方用语作为目标语种,用户无需手动设备目标语言,提高了用户体验。

步骤sk、获取终端设备的系统语言,将系统语言确定为目标语种。

对于本申请实施例,现有的终端设备,如手机、平板电脑等,均配置有多种可供选择的系统语言,而用户选择的系统语言一定是自己熟悉的语言。因此,本实施例中,通过获取用户终端设备中的系统语言,对目标语种进行自动设置,省去了用户手动设置目标语种的过程,简化了设置方法,提高了用户体验。尤其是,当终端设备的使用者发生改变,且新的使用者与原使用者使用不同语言时,新的使用者一定会重新设置系统语言,而此时,终端设备中的应用程序会自动获取到新的系统语言,并相应地修改目标语种。

实施例十

本申请实施例的另一种可能的实现方式,在实施例一至实施例十的任一实施例的基础上还包括实施例十一所示的操作,其中,

步骤s106包括步骤s1061(图中未示出)以及步骤s1062(图中未示出),其中,

步骤s1061、确定输出翻译信息的方式。

具体地,步骤s1061包括步骤s1061a、步骤s1061b、步骤s1061c以及步骤s1061d中的至少一项,其中,

步骤s1061a、基于待输出翻译信息的设备当前是否连接耳机,确定输出翻译信息的方式。

对于本申请实施例,若待输出翻译信息的设备当前连接耳机,则确定输出翻译信息的方式为语音输出方式;若待输出翻译信息的设备当前未连接耳机,则确定输出翻译信息的方式为文本输出方式。

步骤s1061b、基于待输出翻译信息的设备当前所设置的情景模式,确定输出翻译信息的方式。

对于本申请实施例,若当前所设置的情景模式为“会议模式”,则确定输出翻译信息的方式为文本输出方式;若当前设置的情景模式为“室外模式”,则确定输出翻译信息的方式为语音输出方式。

步骤s1061c、基于待输出翻译信息的设备当前的剩余电量,确定输出翻译信息的方式。

对于本申请实施例,若待输出翻译信息的设备当前的剩余电量较多,则确定翻译信息的方式为语音输出方式;若待输出翻译信息的设备当前的剩余电量,则确定翻译信息的方式为文本输出方式。

步骤s1061d、基于待输出翻译信息的设备当前所处的环境信息,确定输出翻译信息的方式。

对于本申请实施例,若待输出翻译信息的设备当前所处的环境信息为嘈杂的环境信息,则确定输出翻译信息的方式为文本输出方式;若待输出翻译信息的设备当前所处的环境信息为安静的环境,则确定输出翻译信息的方式为语音输出方式。

其中,输出翻译信息的方式包括:语音输出方式以及文本输出方式。

步骤s1062、基于确定出的输出翻译信息的方式,输出翻译信息。

对于本申请实施例,根据上述确定出的输出翻译信息的方式(语音输出方式和/或文本输出方式),输出翻译信息。在本申请实施例中,合成语音发送的方式详见实施例七,合成文本翻译信息的方式,详见实施例六,在此不再赘述。

当然,根据用户的设置,可以同时通过语音输出方式以及文本输出方式同时输出翻译信息。

对于本申请实施例,通过上述方式,确定输出翻译信息的方式,包括:语音输出方式以及文本输出方式,即可以识别不同的情景,自动选择不同的输出方式,输出翻译信息,从而可以提升即时通话语音翻译的智能度,进而可以提升用户体验。

进一步地,在步骤s101之前,本申请实施例的即时通话语音的翻译方法还包括步骤s100(图中未示出):监听终端设备的通话状态,当监听到终端设备的通话状态为接通状态时,提取即时通话语音。

以android系统为例,介绍监听终端设备的通话状态的实现步骤。实现手机通话状态的监听,主要依靠两个类:telephonemanger和phonestatelistener。telephonsemanger提供了取得手机基本服务的信息的一种方式,应用程序可以使用telephonymanager来探测手机基本服务的情况。phonestatelistener是android提供给三方app监听手机通话状态变化的方法。本实施例中,通过注册listener来监听通话状态的改变,具体为:建立phonestatelistener对象,并获取telephonymanager服务,使用telephonymanager注册phonestatelistener,通过phonestatelistener的回调方法oncallstatechanged(intstate,stringincomingnumber)实现通话状态的监听。其中,监听的通话状态包括idle、ringing、offhook三种状态,idle表示电话处于空闲状态,没有任何活动;offhook表示接通状态,即电话处于拨打或是通话的状态;ringing表示来电状态,即电话处于铃声响起但还未接通的状态。即,当监听程序监听到终端设备的通话状态变为offhook时,提取终端设备接收到的对方终端发送的即时通话语音。

本实施例提供的即时通话语音的翻译方法在手机中的实际应用过程为:启动终端设备中监听通话状态的监听程序,该监听程序是一个后台驻留程序,通过监听程序时刻监听终端设备的通话状态,启动监听程序的方式可以是:终端设备开机时自动启动监听程序,或者,当用户按下终端设备中用于启动监听程序的启动控件时,启动监听程序。当用户通过终端设备接听来电或拨打电话时,终端设备的通话状态会发生变化,一旦监听程序检测到终端设备的通话状态变为offhook,立即启动音频系统的录音接口audiorecord对即时通话语音进行录制并存储,audiorecord默认的编码格式为pcm_16_bit,对应的jni接口文件为android_media_audiorecord.cpp。然后,提取录制的即时通话语音,对即时通话语音信号进行语音识别,以确定相应的语音识别结果,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,输出翻译信息。

实施例十一

本申请实施例提供了一种即时通话语音的翻译装置,如图2所示,该装置20包括:第一获取模块21、切分模块22、第一确定模块23、语音识别模块24、翻译模块25、输出模块26,其中,

第一获取模块21,用于获取待翻译的即时通话语音信号。

切分模块22,用于将第一获取模块21获取到的待翻译的即时语音信号切分为预设个数的语音帧。

第一确定模块23,用于确定切分模块22切换后的各个语音帧分别对应的特征向量。

语音识别模块24,用于基于神经网络的语音识别模型对第一确定模块23确定出的各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果。

翻译模块25,用于将语音识别模块24语音识别出的语音识别结果翻译为与预设的目标语种匹配的翻译信息。

输出模块26,用于输出翻译信息。

本申请实施例提供了一种即时通话语音的翻译装置,与现有技术相比,本申请实施例通过获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。即用户在即时通话过程中,能够实时获取到与即时通话语音信号同步的翻译信息,帮助用户实时获知通话对方表达的意思,并作出回复,而不需要先进行录制对方的通话语音并输入至翻译软件中才可以获知通话对方表达的意思,从而可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

本实施例提供的即时通话语音的翻译装置可执行上述方法实施例一,其实现原理相类似,在此不再赘述。

实施例十二

本申请实施例提供了另一种即时通话语音的翻译装置,如图3所示,该装置30包括:第一获取模块31、切分模块32、第一确定模块33、语音识别模块34、翻译模块35、输出模块36,其中,

第一获取模块31,用于获取待翻译的即时通话语音信号。

其中,图3中的第一获取模块31与图2中第一获取模块21的功能相同或者相似。

切分模块32,用于将第一获取模块31获取到的待翻译的即时语音信号切分为预设个数的语音帧。

其中,图3中的切分模块32与图2中切分模块22的功能相同或者相似。

第一确定模块33,用于确定切分模块32切换后的各个语音帧分别对应的特征向量。

其中,图3中的第一确定模块33与图2中第一确定模块23的功能相同或者相似。

语音识别模块34,用于基于神经网络的语音识别模型对第一确定模块33确定出的各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果。

其中,图3中的语音识别模块34与图2中语音识别模块24的功能相同或者相似。

翻译模块35,用于将语音识别模块34语音识别出的语音识别结果翻译为与预设的目标语种匹配的翻译信息。

其中,图3中的翻译模块35与图2中翻译模块25的功能相同或者相似。

输出模块36,用于输出翻译信息。

其中,图3中的输出模块36与图2中输出模块26的功能相同或者相似。

具体地,语音识别模块34,具体用于利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值。

语音识别模块36,具体还用于对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。

进一步地,如图3所示,该装置30还包括:第二获取模块37、第二确定模块38,其中,

第二获取模块37,用于获取即时通话语音信号中的一个语音片段。

对于本申请实施例,第一获取模块31与第二获取模块37可以为同一个获取模块,还可以为不同的获取模块。在本发明实施例中并不限定。

其中,图3仅显示了第一获取模块31与第二获取模块37为不同的获取模块的方式,但是并不作为对本申请的限定。

第二确定模块38,用于确定语音片段对应的语种。

对于本申请实施例,第一确定模块33与第二确定模块38可以为同一个确定模块,还可以为不同的确定模块。在本发明实施例中并不限定。

其中,图3仅显示了第一确定模块33与第二获取模块37为不同的确定模块的方式,但是并不作为对本申请的限定。

语音识别模块34,具体还用于利用与确定的语种对应的语音识别模型对特征向量进行识别,以确定特征向量对应的状态值。

具体地,翻译模块35,具体用于对语音识别结果进行处理,以确定语音识别结果对应的文本向量。

翻译模块35,具体还用于利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。

具体地,翻译模块35,具体用于对语音识别结果进行处理,以确定语音识别结果对应的文本向量。

翻译模块35,具体还用于利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。

翻译模块35,具体还用于将文本信息合成与预设的目标语种匹配的语音信息。

对于本申请实施例,通过终端设备的扬声器或耳机通道播放语音信息,使得用户能够无障碍地听懂对方的语言,使得不同国家、不同语种的人们能够通过手机进行实时有效地通话。

具体地,翻译模块35,具体还用于基于文本向量,确定待翻译的即时通信语音信号中是否包含预设类型的文本信息。

翻译模块35,具体还用于当包含预设类型的文本信息时,基于特定的语言词典将预设类型的文本信息转换为源文本信息,并对源文本信息进行处理,得到源文本信息对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量,非源文本向量为文本向量中不包含预设类型的文本信息对应的文本向量。

翻译模块35,具体还用于利用基于注意力机制的翻译模型对合成后的文本向量进行处理,得到与预设的目标语种匹配的文本信息。

在一个可能的实现方式中,预设类型的文本信息包括以下至少一种:成语、俚语、歇后语、网络流行语、古诗词以及文言文。

对于本申请实施例,在利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息时,先基于文本向量,确定待翻译的即时通信语音信号中是否包括预设类型的文本信息,若包含预设类型的文本信息,则通过特定的语言词典,将该预设类型的文本信息转换为源文本信息,并将转换后的源文本信息处理为对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量,然后在进行翻译,得到与预设的目标语种匹配的文本信息,即将待翻译的信息中包含成语、歇后语等预设类型的文本信息,先通过成语词典、歇后语词典等翻译之后,在通过基于注意力机制的翻译模型进行翻译,可以提高翻译的准确度,提升用户体验。

进一步地,如图3所示,该装置30还包括:第三确定模块39,其中,

第三确定模块39,用于确定即时通话语音信号发出者对应的属性信息。

对于本申请实施例,第一确定模块33、第二确定模块38以及第三确定模块39可以为同一个确定模块,还可以为不同的确定模块。在本发明实施例中并不限定。

其中,图3仅显示了第一确定模块33、第二获取模块37以及第三确定模块39分别为不同的确定模块的方式,但是并不作为对本申请的限定。

翻译模块35,具体还用于基于第三确定模块39确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息。

具体地,第三确定模块39,具体用于对获取到的待翻译的即时通话语音信号进行频谱分析,确定基于属性信息的特征量。

第三确定模块39,具体还用于根据确定出的基于属性信息的特征量,确定即时通话语音信号发出者对应的属性信息。

在一个可能的实现方式中,即时通话语音信号发出者对应的属性信息包括:静态属性信息以及动态属性信息;

静态属性信息包括以下至少一项:即时通话语音信号发出者的年龄、性别;

动态属性信息包括以下至少一项:即时通话语音信号发出者当前的说话的语速、音调和/或即时通话语音信号发出者当前说话的情绪状态信息。

对于本申请实施例,通过确定即时通话语音信号发出者对应的属性信息,并基于确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息,即合成后的与预设的目标语种匹配的语音信息中可以包含语音发出者当前说话的情绪、状态等,从而可以提升翻译的准确度,进而可以提升用户体验。

进一步地,如图3所示,该装置30还包括:启动语音识别以及语音翻译模块310,其中,

启动语音识别以及语音翻译模块310,用于根据用户通过终端设备输入的启动指令,启动语音识别任务和语音翻译任务。

进一步地,如图3所示,该装置30还包括:启动语音翻译模块311,其中,

启动语音翻译模块311,用于当语音识别结果对应的语种与当前用户的惯用语种不同时,启动语音翻译任务。

这样,可在用户通话过程中自动识别对方的语种,只有当对方的语种与用户惯用语种不同时,才自动启动翻译功能,节省终端设备的资源开销。

进一步地,如图3所示,该装置30还包括:第四确定模块312,其中,

第四确定模块312,用于根据用户通过终端设备输入的语种配置指令,确定目标语种。

对于本申请实施例,第一确定模块33、第二确定模块38、第三确定模块39以及第四确定模块312可以为同一个确定模块,还可以为不同的确定模块。在本发明实施例中并不限定。

其中,图3仅显示了第一确定模块33、第二获取模块37、第三确定模块39以及第四确定模块312分别为不同的确定模块的方式,但是并不作为对本申请的限定。

进一步地,如图3所示,该装置30还包括:第五确定模块313,其中,

第五确定模块313,用于根据终端设备当前所处地理位置确定当前所在国家,确定目标语种。

对于本申请实施例,第一确定模块33、第二确定模块38、第三确定模块39、第四确定模块312以及第五确定模块313可以为同一个确定模块,还可以为不同的确定模块。在本发明实施例中并不限定。

其中,图3仅显示了第一确定模块33、第二获取模块37、第三确定模块39、第四确定模块312以及第五确定模块313分别为不同的确定模块的方式,但是并不作为对本申请的限定。

进一步地,如图3所示,该装置30还包括:第三获取模块314、第六确定模块315,其中,

第三获取模块314,用于获取终端设备的系统语言。

对于本申请实施例,第一获取模块31、第二获取模块37以及第三获取模块314可以为同一个获取模块,还可以为不同的获取模块。在本发明实施例中并不限定。

其中,图3仅显示了第一获取模块31、第二获取模块37以及第三获取模块314分别为不同的获取模块的方式,但是并不作为对本申请的限定。

第六确定模块315,用于将第三获取模块314获取到的系统语言确定为目标语种。

对于本申请实施例,第一确定模块33、第二确定模块38、第三确定模块39、第四确定模块312、第五确定模块313以及第六确定模块315可以为同一个确定模块,还可以为不同的确定模块。在本发明实施例中并不限定。

其中,图3仅显示了第一确定模块33、第二获取模块37、第三确定模块39、第四确定模块312、第五确定模块313以及第六确定模块315分别为不同的确定模块的方式,但是并不作为对本申请的限定。

具体地,如图3所示,输出模块36包括:确定单元361以及输出单元362,其中,

确定单元361,用于确定输出翻译信息的方式。

输出单元362,用于基于确定出的输出翻译信息的方式,输出翻译信息。

具体地,确定单元361,具体用于基于待输出翻译信息的设备当前是否连接耳机,确定输出翻译信息的方式;和/或,

基于待输出翻译信息的设备当前所设置的情景模式,确定输出翻译信息的方式;和/或,

基于待输出翻译信息的设备当前的剩余电量,确定输出翻译信息的方式;和/或,

基于待输出翻译信息的设备当前所处的环境信息,确定输出翻译信息的方式。

其中,输出翻译信息的方式包括:语音输出方式以及文本输出方式。

对于本申请实施例,通过上述方式,确定输出翻译信息的方式,包括:语音输出方式以及文本输出方式,即可以识别不同的情景,自动选择不同的输出方式,输出翻译信息,从而可以提升即时通话语音翻译的智能度,进而可以提升用户体验。

本申请实施例提供了一种即时通话语音的翻译装置,与现有技术相比,本申请实施例通过获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。即用户在即时通话过程中,能够实时获取到与即时通话语音信号同步的翻译信息,帮助用户实时获知通话对方表达的意思,并作出回复,而不需要先进行录制对方的通话语音并输入至翻译软件中才可以获知通话对方表达的意思,从而可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

本实施例提供的即时通话语音的翻译装置可执行上述方法实施例实施例一至实施例十中任一实施例,其实现原理相类似,在此不再赘述。

实施例十四

本申请实施例提供了一种电子设备4000,如图4所示,包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选的,终端4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

其中,处理器4001应用于本申请实施例中,用于实现图2或图3所示的第一获取模块、切分模块、第一确定模块、语音识别模块、翻译模块以及输出模块的功能或者图3所示的第二获取模块、第二确定模块、第三确定模块、启动语音识别以及语音翻译模块、启动语音翻译模块、第四确定模块、第五确定模块、第三获取模块以及第六确定模块的功能。

处理器4001可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci总线或eisa总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

可选的,存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现图2或图3所示实施例提供的即时通话语音的翻译装置的动作。

对于本申请实施例,该电子装置可以为移动终端。

本申请实施例提供了一种电子装置,与现有技术相比,本申请实施例通过获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。即用户在即时通话过程中,能够实时获取到与即时通话语音信号同步的翻译信息,帮助用户实时获知通话对方表达的意思,并作出回复,而不需要先进行录制对方的通话语音并输入至翻译软件中才可以获知通话对方表达的意思,从而可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

本实施例提供的电子装置可执行上述方法实施例,其实现原理相类似,在此不再赘述。

实施例十五

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一至实施例十任一实施例所示的即时通话语音的翻译方法。

本申请实施例提供了一种计算机可读存储介质,与现有技术相比,本申请实施例通过获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。即用户在即时通话过程中,能够实时获取到与即时通话语音信号同步的翻译信息,帮助用户实时获知通话对方表达的意思,并作出回复,而不需要先进行录制对方的通话语音并输入至翻译软件中才可以获知通话对方表达的意思,从而可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例,在此不再赘述。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1