一种通话即时原声语音翻译的通话终端及方法与流程

文档序号:13169241阅读:479来源:国知局
一种通话即时原声语音翻译的通话终端及方法与流程

本发明涉及一种能实现通话翻译的通话终端及方法,具体是一种能实现通话即时原声语音翻译的通话终端及方法,所述通话终端包括移动电话终端和智能固定电话和网络通话终端。



背景技术:

随着社会的发展,各领域的全球化交流越来越频繁,在跨国经贸交流合作、政治交流、文化传播等过程中,遇到语言不通时需要通过翻译才能进行交流,而在使用通话终端进行远程通话时,由于通话语言不通,又不是面对面交流,要引入翻译会变得非常困难,因此亟需一种有效的工具和方法来解决这个问题。如何利用翻译软件在不同语言进行通话时实现合理而准确的翻译,这在目前还是一个世界性难题。目前市面上也出现一些通话翻译系统,然而这些通话翻译系统普遍存在着以下缺陷:

(1)、不能解决通话翻译的即时性,即不能同声翻译,使得通话双方不能顺利便捷地进行通话交谈。

(2)、翻译处理后的语音是陌生的机器语音,语音和语调与说话者的原声相去甚远,接听者感觉是在跟机器人在通话,缺乏真实感,不容易准确抓住说话者的真实表达意图。

(3)、需要架设用于实现翻译功能的服务器,通话双方都需要配备专用通话终端来和服务器相连接,使用起来非常不便,因为在实际应用中,很难做到通话双方都能配备同样的专用通话终端。



技术实现要素:

为了解决上述问题,本发明提供了一种通话即时原声语音翻译的通话终端,使用该通话终端,可以轻松实现通话即时翻译,而且翻译的语音具有说话人的原声语音特点,不需要配备服务器,通话双方只要一方配备该通话终端,即可实现双方通话翻译功能,使用非常灵活和方便。基于本通话终端,本发明还提供了一种通话即时原声语音翻译的方法。

一种通话即时原声语音翻译的通话终端,其内部系统包括通信单元、存储单元、翻译单元、模拟语音处理单元和主控单元,其中通信单元、存储单元、翻译单元、模拟语音处理单元均与主控单元相连接并受其控制。

所述通信单元除了用于执行通用移动电话通信标准,实现常规语音通话和语音拾取录制功能之外,还用于接入互联网,实现快速传输音频和文本数据信息。

所述存储单元用于存储用户翻译设置、原声音频文件、语音转换文本、翻译文本、翻译文本机器语音音频文件、原声音频特性曲线、翻译文本原声语音音频文件。

所述翻译单元包括第一翻译通道和第二翻译通道,其中第一翻译通道用于将主叫方语音的识别文本翻译成被叫方语言文本,第二翻译通道用于将被叫方语音的识别文本翻译成主叫方语言文本,所述翻译单元通过通信单元与互联网第三方翻译服务器api接口相连接,并借助互联网所提供的第三方翻译服务进行翻译。

所述模拟语音处理单元包括模拟学习模块、语音转换模块和音频分析模块;语音转换模块用于将原声音频文件识别转换成文本和将翻译文本转换成机器发音的翻译音频;音频分析模块用于分析提取通话双方原声音频中的音调、响度、音律、音色以及共振峰频率(极点频率)的分布特性,并拟合成原声音频特性曲线;模拟学习模块用于将语音转换模块生成的机器发音的翻译音频与音频分析模块生成的原声音频特性曲线进行叠加,得到模拟原声语音特点的翻译音频。

所述主控单元用于设定通话终端进行原声语音翻译工作的执行流程,控制通话终端内各单元协调配合工作。

一种基于上述通话终端的通话即时原声语音翻译的方法,包括以下步骤:

(1)使用通话终端进行通话前,先根据通话双方的说话语言对通话终端设置两种翻译语言,且设置信息存入通话终端的存储单元中,并与相应的联系人信息进行绑定,以便下次直接调用。

在本步骤中,对通话终端设置翻译语言时可以采用人工设置,也可以由通话终端根据通话双方电话号码归属地自动设置当地语言作为翻译语言。

(2)电话接通后,在通话过程中,通话终端的通信单元分别拾取通话双方每句话的语音作为主叫方和被叫方原声音频文件,并存入存储单元中。

(3)模拟语音处理单元中的语音转换模块把主叫方和被叫方原声音频文件调出,采用语音识别技术,将主叫方原声音频文件识别成主叫方语言文字,得到第一语言文本,同时将被叫方原声音频文件识别成被叫方语言文字,得到第二语言文本。

(4)通话终端的通信单元利用高速网络通信技术快速接入互联网第三方翻译服务器api接口,翻译单元借助互联网提供的第三方翻译服务,由第一翻译通道将第一语言文本翻译成被叫方语言的第一目标语言文本,第二翻译通道将第二语言文本翻译成主叫方语言的第二目标语言文本。

(5)模拟语音处理单元中的语音转换模块采用文本朗读技术,将第一目标语言文本按被叫方语言的读音转换成机器语音发音的第一目标语言语音,同时将第二目标语言文本按主叫方语言的读音转换成机器语音发音的第二目标语言语音,然后将第一目标语言语音和第二目标语言语音存入存储单元中。

(6)模拟语音处理单元中的音频分析模块调用存储单元中的主叫方和被叫方原声音频文件,分别对主叫方和被叫方原声音频文件的音频特性参数进行分析,通过软件傅立叶变换计算和信号采样,得到主叫方和被叫方原声音频中的音调、响度、音律、音色以及共振峰频率(极点频率)的分布特性,并分别拟合成主叫方原声音频特性曲线和被叫方原声音频特性曲线,再存入存储单元中。

(7)模拟语音处理单元中的模拟学习模块采用基于psola算法的时域波形拼接技术,将存储单元中的第一目标语言语音与主叫方原声音频特性曲线进行波形叠加,用主叫方原声音频特性曲线对机器语音发音的第一目标语言语音进行修饰,得到模拟主叫方原声语音特点的第一目标语言语音,即第一合成语音;基于同样的手段,模拟学习模块还同时将存储单元中的第二目标语言语音与被叫方原声音频特性曲线进行波形叠加,用被叫方原声音频特性曲线对机器语音发音的第二目标语言语音进行修饰,得到模拟被叫方原声语音特点的第二目标语言语音,即第二合成语音。

(8)通信单元将主叫方每句话的第一合成语音即时发送至被叫方接听,并将被叫方每句话的第二合成语音即时发送至主叫方接听,由此实现通话双方即时原声语音翻译的效果。

本发明的优点为:本通话即时原声语音翻译的通话终端可以轻松实现通话即时翻译,而且翻译的语音具有说话人的原声语音特点,真实感更强,接听者容易准确抓住说话者的真实表达意图。另外本通话终端借助互联网提供的第三方翻译服务,使用时不需要另外配备服务器,通话者只要一方配备该通话终端,另一方配备常规通话终端,即可实现双方通话翻译功能,使用非常灵活和方便。

附图说明

图1为本发明通话终端的系统架构图。

图2为本发明通话终端实现一个中英文互译实施例的通话即时原声语音翻译的方法流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1所示,本发明的通话即时原声语音翻译的通话终端,其内部系统包括通信单元、存储单元、翻译单元、模拟语音处理单元和主控单元,其中通信单元、存储单元、翻译单元、模拟语音处理单元均与主控单元相连接并受其控制。

所述通信单元除了用于执行通用移动电话通信标准,实现常规语音通话和语音拾取录制功能之外,还用于接入互联网,实现快速传输音频和文本数据信息。所述存储单元用于存储用户翻译设置、原声音频文件、语音转换文本、翻译文本、翻译文本机器语音音频文件、原声音频特性曲线、翻译文本原声语音音频文件。所述翻译单元包括第一翻译通道和第二翻译通道,其中第一翻译通道用于将主叫方语音的识别文本翻译成被叫方语言文本,第二翻译通道用于将被叫方语音的识别文本翻译成主叫方语言文本,所述翻译单元通过通信单元与互联网第三方翻译服务器api接口相连接,并借助互联网所提供的第三方翻译服务进行翻译。所述模拟语音处理单元包括模拟学习模块、语音转换模块和音频分析模块;语音转换模块用于将原声音频文件识别转换成文本和将翻译文本转换成机器发音的翻译音频;音频分析模块用于分析提取通话双方原声音频中的音调、响度、音律、音色以及共振峰频率(极点频率)的分布特性,并拟合成原声音频特性曲线;模拟学习模块用于将语音转换模块生成的机器发音的翻译音频与音频分析模块生成的原声音频特性曲线进行叠加,得到模拟原声语音特点的翻译音频。所述主控单元用于设定通话终端进行原声语音翻译工作的执行流程,控制通话终端内各单元协调配合工作。

下面以一个具体实施例来说明本发明通话终端实现通话即时原声语音翻译的方法流程。以一个在中国的主叫方李明使用本发明通话终端和一个在美国的被叫方乔治进行通话为例,如图2所示,双方通话即时原声语音翻译的步骤方法流程如下:

步骤s10,李明在使用通话终端进行通话前,先对通话终端设置两种翻译语言分别为中文和英文,且设置信息存入通话终端的存储单元中,并与李明和乔治两人的联系人信息进行绑定,以便下次直接调用。

在本步骤中,可以由李明人工设置翻译语言为中文和英文,也可以由通话终端根据李明和乔治的电话号码归属地为中国和美国自动设置中文和英文作为翻译语言。

步骤s20,电话接通后,在通话过程中,通话终端的通信单元分别拾取李明和乔治每句话的语音作为李明和乔治的原声音频文件,并存入存储单元中。

步骤s30,模拟语音处理单元中的语音转换模块把李明和乔治的原声音频文件调出,采用语音识别技术,将李明的原声音频文件识别成中文文字,得到第一语言文本,同时将乔治的原声音频文件识别成英语言文字,得到第二语言文本。

步骤s40,通话终端的通信单元利用高速网络通信技术快速接入互联网第三方翻译服务器api接口,翻译单元借助互联网提供的第三方翻译服务,由第一翻译通道将中文的第一语言文本翻译成英文的第一目标语言文本,第二翻译通道将英文的第二语言文本翻译成中文的第二目标语言文本。

步骤s50,模拟语音处理单元中的语音转换模块采用文本朗读技术,将英文的第一目标语言文本按英文的读音转换成机器语音发音的第一目标语言语音,同时将第二目标语言文本按中文的读音转换成机器语音发音的第二目标语言语音,然后将英文发音的第一目标语言语音和中文发音的第二目标语言语音存入存储单元中。

步骤s60,模拟语音处理单元中的音频分析模块调用存储单元中的李明和乔治的原声音频文件,分别对李明和乔治的原声音频文件的音频特性参数进行分析,通过软件傅立叶变换计算和信号采样,得到李明和乔治的原声音频中的音调、响度、音律、音色以及共振峰频率(极点频率)的分布特性,并分别拟合成李明的原声音频特性曲线和乔治的原声音频特性曲线,再存入存储单元中。

步骤s70,模拟语音处理单元中的模拟学习模块采用基于psola算法的时域波形拼接技术,将存储单元中的英文发音的第一目标语言语音与李明的原声音频特性曲线进行波形叠加,用李明的原声音频特性曲线对机器语音发音的英文第一目标语言语音进行修饰,得到模拟李明原声语音特点的英文发音的第一目标语言语音,即第一合成语音;基于同样的手段,模拟学习模块还同时将存储单元中的中文发音的第二目标语言语音与乔治的原声音频特性曲线进行波形叠加,用乔治的原声音频特性曲线对机器语音发音的中文第二目标语言语音进行修饰,得到模拟乔治原声语音特点的中文发音的第二目标语言语音,即第二合成语音。

步骤s80,通话终端的通信单元将李明说每句话的英文第一合成语音即时发送至乔治接听,同时将乔治说的每句话的中文第二合成语音即时发送给李明接听,由此实现李明和乔治双方通话即时原声语音翻译的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1