一种通话即时翻译系统和方法

文档序号:2833434阅读:574来源:国知局
专利名称:一种通话即时翻译系统和方法
技术领域
本发明涉及即时翻译领域,尤其涉及一种通话即时翻译系统和方法。
背景技术
在当今的时代,不同国家的人由于政治、经济、文化、娱乐等多方面需求要经常进行沟通,通过网络和电话等方式可以便利地实现不同地域的人之间的交流。然而除了需要网络、电话等便利的信息传输媒介外,还要解决语言不通的问题。熟练掌握一门外语并与其它国家的人顺畅交流是不容易的。因此,语言不通是不同国家的人交流的最大障碍。目前,网络上或是手机等智能终端上存在不少翻译软件,但这些翻译软件通常不能用于即时通话。因此,需要提供一种通话即时翻译系统和方法以解决上述问题。

发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式
部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。为了解决上述问题,本发明公开了一种用于通话即时翻译系统,包括切分器、语音识别装置、翻译装置和语音合成装置,其中,所述切分器用于连接到交换机并将输入语音信号切分为一个或多个音频文件;所述语音识别装置与所述切分器相连,用于将所述一个或多个音频文件转录为源语言的文本;所述翻译装置与所述语音识别装置相连,用于将所述源语言的文本翻译为目标语言的文本;以及所述语音合成装置与所述翻译装置相连,用于将所述目标语言的文本转换为输出语音信号,并输出给所述交换机。在本发明一个优选实施例中,所述系统还包括存储器,其连接在所述切分器和所述语音识别装置之间;其中,所述切分器还用于将所述一个或多个音频文件存储至所述存储器;并且所述语音识别装置所转录的所述一个或多个音频文件来自于所述存储器。
在本发明一个优选实施例中,所述系统还包括语言确定装置,其与所述切分器相连,用于确定通话双方使用的语言;其中,所述通话双方使用的语言中的一种作为所述源语言,另一种作为所述目标语言。在本发明一个优选实施例中,所述系统还包括输入接口,用于从所述交换机接收所述输入语音信号;以及输出接口,用于输出所述输出语音信号至所述交换机。在本发明一个优选实施例中,所述切分器进一步包括检测单元,用于检测所述输入语音信号中的静音部分;以及分割单元,用于基于所检测的静音部分将所述输入语音信号切分为所述一个或多个音频文件。优选地,所述静音部分包括在O. 6秒或O. 6秒以上的时间段内分贝值小于或等于噪声阈值的部分。在本发明一个优选实施例中,所述系统还包括自动增益控制器,其与所述切分器相连,用于并对所述输入语音信号进行增益控制。在本发明一个优选实施例中,所述自动增益控制器进一步包括放大单元,用于将分贝值小于设定值的所述输入语音信号放大至所述设定值;以及缩小单元,用于将分贝值大于所述设定值的所述输入语音信号缩小至所述设定值。在本发明一个优选实施例中,所述系统还包括滤波器,其与所述切分器相连,用于对所述输入语音信号进行降噪处理。优选地,所述滤波器为维纳滤波器。根据本发明另一方面,还提供了一种通话即时翻译方法,包括将输入语音信号切分为一个或多个音频文件;将所述一个或多个音频文件转录为源语言的文本;将所述源语言的文本翻译为目标语言的文本;以及将所述目标语言的文本转换为输出语音信号。在本发明一个优选实施例中,所述切分后还包括将所述一个或多个音频文件存 储至存储器;并且所转录的所述一个或多个音频文件来自于所述存储器。在本发明一个优选实施例中,所述切分前还包括确定通话双方使用的语言;其中,所述通话双方使用的语言中的一种作为所述源语言,另一种作为所述目标语言。在本发明一个优选实施例中,所述切分前还包括从交换机接收所述输入语音信号;以及所述转换后还包括将所述输出语音信号输出至所述交换机。在本发明一个优选实施例中,所述切分进一步包括检测所述输入语音信号中的静音部分;以及基于所检测的静音部分将所述输入语音信号切分为所述一个或多个音频文件。优选地,所述静音部分包括在O. 6秒或O. 6秒以上的时间段内分贝值小于或等于噪声阈值的部分。在本发明一个优选实施例中,所述切分前还包括对所述输入语音信号进行增益控制。在本发明一个优选实施例中,所述增益控制进一步包括将分贝值小于设定值的所述输入语音信号放大至所述设定值;以及将分贝值大于所述设定值的所述输入语音信号缩小至所述设定值。在本发明一个优选实施例中,所述切分前还包括对所述输入语音信号进行降噪处理。优选地,所述降噪处理进一步包括对所述输入语音信号进行维纳滤波。本发明所提供的上述通话即时翻译系统和方法能够使得语言不通的通话双方可以实现实时的自由交流。


本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。在附图中,图I示出了根据本发明一个优选实施例的通话即时翻译系统的结构框图;图2示出了根据本发明一个优选实施例的输入语音信号的示意图;图3示出了根据本发明一个优选实施例的通话即时翻译方法的流程图;图4示出了包括根据本发明一个优选实施例的通话即时翻译系统的通话系统的示意图。
具体实施例方式在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员来说显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。为了彻底了解本发明,将在下列的描述中提出详细的结构。显然,本发明的施行并不限定于本领域的技术人员所熟习的特殊细节。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。根据本发明的一方面,提供了一种通话即时翻译系统。图I示出了根据本发明一个优选实施例的通话即时翻译系统100的结构框图。如图I所示,该通话即时翻译系统包括 切分器104、语音识别装置106、翻译装置107和语音合成装置108。其中,切分器104用于连接到外部交换机并将输入语音信号切分为一个或多个音频文件。语音识别装置106与切分器104相连,用于将切分器104所切分的一个或多个音频文件转录为源语言的文本。翻译装置107与语音识别装置106相连,用于将语音识别装置106所转录的源语言的文本翻译为目标语言的文本。语音合成装置108与翻译装置107相连,用于将翻译装置107所翻译的目标语言的文本转换为输出语音信号,并输出给外部交换机。语音识别技术通常是基于词汇、短语或较短句子来进行的。如图I所示,切分器104与外部交换机相连,其用于将来自外部交换机的输入语音信号切分为一个或多个音频文件。由此,其把连续大段的通话切分为较短的语句。这样,后续的语音识别处理可以针对切分后的数据进行,大大提高了处理精度。这有效保证了通话即时翻译的质量。根据本发明的一个优选实施例,切分器104可以分为检测单元和分割单元,其中,检测单元用于检测输入语音信号中的静音部分,而分割部分用于基于所检测的静音部分将输入语音信号切分为一个或多个音频文件。图2不出了根据本发明一个优选实施例的输入语音信号的示意图。如图2所示,可以在输入语音信号中检测出静音部分,然后基于检测到的静音部分将输入语音信号切分为一个或多个音频文件静音是通话中的必不可少的部分,基于静音部分来切分语音信号可以更好地表达说话者的语句含义。这样不会出现断句或半句的情况,避免后续处理出现错误。输入语音信号的静音部分可以为持续一定时间的分贝值小于或等于噪声阈值的部分。噪声阈值可根据通话双方所在环境的具体情况而定。例如,嘈杂的环境中,噪声阈值可以设置得较高。通过增加所持续的时间长度,噪声可以被视为静音从而被去除。优选地,所持续的时间长度为O. 6秒或O. 6秒以上。O. 6秒是人与人交流的时候句与句之间的大体停顿间隔,选择这个时间段的静音可以较为准确地将人与人的通话内容划分成以自然句为单位的音频文件,并且可以有效去除噪音,使得接下来的处理过程正确率更高。语音识别装置106与切分器104相连,用于将切分器104所切分的一个或多个音频文件转录为源语言的文本。根据本发明一个优选实施例,语音识别装置106所进行的转录过程包括下述操作。首先对切分后形成的一个或多个音频文件进行语音信号的语音特征的提取。根据提取的语音特征,可以对语音信号进行分析处理,可去掉与语音识别无关的冗余信息并获得影响语音识别的重要信息,同时可对语音信号进行压缩。然后,语音识别装置106根据所提取的语音特征利用已训练的声学模型进行识别。具体地,将语音信号的语音特征同声学模型的语音特征进行匹配与比较,得到最佳的识别结果。整个转录过程完成了将切分器104所切分的一个或多个音频文件转录为源语言的文本。翻译装置107与语音识别装置106相连,用于将语音识别装置106所转录的源语言的文本翻译为目标语言的文本。翻译装置107基于源语言的文本的语法、语义、句法、习语的知识和说话者的文化,分析出源语言的文本的所有特征来解码源语言的文本的意思,然后将源语言的文本重新编码成表达同样意思的目标语言的文本。语音合成装置108与翻译装置107相连,用于将翻译装置107翻译后产生的目标语言文本转换为目标语言的输出语音信号,并输出给外部交换机。该转换过程如下首先,将翻译装置107翻译后产生的目标语言的文本转化为目标语言的特征参数以产生该目标语言的文本的文句的每个音节的对应韵律信息;然后,结合人平时说话时使用的声调、语气、停顿方式、及发音长短将该韵律信息转换成相应的韵律参数;最后,结合该韵律参数和 声学的参数来生成相应的输出语音信号,并输出给外部交换机。根据本发明的一个优选实施例,通话即时翻译系统100还可以包括输入接口和输出接口(未在图I中示出)。其中,输入接口可以连接在外部交换机和切分器104之间,用于从外部交换机接收输入语音信号,该输入语音信号可以是模拟信号也可以是数字信号。如果是数字信号,其采样频率优选为8000Hz,其量化位数优选为16比特。输出接口可以连接在语音合成装置108和外部交换机之间,用于将输出语音信号输出至外部交换机。根据本发明的一个优选实施例,通话即时翻译系统100还可以包括语言确定装置101,其与切分器104相连,用于确定通话双方使用的语言。在通话的过程中,如果通话双方使用的语言中的一种作为源语言,则另一种作为目标语言。如图I所示,通话双方通过外部交换机建立连接后,经交换机可将各自说出的一句话(例如,通话双方最初的打招呼)输入至系统100的语言确定装置101。接着,语言确定装置101确定通话双方使用的语言。例如,通话双方分别为中国人和美国人,即通话双方所使用的语言为中文和英文,通过通话双方最初的打招呼(中国人说“喂”,美国人说“hello”),语言确定装置101通过接收外部交换机输入的“喂”和“hello”,确定出通话双方所用的语言为中文和英文。这样,在后续的处理过程中,如果输入语音信号为中文的语音信号,则源语言为中文,目标语言为英文;反之,如果输入语音信号为英文的语音信号,则源语言为英文,目标语言为中文。根据该优选实施例的系统100能够识别各种语言的语音信号,适用范围广。本领域普通技术人员可以理解,系统100的源语言和目标语言还可以预先设置以无需使用语言确定装置101。根据本发明的一个优选实施例,通话即时翻译系统100还可以包括自动增益控制器102,其与切分器相连,用于对输入语音信号进行增益控制。例如,将所接收的输入语音信号的分贝值调节到大致统一的设定值水平。由自动增益控制器102对输入语音信号进行增益控制可以成功避免因说话者音量忽大忽小造成对后续处理的影响,进而影响到对方的用户体验。优选地,该自动增益控制器102可以包括放大单元和缩小单元。其中,当所接收的输入语音信号的分贝值小于设定值时,放大单元用于将分贝值小于该设定值的输入语音信号放大至该设定值;反之,当所接收的输入语音信号的分贝值大于该设定值时,缩小单元将分贝值大于该设定值的输入语音信号缩小至该设定值。此设定值可根据实际需要自由限定。根据本发明的一个优选实施例,通话即时翻译系统100还可以包括滤波器103,其与切分器104相连,用于对输入语音信号进行降噪处理。降噪处理可以采用滤波的方法。滤波可以从连续的或离散的输入数据中滤除噪声和干扰以提取有用信息。优选地,滤波器103可以是维纳滤波器以取得良好的滤波效果。总之,自动增益控制器102和滤波器103均可以使输入语音信号便于被识别并且提高识别和翻译的正确率。根据本发明的一个优选实施例,通话即时翻译系统100还可以包括存储器105,其连接在切分器104和语音识别装置106之间。这种情况中,切分器104还用于将其切分的一个或多个音频文件存储至存储器105,并且语音识别装置106所转录的一个或多个音频文件来自于存储器105。经过存储器105,可以将切分器104切分的一个或多个音频文件暂·时存入存储器105,以在进入语音识别装置之前缓冲,使得语音识别装置106接下来进行的转录工作更为顺畅。另外,值得注意的是,以上术语“连接”和“相连”可以表示各个装置之间的直接连接,也可以表示间接连接,图I中只示出了通话即时翻译系统100的不同装置之间的一种连接方式,还可以有其它的连接方式。例如,语言确定装置101可以直接连接滤波器103,自动增益控制器102连接在滤波器103和切分器104之间。根据本发明的另一方面,还提供了一种通话即时翻译方法。图3示出了根据本发明一个优选实施例的通话即时翻译方法300的流程图。如图3所示,该通话即时翻译方法300包括切分步骤304、语音转文本步骤306、翻译步骤307和文本转语音步骤308。其中,切分步骤304将输入语音信号切分为一个或多个音频文件;语音转文本步骤306将切分步骤304切分后形成的一个或多个音频文件转录为源语言的文本;翻译步骤307将语音转文本步骤306转录后形成的源语言的文本翻译为目标语言的文本;文本转语音步骤308将翻译步骤307翻译后形成的目标语言的文本转换为输出语音信号。在切分步骤304中,对输入语音信号进行切分的过程进一步包含了检测步骤和分割步骤,其中,检测步骤用于检测输入语音信号的静音部分,然后分割步骤用于基于所检测的静音部分将输入语音信号切分为多个音频文件。根据本发明的一个优选实施例,输入语音信号的静音部分为在O. 6秒或O. 6秒以上的时间段内分贝值小于或等于噪声阈值的部分。在切分步骤304将输入语音信号切分为一个或多个音频文件后,进入语音转文本步骤306。语音转文本步骤306将切分步骤304切分后形成的一个或多个音频文件转录为源语言的文本。在语音转文本步骤306中,首先将切分步骤304切分后形成的一个或多个音频文件进行语音信号的语音特征的提取;然后根据所提取的语音特征利用已训练的声学模型进行识别。具体地,将语音信号的语音特征同声学模型的语音特征进行匹配与比较,得到最佳的识别结果。在语音转文本步骤306将切分步骤304切分后形成的一个或多个音频文件转录为源语言的文本后,进入翻译步骤307。翻译步骤307将语音转文本步骤306转录后形成的源语言的文本翻译为目标语言的文本。在翻译步骤307中,通过基于源语言的文本的语法、语义、句法、习语的知识和说话者的文化,分析出源语言的文本的所有特征来解码源语言的文本的意思,然后将源语言的文本重新编码成同样意思的目标语言的文本,即完成了将源语言的文本翻译为目标语言的文本。在翻译步骤307将语音转文本步骤306转录后形成的源文本的语言翻译成目标语言的文本后,进入文本转语音步骤308。文本转语音步骤308将翻译步骤307翻译后形成的目标语言文本转换为目标语言的输出语音信号,并输出给外部交换机。在文本转语音步骤308中,优选地,首先将翻译步骤307翻译后形成的目标语言的文本转化为目标语言的特征参数以产生该目标语言的文本的文句的每个音节的对应韵律信息,然后结合人平时说话时使用的声调、语气、停顿方式、及发音长短将该韵律信息转换成相应的韵律参数,最后结合韵律参数与声学的参数生成相应的输出语音信号,并输出给外部交换机。这样,整个通话即时翻译过程结束。根据本发明的一个优选实施例,通话即时翻译方法300还可以包括接收步骤和输出步骤(未在图3中示出)。其中,接收步骤在切分步骤304之前,在该接收步骤中从交换机·接收输入语音信号,该输入语音信号可以是模拟信号也可以是数字信号。如果是数字信号,其采样频率优选为8000Hz,其量化位数优选为16比特。输出步骤在文本转语音步骤308后将输出语音信号输出至所述交换机。根据本发明的一个优选实施例,通话即时翻译方法300还可以包括语言确定步骤301,其用于在切分步骤304之前确定通话双方使用的语言。通话双方使用的语言中的一种作为源语言,则另一种作为目标语言。例如,通话双方分别为中国人和美国人,即通话双方所使用的语言为中文和英文,通过通话双方最初的打招呼(中国人说“喂”,美国人说“hello”),在语言确定步骤301接收外部交换机发送的“喂”和“hello”并确定出通话双方作用的语言为中文和英文。这样,在后续的处理过程中,如果输入语音信号为中文的语音信号,则源语言为中文,目标语言为英文;反之,如果输入语音信号为英文的语音信号,则源语言为英文,目标语言为中文。根据本发明的一个优选实施例,通话即时翻译方法300还可以包括增益控制步骤302,其用于在切分步骤304前对输入语音信号进行增益控制,例如,将所接收的输入语音信号的分贝值调节到大致统一的设定值水平。优选地,在增益控制步骤302中,当所接收的输入语音信号的分贝值小于设定值时,将分贝值小于该设定值的输入语音信号放大至该设定值;反之,当所接收的输入语音信号的分贝值大于该设定值时,将分贝值大于该设定值的输入语音信号缩小至该设定值。此设定值可根据实际需要自由限定。根据本发明的一个优选实施例,通话即时翻译方法300还可以包括降噪处理步骤303,其用于在切分步骤304前对输入语音信号进行降噪处理。降噪处理可以采用滤波的方法。优选地,降噪处理步骤303包括对输入语音信号进行维纳滤波。另外,本领域普通技术人员可以理解,图3示出了根据本发明一个优选实施例的通话即时翻译方法步骤的一种执行顺序,该顺序可以进行调整。例如,增益控制步骤302可以在降噪处理步骤303之后执行。根据本发明的一个优选实施例,通话即时翻译方法300还可以包括存储步骤305,其用于在切分步骤304之后和语音转文本步骤306之前将切分步骤304切分后形成的一个或多个音频文件存储至存储器。语音转文本步骤306所转录的一个或多个音频文件来自于该存储器。图4示出了包括根据本发明一个优选实施例的通话即时翻译系统的通话系统的优选实施例的示意图。该通话系统400包括用户通话所使用的电话401和电话402、公用电话交换网(PSTN) 403、专用交换机(IP PBX) 404和本发明所提供的通话即时翻译系统405。其中,用户通话所使用的电话401和电话402也可以替换为智能终端,相应地,PSTN 403也可以替换为互联网语音传输协议(VOIP)网络。如图4所示,通话的双方分别为用户I和用户2。其中,用户I所使用的语言为A,用户2所使用的语言为B。打电话的一方,例如,用户1,通过PSTN 403拨号呼叫用户2。IPPBX 404建立双方的呼叫连接。随后,用户I和用户2开始通话,其各自发出的语音经IPPBX 404进入通话即时翻译系统405,经翻译后的语音分别由IP PBX传送给相应的用户。下面具体描述通话系统400的工作流程。首先,建立用户I和用户2的通话连接。然后,用户I的A语言输入语音信号SI经由IP PBX 404传送到通话即时翻译系统405。随后,由通话 即时翻译系统405进行翻译,形成B语言表达的输出语音信号S4。最后,IP PBX 404检测到该信号S4,将其传送至用户2。本领域普通技术人员可以理解,上述过程的描述中,省略了 PSTN和IP PBX对语音信号的常规操作,以避免遮蔽本发明。这样,用户2便可以听到用自己的语言(即B语言)表达的用户I的语音。同理,用户2用B语言回应用户I的话时,用户I也可以听到A语言表达的用户2的语音。可选的,用户I和用户2除了可以听到用自己语言的对方语音,还可以听到未经翻译的语音。使用本发明提供的通话即时翻译系统和方法,语言不通的通话双方利用传统的公用电话交换网络或VOIP网络等即可实现实时的自由交流。本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。
权利要求
1.一种通话即时翻译系统,包括切分器、语音识别装置、翻译装置和语音合成装置,其中, 所述切分器用于连接到交换机并将输入语音信号切分为一个或多个音频文件; 所述语音识别装置与所述切分器相连,用于将所述一个或多个音频文件转录为源语言的文本; 所述翻译装置与所述语音识别装置相连,用于将所述源语言的文本翻译为目标语言的文本;以及 所述语音合成装置与所述翻译装置相连,用于将所述目标语言的文本转换为输出语音信号,并输出给所述交换机。
2.根据权利要求I所述的系统,其特征在于,所述系统还包括 存储器,其连接在所述切分器和所述语音识别装置之间; 其中,所述切分器还用于将所述一个或多个音频文件存储至所述存储器;并且 所述语音识别装置所转录的所述一个或多个音频文件来自于所述存储器。
3.根据权利要求I所述的系统,其特征在于,所述系统还包括 语言确定装置,其与所述切分器相连,用于确定通话双方使用的语言; 其中,所述通话双方使用的语言中的一种作为所述源语言,另一种作为所述目标语言。
4.根据权利要求I所述的系统,其特征在于,所述系统还包括 输入接口,用于从所述交换机接收所述输入语音信号;以及 输出接口,用于输出所述输出语音信号至所述交换机。
5.根据权利要求I所述的系统,其特征在于,所述切分器进一步包括 检测单元,用于检测所述输入语音信号中的静音部分;以及 分割单元,用于基于所检测的静音部分将所述输入语音信号切分为所述一个或多个音频文件。
6.根据权利要求5所述的系统,其特征在于,所述静音部分包括在O.6秒或O. 6秒以上的时间段内分贝值小于或等于噪声阈值的部分。
7.根据权利要求I所述的系统,其特征在于,所述系统还包括 自动增益控制器,其与所述切分器相连,用于并对所述输入语音信号进行增益控制。
8.根据权利要求7所述的系统,其特征在于,所述自动增益控制器进一步包括 放大单元,用于将分贝值小于设定值的所述输入语音信号放大至所述设定值;以及 缩小单元,用于将分贝值大于所述设定值的所述输入语音信号缩小至所述设定值。
9.根据权利要求I所述的系统,其特征在于,所述系统还包括 滤波器,其与所述切分器相连,用于对所述输入语音信号进行降噪处理。
10.根据权利要求9所述的系统,其特征在于,所述滤波器为维纳滤波器。
11.一种通话即时翻译方法,包括 将输入语音信号切分为一个或多个音频文件; 将所述一个或多个音频文件转录为源语言的文本; 将所述源语言的文本翻译为目标语言的文本;以及 将所述目标语言的文本转换为输出语音信号。
12.根据权利要求11所述的方法,其特征在于,所述切分后还包括将所述一个或多个音频文件存储至存储器;并且 所转录的所述一个或多个音频文件来自于所述存储器。
13.根据权利要求11所述的方法,其特征在于,所述切分前还包括 确定通话双方使用的语言; 其中,所述通话双方使用的语言中的一种作为所述源语言,另一种作为所述目标语言。
14.根据权利要求11所述的方法,其特征在于, 所述切分前还包括从交换机接收所述输入语音信号;以及 所述转换后还包括将所述输出语音信号输出至所述交换机。
15.根据权利要求11所述的方法,其特征在于,所述切分进一步包括 检测所述输入语音信号中的静音部分;以及 基于所检测的静音部分将所述输入语音信号切分为所述一个或多个音频文件。
16.根据权利要求15所述的方法,其特征在于,所述静音部分包括在O.6秒或O. 6秒以上的时间段内分贝值小于或等于噪声阈值的部分。
17.根据权利要求11所述的方法,其特征在于,所述切分前还包括对所述输入语音信号进行增益控制。
18.根据权利要求17所述的方法,其特征在于,所述增益控制进一步包括 将分贝值小于设定值的所述输入语音信号放大至所述设定值;以及 将分贝值大于所述设定值的所述输入语音信号缩小至所述设定值。
19.根据权利要求11所述的方法,其特征在于,所述切分前还包括对所述输入语音信号进行降噪处理。
20.根据权利要求19所述的方法,其特征在于,所述降噪处理进一步包括对所述输入语音信号进行维纳滤波。
全文摘要
本发明公开了一种通话即时翻译系统和方法。该系统包括切分器、语音识别装置、翻译装置和语音合成装置,其中,所述切分器用于连接到交换机并将输入语音信号切分为一个或多个音频文件;所述语音识别装置与所述切分器相连,用于将所述一个或多个音频文件转录为源语言的文本;所述翻译装置与所述语音识别装置相连,用于将所述源语言的文本翻译为目标语言的文本;以及所述语音合成装置与所述翻译装置相连,用于将所述目标语言的文本转换为输出语音信号,并输出给所述交换机。上述通话即时翻译系统和方法能够使得语言不通的通话双方可以实现实时的自由交流。
文档编号G10L15/26GK102903361SQ20121039097
公开日2013年1月30日 申请日期2012年10月15日 优先权日2012年10月15日
发明者钟实, 刘鹤, 袁首鹏 申请人:Itp创新科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1