一种多语言同声互译的方法和设备与流程

文档序号:16898332发布日期:2019-02-19 17:41阅读:259来源:国知局
一种多语言同声互译的方法和设备与流程

本发明涉及多语言的语音识别和文本语音处理领域,特别是一种多多语言同声互译方法和设备。



背景技术:

目前的多语言同声互译技术已经发展为利用多处理器集群的多语言同声互译方式,其中,每个处理器可能利用多个中央处理单元(cpu)采用多线程的方式进行多语言同声互译。其中,每个处理器以一个语音文件为单位来进行多语言同声互译。与该处理器相对应的多个cpu虽然利用多线程的方式来进行数据处理,但是对于一个语音文件而言,数据处理是由多个cpu串行进行的。因此,识别效率受限于处理器的多个cpu的多线程处理速度。

现有的多语言同声互译设备识别速度慢、效率低、开发难度大,并且需要芯片厂商的大力支持才能完成。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种至少部分地解决上述问题的多语言同声互译的方法和设备。

根据本发明一个方面,提供了一种多语言同声互译方法,其中,包括:

对拾音装置生成的语音文件进行语种语境的识别;

将识别语种语境后的语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位,以分别识别计算和翻译;

将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及

将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。

上述的方法,其中,对拾音装置生成的语音文件进行语种语境的识别进一步包括:

根据所述拾音装置生成的语音文件的语音选择对话语种;

根据所述对话语种和第一个所述语音文件选择对话语境;以及

自动反复确认所述拾音装置生成的语音文件的所述对话语种和对话语境。

上述的方法,其中,将经识别的所述语音文件单位重组为翻译后的文本文件之后,还包括:

检查所述翻译后的文本文件的准确率和/或语音质量评估值,对生成的所述翻译后的文本文件进行语法和语音音质校正。

上述的方法,其中,所述语音质量评估值包括峰值信噪比和结构相似性指标。

上述的方法,其中,将多个所述语音文件单位分发到多个处理器之前,检测所述多个处理器的计算能力,并根据所述多个处理器的计算能力将多个所述语音文件单位分发到所述多个处理器,进一步包括:

检测所述多个处理器的数目;

检测所述多个处理器中的核心的数目;和/或

检测所述多个处理器中的核心的主频。

上述的方法,其中,在由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译之后,所述方法进一步包括:

检查所述经识别和翻译的所述语音文件单位的结果;以及

将识别和翻译结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器,以进行重新识别和翻译。

上述的方法,其中,在将识别和翻译结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器之前,所述方法进一步包括:

根据识别结果,调整所述多个处理器中与所述识别结果不符合预定条件的所述语音文件单位对应的所述处理器的识别参数;

将所述识别结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器中的与之对应的所述处理器。

上述的方法,其中,在检查所述经识别和翻译的所述语音文件单位的结果之后,所述方法进一步包括:

释放所述多个处理器中与识别结果符合预定条件的所述语音文件单位对应的处理器。

上述的方法,其中,对拾音装置生成的语音文件进行语种语境的识别进一步包括:

对所述语音文件的语音内容进行个性信息变化检测,以识别所述对话语境的切换。

根据本发明另一方面,还提供了一种多语言同声互译设备,其中,包括拾音装置、切分装置、分发翻译装置和重组播音装置,

所述拾音装置用于对语音进行识别并生成的语音文件;

所述切分装置用于对所述语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位;

所述分发翻译装置用于将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及

所述重组播音装置用于将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。

上述多语言同声互译方法和设备充分利用了多个处理器分布式计算的优势,有效利用了每个处理器的计算能力,识别速度快,准确率高。由此,真正实现了多语言同声互译。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的多语言同声互译方法的流程图;

图2示出了根据本发明另一个实施例的多语言同声互译方法的流程图;

图3示出了根据本发明一个实施例的多语言同声互译设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

参见图1和图2,图1示出了根据本发明一个实施例的多语言同声互译方法的流程图,图2示出了根据本发明另一个实施例的多语言同声互译方法的流程图。本发明对语音文件进行识别和翻译处理,以获得语音识别和翻译。如图1所示,该多语言同声互译方法,包括如下步骤:

步骤s100、对拾音装置10生成的语音文件进行语种语境的识别,采用语音识别和翻译技术来对语音文件进行识别和翻译处理。将数据量巨大的语音文件切分成一个个语音识别和翻译,以分别识别处理。在后续步骤中,以一个语音文件的识别和翻译为单位进行多语言同声互译;该步骤s100可进一步包括:

步骤s110、根据所述拾音装置10生成的语音文件的语音选择对话语种;

步骤s120、根据所述对话语种和第一个所述语音文件选择对话语境;以及

步骤s130、自动反复确认所述拾音装置10生成的语音文件的所述对话语种和对话语境。

其中,对拾音装置10生成的语音文件进行语种语境的识别还可进一步包括:

步骤s140、对所述语音文件的语音内容进行个性信息变化检测,以识别所述对话语境的切换。

具体地,首先可以对语音文件进行分析,以确定其类型。例如,根据语音标准查找语音文件中的数据,并根据所找到的数据确定多语言的类型。然后,可以根据多语言的类型,读取语音文件中的数据,将所述语音文件进行语音识别和翻译。可选根据语音文件的多语言类型进行识别和翻译处理。在语音编码序列中,设备首先对听到的语音文件进行文字识别,然后对文本文件进行翻译,最后将翻译后的文本文件以语音文件的方式播出。可选根据会话语境切换多语言类型,然后对语音文件进行识别和翻译处理。

与文本数据不同,语音数据不仅包括时间信息还包括个性信息。可以对语音内容进行个性信息变化检测。如果发生了变化,那么可以据此认为语音语境发生了切换。即可根据语音语境切换,对语音文件进行识别和翻译。也就是说,不同的语音识别和翻译包含不同的个性信息。可以通过对语音文件进行特征检测来识别语境切换,例如熟人、陌生人、男女等特征。

根据语音文件的语境切换对语音文件进行识别和翻译处理特别适合于语境切换频繁的语音文件。语境的切换意味着一个适于新对话序列的开始,保证了后续识别操作的顺利进行。

步骤s200、将识别语种语境后的语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位,以分别识别计算和翻译;

步骤s300、将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;

在步骤s300中,将多个所述语音文件单位分发到多个处理器,以由多个处理器对分到的语音文件单位进行识别和翻译。在此,可以按照语音识别和翻译的顺序将其依次分发给各个处理器。处理器可以包括各种计算单元,处理器可以是多核的。处理器可以存在很多个。执行多语言同声互译的分布式计算的处理器越多,则多语言同声互译设备的计算能力越强,语音文件的识别速度越快。

多个处理器执行分布式识别计算。每个处理器执行的都是对语音文件单位的识别操作,从这个角度而言,每个处理器执行的计算是相同的。只是各个处理器所操作的对象不同,每个处理器针对不同的语音文件单位进行识别操作。每个处理器只需对自己所分到的语音文件单位进行识别处理,而无需考虑语音文件的其他语音识别和翻译。针对所分到的语音文件单位,多个处理器可以以并行的方式进行识别处理。换言之,多个处理器可以同时对各自分到的语音文件单位进行识别,彼此互不干扰和影响。由此,有效地利用了各个处理器的计算能力。

可以理解,识别处理可以采用任何合适的识别算法,本发明对此不做限定。

步骤s400、将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出,其中,将经识别的所述语音文件单位重组为翻译后的文本文件之后,还包括:

步骤s410、检查所述翻译后的文本文件的准确率和/或语音质量评估值,对生成的所述翻译后的文本文件进行语法和语音音质校正,其中,所述语音质量评估值包括峰值信噪比和结构相似性指标;

步骤s420、对校正后的语音文件重新进行识别和翻译处理,生成该多语言的校正后文本文件。

在上述步骤中,可根据语音数据文件的个性信息重组为翻译后的文本文件。可以理解,多个语音文件单位的序号表明了多个语音文件单位的个性信息。可选地,根据多个语音文件单位的序号即可将经识别的多个语音文件单位重组在一起,形成经识别的语音文件。

上述多语言同声互译方法充分利用了多个处理器执行分布式计算,真正实现了多语言的同声互译。因为处理器能够对所分到的多个语音文件单位并行识别,所以有效利用了每个处理器的计算能力,识别速度快,准确率高。

在本发明另一个实施例中,在步骤s300中,将多个所述语音文件单位分发到多个处理器之前,还包括:

步骤s310、检测所述多个处理器的计算能力,并根据所述多个处理器的计算能力将多个所述语音文件单位分发到所述多个处理器,可以在硬件上电时,进行硬件设备自检,从而检测多个处理器的计算能力。由此,可以评估计算资源的可用性。

可选地,检测多个处理器的计算能力并进一步包括:

步骤s311、检测所述多个处理器的数目;

步骤s312、检测所述多个处理器中的核心的数目;和/或

步骤s313、检测所述多个处理器中的核心的主频。

处理器的数目越多,处理器中的核心数越多,核心的主频越高,则处理器的计算能力越强。处理器的数目显著影响计算能力。可选地,根据处理器的数目将语音文件单位分发到多个处理器。假如处理器的数目较少,而语音文件单位的数目较多,那么可以为每个处理器分多个语音文件单位。

在本发明的一些语境中,可以对很多个语音文件同时进行多语言同声互译。这些语音文件的语种可以是不同的,例如英语、德语、法语等。可选地,将主要对话语种的语音分发给计算能力较高的处理器,例如其中核心较多、主频较高的处理器。而将其它语种的语音分发给计算能力较低的处理器,例如其中核心较少、主频较低的处理器。

在本发明的另一些语境中,可以将一个语音文件翻译为不同语种的语音文件。例如将一个英语语音文件分别翻译为汉语、西班牙语两种语音文件。通常,前者需要较多计算量,后者需要较少计算量。可以将前者分发给计算能力较高的处理器,而将后者分发给计算能力较低的处理器。

检测处理器的计算能力并且根据该计算能力分发语音文件单位的处理任务,可以有效利用每个处理器的计算能力,让每一个处理器物尽其用。并且,由于处理器能够能者多劳,所以能够尽可能同时完成各自的处理任务,避免因为短板效应导致个别处理器等待的情况,提高了多语言同声互译设备的识别速度。

其中,在步骤s300中,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译之后,所述方法进一步包括:

步骤s320、检查所述经识别和翻译的所述语音文件单位的结果,结果可以包括很多方面,例如经识别的语音文件单位的质量和准确率矫正评估值。翻译和识别结果能够作为识别操作质量评估的依据。如果检查到语音识别和翻译的识别结果不符合预定条件,那么可以将这次识别获得的经识别的语音文件丢弃。

语音文件的识别前后,期望语音识别和翻译的语音音质保持不变。假设识别后,语音文件单位的语音音质和准确率发生了变化,那么很有可能是识别发生了错误。检查语音识别和翻译的语音音质和准确率能够一定程度上保证识别操作的正确性。

语音识别和翻译的语音质量评估值是指能够表征语音质量的参数,例如峰值信噪比(psnr)和结构相似性指标(ssim)等。语音质量评估值有效地表征了识别操作完成后所获得的语音文件的质量。识别的目的是校正语音文件的语法规范,检查语音质量评估值有效保证了识别操作对语音质量没有过多的不利影响,提高了用户体验。

步骤s350、根据识别结果,将识别和翻译结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器,以进行重新识别和翻译。

其中,在步骤s350将识别和翻译结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器之前,所述方法进一步包括:

步骤s340、根据识别结果,调整所述多个处理器中与所述识别结果不符合预定条件的所述语音文件单位对应的所述处理器的识别参数,以在再次执行识别操作时,生成识别结果理想的语音识别和翻译;

并在步骤s350中,将所述识别结果不符合预定条件的原始所述语音文件单位(未经识别的)再次分发到所述多个处理器中的与之对应的(先前所分发的)所述处理器,以进行重新识别。因为处理器的识别参数已经根据上次识别结果进行调整,所以再次识别时能够获得理想的语音文件翻译。通过对识别结果进行检测并根据识别结果调整处理器以重新识别语音识别和翻译,保证了语音文件的识别质量。

其中,在步骤s320检查所述经识别和翻译的所述语音文件单位的结果之后,所述方法进一步包括:

步骤s330、释放所述多个处理器中与识别结果符合预定条件的所述语音文件单位对应的处理器。及时释放处理器,避免无谓占用计算资源。当存在新的语音文件待识别时,即可利用已经释放的处理器。从而,使整个系统的资源被更有效的利用。

可以理解,上述步骤s340并不是必须的。如果步骤s340不存在,那么步骤s350中,可以将识别结果不符合预定条件的语音识别和翻译再次分别分发到多个处理器中的任意处理器,例如非与之对应的处理器。根据本发明一个示例,识别前后语音文件的语音发生了改变,那么可以判断出识别过程发生了问题,可以直接将原始的语音文件单元重新分发给多个处理器中的任意处理器来重新识别。这样可以避免因为处理器原因导致的识别结果不理想,也能够在一定程度上保证语音文件的识别质量。

本领域普通技术人员可以理解,上述多语言同声互译方法仅为示例,并不够构成对本发明的限制。例如,虽然在多语言同声互译方法步骤s310中,步骤s311先于步骤s312执行,但其执行顺序并非受此限制。步骤s312可以先于步骤s311执行。步骤s311还可以与步骤s312一起执行,以节约时间成本。

参见图3,图3示出了根据本发明一个实施例的多语言同声互译设备的示意性框图。本发明的多语言同声互译设备,包括拾音装置10、切分装置20、分发翻译装置30和重组播音装置40,其中,所述拾音装置10用于对语音进行识别并生成的语音文件,拾音装置10可根据语音文件或者语音语境切换对语音文件进行识别处理;所述切分装置20用于对所述语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位;所述分发翻译装置30用于将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及所述重组播音装置40用于将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。本发明的多语言同声互译设备可集成于如眼镜、帽子等可穿戴设备,或专用设备等。

多个处理器可以是数字信号处理器。多个处理器可以分别集成在多个板卡上。每个板卡上集成有至少一个处理器。板卡包括网络接口,用于与多语言同声互译设备通信。

该多语言同声互译设备还可以包括处理器检测装置(图未示)。处理器检测装置用于检测所述多个处理器的计算能力。处理器检测装置可以配置为检测多个处理器的数目、多个处理器中的核心的数目和/或多个处理器中的核心的主频。分发翻译装置30根据多个处理器各自的计算能力将多个语音文件单位分发到多个处理器。

该多语言同声互译设备还可以包括结果检查装置和重发装置(图未示)。结果检查装置用于检查经处理器识别的语音文件的识别结果。识别结果包括以下各项中的至少一项:经识别的语音文件的语音帧数、大小和/或语音质量评估值。重发装置用于将识别结果不符合预定条件的原始语音文件再次分别分发到多个处理器,以进行重新识别。

该多语言同声互译设备还可以包括参数调整装置(图未示)。参数调整装置用于根据结果检查装置所获得的识别结果,调整多个处理器中的、与识别结果不符合预定条件的语音识别和翻译对应的处理器的识别参数。对于包括参数调整装置的情况,重发装置用于将识别结果不符合预定条件的语音识别和翻译再次分别分发到多个处理器中的、与该语音识别和翻译对应的处理器。

该多语言同声互译设备还可以包括释放装置(图未示)。释放装置用于释放多个处理器中的、与识别结果符合预定条件的语音识别和翻译对应的处理器。

本发明充分利用了多个处理器分布式计算的优势,有效利用了每个处理器的计算能力,识别速度快,准确率高。由此,真正实现了多语言同声互译。

本领域普通技术人员通过阅读上文关于该多语言同声互译方法的详细描述,能够理解上述该多语言同声互译设备的结构、实现以及优点,因此这里不再赘述。

在此提供的方法和设备不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用设备也可以与基于在此的示教一起使用。根据上面的描述,构造这类设备所要求的结构是显而易见的。此外,本发明也不针对任何特定编程多语言。应当明白,可以利用各种编程多语言实现在此描述的本发明的内容,并且上面对特定多语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域技术人员可以理解,除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者装置的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的多语言同声互译设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1