一种基于耳机的实时语音翻译方法及装置与流程

文档序号：16932261发布日期：2019-02-22 20:22阅读：535来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及语音交互技术领域，尤其涉及一种基于耳机的实时语音翻译方法及装置。

背景技术：

目前的翻译软件，特别是应用于手机等智能终端中的翻译软件有很多，比如谷歌翻译、有道翻译官、百度翻译等等。但是，这些翻译软件大多是面向文字的翻译。对于语音交流的场景，比如在国外旅游需要和外国人交流时，使用现有的翻译软件进行语言交流将十分不便。

技术实现要素：

鉴于上述问题，本发明提出了一种基于耳机的实时语音翻译方法及装置，主要目的在于利用耳机实现对输入语音的实时翻译，提高语言交流的沟通效率。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种基于耳机的实时语音翻译方法，具体包括：

根据耳机发送的启动指令在控制平台中启动实时翻译服务，所述控制平台用于监控所述耳机的操作；

所述实时翻译服务识别到耳机发送的翻译指令时获取所述耳机采集的语音信息；

根据预置的目标翻译语种实时翻译所述语音信息，得到翻译语音；

将所述翻译语音发送至所述耳机进行播放。

优先的，所述方法还包括：

在启动实时翻译服务后，向耳机发送提示语音，用于确认用户是否需要更改预置的目标翻译语种；

根据耳机反馈的语音设置指令确定目标翻译语种，所述语音设置指令包括保持当前设置的语音指令或设置新目标翻译语种的语音指令。

优先的，在所述实时翻译服务识别到耳机发送的翻译指令时获取所述耳机采集的语音信息之前，所述方法还包括：

向耳机发送采集语音的语种设置请求，以便用户设置采集语音的语种；

根据耳机反馈的语种设置指令确定采集语音的语种。

优先的，所述根据预置的目标翻译语种实时翻译所述语音信息包括：

根据采集的语音信息的声学特征识别所述语音信息的语种；

由所述实时翻译服务根据所述语音信息的语种与所述预置的目标翻译语种将所述语音信息翻译为翻译语音。

优先的，所述实时翻译服务识别到耳机发送的翻译指令时获取所述耳机采集的语音信息包括：

根据所述翻译指令录制从所述耳机发送的语音；

对所述语音进行语音降噪处理，生成待翻译的语音信息。

另一方面，本发明提供一种基于耳机的实时语音翻译装置，具体包括：

启动单元，用于根据耳机发送的启动指令在控制平台中启动实时翻译服务，所述控制平台用于监控所述耳机的操作；

获取单元，用于由所述启动单元启动的实时翻译服务在识别到耳机发送的翻译指令时获取所述耳机采集的语音信息；

翻译单元，用于根据预置的目标翻译语种实时翻译所述获取单元获取的语音信息，得到翻译语音；

播放单元，用于将所述翻译单元翻译的翻译语音发送至所述耳机进行播放。

优选的，所述装置还包括：

第一发送单元，用于在启动单元启动实时翻译服务后，向耳机发送提示语音，用于确认用户是否需要更改预置的目标翻译语种；

第一确定单元，用于根据耳机反馈的语音设置指令确定目标翻译语种，所述语音设置指令包括保持当前设置的语音指令或设置新目标翻译语种的语音指令。

优选的，所述装置还包括：

第二发送单元，用于在所述获取单元执行所述实时翻译服务识别到耳机发送的翻译指令时获取所述耳机采集的语音信息之前，向耳机发送采集语音的语种设置请求，以便用户设置采集语音的语种；

第二确定单元，用于根据耳机反馈的语种设置指令确定采集语音的语种。

优选的，所述翻译单元包括：

语种识别模块，用于根据采集的语音信息的声学特征识别所述语音信息的语种；

翻译模块，用于由所述实时翻译服务根据所述语音信息的语种与所述预置的目标翻译语种将所述语音信息翻译为翻译语音。

优选的，所述获取单元包括：

采集模块，用于根据所述翻译指令录制从所述耳机发送的语音；

降噪处理模块，用于对所述采集模块录制的语音进行语音降噪处理，生成待翻译的语音信息。

另一方面，本发明提供一种存储介质，所述存储介质用于存储的计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的基于耳机的实时语音翻译方法。

另一方面，本发明提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于耳机的实时语音翻译方法。

借由上述技术方案，本发明提供的一种基于耳机的实时语音翻译方法及装置，可以让用户通过耳机启动实时翻译服务，并且输入需要翻译的语音信息，经过实时翻译服务的翻译后将翻译语音反馈到耳机中进行播放。相比现有的翻译软件，本发明实施例所执行的翻译过程可以由用户通过纯语音控制实现，解放用户的双手。特别是在于外国人交流的场景下，用户能够通过耳机实时地了解对方所表述的语义，不需要再对智能设备中的翻译软件进行繁琐的触控操作，提高了语音翻译的效率，帮助用户提升语言交流的沟通效率，从而提高用户使用语音交互的应用体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种基于耳机的实时语音翻译方法的流程图；

图2示出了本发明实施例提出的另一种基于耳机的实时语音翻译方法的流程图；

图3示出了本发明实施例提出的一种基于耳机的实时语音翻译装置的组成框图；

图4示出了本发明实施例提出的另一种基于耳机的实时语音翻译装置的组成框图；

图5示出了本发明一个实施例提供的一种智能终端的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于耳机的实时语音翻译方法，该方法应用于智能终端，特别是用于连接耳机的智能终端，为用户使用实时翻译服务提供一种高效的语音交互控制方式。本方法具体步骤如图1所示，该方法包括：

步骤101、根据耳机发送的启动指令在控制平台中启动实时翻译服务。

其中，控制平台安装在连接该耳机的智能终端中，用于监控该耳机的操作，该耳机不限定是有线耳机或者是无线耳机。在本发明实施例中，用户通过耳机下达语音指令，即启动实时翻译的语音指令，由运行在智能终端中的控制平台获取该语音指令，并基于该语音指令调用实时翻译服务。本实施例中的实时翻译服务不限定是控制平台内置的语音翻译服务，或者是由控制平台通过指定的接口调用外部的实时语音翻译服务。

此外，该控制平台还可以通过预置的接口调用第三方的应用程序，即用户通过预置的语音启动指令可以启动智能终端中的第三方应用程序，如此，用户完全可以通过耳机发送语音指令来控制智能终端中的应用与服务。

步骤102、实时翻译服务在识别到耳机发送的翻译指令时获取由耳机采集的语音信息。

其中，耳机发送的翻译指令是在启动实时翻译服务后，由用户通过耳机所下达的一条语音指令。实时翻译服务在接收到该翻译指令后，开始获取所要翻译的语音信息，在本步骤中，该语音信息采集自耳机麦克风所获的音频信息。

需要说明的是，实时翻译服务在启动时需要设置翻译语种，以便更高效对语音进行翻译，其中，对翻译语种的设置包括输入语音(待翻译语音)和输出语音(翻译后的语音)的语种。对于翻译语种的具体设置方式，本发明实施例中不限定是由用户预先设置或者是实时翻译服务启动后有用户实时进行设置。

步骤103、根据预置的目标翻译语种实时翻译语音信息，得到翻译语音。

其中，预置的目标翻译语种就是由用户预先设置或实时设置的输出语音的语种。对于实时翻译语音信息的具体方式在本步骤中与已有的语音翻译的实现原理相同，都是基于语音识别与机器翻译的技术，将所采集的语音信息识别为该语种的文本信息，再将该文本信翻译为目标翻译语种的翻译文本，最后将该翻译文本转换为翻译语音并输出。这其中的语音识别与机器翻译都需要通过机器学习模型进行大量训练，以确保识别结果与翻译结果的准确性。

步骤104、将翻译语音发送至耳机进行播放。

需要说明的是，在向耳机发送翻译语音时，实时翻译服务同时也可以通过耳机的麦克风采集需要翻译的语音信息。

通过上述实例可见，本发明实施例所提供的一种基于耳机的实时语音翻译方法，在进行语音信息的实时翻译过程中，用户可以在不借助触控操作的情况下，通过耳机进行语音控制，启动实时翻译服务，输入待翻译语音，接收并输出实时翻译服务所反馈的翻译语音，甚至是对翻译的语种也可以通过语音指令实现设置。让用户通过语音交互就可实现实时云翻译的全流程操作。本发明实施例所提供的对语音翻译的操作方式，特别适合于用户不便触控操作的应用场景，如面对面的语言交流时，本发明实施例可以让用户更加便捷地启动实时翻译服务并获取到对方所表达的语义，提高不同语言之间的沟通效率。

基于上述实施例中对本发明实施例所提出的基于耳机的实时语音翻译方法的实现方式可以看出，用户可通过耳机实现全语音交互的操作，对于在该语音翻译的过程中，用户根据具体需要还可以对翻译的语种进行调整，其具体的方式如图2所示，包括：

步骤201、根据耳机发送的启动指令在控制平台中启动实时翻译服务。

本步骤中的启动指令可以是用户自定义设置的启动实时翻译服务的语音指令，如“打开翻译”、“启动语音翻译”等。由控制平台识别该启动指令，并据此启动实时翻译服务。

步骤202、确定实时翻译服务的输入语音与输出语音的语种。

实时翻译服务在启动时，会检测其初始化状态是否存在预置的语种参数，该语种参数包括输入语音的语种以及输出语音的语种。

若存在预置的语种参数，即用户已经设置后输入语音和输出语音的语种，此时，可以继续执行语音翻译操作，也可以向用户发送提示语音(通过耳机播放给用户)，告知用户可以在此时对预先设置的语种参数进行修改。用户则可以通过语音指令确认当前的语种参数(如“确定”，“继续”等语音指令)，从而继续执行语音翻译操作；也可以通过语音设置指令更改或重新设置语种参数(如“我要将法语翻译为汉语”，“输入法语，输出日语”等)，其中，用户也可以单独对输入语音或输出语音的语种进行设置(如“输出英语”、“输出俄语”等)，一般地，实时翻译服务初始化后，输出语音的语种会存在预置语种，因此，还需要用户通过语音指令的方式设置输入语音的语种。

若不存在预置的语种参数，就需要通过语音交互，由用户完成对输入语音和输出语音的语种参数设置。其具体的语音交互流程包括：由实时翻译服务向耳机(用户)发出语种设置请求，该语种设置请求可以是针对输入语音或输出语音的，也可以是要求用户两者都设置；之后，由用户根据实际需求反馈语音指令，该语音指令包括上述设置语种参数所对应的语音指令。需要说明的是，该语音指令是由实时翻译服务进行识别并具体执行设置语种参数的。

可见，本步骤的执行可以通过与用户的语音交互实现，无需用户手动触控操作。

步骤203、实时翻译服务在识别到耳机发送的翻译指令时获取由耳机采集的语音信息。

在本发明实施例的一个应用场景下，通过耳机所输入的待翻译的语音信息不是用户发出的，而是与用户进行交流的其他人，此时，由于发声者距离耳机较远，会导致耳机所采集的语音信息中含有噪声。为此，本步骤在采集语音信息时，就需要对其进行降噪处理，具体过程包括：

首先，实时翻译服务根据翻译指令录制从耳机发送的语音。

之后，对该语音进行语音降噪处理，生成待翻译的语音信息。其中，本步骤中所处理的噪声主要为加性噪声，其包括周期性噪声、冲激噪声和宽带噪声。对于这类噪声常用的降噪方法包括频谱减法、线性滤波发、小波变换法、子空间语音降噪法、自适应噪声抵消发等，对于具体的降噪处理方式，本发明实施例不做限定。

经过降噪处理的语音信息在后续识别、翻译过程中能够得到更为准确的翻译结果。

步骤204、根据预置的目标翻译语种实时翻译语音信息，得到翻译语音。

在预置的目标翻译语种(输出语音的语种)和采集的语音信息语种(输入语音的语种)都设置完成后，基于实时翻译服务对所采集的语音信息进行翻译，得到的翻译语音，其过程与图1所示的步骤103内容相同，此处不再赘述。

而在本发明的另一实施例中，当用户未对输入语音的语种进行设置时，本发明实施例还可以根据所采集的语音信息进行自动分析，以确定该语音信息的语种。对分析语种的具体方式在本实施例中，可以根据采集的语音信息的声学特征识别该语音信息的语种。基于声学特征识别的方法是根据不同语种的频谱差别作为语种识别的依据，该方法经常使用高斯混合模型训练语种模型，模型的参数估计一般采用最大似然准则，参数调整算法一般采用期望最大化算法。

此外，用于识别语种的方式还包括基于韵律特征的方法、基于单词层次的方法、基于音素识别的方法等等，对此，本发明实施例不限定语种识别的具体方式。

通过对语音信息的自动识别，在用户不进行预先设置的情况下，本发明实施例仍然可以实现对语音信息的有效翻译，提高了语音翻译的适用性。

步骤205、将翻译语音发送至耳机进行播放。

通过以上图2所示的步骤说明，详细记载了用户通过耳机与智能终端的语音交互过程，通过语音交互启动实时翻译服务，并利用对应的语音指令完成对语种参数的设置，进而实现对语音信息的准确翻译，最后再通过耳机播放给用户收听。该过程中，用户无需触控智能终端，就可以实现语音翻译的所有操作。在实际语言交流的场景下，用户的双手可以去执行其他工作，并且，通过耳机可以将输入的语音信息实时地翻译成翻译语音反馈给佩戴耳机的用户，从而提高了语言沟通的效率。

进一步的，作为对上述图1与图2所示方法的实现，本发明实施例提供了一种基于耳机的实时语音翻译装置，该装置主要应用于可连接耳机的智能终端，通过耳机实现对输入语音的实时翻译，更为用户提供了一种高效的语音交互控制方式。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示，具体包括：

启动单元31，用于根据耳机发送的启动指令在控制平台中启动实时翻译服务，所述控制平台用于监控所述耳机的操作；

获取单元32，用于由所述启动单元31启动的实时翻译服务在识别到耳机发送的翻译指令时获取所述耳机采集的语音信息；

翻译单元33，用于根据预置的目标翻译语种实时翻译所述获取单元32获取的语音信息，得到翻译语音；

播放单元34，用于将所述翻译单元33翻译的翻译语音发送至所述耳机进行播放。

进一步的，如图4所示，所述装置还包括：

第一发送单元35，用于在启动单元31启动实时翻译服务后，向耳机发送提示语音，用于确认用户是否需要更改预置的目标翻译语种；

第一确定单元36，用于根据耳机反馈的语音设置指令确定目标翻译语种，所述语音设置指令包括保持当前设置的语音指令或设置新目标翻译语种的语音指令。

在确定目标翻译语种后，由获取单元32采集待翻译的语音信息。

进一步的，如图4所示，所述装置还包括：

第二发送单元37，用于在启动单元31启动实时翻译服务后，向耳机发送采集语音的语种设置请求，以便用户设置采集语音的语种；

第二确定单元38，用于根据耳机反馈所述第二发送单元37发送的语种设置请求所对应得到的语种设置指令确定采集语音的语种。进而，所述获取单元32执行所述实时翻译服务识别到耳机发送的翻译指令时获取所述耳机采集的语音信息。

进一步的，如图4所示，所述翻译单元33包括：

语种识别模块331，用于根据采集的语音信息的声学特征识别所述语音信息的语种；

翻译模块332，用于由所述实时翻译服务根据所述语种识别模块331识别的语音信息的语种与所述预置的目标翻译语种将所述语音信息翻译为翻译语音。

进一步的，如图4所示，所述获取单元32包括：

采集模块321，用于根据所述翻译指令录制从所述耳机发送的语音；

降噪处理模块322，用于对所述采集模块321录制的语音进行语音降噪处理，生成待翻译的语音信息。

综上所述，本发明实施例所采用的基于耳机的实时语音翻译方法及装置，为用户提供了一种以语音交互方式实现的实时语音翻译，用户利用与智能终端连接的耳机启动实时翻译服务，并且还可以通过对应的语音指令设置实时翻译服务的翻译语种参数，之后，通过耳机采集待翻译的语音信息，根据语种参数执行语音翻译，最终将翻译语音通过耳机播放给用户。本发明实施例所提供的实时语音翻译方法及装置应用在用户手动操作不便的场景中时，可以让用户快速、高效的完成语音翻译的操作，提高语音翻译的效率。同时，在采集待翻译的语音信息时，还对语音信息进行了降噪处理，以此提高语音翻译的准确性。

进一步的，本发明实施例还提供了一种存储介质，该存储介质用于存储的计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的基于耳机的实时语音翻译方法。

另外，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于耳机的实时语音翻译方法。

根据所述所提出的存储介质和处理器，本发明实施例中还提供了一种智能终端，该智能终端中运行有控制平台，该控制平台用于监控连接于该智能终端的耳机的操作。该智能终端的结构如图5所示，包括处理器41、存储介质42和总线43；所述处理器41、所述存储介质42通过所述总线43完成相互间的通信；所述处理器41用于调用所述存储介质42中的程序指令，以执行上述实施例中所述的基于耳机的实时语音翻译方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马群立;张曈;曾森
技术所有人：出门问问信息科技有限公司
我是此专利的发明人

上一篇：一种新式多功能桌子的制作方法
上一篇：一种带有指示装置的培养瓶的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。