一种语音信息的处理方法及装置与流程

文档序号：12121027阅读：164来源：国知局

本发明涉及计算机技术领域，尤其涉及一种语音信息的处理方法及装置。

背景技术：

随着世界经济的快速发展，使用不同语言的人们之间的交流越来越多，在双人对话场景中，若对话双方均不懂对方的语言，往往需要借助翻译人员对双方的交谈内容进行翻译，以实现两人的沟通。这种采用翻译人员进行翻译的方式虽然可以较准确的传达双方交谈内容，但是费用较高。

为实现低成本沟通，目前更倾向于借助翻译软件翻译，也即，在对话过程中，通过麦克风采集用户的对话内容，并经由翻译软件对该对话内容进行分析，之后利用用户指定的翻译语种对分析出的对话内容进行翻译，并将翻译后的数据通过语音播放，实现两人的沟通。但是，这种沟通方式存在一个极大的缺陷：每次采集完语音之后，用户都要停下来手动选择所需的翻译语言，导致对话操作繁琐，对话效率低。

技术实现要素：

本发明的目的在于提供一种语音信息的处理方法及装置，以解决现有语音翻译方法操作繁琐、对话效率低的技术问题。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种语音信息的处理方法，其包括：

获取声源的语音信息和目标位置信息；

根据所述目标位置信息确定目标翻译策略；

利用所述目标翻译策略对所述语音信息进行翻译，得到翻译信息；

输出所述翻译信息。

为解决上述技术问题，本发明实施例还提供以下技术方案：

一种语音信息的处理装置，其包括：

获取模块，用于获取声源的语音信息和目标位置信息；

确定模块，用于根据所述目标位置信息确定目标翻译策略；

翻译模块，用于利用所述目标翻译策略对所述语音信息进行翻译，得到翻译信息；

输出模块，用于输出所述翻译信息。

本发明所述的语音信息的处理方法及装置，通过获取声源的语音信息和目标位置信息，并根据目标位置信息确定目标翻译策略，之后，利用该目标翻译策略对语音信息进行翻译，得到翻译信息，并输出该翻译信息，从而无需用户反复输入翻译方式即可实现翻译操作，操作简单，对话效率高。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1a是本发明实施例提供的语音信息的处理系统的场景示意图。

图1b为本发明实施例提供的语音信息的处理方法的流程示意图。

图2a为本发明实施例提供的语音信息的处理方法的流程示意图。

图2b为本发明实施例提供的双麦克风采集过程示意图。

图3a为本发明实施例提供的语音信息的处理装置的结构示意图。

图3b为本发明实施例提供的语音信息的另一处理装置的结构示意图。

图4为本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音信息的处理方法、装置及系统。

请参阅图1a，该语音信息的处理系统可以包括本发明实施例所提供的任一种语音信息的处理装置，该语音信息的处理装置具体可以集成在终端中，该终端可以是手机、平板电脑或者其它具有翻译功能的设备。

其中，终端可以获取声源的语音信息和目标位置信息，并根据目标位置信息确定目标翻译策略，之后，利用该目标翻译策略对语音信息进行翻译，得到翻译信息，并输出该翻译信息。

其中，该声源可以包括人或者可发声物体，比如可以为视频通话过程中的语音播放设备。该目标位置信息可以指声源与终端的相对位置，主要用于辨别不同的说话对象。该目标翻译策略可以根据实际需求而定，其通常包括待翻译的初始语言和最终翻译成的目标语言，比如若该目标翻译策略为“将中文翻译成英文”，则初始语言为中文，目标语言为英文。当对话双方P₁和P₂位于终端两边进行对话时，可以根据说话对象相对于终端的位置信息来判断当前说话者是谁，从而选择合适的目标翻译策略进行翻译，并且，可以进一步将翻译出的内容通过喇叭播放出来，以便对话双方P₁和P₂可以听到。

以下将分别进行详细说明。需说明的是，以下实施例的序号不作为实施例优先顺序的限定。

第一实施例

本实施例将从语音信息的处理装置的角度进行描述，该语音信息的处理装置可以集成在终端中。

请参阅图1b，图1b具体描述了本发明第一实施例提供的语音信息的处理方法，其可以包括：

S101、获取声源的语音信息和目标位置信息。

本实施例中，该声源可以包括人或者可发声物体，比如可以为视频通话过程中的语音播放设备。该语音信息可以包括语音内容、音量和音色等信息。该目标位置信息可以指声源与终端(或终端中内置部件)的相对位置，主要用于辨别不同位置的说话对象。该语音信息可以通过声音采集设备获取，该目标位置信息可以根据采集的语音信息得到，也可以通过一些检测装置检测得到，比如可以通过终端内置的红外设备感应得到。

例如，上述步骤S101具体可以包括：

1-1、分别利用多个音频采集单元对声源所发出的声音进行采集，得到多个具有同一语音内容的语音信息。

本实施例中，该音频采集单元可以包括麦克风，该多个音频采集单元可以表现为麦克风阵列，其中每一音频采集单元在终端中具有不同的安装位置，该多个音频采集单元的数量可以根据实际需求而定，比如可以为2个或者3个，等等。

1-2、根据该语音信息和音频采集单元确定目标位置信息。

例如，上述步骤1-2具体可以包括：

获取每一语音信息的音量值，以及每一音频采集单元的标识；

根据该音量值的大小和标识确定目标位置信息。

本实施例中，可以对语音信息进行数字化处理(比如傅里叶变换)来获取音量值。该标识主要用于区分不同的音频采集单元，其可以按照音频采集单元在终端中的安装位置来设定，比如从左往右该音频采集单元的标识可以依次设定为M1、M2直至Mn。该目标位置信息主要指声源相对于音频采集单元的位置，其可以有多种表现形式，比如可以表现为方位“左”、“中”或“右”，或者标识M1、M2或Mn，其中每一标识表示一个位置，当然，为提高精准度，还可以表现为具有排序规则的标识集，比如M1M2M3或M1M3M2，等等。

需要说明的是，由于每个音频采集单元在终端中具有不同的安装位置，且离声源越近，音频采集单元采集到的音量越大，故对于同一声源，每个音频采集单元采集到的语音信息的内容和音色相同，音量不同，从而只要知道每个音频采集单元采集的语音的音量值就可确定声源的目标位置信息，也即可以根据音量值确定该声源相对于音频采集单元的位置。

例如，上述步骤“根据该音量值的大小和标识确定目标位置信息”具体可以包括：

2-1、获取最大音量值对应的音频采集单元的标识，或者根据音量值的大小对音频采集单元的标识进行排序，以获取排序后标识集；

2-2、将获取的标识或者排序后标识集确定为目标位置信息。

本实施例中，可以按音量值从大到小或从小到大顺序对标识进行排序，得到排序后标识集。容易理解的是，由于目标位置信息的表现形式有多种，故该目标位置信息的确定方式也可以有多种，比如当目标位置信息表现为标识或者具有排序规则的标识集时，该目标位置信息可以直接是获取的标识或者排序后标识集。比如当当目标位置信息表现为方位信息时，需要进一步根据获取的标识或者排序后标识集从预设的方位信息库中查找对应的方位信息作为目标位置信息，其中该方位信息库中保存的是标识或者标识集与方位信息之间的关联关系，其可以是终端出厂时厂家已经设置好的，比如出厂时已设置好：M1或M1M2对应方位信息“左”，M2或M2M1对应方位信息“右”等等。

S102、根据目标位置信息确定目标翻译策略。

本实施例中，该目标翻译策略可以根据实际需求而定，其通常可以包括待翻译的初始语言和最终翻译成的目标语言，比如若该目标翻译策略为“将中文翻译成英文”，则初始语言为中文，目标语言为英文。

例如，上述步骤S102具体可以包括:

根据目标位置信息从已建立的翻译策略集合中选择对应的翻译策略；

将选择的翻译策略确定为目标翻译策略。

本实施例中，该翻译策略集合中的翻译策略可以根据实际需求而定，其可以包括“将中文翻译成英文”，“将日文翻译成英文”或者“将英文翻译成中文”等等。实际应用过程中，需要预先在翻译策略集合中建立翻译策略和位置信息之间的关联关系，此时，该目标位置信息可以由终端中的内置设备，比如摄像头检测得到，也可以是通过多个音频采集设备采集用户的语音信息来确定的。

当该关联关系中的位置信息是通过多个音频采集设备采集用户的语音信息来确定的时，在上述步骤S101之前，该语音信息的处理方法还可以包括：

利用该音频采集单元采集声源的首次语音信息；

获取用户输入的当前翻译策略；

根据首次语音信息和当前翻译策略建立翻译策略集合。

本实施例中，该首次语音信息可以是终端开启语音翻译功能时，第一次采集的语音，且为确保后续位置信息检测的准确性，该首次语音信息可以是多段语音组成，也可以是指定时长的语音段。

例如，上述步骤“根据首次语音信息和当前翻译策略建立翻译策略集合”具体可以包括：

获取首次语音信息的音量值；

根据首次语音信息的音量值和音频采集单元的标识确定当前位置信息；

根据当前位置信息和当前翻译策略建立翻译策略集合。

本实施例中，当前位置信息的确定方式可以有多种，比如若当前位置信息的表现形式为标识或标识集时，可以获取最大音量值对应的音频采集单元的标识，或者按音量值从大到小或从小到大顺序对标识进行排序，得到排序后标识集，此时，获取到的标识或排序后标识集即为当前位置信息，且需要将当前位置信息存储在翻译策略集合中。

比如若当前位置信息的表现形式为方位信息时，可以进一步根据获取到的标识或排序后标识集判断用户的当前位置信息，比如将获取到的标识或排序后标识集与上述步骤2-2中的方位信息库进行匹配，匹配得到的方位信息即为当前位置信息，比如“左”或“右”等。

此外，该当前位置信息还可以是用户手动输入的，比如终端可以向用户显示一个位置信息选择框，该选择框内可以提供“左”、“中”和“右”等多个位置信息以供用户选择，或者该当前位置信息还可以是终端通过内置设备自行检测的，等等。

例如，上述步骤“根据当前位置信息和当前翻译策略建立翻译策略集合具体可以包括：

建立当前位置信息和当前翻译策略之间的关联关系；

将该关联关系存储在翻译策略集合中。

此时，上述步骤“根据目标位置信息从已建立的翻译策略集合中选择对应的翻译策略”具体可以包括:

根据该关联关系从已建立的翻译策略集合中选择与该目标位置信息对应的翻译策略。

本实施例中，若对话双方(或对话多方)在对话的过程中，任一方的说话声音、位置和翻译策略这些信息在首次说话时已经设置好了，则之后在所站位置不变的情况下，任一方说话时，终端均可以根据采集的语音信息确定该用户的目标位置信息，并根据该目标位置信息查找对应的翻译策略以进行翻译操作，无需用户手动选择，操作简单方便，能最大程度的降低对话被打断的几率，提高沟通的流畅性。

S103、利用该目标翻译策略对该语音信息进行翻译，得到翻译信息。

本实施例中，可以先利用待翻译的初始语言对语音信息进行语义分析，然后利用最终翻译成的目标语言将分析出的语义表达出来，得到翻译信息。

S104、输出该翻译信息。

本实施例中，可以将翻译后的内容通过扬声器等设备进行语音播放，以便用户可以听到。需要指出的是，在播放的过程中，该多个音频采集单元可以不进行语音采集操作。

由上述可知，本实施例提供的语音信息的处理方法，通过获取声源的语音信息和目标位置信息，并根据目标位置信息确定目标翻译策略，之后，利用该目标翻译策略对语音信息进行翻译，得到翻译信息，并输出该翻译信息，相对于现有技术中需要用户反复手动选择翻译方式来说，无需手动操作即可实现翻译，操作简单，对话效率高，沟通流畅性好。

第二实施例

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该语音信息的处理装置集成在终端中，对话参与人数为两人为例进行详细说明。

如图2a和图2b所示，一种语音信息的处理方法，具体流程可以如下：

S201、终端分别利用多个音频采集单元采集声源的首次语音信息，并获取用户输入的当前翻译策略。

譬如，该多个音频采集单元可以为双麦克风，该声源可以是对话双方P₁或P₂。该首次语音信息可以是采集时长为1分钟的一段语音信息。具体的，终端在采集首次语音信息的过程中，P₁或P₂还需要手动输入自己所需的翻译策略，比如终端可以提供翻译策略选择框，供用户选择，该翻译策略选择框中可以包括“将中文翻译成英文”，“将日文翻译成英文”和“将英文翻译成中文”等多个选项。

S202、终端获取首次语音信息的音量值，以及每一音频采集单元的标识。

譬如，该多个音频采集单元的标识可以按照从左往右的顺序依次标记为M1和M2。该音量值为音量平均值，其可以包括L₁和L₂，其中L₁＝30分贝，L₂＝34分贝，且M1对应的音量值为L₁，M2对应的音量值为L₂。

S203、终端根据首次语音信息的音量值和标识确定当前位置信息。

譬如，若当前位置信息的表现形式为标识或标识集时，可以获取最大音量值对应的音频采集单元的标识M2，或者按音量值从大到小或从小到大顺序对标识进行排序，得到排序后标识集M2M1，此时，M2或M2M1即为当前位置信息。

若当前位置信息的表现形式为方位信息时，比如“左”、“中”或“右”，可以进一步根据获取到的标识M2或排序后标识集M2M1判断用户的当前位置信息，比如将获取到的标识M2或排序后标识集M2M1与方位信息库进行匹配，得到当前位置信息“右”，此处的方位信息库中保存的是标识或者标识集与方位信息之间的关联关系，其可以是终端出厂时厂家已经设置好的，比如出厂时已设置好：M1或M1M2对应方位信息“左”，M2或M2M1对应方位信息“右”等等。

S204、终端建立当前位置信息和当前翻译策略之间的关联关系，并将该关联关系存储在翻译策略集合中。

譬如，将当前位置信息M2或M2M1或“右”与当前翻译策略“将中文翻译成英文”进行关联并存储，将当前位置信息M1或M1M2或“左”与当前翻译策略“将英文翻译成中文”进行关联并存储。

S205、终端利用该音频采集单元采集声源的语音信息，并获取每一语音信息的音量值。

譬如，当终端建立好翻译策略集合之后，在所站位置不变的情况下，只要任一方开始说话，终端即可利用麦克风采集该时刻的语音信息，并根据该时刻的语音信息就可确定当前说话人是P₁还是P₂，从而选择合适的翻译策略，而无需得到采集完一段语音后才能确定，方便快捷。

S206、终端根据每一语音信息的音量值的大小和标识确定目标位置信息。

譬如，当目标位置信息表现为标识或者具有排序规则的标识集时，该目标位置信息可以直接是获取的标识或者排序后标识集。当目标位置信息表现为方位信息时，需要进一步根据获取的标识或者排序后标识集从方位信息库中查找对应的方位信息作为目标位置信息，比如根据M1或M1M2查找的方位信息为“左”，也即可判断当前对话人为P₁。

S207、终端根据目标位置信息从翻译策略集合中选择对应的翻译策略作为目标翻译策略。

譬如，终端可以根据目标位置信息M1或M1M2或“左”从翻译策略集合中确定的目标翻译策略为“将中文翻译成英文”。

S208、终端利用该目标翻译策略对该语音信息进行翻译，得到翻译信息，并输出该翻译信息。

譬如，终端可以将P1说的中文语音翻译成英文语音，并通过喇叭播放出来，以便P2可以听到。

由上述可知，本实施例提供的语音信息的处理方法，其中终端可以分别利用多个音频采集单元采集声源的首次语音信息，并获取用户输入的当前翻译策略，之后，获取首次语音信息的音量值，以及每一音频采集单元的标识，并根据首次语音信息的音量值和标识确定当前位置信息，接着，建立当前位置信息和当前翻译策略之间的关联关系，并将该关联关系存储在翻译策略集合中，这样，后续在该声源说话的过程中，终端可以利用该音频采集单元采集声源的语音信息，并获取每一语音信息的音量值，接着，根据每一语音信息的音量值的大小和标识确定目标位置信息，并根据目标位置信息从翻译策略集合中选择对应的翻译策略作为目标翻译策略，之后，利用该目标翻译策略对该语音信息进行翻译，得到翻译信息，并输出该翻译信息，从而用户只需输入一次翻译策略即可实现后续的翻译操作，无需反复输入，操作简单，且能尽量避免对话被打断，沟通流畅性好，对话效率高。

第三实施例

在实施例一和实施例二所述方法的基础上，本实施例将从语音信息的处理装置的角度进一步进行描述，请参阅图3a，图3a具体描述了本发明第三实施例提供的语音信息的处理装置，其可以包括：获取模块10、确定模块20、翻译模块30和输出模块40，其中：

(1)获取模块10

获取模块10，用于获取声源的语音信息和目标位置信息。

本实施例中，该声源可以包括人或者可发声物体，比如可以为视频通话过程中的语音播放设备。该语音信息可以包括语音内容、音量和音色等信息。该目标位置信息可以指声源与终端(或终端中内置部件)的相对位置，主要用于辨别不同位置的说话对象。获取模块10可以通过声音采集设备获取该语音信息，可以根据采集的语音信息或者一些检测装置得到目标位置信息，比如可以通过终端内置的红外设备感应目标位置信息。

例如，请参阅图3b，该获取模块10具体可以包括：第一采集子模块11和第一确定子模块12，其中，

第一采集子模块11，用于分别利用多个音频采集单元对声源所发出的声音进行采集，得到多个具有同一语音内容的语音信息。

第一确定子模块12，用于根据该语音信息和音频采集单元确定目标位置信息。

例如，该第一确定子模块12具体可以用于：

获取每一语音信息的音量值，以及每一音频采集单元的标识；

根据该音量值的大小和标识确定目标位置信息。

本实施例中，第一确定子模块12可以对语音信息进行数字化处理(比如傅里叶变换)来获取音量值。该标识主要用于区分不同的音频采集单元，其可以按照音频采集单元在终端中的安装位置来设定，比如从左往右该音频采集单元的标识可以依次设定为M1、M2直至Mn。该目标位置信息主要指声源相对于音频采集单元的位置，其可以有多种表现形式，比如可以表现为方位“左”、“中”或“右”，或者标识M1、M2或Mn，其中每一标识表示一个位置，当然，为提高精准度，还可以表现为具有排序规则的标识集，比如M1M2M3或M1M3M2，等等。

例如，上述第一确定子模块12具体可以用于：

获取最大音量值对应的音频采集单元的标识，或者根据音量值的大小对音频采集单元的标识进行排序，以获取排序后标识集；

将获取的标识或者排序后标识集确定为目标位置信息。

本实施例中，第一确定子模块12可以按音量值从大到小或从小到大顺序对标识进行排序，得到排序后标识集。容易理解的是，由于目标位置信息的表现形式有多种，故该目标位置信息的确定方式也可以有多种，比如当目标位置信息表现为标识或者具有排序规则的标识集时，第一确定子模块12可以直接将获取的标识或者排序后标识集作为该目标位置信息。比如当当目标位置信息表现为方位信息时，第一确定子模块12需要进一步根据获取的标识或者排序后标识集从预设的方位信息库中查找对应的方位信息作为目标位置信息，其中该方位信息库中保存的是标识或者标识集与方位信息之间的关联关系，其可以是终端出厂时厂家已经设置好的，比如出厂时已设置好：M1或M1M2对应方位信息“左”，M2或M2M1对应方位信息“右”等等。

(2)确定模块20

确定模块20，用于根据该目标位置信息确定目标翻译策略。

例如，该确定模块20具体可以包括：选择子模块21和第二确定子模块22，其中：

选择子模块21，用于根据目标位置信息从已建立的翻译策略集合中选择对应的翻译策略。

第二确定子模块22，用于将选择的翻译策略确定为目标翻译策略。

当该关联关系中的位置信息是通过多个音频采集设备采集用户的语音信息来确定的时，该语音信息的处理装置还可以包括建立模块50，该建立模块50可以包括：第二采集子模块51、获取子模块52和建立子模块53，其中：

第二采集子模块51，用于在该获取模块获取声源的语音信息和目标位置信息之前，利用该音频采集单元采集声源的首次语音信息；

获取子模块52，用于获取用户输入的当前翻译策略；

建立子模块53，用于根据首次语音信息和当前翻译策略建立翻译策略集合。

例如，该建立子模块53具体可以包括：

获取单元，用于获取首次语音信息的音量值；

确定单元，用于根据首次语音信息的音量值和音频采集单元的标识确定当前位置信息；

第一建立单元，用于根据当前位置信息和当前翻译策略建立翻译策略集合。

本实施例中，当前位置信息的确定方式可以有多种，比如若当前位置信息的表现形式为标识或标识集时，确定单元可以获取最大音量值对应的音频采集单元的标识，或者按音量值从大到小或从小到大顺序对标识进行排序，得到排序后标识集，此时，获取到的标识或排序后标识集即为当前位置信息，且需要将当前位置信息存储在翻译策略集合中。

比如若当前位置信息的表现形式为方位信息时，确定单元可以进一步根据获取到的标识或排序后标识集判断用户的当前位置信息，比如将获取到的标识或排序后标识集与方位信息库进行匹配，匹配得到的方位信息即为当前位置信息，比如“左”或“右”等。

例如，该第一建立单元具体可以用于：

建立当前位置信息和当前翻译策略之间的关联关系；将该关联关系存储在翻译策略集合中。

此时，该选择子模块21具体可以用于：

根据该关联关系从已建立的翻译策略集合中选择与该目标位置信息对应的翻译策略。

本实施例中，若对话双方(或对话多方)在对话的过程中，第一建立单元已经将任一方的说话声音、位置和翻译策略这些信息在首次说话时设置好了，则之后在所站位置不变的情况下，任一方说话时，第一确定子模块12均可以根据采集的语音信息确定该用户的目标位置信息，选择子模块21根据该目标位置信息查找对应的翻译策略以进行翻译操作，无需用户手动选择，操作简单方便，能最大程度的降低对话被打断的几率，提高沟通的流畅性。

(3)翻译模块30

翻译模块30，用于利用该目标翻译策略对该语音信息进行翻译，得到翻译信息。

本实施例中，翻译模块30可以先利用待翻译的初始语言对语音信息进行语义分析，然后利用最终翻译成的目标语言将分析出的语义表达出来，得到翻译信息。

(4)输出模块40

输出模块40，用于输出该翻译信息。

本实施例中，输出模块40可以将翻译后的内容通过扬声器等设备进行语音播放，以便用户可以听到。需要指出的是，在播放的过程中，该多个音频采集单元可以不进行语音采集操作。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上述可知，本实施例提供的语音信息的处理装置，通过获取模块10获取声源的语音信息和目标位置信息，确定模块20根据目标位置信息确定目标翻译策略，之后，翻译模块30利用该目标翻译策略对语音信息进行翻译，得到翻译信息，输出模块40输出该翻译信息，相对于现有技术中需要用户反复手动选择翻译方式来说，无需手动操作即可实现翻译，操作简单，对话效率高，沟通流畅性好。

第四实施例

相应的，本发明实施例还提供一种语音信息的处理系统，包括本发明实施例所提供的任一种语音信息的处理装置，该语音信息的处理装置具体可参见实施例三。

其中，该语音信息的处理装置具体可以集成在终端中，例如，可以如下：

终端，用于获取声源的语音信息和目标位置信息，根据目标位置信息确定目标翻译策略，之后，利用该目标翻译策略对语音信息进行翻译，得到翻译信息，并输出该翻译信息。

以上各个设备的具体实施可参见前面的实施例，在此不再赘述。

由于该验证信息的处理系统可以包括本发明实施例所提供的任一种语音信息的处理装置，因此，可以实现本发明实施例所提供的任一种语音信息的处理装置所能实现的有益效果，详见前面的实施例，在此不再赘述。

第五实施例

相应的，本发明实施例还提供一种终端，如图4所示，该终端可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

获取声源的语音信息和目标位置信息；

根据目标位置信息确定目标翻译策略；

利用该目标翻译策略对语音信息进行翻译，得到翻译信息；

输出该翻译信息。

以上各操作的实现方法具体可参见上述实施例，此处不再赘述。

该终端可以实现本发明实施例所提供的任一种语音信息的处理装置所能实现的有效效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种语音信息的处理方法、装置和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薄川川;赵千千;张熙文;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：一种隔离开关操作机构箱防雨装置的制作方法
上一篇：图像形成装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。