语音输入启动方法、装置及计算机设备与流程

文档序号：18515402发布日期：2019-08-24 09:25阅读：222来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及互联网技术领域，具体而言，本发明涉及一种语音输入启动方法、装置及计算机设备。

背景技术：

随着语音识别技术的快速发展，各大企业争先推出语音识别产品。语音识别产品越来越广泛，如微信、qq、百度、淘宝等产品，都给用户提供了语音交互的功能。

然而，现在移动端开启语音交互的操作都需要额外点击图标或按钮，操作非常不自然。并且，目前很多应用都支持语音交互，但按钮位置各不相同，导致用户记忆和操作成本很高，语音识别功能开启很不方便，用户体验比较差。

技术实现要素：

本发明的目的旨在提供一种语音输入启动方法、装置及计算机设备，以识别到用户的特定状态时触发语音交互，用户不需要额外记忆不同应用的不同触控位置，从而使语音交互更加自然，提高用户体验。

本发明提供以下方案：

一种语音输入启动方法，包括以下步骤：确定用户与终端的距离在预置距离范围内；通过所述终端摄像头拍摄用户的图像；获取所述图像中的用户头像特征；判断所述头像特征是否位于所述图像中的预设位置；若是，启动所述终端的语音输入功能。

在其中一个实施例中，所述启动所述终端的语音输入功能包括：确定所述终端的当前应用界面支持所述语音输入功能，启动所述当前应用界面的语音输入功能；确定所述终端的当前应用界面不支持所述语音输入功能，启动所述终端系统自带语音输入功能。

在其中一个实施例中，所述获取所述图像中的用户头像特征之后，判断所述头像特征是否位于所述图像中的预设位置之前，还包括：确定所述用户头像特征与所述摄像头之间的拍摄角度在预置角度范围内。

在其中一个实施例中，所述启动所述终端的语音输入功能之后，还包括：确定所述用户头像特征与所述摄像头之间的拍摄角度超出所述预置角度范围内；关闭所述终端的语音输入功能。

在其中一个实施例中，所述用户头像特征包括所述用户的嘴巴特征；所述确定所述用户头像特征与所述摄像头之间的拍摄角度在预置角度范围内，包括：确定所述用户的嘴巴特征与所述摄像头之间的拍摄角度在预置角度范围内。

在其中一个实施例中，所述用户头像特征包括用户的眼睛特征及鼻子特征；所述确定所述用户头像特征与所述摄像头之间的拍摄角度在预置角度范围内，包括：确定所述用户头像特征中无所述用户的嘴巴特征；根据所述眼睛特征及鼻子特征确定所述用户的嘴巴特征的位置；根据所述嘴巴特征的位置确定所述用户的嘴巴特征与所述摄像头之间的拍摄角度在预置角度范围内。

在其中一个实施例中，获取所述图像中的用户头像特征之后，所述判断所述头像特征是否位于所述图像中的预设位置之前，还包括：从所述用户头像特征中获取嘴巴特征，确定所述嘴巴特征的变化符合预设状态。

在其中一个实施例中，所述通过所述终端摄像头拍摄用户的图像之前，还包括：通过所述终端的传感器确定所述终端状态符合预置状态。

在其中一个实施例中，所述通过所述终端的传感器确定所述终端状态符合预置状态，包括：通过所述终端的传感器确定所述终端的当前放置角度在第一预设角度范围内；和/或，通过所述终端的传感器确定所述终端在预置时间内放置角度的变化在第二预设角度范围内。

一种语音输入启动装置，包括：确定模块，用于确定用户与终端的距离在预置距离范围内；拍摄模块，用于通过所述终端摄像头拍摄用户的图像；获取模块，用于获取所述图像中的用户头像特征；判断模块，用于判断所述头像特征是否位于所述图像中的预设位置；启动模块，用于若所述头像特征位于所述图像中的预设位置，启动所述终端的语音输入功能。

一种计算机设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据上述任一实施例所述的语音输入启动方法。

相比现有技术，本发明的方案具有以下优点：

本发明提供的一种语音输入启动方法，在确定用户与终端的距离在预置距离范围内，且用户头像特征在拍摄图像的预设位置时，控制终端自动开启语音输入功能。因此，该语音输入启动方法在识别到用户的特定状态时触发语音交互，用户不需要额外记忆不同应用的不同触控位置，从而使语音交互更加自然，提高用户体验。

进一步地，该语音输入启动方法除了确定用户与终端的距离以及用户头像特征在拍摄头像的预设位置条件之外，同时还需确定用户头像特征与终端摄像头之间的角度满足预置角度范围，才启动终端的语音输入功能。因此，能够进一步准确地根据用户与终端的状态开启终端的语音输入功能，提高用户的体验满意度。

同时，在通过所述终端摄像头拍摄用户的图像之前，该方法还通过终端的传感器确定终端状态符合预置状态，也即是同时根据终端的状态判断用户与终端之间即将进行语音交互，进而开启终端的语音输入功能。因此，能够进一步准确地根据用户与终端的状态开启终端的语音输入功能，提高用户的体验满意度。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例提供的一种语音输入启动方法的流程图；

图2为本发明另一实施例提供的一种语音输入启动方法的流程图；

图3为本发明又一实施例提供的一种语音输入启动方法的流程图；

图4为本发明又一实施例提供的一种语音输入启动方法的流程图；

图5为本发明又一实施例提供的一种语音输入启动方法的流程图；

图6为本发明又一实施例提供的一种语音输入启动装置的结构框图；

图7为本发明计算机设备结构一实施例中的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本领域技术人员应当理解，本发明所称的“应用”、“应用程序”、“应用软件”以及类似表述的概念，是业内技术人员所公知的相同概念，是指由一系列计算机指令及相关数据资源有机构造的适于电子运行的计算机软件。除非特别指定，这种命名本身不受编程语言种类、级别，也不受其赖以运行的操作系统或平台所限制。理所当然地，此类概念也不受任何形式的终端所限制。

本发明提供一种语音输入启动方法。如图1所示，该语音输入启动方法，包括以下步骤：

s100，确定用户与终端的距离在预置距离范围内。

在本实施例中，终端检测用户与终端本体的距离，进而判断用户与终端的距离是否在预置距离范围内。若是，则执行步骤s200。其中，终端为移动终端设备，如智能手机、平板电脑等。预置距离可以是根据一般用户使用语音交互时用户与终端的距离范围确定。例如，预置距离范围可以是15cm以内。

在一实施例中，执行步骤s100之前，还包括：识别终端设备的当前应用界面，确定所述当前应用界面支持语音交互功能。也即是，终端识别出用户打开的当前应用界面，检测并判断当前应用界面是否支持语音交互功能。若当前应用界面支持语音交互功能时，执行步骤s100。若当前应用界面不支持语音交互功能，则不执行步骤s100。

s200，通过所述终端摄像头拍摄用户的图像。

在本实施例中，终端检测到用户与终端的距离在预置范围内之后，进一步打开终端摄像头，通过摄像头拍摄用户的图像。其中拍摄的用户的图像可以是包括用户头部全部特征的图像。

s300，获取所述图像中的用户头像特征。

在本实施例中，终端获取到用户的图像之后，进一步获取图像中的用户头像特征。也即是，通过摄像头拍摄用户的图像时，确认拍摄的用户的图像中包括了用户头像特征，进一步获取图像中的用户头像特征。用户的头像特征可以包括用户的脸部特征。

s400，判断所述头像特征是否位于所述图像中的预设位置。

在本实施例中，终端获取到用户的头像特征后，判断用户头像特征是否位于图像中的预设位置。如，用户的头像特征是否位于图像的中间位置。

s500，若是，启动所述终端的语音输入功能。

在本实施例中，终端判定出用户头像特征位于预设位置时，启动终端的语音输入功能，用于接收用户的语音输入，以实现用户与终端的语音交互功能。终端启动语音输入功能之前，先检测用户打开的当前应用界面是否支持语音交互功能。确定当前应用界面支持语音交互功能时，启动终端的语音输入功能。终端的语音输入功能可以是当前应用界面的语音输入功能，还可以是终端系统自带的语音输入功能。

在一实施例中，如图2所示，步骤s300之后，步骤s400之前，还包括步骤s310：确定所述用户头像特征与所述摄像头之间的拍摄角度在预置角度范围内。

具体地，终端启动摄像头拍摄用户头像特征时，获取用户头像特征与摄像头之间的拍摄角度。在该拍摄角度属于预置角度范围内时，执行步骤s400。其中，预置角度范围可以是30°至60°的范围内。预置角度范围为技术人员根据具体应用场景中，用户与终端在语音交互时头像特征与摄像头之间的拍摄角度设置。当用户头像特征与摄像头之间的拍摄角度满足预置角度范围内时，进一步判断用户头像特征是否位于图像中的预设位置。当用户头像特征位于图像中的预设位置时，启动终端的语音输入功能。

进一步地，如图3所示，步骤s500之后还包括步骤：

s600，确定所述用户头像特征与所述摄像头之间的拍摄角度超出所述预置角度范围内。

s700，关闭所述终端的语音输入功能。

也即是，当用户头像特征与摄像头之间的拍摄角度满足预置角度范围内时，并且用户头像特征满足步骤s400的判断条件时，开启终端的语音输入功能。当用户头像特征与摄像头之间的拍摄角度超出预置角度范围内时，关闭终端的语音输入功能。因此，能够更准确地获取用户与终端进行语音交互前的特征信息，根据该特征信息启动终端的语音输入功能。并且，准确地获取用户终止与终端进行语音交互时的特征信息，根据该特征信息关闭终端的语音输入功能。进一步地，提高用户体验的满意度。

在一实施例中，所述用户头像特征包括所述用户的嘴巴特征。步骤s310包括：确定所述用户的嘴巴特征与所述摄像头之间的拍摄角度在预置角度范围内。

具体地，终端确定用户的嘴巴特征与摄像头之间的拍摄角度在预置范围内，根据用户的嘴巴特征判断用户即将与终端进行语音交互，从而在准确的状态下开启终端的语音输入功能。例如，当用户的嘴巴特征与摄像头之间的拍摄角度为30°时，判断用户即将与终端设备进行语音交互，终端执行后续启动终端语音输入功能的步骤。

在一实施例中，所述用户头像特征包括用户的眼睛特征及鼻子特征；所述确定所述用户头像特征与所述摄像头之间的拍摄角度在预置角度范围内，包括：确定所述用户头像特征中无所述用户的嘴巴特征；根据所述眼睛特征及鼻子特征确定所述用户的嘴巴特征的位置；根据所述嘴巴特征的位置确定所述用户的嘴巴特征与所述摄像头之间的拍摄角度在预置角度范围内。

也即是，摄像头拍摄的用户图像中，用户头像特征没有识别到用户的嘴巴特征。此时，可根据用户头像特征中的眼睛特征和鼻子特征判断出嘴巴特征。具体地，根据眼睛特征的位置和鼻子特征的位置判断出嘴巴特征的位置，进而根据嘴巴特征的位置确定嘴巴和摄像头之间的拍摄角度，并确定出该拍摄角度在所述预置角度范围内。

如图4所示，在一实施例中，步骤s300之后，步骤s400之前，还包括s330：从所述用户头像特征中获取嘴巴特征，确定所述嘴巴特征的变化符合预设状态。也即是，终端通过摄像头获取用户头像特征中用户的嘴巴特征，识别嘴巴特征的变化，确定嘴巴特征的变化符合预设状态。例如，终端通过识别嘴巴特征的变化确定用户说出“开启”的指示，此处预设状态即为用户说出“开启”时的嘴巴状态。具体地，终端通过识别用户的嘴巴特征，确定出用户说出启动语音输入功能的指示。因此，可以提高用户的体验满意度。

在一实施例中，步骤500包括：确定所述终端的当前应用界面支持所述语音输入功能，启动所述当前应用界面的语音输入功能；确定所述终端的当前应用界面不支持所述语音输入功能，启动所述终端系统自带语音输入功能。也即是，终端先确定当前应用界面是否支持语音输入功能。若当前应用界面支持语音输入功能，则启动当前应用界面的语音输入功能。若当前应用界面不支持语音输入功能，则启动终端系统自带的语音输入功能。

具体地，识别移动终端设备的当前应用界面。如果该应用界面本身支持语音功能，如uc浏览器、搜狗输入法、高德地图，则优先响应特定应用的语音功能。如果该应用界面不支持语音功能，则启动系统自带的语音功能，如android和ios自带。

在一实施例中，如图5所示，步骤s200之前，即通过所述终端摄像头拍摄用户的图像之前，还包括步骤s110：通过所述终端的传感器确定所述终端状态符合预置状态。其中，预置状态为一般情况下用户与终端进行语音识别时，终端的放置状态。在一具体实施方式中，通过终端自带的陀螺仪和重力传感器检测终端的放置状态，在识别出终端的放置状态符合用户与终端进行语音交互时的终端状态时，执行步骤s200。

具体地，通过所述终端的传感器确定所述终端状态符合预置状态，包括：通过所述终端的传感器确定所述终端的当前放置角度在第一预设角度范围内；和/或，通过所述终端的传感器确定所述终端在预置时间内放置角度的变化在第二预设角度范围内。

也即是，通过终端的传感器识别终端的当前放置角度，根据该当前放置角度判断终端状态是否符合用户与终端进行语音交互时的预置状态。当当前放置角度在第一预设角度范围内时，执行步骤s200。例如，终端通过自带的传感器以及陀螺仪检测到终端的放置状态为，终端与水平面的形成的角度为60°，此时初步判断出用户即将与终端进行语音交互。第一预设角度范围内可以是30°至60°之间。第一预设角度范围为技术人员根据具体应用场景中，用户与终端进行语音交互时终端的状态设置。

和/或，检测预置时间内，终端位置状态的角度变化。根据终端位置变化确定终端是否符合用户与终端进行语音交互时的预置状态。如，终端在预置时间内放置角度的变化在第二预设角度范围内。其中，第二预设角度范围根据实际应用场景中，用户与终端进行语音交互时，在预设时间内终端的角度变化。例如，在一应用场景中，终端为移动终端设备。用户与移动终端设备进行语音交互之前，预置时间内(如2秒内)晃动移动终端设备，并且移动终端设备的移动角度在预置范围内。预置范围可以是0°至10°之间。此时，终端可根据移动状态识别出用户即将与移动终端设备进行语音交互，进入执行启动语音输入功能的相关步骤。

在一具体应用场景中，移动终端设备检测到设备当前位置状态处于预设方位内。其中，预设方位根据以下方式确定：

1.移动终端设备通过自带的陀螺仪和重力传感器检测设备当前坐标mic(a1,b1,c1)。

2.移动终端设备通过前置摄像头检测并识别人脸指定嘴巴位置坐标(a2,b2,c2)：如果此时摄像头捕捉到嘴巴特征，则直接记录位置坐标；如果此时摄像头没有捕捉到嘴巴特征，可通过其他特征，如眼睛+鼻子等其他特征推算出嘴巴特征的位置坐标。

3.根据设备当前坐标和嘴巴特征位置坐标，计算出设备与人嘴巴之间的距离s；同时，计算出嘴巴与设备当前位置的连线与设备平面垂线之间的夹角α。

4.当且仅当：s小于指定阈值且α∈(-a，a)之间时，满足触发语音交互的条件。

其中，距离s与夹角α根据一般情况下，用户与移动终端设备进行语音交互时，设备与用户嘴巴之间的距离以及夹角确定。

进一步地，识别移动终端设备的当前应用界面：如果该应用界面本身支持语音功能，如uc浏览器、搜狗输入法、高德地图，则优先启动并响应特定应用的语音功能；如果该应用界面不支持语音功能，则启动系统自带的语音功能，如android和ios自带。

本发明还提供一种语音输入启动装置。如图6所示，该语音输入启动装包括确定模块100，拍摄模块200，获取模块300，判断模块400和启动模块500。

确定模块100用于确定用户与终端的距离在预置距离范围内。在本实施例中，终端检测用户与终端本体的距离，进而判断用户与终端的距离是否在预置距离范围内。若是，则执行拍摄模块200中的方法步骤。其中，终端为移动终端设备，如智能手机、平板电脑等。预置距离可以是根据一般用户使用语音交互时，用户与终端的距离范围。例如，预置距离范围可以是15cm以内。

在一实施例中，执行确定模块100中的方法步骤之前，还包括：识别终端设备的当前应用界面，确定所述当前应用界面支持语音交互功能。也即是，终端识别出用户打开的当前应用界面，检测并判断当前应用界面是否支持语音交互功能。若当前应用界面支持语音交互功能时，执行确定模块100中的方法。若当前应用界面不支持语音交互功能，则不执行确定模块100中的方法。

拍摄模块200用于通过所述终端摄像头拍摄用户的图像。在本实施例中，终端检测到用户与终端的距离在预置范围内之后，进一步打开终端摄像头，通过摄像头拍摄用户的图像。其中拍摄的用户的图像可以是包括用户头部特征的图像。

获取模块300用于获取所述图像中的用户头像特征。在本实施例中，终端获取到用户的图像之后，进一步获取图像中的用户头像特征。也即是，通过摄像头拍摄用户的图像时，确认拍摄的用户的图像中包括了用户头像特征，进一步获取图像中的用户头像特征。用户的头像特征可以包括用户的脸部特征。

判断模块400用于判断所述头像特征是否位于所述图像中的预设位置。在本实施例中，终端获取到用户的头像特征后，判断用户头像特征是否位于图像中的预设位置。如，用户的头像特征是否位于图像的中间位置。

启动模块500用于若所述头像特征位于所述图像中的预设位置，启动所述终端的语音输入功能。

在一实施例中，启动模块500还用于确定所述终端的当前应用界面支持所述语音输入功能，启动所述当前应用界面的语音输入功能；确定所述终端的当前应用界面不支持所述语音输入功能，启动所述终端系统自带语音输入功能。也即是，终端先确定当前应用界面是否支持语音输入功能。若当前应用界面支持语音输入功能，则启动当前应用界面的语音输入功能。若当前应用界面不支持语音输入功能，则启动终端系统自带的语音输入功能。

在其他实施例中，本发明提供的语音输入启动装置中的各个模块还用于执行本发明所述的语音输入启动方法中，对应各个步骤执行的操作，在此不再做详细的说明。

本发明还提供一种计算机设备。一种计算机设备包括：一个或多个处理器；存储器；一个或多个应用程序。其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述任一实施例所述的语音输入启动方法。

图7为本发明一实施例中的计算机设备的结构示意图。本实施例所述的设备可以是计算机设备。例如服务器、个人计算机以及网络设备。如图7所示，设备包括处理器703、存储器705、输入单元707以及显示单元709等器件。本领域技术人员可以理解，图7示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器705可用于存储应用程序701以及各功能模块，处理器703运行存储在存储器705的应用程序701，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、zip盘、u盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元707用于接收信号的输入，以及接收用户输入的关键字。输入单元707可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元709可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元709可采用液晶显示器、有机发光二极管等形式。处理器703是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器703内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

在一实施方式中，设备包括一个或多个处理器703，以及一个或多个存储器705，一个或多个应用程序701。其中所述一个或多个应用程序701被存储在存储器705中并被配置为由所述一个或多个处理器703执行，所述一个或多个应用程序701配置用于执行以上实施例所述的语音输入启动方法。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括存储器、磁盘或光盘等。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋志华;李成
技术所有人：优视科技有限公司
我是此专利的发明人

上一篇：微波干燥装置的制作方法
上一篇：一种扁流道保温板微粒均匀混合供料装置的制作方法