用于语音和视频通讯的交互控制方法及装置的制造方法_2

文档序号：9452748阅读：来源：国知局

序根据用户输入的手势动作执行一些操作的预留动作指令为“0K的手势”，即在对摄像头采集的视频信息进行分析的过程中，如果分析到摄像头采集到视频信息中包括“0K的手势”时，可确定视频中包含触发应用程序根据用户输入的手势动作执行一些操的触发动作，此时，如果监控到用户在输入触发动作之后，又输入一个“放大的手势”，通过分析摄像头所采集的视频信息可确定当前用户输入的手势动作是预设的手势动作，此时，可获得“放大的手势”对应的操作指令，假定“放大的手势”对应的操作指令为:将窗口最大化，此时，应用程序将根据操作指令执行将视频窗口最大化的事件。
[0035]另外，在本发明的一个实施例中，在根据预设的操作指令集确定与动作操作词对应的操作指令，并执行与操作词对应的操作指令对应的事件的过程中，如果获得多个事件，则将多个事件提供给用户，以供用户进行确认。
[0036]具体地，在根据用户输入的语音数据进行执行的过程中，有可能出现用户的指令不是非常明确的情况，此时，根据语音数据执行事件，可能会获得多个事件，因此，在执行对应的事件之前，可将多个事件进行编号，并显示事件、编号以及确认事件的提示信息，以提示用户对事件进行确认。
[0037]例如，用户的语音数据是“打开桌面的照片”，如果桌面上有I个叫“照片“的文件夹，也有I个文件叫照片.jpg，而在根据用户输入的语音数据进行执行的过程中，无法明确用户是想“打开桌面的照片文件夹”还是“打开桌面的照片.jpg文件”。因此此时，解析后将显示2个选项给用户确认。而为了正确识别用户的确认，通过每个指令的确认口令来识别。假定“打开桌面的照片文件夹”后面的确认文字为确认照片选项1，“打开桌面的照片.jpg文件”后面的确认文字为确认照片选项2，如果应用程序接收到用户语音输入“确认照片选项1”，则应用程序根据用户当前输入的语音数据可确定用户需要执行“打开桌面的照片文件夹”的事件，并自动为用户打开桌面上的照片文件夹。
[0038]本发明实施例的用于语音和视频通讯的交互控制方法，获取用户通过语音方式和/或手势方式输入的用户行为数据，确定用户行为数据中是否包含预设的触发信息，以及在判断获知包含触发信息时，确定在预设的操作指令集中与触发信息对应的操作指令，并执行操作指令对应的事件，由此，使得用户在语音/或视频通讯的过程中，通过语音和/或手势方式即可控制终端执行其他操作，避免了用户手动操作的麻烦，提高了用户的交互体验。
[0039]图2是本发明另一个实施例的用于语音和视频通讯的交互控制方法的流程图。
[0040]如图2所示，该用于语音和视频通讯的交互控制方法包括:
[0041 ] S201，获取用户通过语音方式输入的语音数据。
[0042]具体地，在用户与其他一个或者多个用户进行语音或者视频通话的过程中，可对用户输入的语音数据进行监控。
[0043]S202，确定语音数据中是否包含预设的触发词。
[0044]S203，若包含预设的触发词，则进一步判断语音数据中是否包含预设的动作操作
Τ.κ| ο
[0045]具体地，在获得用户输入的语音数据后，可通过现有技术对语音数据进行解析，以获得语音数据对应的解析结果，并判断解析结果中是否包含预设的触发词，若判断获知包含预设的触发词，则进一步判断中是否包含预设的动作操作词；
[0046]S204，若判断获知包含动作操作词，则根据预设的操作指令集确定与动作操作词对应的操作指令，并执行与操作词对应的操作指令对应的事件。
[0047]例如，在用户A与用户B进行视频通话的过程中，假定触发应用程序根据用户输入的语音数据执行一些操作的预留语音指令(触发词)为“X语音助手”，即在用户输入的语音数据中包含“X语音助手”后，可对语音数据中“X语音助手”之后的语音数据进行识别，以确定在用户输入的“X语音助手”之后的语音数据中是否包含预设的动作操作词。假定获得到用户当前输入的语音数据为“X语音助手，下载百度云图片X.jpg和1.jpg，发送给用户B并让其选择”。对语音数据进行解析，然后判断解析结果中是否包含触发词，通过判断可确定用户当前输入的语音数据中包含触发词，可进一步判断解析结果中是否包含预设的动作操作词，通过判断可确定包含动作操作词“下载”和“发送”，并获得与动作操作词对应的操作指令，并根据操作指令执行对应的事件，即先从百度云中下载图片X.jpg和1.jpg，然后将图片X.jpg和1.jpg发送给用户B，由此，使得用户可通过语音的方式控制终端执行下载并发送图片的操作，减少了自己手动下载并发送图片的麻烦。
[0048]另外，在本发明的一个实施例中，在根据预设的操作指令集确定与动作操作词对应的操作指令，并执行与操作词对应的操作指令对应的事件的过程中，如果获得多个事件，则将多个事件提供给用户，以供用户进行确认。
[0049]具体地，在根据用户输入的语音数据进行执行的过程中，有可能出现用户的指令不是非常明确的情况，此时，根据语音数据执行事件，可能会获得多个事件，可将多个事件进行编号，并显示事件、编号以及确认事件的提示信息，以提示用户对事件进行确认。
[0050]例如，用户的语音数据是“打开桌面的照片”，如果桌面上有I个叫“照片“的文件夹，也有I个文件叫照片.jpg，而在根据用户输入的语音数据进行执行的过程中，无法明确用户是想“打开桌面的照片文件夹”还是“打开桌面的照片.jpg文件”。因此此时，解析后将显示2个选项给用户确认。而为了正确识别用户的确认，通过每个指令的确认口令来识别。假定“打开桌面的照片文件夹”后面的确认文字为确认照片选项1，“打开桌面的照片.jpg文件”后面的确认文字为确认照片选项2，如果应用程序接收到用户语音输入“确认照片选项1”，则应用程序根据用户当前输入的语音数据可确定用户需要执行“打开桌面的照片文件夹”的事件，并自动为用户打开桌面上的照片文件夹。
[0051]本发明实施例的用于语音和视频通讯的交互控制方法，获取用户通过语音方式的用户行为数据，确定用户行为数据中是否包含预设的触发信息，以及在判断获知包含触发信息时，确定在预设的操作指令集中与触发信息对应的操作指令，并执行操作指令对应的事件，由此，使得用户在语音/或视频通讯的过程中，通过语音即可控制终端执行其他操作，避免了用户手动操作的麻烦，提高了用户的交互体验。
[0052]图3是本发明另一个实施例的用于语音和视频通讯的交互控制方法的流程图。
[0053]如图3所示，该用于语音和视频通讯的交互控制方法包括:
[0054]S301，通过摄像头获取用户输入的用户行为数据。
[0055]具体地，在用户与其他一个或者多个用户进行视频通话的过程中，由于用户可通过手势动作输入动作指令，因此，可对终端的摄像头进行监控，并获取摄像头所采集的视频
?目息O
[0056]S302，确定用户行为数据中是否包含预设的触发信息。
[0057]在本发明的一个实施例中，在通过摄像头中获得用户行为数据后，可判断用户行为数据中是否包含预设的触发手势动作，若判断获知包含触发手势动作，则进一步判断用户行为数据中是否包含预设的手势操作。
[0058]具体地，在获得摄像头所采集的视频信息后，可通过相关的视频算法对视频信息进行识别，并判断视频信息中是否包含触发应用程序根据用户输入的手势动作执行一些操作的触发手势动作，若包含触发手势动作，则进一步判断用户在输入触发手势动作之后所输入的手势动作是否为预设的手势动作。
[0059]S303，若判断获知包含触发信息，则确定在预设的操作指令集中与触发信息对应的操作指令，并执行操作指令对应的事件。
[0060]例如，在用户A与用户B进行视频通话的过程中，假定触发应用程序根据用户输入的手势动作执行一些操作的预留动作指令为“0Κ的手势”，即在对摄像

完整全部详细技术资料下载

当前第2页1 2 3 4 5