模拟操控方法和便携式终端与流程

文档序号：15998453发布日期：2018-11-20 19:08阅读：201来源：国知局

本发明涉及信息处理的技术领域，更具体地说，涉及虚拟助手和模拟操控的技术领域。

背景技术：

声控的移动虚拟助手(Virtual assistants VAs)应用跨过技术裂缝进入大众市场，帮助用户通过语音命令进行搜索、拨打电话和发送短信等各种功能。模拟操控作为虚拟助手的一类新的操作模式，在近期的智能移动终端上开始展现。其实现原理为基于Android操作系统提供的无障碍功能，模拟页面的跳转和用户的触屏操作，最终形式表现为用户的语音指令所指示的操作流程。例如，如果用户想要给小明发五块钱的微信红包，那么一般而言，用户需要执行点击微信图标以打开微信应用、进入通讯录找到小明、点击小明头像进入对话框、然后点击红包并输入金额等一系列操作。然而，在应用模拟操控的情况下，用户仅需要输入“给小明发五块钱的微信红包”的语音指令，就可以自动地执行上述一系列操作而无需用户参与。也就是说，通过模拟操控，以自动执行的指令来模拟用户触摸点击进行的操作。

然而，当前实现方案的问题在于，响应于用户的语音指令而自动执行的一系列操作过程无法在VA应用交互内完成，一般存在多次页面的跳转等，如从主界面跳转至微信启动界面，从微信启动界面跳转至通讯录界面，并从通讯录界面跳转至联系人对话框等。频繁、快速却又视觉可见的交互界面变化，容易造成眼花缭乱的感觉，严重影响用户的交互体验。另外，在模拟操控过程中，还可能存在由于用户误触屏幕而导致处理终止的情况。

技术实现要素：

鉴于以上情形，期望提供一种新的适用于VA的模拟操控模式UI(User Interface)交互模式，以解决多次页面跳转的复杂过程，优化用户的交互体验。

根据本发明的一个方面，提供了一种模拟操控方法，包括：接收来自用户的语音输入；识别所述语音输入，并获得相应的模拟操作类指令；基于所述指令，启动目标应用；生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面；以及自动地执行用以实现所述指令的一系列操作。

根据本发明的另一方面，提供了一种便携式终端，包括：语音输入装置，用于接收来自用户的语音输入；识别装置，用于识别所述语音输入，并获得相应的模拟操作类指令；执行装置，用于基于所述指令，启动目标应用并自动地执行用以实现所述指令的一系列操作；以及覆盖页面生成装置，用于生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。

在根据本发明的模拟操控方法和便携式终端中，通过将覆盖页面覆盖所述目标应用的至少部分显示界面，能够规范化、统一化模拟操作的UI界面，避免出现操控不同应用时的UI混乱不一的情况。另外，通过友好稳定的UI展示界面，完成模拟操控的过程，能够避免眼花缭乱的不适感，给用户提供更美观的视觉感受。并且，能够避免用户在模拟操作过程中误触屏幕所导致的处理终止。此外，通过将覆盖页面设置为部分透明或者在覆盖页面上显示进度状态和结果，能够使用户在模拟操控过程中，实时地了解到实际执行的进度状态和结果，避免用户对实时状态的盲目感以及对执行结果是否成功的盲目感。

附图说明

图1是图示根据本发明的第一实施例的模拟操控方法的过程的流程图；

图2是图示根据本发明的第二实施例的模拟操控方法的过程的流程图；

图3是图示根据本发明的第三实施例的模拟操控方法的过程的流程图；

图4是图示根据本发明的第一实施例的便携式终端的配置的功能性框图；

图5是图示根据本发明的第二实施例的便携式终端的配置的功能性框图；以及

图6是图示根据本发明的第三实施例的便携式终端的配置的功能性框图。

具体实施方式

下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本发明的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

首先，将参照图1描述根据本发明的第一实施例的模拟操控方法。如图1所示，模拟操控方法包括以下步骤。

首先，在步骤S101，接收来自用户的语音输入。

然后，在步骤S102，识别所述语音输入，并获得相应的模拟操作类指令，例如，给小明发五块钱的微信红包。

接下来，在步骤S103，基于所述指令，启动目标应用，例如微信应用。当然，用户的语音输入所对应的目标应用也可能存在不止一个的情况。

然后，在步骤S104，生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。所述覆盖页面为覆盖在其他应用和界面之上的UI界面，该UI界面成为用户的可见界面。

在模拟操控的过程中，该覆盖页面始终稳定地显示在其他跳转页面的上方。从而，通过根据本发明的第一实施例的模拟操控方法，可规范化、统一化模拟操控的覆盖页面，避免出现操控不同应用时的UI界面混乱不一的情况。通过友好稳定的覆盖页面，完成模拟操控的过程，避免眼花缭乱的不适感，给用户提供更美观的视觉感受。另外，由于用户不能通过点击覆盖页面来操作所覆盖的其他应用和界面，因此通过该覆盖页面，还可避免用户在模拟操控过程中误触屏幕所导致的处理终止。

这里，所述覆盖页面可以是不透明的，从而能够将用户与频繁、快速却又视觉可见的UI变化完全隔绝开，避免不适感。

或者，可替代地，所述覆盖页面也可以是部分透明的。这种部分透明的覆盖页面能够很大地缓解眼花缭乱的不适感，同时用户还能够直观地看到页面跳转的过程，从而了解到模拟操控过程的执行状态和进度。

例如，覆盖页面可以是当前操作界面的截屏图像。这样做的目的在于，在避免视觉不适感和用户误触屏幕所导致的处理终止的同时，还能够使得用户了解当前模拟操控进程。当然，如果截屏频率较高，则用户的视觉不适感会增加，而只能实现避免误触的技术效果。因此，更优选地，可以将截屏频率设置得较低，从而能在一定程度上避免眼花缭乱，同时达到用户了解处理进程和避免误操作的效果。

又如，覆盖页面可以只覆盖应用界面上的输入区域，以避免误操作。

再如，也可以基于当前执行的不同的应用来自动适配不同的覆盖页面。并且，当执行不同的应用时，也可以调整覆盖页面的透明程度。或者，也可以在覆盖界面上显示不同的图像或文字信息，或者声音信息。

然后，在步骤S105，自动地执行用以实现所述指令的一系列操作。

例如，在与用户的语音指令对应的模拟操控涉及中间信息的输入的情况下，所述模拟操控方法将需要确定中间输入信息。因此，自动地执行用以实现所述指令的一系列操作的步骤S105还可以进一步包括：获取所述目标应用中的输入区域；分析所述接收到的语音输入，并判断其中是否包含输入信息。

当所述语音输入中包含输入到对应输入区域的输入信息时，即当用户输入“给小明发五块钱的微信红包”的语音的指令时，提取其中包含的输入信息(五块钱)，并将提取出的输入信息输入到对应的输入区域，并执行后续操作。

另一方面，当所述语音输入中不包含输入到对应输入区域的输入信息时，例如，当用户输入“给小明发微信红包”的语音指令时，输出语音信息，以提示用户当前流程需要进行中间输入。例如，在覆盖页面状态时，VA可以通过TTS(Text To Speech)方式提示用户当前流程需要中间输入(请说红包金额)。在TTS提示用户后，自动启动ASR(Automatic Speech Recognition)以识别用户输入的中间输入信息(红包金额)，并适当地在覆盖页面上展示ASR状态(录音状态、实时音量、语音检测状态等)。然后，基于识别出的中间输入信息执行后续操作。

在所述一系列操作完成后，模拟操控过程结束。处理进行到步骤S106。在步骤S106，分析模拟操控的执行结果(成功或失败)，并将结果信息以适当的方式展示给用户。例如，可以将指示成功或失败的文本信息显示在覆盖页面上。或者，也可以以音频信息的方式通知用户模拟操控的执行结果。最后，在步骤S107，在经过一预定时间段的延时后，关闭覆盖页面，恢复到正常UI界面。

接下来，将参照图2描述根据本发明的第二实施例的模拟操控方法。如图2所示，根据第二实施例的模拟操控方法包括以下步骤。

与第一实施例类似地，首先，在步骤S201，接收来自用户的语音输入。

然后，在步骤S202，识别所述语音输入，并获得相应的模拟操作类指令，例如，给小明发五块钱的微信红包。

接下来，在步骤S203，基于所述指令，启动目标应用，例如微信应用。

然后，在步骤S204，生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。

接下来，与第一实施例不同地，在步骤S205，自动地执行用以实现所述指令的一系列操作，同时确定所述一系列操作的实时状态，并将所述实时状态显示在所述覆盖页面上。

因此，在第二实施例中，除了能够达到第一实施例中的技术效果之外，还能够更好地将模拟操控执行的进度状态和结果实时呈现给用户，使得用户在模拟操控过程中，能够实时地了解到实际执行的进度状态和结果，避免用户对实时状态的盲目感以及对执行结果是否成功的盲目感。

其中，所述实时状态至少包括以下之一：当前操作的目标应用信息、当前实时操作进度、多轮交互中间输入流程状态和最终操作结果。

例如，当前操作的目标应用信息可以包括但不限于应用名、图标等。当前实时操作进度可以包括但不限于总的操作步骤数目、当前操作步骤序号、当前操作步骤名称或简单描述、操作进度百分比等。多轮交互中间输入流程状态可以包括但不限于所需中间输入的简单说明和提示(如，请说红包金额)、自动语音识别(Automatic Speech Recognition，ASR)状态(如，录音状态、实时音量、语音检测状态等)、ASR结果等。最终操作结果可以是成功或失败。

下面，将参照图3描述根据本发明的第三实施例的模拟操控方法。如图3所示，所述模拟操控方法包括以下步骤。

与第一实施例类似地，首先，在步骤S301，接收来自用户的语音输入。

然后，在步骤S302，识别所述语音输入，并获得相应的模拟操作类指令，例如，给小明发五块钱的微信红包。

接下来，在步骤S303，基于所述指令，启动目标应用，例如微信应用。当然，用户的语音输入所对应的目标应用也可能存在不止一个的情况。

然后，在步骤S304，生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。所述覆盖页面为覆盖在其他应用和界面之上的UI界面，该UI界面成为用户的可见界面。

与第一实施例不同的是，接下来，在步骤S305，判断是否需要用户的手动输入。如果在步骤S305判断为是，则处理进行到步骤S306。在步骤S306，调整所述覆盖页面，使得在所述覆盖页面中，暴露所述目标应用界面的至少一个输入区域。然后，处理进行到步骤S307。在步骤S307，自动地执行用以实现所述指令的一系列操作。如果在步骤S306判断为否，则不对覆盖页面进行调整，且处理直接进行到步骤S307。

也就是说，在第三实施例中，可以在覆盖页面上挖洞以暴露出其下覆盖的应用界面中可以进行输入的区域，以便当在模拟操控过程中需要用户进行常规的触摸输入时，能够通过该暴露区域进行输入。

这里需要指出的是，在图3中，判断是否需要用户的手动输入的步骤作为一个单次执行的步骤示出在步骤S307之前。然而，可替代地，也可以在步骤S307执行期间，即：在自动地执行所述一系列操作的过程中，每隔预定时间段执行是否需要用户的手动输入的判定。如果需要手动输入，则调整覆盖页面，否则继续执行所述一系列操作。

在所述一系列操作完成后，模拟操控过程结束。处理进行到步骤S308。在步骤S308，分析模拟操控的执行结果(成功或失败)，并将结果信息以适当的方式展示给用户。最后，在步骤S309，在经过一预定时间段的延时后，关闭覆盖页面，恢复到正常UI界面。

下面，将参照图4描述根据本发明的第一实施例的便携式终端。如图4所示，所述便携式终端400包括：语音输入装置401、识别装置402、执行装置403以及覆盖页面生成装置404。

语音输入装置401接收来自用户的语音输入。例如，语音输入装置401为一麦克风。

识别装置402用于识别所述语音输入，并获得相应的模拟操作类指令，例如，给小明发五块钱的微信红包。

执行装置403用于基于所述指令，启动目标应用，例如微信应用。当然，用户的语音输入所对应的目标应用也可能存在不止一个的情况。并且，执行装置403还用于自动地执行用以实现所述指令的一系列操作。

覆盖页面生成装置404用于生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。所述覆盖页面为覆盖在其他应用和界面之上的UI界面，该UI界面成为用户的可见界面。

在模拟操控的过程中，该覆盖页面始终稳定地显示在其他跳转页面的上方。从而，通过根据本发明的第一实施例的便携式终端，可规范化、统一化模拟操控的覆盖页面，避免出现操控不同应用时的UI界面混乱不一的情况。通过友好稳定的覆盖页面，完成模拟操控的过程，避免眼花缭乱的不适感，给用户提供更美观的视觉感受。另外，由于用户不能通过点击覆盖页面来操作所覆盖的其他应用和界面，因此通过该覆盖页面，还可避免用户在模拟操控过程中误触屏幕所导致的处理终止。

这里，所述覆盖页面可以是不透明的，从而能够将用户与频繁、快速却又视觉可见的UI变化完全隔绝开，避免不适感。

又如，覆盖页面可以只覆盖应用界面上的输入区域，以避免误操作。

例如，在与用户的语音指令对应的模拟操控涉及中间信息的输入的情况下，所述模拟操控方法将需要确定中间输入信息。因此，执行装置403还可以进一步包括：获取单元4031，用于获取所述目标应用中的输入区域；分析单元4032，用于分析所述接收到的语音输入，并判断其中是否包含输入信息。

当所述语音输入中包含输入到对应输入区域的输入信息时，即当用户输入“给小明发五块钱的微信红包”的语音的指令时，分析单元4032提取其中包含的输入信息(五块钱)。并且所述执行装置403进一步包括执行单元4033，用于将提取出的输入信息输入到对应的输入区域，并执行后续操作。

另一方面，当所述语音输入中不包含输入到对应输入区域的输入信息时，例如，当用户输入“给小明发微信红包”的语音指令时，所述执行装置进一步包括：提示单元，用于输出语音信息，以提示用户当前流程需要进行中间输入。例如，在覆盖页面状态时，VA可以通过TTS(Text To Speech)方式提示用户当前流程需要中间输入(请说红包金额)。在TTS提示用户后，自动启动ASR(Automatic Speech Recognition)以识别用户输入的中间输入信息(红包金额)，并适当地在覆盖页面上展示ASR状态(录音状态、实时音量、语音检测状态等)。然后，基于识别出的中间输入信息执行后续操作。

在所述一系列操作完成后，模拟操控过程结束。执行装置403进一步被配置为分析模拟操控的执行结果(成功或失败)，并将结果信息以适当的方式展示给用户。例如，可以将指示成功或失败的文本信息显示在覆盖页面上。或者，也可以以音频信息的方式通知用户模拟操控的执行结果。并且，执行装置403进一步被配置为在经过一预定时间段的延时后，关闭覆盖页面，恢复到正常UI界面。

下面，将参照图5描述根据本发明的第二实施例的便携式终端。如图5所示，所述便携式终端500包括：语音输入装置501、识别装置502、执行装置503以及覆盖页面生成装置504。与第一实施例不同的是，所述便携式终端500进一步包括：监控装置505以及控制装置505。

语音输入装置501接收来自用户的语音输入。例如，语音输入装置501为一麦克风。

识别装置502用于识别所述语音输入，并获得相应的模拟操作类指令，例如，给小明发五块钱的微信红包。

执行装置503用于基于所述指令，启动目标应用，例如微信应用。当然，用户的语音输入所对应的目标应用也可能存在不止一个的情况。并且，执行装置503还用于自动地执行用以实现所述指令的一系列操作。

覆盖页面生成装置504用于生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。所述覆盖页面为覆盖在其他应用和界面之上的UI界面，该UI界面成为用户的可见界面。

监控装置505用于确定所述一系列操作的实时状态。

控制装置506用于将所述实时状态显示在所述覆盖页面上。

其中，所述实时状态至少包括以下之一：当前操作的目标应用信息、当前实时操作进度、多轮交互中间输入流程状态和最终操作结果。

在所述一系列操作完成后，模拟操控过程结束。执行装置503进一步被配置为分析模拟操控的执行结果(成功或失败)，并将结果信息以适当的方式展示给用户。例如，可以将指示成功或失败的文本信息显示在覆盖页面上。或者，也可以以音频信息的方式通知用户模拟操控的执行结果。并且，执行装置503进一步被配置为在经过一预定时间段的延时后，关闭覆盖页面，恢复到正常UI界面。

最后，将参照图6描述根据本发明的第三实施例的便携式终端。如图6所示，所述便携式终端600包括：语音输入装置601、识别装置602、执行装置603以及覆盖页面生成装置604。

语音输入装置601接收来自用户的语音输入。例如，语音输入装置601为一麦克风。

识别装置602用于识别所述语音输入，并获得相应的模拟操作类指令，例如，给小明发五块钱的微信红包。

执行装置603用于基于所述指令，启动目标应用，例如微信应用。当然，用户的语音输入所对应的目标应用也可能存在不止一个的情况。并且，执行装置603还用于自动地执行用以实现所述指令的一系列操作。

覆盖页面生成装置604用于生成一覆盖页面，以覆盖所述目标应用的至少部分显示界面。所述覆盖页面为覆盖在其他应用和界面之上的UI界面，该UI界面成为用户的可见界面。

在第三实施例中，覆盖页面生成装置604进一步包括：判断单元6041，用于判断是否需要用户的手动输入；以及调整单元6042，用于当需要用户的手动输入时，调整所述覆盖页面，使得在所述覆盖页面中，暴露所述目标应用界面的至少一个输入区域。

在所述一系列操作完成后，模拟操控过程结束。执行装置603进一步被配置为分析模拟操控的执行结果(成功或失败)，并将结果信息以适当的方式展示给用户。例如，可以将指示成功或失败的文本信息显示在覆盖页面上。或者，也可以以音频信息的方式通知用户模拟操控的执行结果。并且，执行装置603进一步被配置为在经过一预定时间段的延时后，关闭覆盖页面，恢复到正常UI界面。

在上文中，分别参照图1到6详细描述了根据本发明的第一实施例至第三实施例的模拟操控方法和便携式终端。这里，需要指出的是，尽管以上单独地描述了各实施例，但是本领域的技术人员可以理解，在实践中，以上三个实施例可以互相结合。例如，在第三实施例中，也可以在自动地执行用以实现所述指令的一系列操作的同时，确定所述一系列操作的实时状态，并将所述实时状态显示在所述覆盖页面上。又如，第一实施例中描述的覆盖页面的各种实施方式也可以同样地应用于第二实施例和第三实施例。当然，本领域的技术人员能够想到的以上实施例的任何其他组合也应该包括在本发明的范围内。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐培来;陈实;张传良;汪俊杰
技术所有人：联想（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。