应用的控制方法和装置与流程

文档序号：13697502阅读：123来源：国知局

技术领域本申请涉及计算机技术领域，具体涉及终端技术领域，尤其涉及应用的控制方法和装置。

背景技术：
随着移动金融技术和移动交互技术的发展，移动设备的安全性越来越重要，由此对移动设备的安全性和隐私性要求越来越高。移动设备上可以安装各种应用，例如即时通讯类应用、支付类应用、金融类应用等。这些应用通常呈现于移动设备的界面中，可以很方便地进入。用户的相关信息(例如支付信息、通讯内容等)可以被容易地获取，隐私性较差，同时也存在一定的安全风险。目前，用户可以通过设置键盘密码、点击预设按键等手动操作来提升移动设备中应用的安全性，以在不需要使用的时候保持应用的不可见状态，避免信息的泄露和丢失。现有技术中，通过手动操作进行安全防护的方式不仅操作繁琐，安全性和隐私性也有待提升。例如，用于输入的密码可能和点击预设按键的操作信息可能被盗取，从而形成安全隐患。尤其针对金融类的应用，需要进一步提升其安全防护能力。

技术实现要素：
本申请提供了应用的控制方法和装置。一方面，本申请提供了一种应用的控制方法，所述方法包括：接收用户输入的语音信息；基于所述语音信息对所述用户的身份进行认证；若所述用户通过身份认证，对所述语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令；根据所述控制指令对所述目标应用进行相应的处理。在一些实施例中，所述基于所述语音信息对所述用户的身份进行认证，包括：从所述语音信息中提取出用户的语音特征；将提取出的语音特征与预存的语音特征模板进行匹配；若匹配成功，则确定所述用户通过身份认证。在一些实施例中，所述方法还包括：训练语音特征模板的步骤，包括：获取用户基于训练文本的语音录制信息；对所述语音录制信息的特征进行分析，得出所述语音特征模板。在一些实施例中，所述对所述语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令，包括：从所述语音信息中提取出应用的标识信息和所述控制指令；根据所述标识信息确定所述目标应用。在一些实施例中，所述从所述语音信息中提取出应用的标识信息和所述控制指令，包括：将所述语音信息与预存的标识信息模板以及预存的控制指令模板进行匹配；根据匹配成功的所述标识信息模板确定所述标识信息；根据匹配成功的所述控制指令模板确定所述控制指令。在一些实施例中，所述控制指令包括对所述目标应用的呈现状态进行控制的指令，所述呈现状态包括隐藏状态和显示状态；所述根据所述控制指令对所述目标应用进行相应的处理，包括：基于所述控制指令确定所述目标应用的目标呈现状态，所述目标呈现状态为隐藏状态或显示状态；获取所述目标应用的当前呈现状态，所述当前呈现状态为隐藏状态或显示状态；若所述当前呈现状态与所述目标呈现状态不一致，则将所述目标应用的呈现状态切换为所述目标呈现状态。第二方面，本申请提供了一种应用控制装置，所述装置包括：接收单元，配置用于接收用户输入的语音信息；认证单元，配置用于基于所述语音信息对所述用户的身份进行认证；识别单元，配置用于响应于所述用户通过身份认证，对所述语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令；处理单元，配置用于根据所述控制指令对所述目标应用进行相应的处理。在一些实施例中，所述认证单元进一步配置用于按如下方式对所述用户的身份进行认证：从所述语音信息中提取出用户的语音特征；将提取出的语音特征与预存的语音特征模板进行匹配；若匹配成功，则确定所述用户通过身份认证。在一些实施例中，所述装置还包括：训练单元，配置用于训练语音特征模板，包括：获取模块，配置用于获取用户基于训练文本的语音录制信息；分析模块，配置用于对所述语音录制信息的特征进行分析，得出所述语音特征模板。在一些实施例中，所述识别单元进一步包括：提取模块，配置用于从所述语音信息中提取出应用的标识信息和所述控制指令；确定模块，配置用于根据所述标识信息确定所述目标应用。在一些实施例中，所述提取模块进一步配置用于按如下方式从所述语音信息中提取出应用的标识信息和所述控制指令：将所述语音信息与预存的标识信息模板以及预存的控制指令模板进行匹配；根据匹配成功的所述标识信息模板确定所述标识信息；根据匹配成功的所述控制指令模板确定所述控制指令。在一些实施例中，所述控制指令包括对所述目标应用的呈现状态进行控制的指令，所述呈现状态包括隐藏状态和显示状态；所述处理单元进一步配置用于按如下方式对所述目标应用进行相应的处理：基于所述控制指令确定所述目标应用的目标呈现状态，所述目标呈现状态为隐藏状态或显示状态；获取所述目标应用的当前呈现状态，所述当前呈现状态为隐藏状态或显示状态；若所述当前呈现状态与所述目标呈现状态不一致，则将所述目标应用的呈现状态切换为所述目标呈现状态。本申请提供的应用的控制方法和装置，通过接收用户输入的语音信息，随后基于所述语音信息对用户的身份进行认证；在用户通过认证时，对语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令；最后根据控制指令对目标应用进行相应的处理。从而实现通过语音方式更改应用的显示状态，能够更便捷地对用户的隐私进行保护，同时由于语音特征不易被盗用或模仿，可以进一步提升移动设备的安全性。附图说明通过阅读参照以下附图所作的对非限制性实施例详细描述，本申请的其它特征、目的和优点将会变得更明显：图1是本申请可以应用于其中的示例性系统架构图；图2是根据本申请的应用的控制方法的一个实施例的流程图；图3是根据本申请的应用的控制方法的一个场景的效果示意图；图4是本申请的应用的控制装置的一个实施例的结构示意图；图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的应用的控制方法或应用的控制装置的实施例的示例性系统架构100。如图1所示，系统架构100可以包括终端设备101、102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户110可以使用终端设备101、102通过网络103与服务器104交互，以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102可以是支持语音输入和语音识别的各种电子设备，包括但不限于智能手机、平板电脑、笔记本电脑、智能手表、电子书阅读器、膝上型便携计算机和台式计算机等等。服务器104可以是提供各种服务的服务器，例如对终端设备101、102上的各种通讯客户端应用提供数据支持和后台服务器。后台服务器可以对接收到的数据请求进行分析等处理，并将处理结果反馈给终端设备。需要说明的是，本申请实施例所提供的应用的控制方法一般由终端设备101、102执行，相应地，应用的控制装置一般设置于终端设备101、102中。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。继续参考图2，示出了根据本申请的应用的控制方法的一个实施例的流程200。所述的应用的控制方法，包括以下步骤：步骤201，接收用户输入的语音信息。在本实施例中，应用的控制方法应用于其上的电子设备(例如图1所示的终端设备101、102)上可以安装多种应用，例如即时通讯类应用，移动金融类应用、阅读类应用、视频播放类应用等。上述电子设备可以设有麦克风等语音输入接口。上述电子设备可以接收用户通过语音输入接口输入的语音信息。其中，输入的语音信息可以包括对应用进行控制的控制指令的相关信息，例如可以包括“移动”、“隐藏”、“显示”等指令的相关信息，还可以包括进行控制的对象，即目标应用，例如语音信息中可以包括目标应用的名称等信息。用户可以通过上述电子设备的语音输入接口发出语音指令。这时，上述电子设备可以自动检测是否有语音信息输入，当检测到有语音信息输入时接收用户输入的语音信息。在本实施例的一些可选的实现方式中，上述电子设备中可以对输入的语音信息进行编解码，将语音信息转换为上述电子设备可直接处理的数据格式，例如转换为二进制编码格式，以对语音信息进行进一步的识别。举例而言，用户可以向手机输入“隐藏应用A”的语音信息，手机可以通过麦克风接收用户输入的该语音信息，并可以进一步对该语音信息进行编码。步骤202，基于语音信息对用户的身份进行认证。在本实施例中，上述电子设备可以对用户的身份进行认证，以确定用户的权限。可以基于语音信息中包含的话音特征对用户的身份进行认证。例如，可以比对语音信息中每一个词或字的发音频率等与预存的词或字的发音频率来确定用户是否具有控制应用的权限。在本实施的一些可选的实现方式中，可以从语音信息中提取出用户的语音特征，并将提取出的语音特征与预存的语音特征模板进行匹配，若匹配成功，可以确定用户通过身份认证。具体来说，可以将语音信息转换为用时域信号表示的语音信号。上述电子设备可以对语音信号进行特征分析，提取出用户的语音特征。所提取的语音特征可以是对外部变量(如说话人的情绪)不敏感、具有稳定性的特征。具体的特征提取方法可以为对语音信号进行时域的采样得出语音特征矢量，或者将语音信号变换至频率域，对频率域的信号进行线性预测、小波变换等处理后计算得出语音特征矢量。将提取出的语音特征矢量作为用户的语音特征。在提取出用户的语音特征之后，可以将用户的语音特征与预先存储在上述电子设备中的语音特征模板进行匹配。可以计算用户的语音特征与预存的语音特征模板之间的相似度，例如汉明距离、余弦相关系数等。如果相似度大于预设的阈值，则认为匹配成功，这时可以确定用户通过身份认证，即确定用户具有控制应用的权限。可选地，如果用户的语音特征与预存的语音特征模板之间的相似度小于预设的阈值，则可以确定用户未通过身份认证。在本实施的一些可选的实现方式中，可以采用说话人识别模型对用户的身份进行认证，例如在提取出用户的语音特征之后，将语音特征向量化，并输入基于隐马尔科夫模型或高斯模型等数学模型建立的说话人识别模型对说话人(即用户)的身份进行识别，之后根据识别结果判断用户是否具有控制应用的权限。在实际场景中，可以预先设定一个或多个具有控制应用权限的用户，如果识别结果为输入语音信息的用户为预先设定的用户，则确定用户通过身份认证，如果识别结果为输入语音信息的用户不是预先设定的用户，则确定用户未通过身份认证。步骤203，若用户通过身份认证，对语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令。在本实施例中，如果步骤202中确定用户通过身份认证，可以采用语音识别方法对语音信息的内容进行识别。首先可以对语音信息进行预处理，包括：将语音信息转换为时域的语音信号、对语音信号进行滤波。之后可以对语音信号进行分帧，将语音信号分为多个信号段。具体地，可以通过移动窗函数对语音信号进行分帧。每个信号段的时间长度可以相同，也可以不相同。之后可以采用信号域转换和滤波等方法提取语音信息中的声学特征，例如MFCC(MelFrequencyCepstrumCoefficient，Mel频率倒谱系数)特征，作为每个信号段的特征向量。接着，可以采用声学模型确定出每个信号段的特征向量对应的文字。之后将各信号段对应的文字进行组合，即可得出语音信息对应的文字信息。在得出语音信息对应的文字信息之后，可以对文字信息中与目标应用相关的信息和对目标应用进行控制的控制指令相关的信息进行识别和提取。其中，与目标应用相关的信息可以包括目标应用的标识信息、显示位置信息等，对目标应用进行控制的控制指令相关的信息可以包括预设关键字，例如“移动”、“隐藏”、“显示”、“删除”等。在本实施的一些可选的实现方式中，可以从语音信息中提取出应用的标识信息和对目标应用进行控制的控制指令。其中，标识信息可以为名称、编号等，控制指令可以是对目标应用进行控制的操作指令。进一步地，可以将语音信息与预存的标识信息模板以及预存的控制指令模板进行匹配，根据匹配成功的标识信息模板确定识别出的标识信息；根据匹配成功的控制指令模板确定识别出的控制指令。具体来说，上述电子设备可以预先存储标识信息模板以及控制指令模板。其中标识信息模板和控制指令模板可以为语音模板，也可以为文字模板。如果预存的标识信息模板和控制指令模板为语音模板，可以将语音信息直接与预存的标识信息模板和控制指令模板进行匹配。如果预存的标识信息模板和控制指令模板为文字模板，可以将语音信息对应的文字信息与预先存储的应用的标识信息模板进行匹配，例如将语音信息对应的文字信息与各应用的名称进行匹配，将匹配出的应用名称作为目标应用的标识信息。之后可以根据标识信息确定出目标应用。还可以将语音信息对应的文字信息与预存的操作指令名称进行匹配，将匹配成功的操作指令名称作为识别出的控制指令。举例而言，如果用户输入了“隐藏应用A”的语音信息，则上述电子设备可以将该语音信息或经过步骤202和步骤203的处理后得出的文字信息与预存的应用名称模板匹配，得出目标应用的名称“A”；将该语音信息与预存的操作指令名称模板进行匹配，得出操作指令为“隐藏”。步骤204，根据控制指令对所述目标应用进行相应的处理。在本实施例中，上述电子设备可以执行控制指令相应的操作，对目标应用进行相应的处理。例如，如果控制指令为“移动至第一页”、目标应用为应用A，则可以将应用A的图标移动至第一显示界面。在本实施例的一些可选的实现方式中，控制指令包括对目标应用的呈现状态进行控制的指令。其中，呈现状态包括隐藏状态和显示状态。上述电子设备可以根据如下方式对目标应用进行处理：首先基于控制指令确定目标应用的目标呈现状态，其中，目标呈现状态为隐藏状态或显示状态，之后获取目标应用的当前呈现状态，其中，当前呈现状态为隐藏状态或显示状态；若当前呈现状态与目标呈现状态不一致，则将目标应用的呈现状态切换为目标呈现状态。具体地，控制指令中可以包含指示目标应用的目标呈现状态的信息。例如可以包含“显示”、“隐藏”等信息。上述电子设备可以根据控制指令中的这些信息确定目标应用的目标呈现状态为显示或隐藏。还可以检测目标应用的当前呈现状态，如果当前目标应用的图标可见，则目标应用的当前呈现状态为显示状态；如果当前目标应用的图标不可见，则目标应用的当前呈现状态为隐藏状态。并判断目标应用的当前呈现状态和目标呈现状态是否一致。若不一致，可以将目标应用的呈现状态切换为目标呈现状态。进一步地，如果一致，则可以不对目标应用的呈现状态进行切换或更改操作。在本实施例的一些可选的实现方式中，上述应用的控制方法还可以包括训练语音特征模板的步骤。在训练语音特征模板时，可以获取用户基于训练文本的语音录制信息，并对语音录制信息的特征进行分析，得出语音特征模板。上述电子设备可以对用户的音色、音质进行分析记录，并对语音录制信息对应的语音信号进行特征提取，得出语音特征模板。具体的特征提取可以采用步骤202描述的时域采样方法或将语音信号变换至频率域后进行线性预测、小波变换等处理的方法。进一步参考图3，其示出了根据本申请的应用的控制方法的一个场景的效果示意图。如图3所示，用户输入了“隐藏B”的语音信息，其中B为电子设备30上安装的某一个应用的名称。电子设备30在识别出目标应用的名称“B”和控制指令“隐藏”之后，可以获取应用B的当前呈现状态，如果应用B的图标当前可见，可以确定应用B的当前呈现状态为显示状态，上述电子设备可以根据控制指令将应用B的呈现状态切换为隐藏状态，即将应用B的图标设置为不可见状态。这时，其他用户无法通过应用B的图标进入应用B。当应用于移动金融类应用、即时通讯类应用以及社交平台类应用时，可以有效地保护用户的隐私和移动金融业务的安全性。在上述应用场景中，可以通过语音方式将应用B的图标隐藏，之后，在用户输入“显示B”的语音信息时，可以将应用B的图标显示在上述电子设备的界面上。本实施例提供的应用的控制方法，可以通过语音方式快速、安全地切换应用的呈现状态，简化了操作过程，有效地提升了对用户的隐私进行保护的便捷性。同时由于语音特征不易被盗用或模仿，可以进一步提升移动设备的安全性。请参考图4，作为对上述方法的实现，本申请提供了一种应用的控制装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。如图4所示，本实施例所述的应用的控制装置400可以包括接收单元401、认证单元402、识别单元403以及处理单元403。其中接收单元401配置用于接收用户输入的语音信息；认证单元402配置用于基于语音信息对用户的身份进行认证；识别单元403配置用于响应于用户通过身份认证，对语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令；处理单元404配置用于根据控制指令对目标应用进行相应的处理。在本实施例中，接收单元401可以通过语音输入接口接收用户输入的语音信息。用户输入的语音信息可以包括对应用进行控制的控制指令的相关信息，例如可以包括“移动”、“隐藏”、“显示”等对应用的呈现状态的控制指令的相关信息，还可以包括进行控制的对象，即目标应用，例如语音信息中可以包括目标应用的名称等信息。认证单元402可以基于接收单元401接收的语音信息中包含的话音特征对用户的身份进行认证。具体地，认证单元402可以比对语音信息中的字、词的发音频率等与预存的字、词的发音频率等来确定用户是否具有控制应用的权限。可选地，认证单元402可以从语音信息中提取出用户的语音特征，并将提取出的语音特征与预存的语音特征模板进行匹配，若匹配成功，可以确定用户通过身份认证。识别单元403可以对通过认证单元402认证的用户的语音信息进行识别，首先可以对语音信息进行预处理，例如将语音信息转换为时域信号、滤波等，之后可以时域信号进行分帧，而后可以提取每个分帧中的MFCC特征，作为每个分帧的特征向量，最后可以采用声学模型确定出每个信号段的特征向量对应的文字，并将得出的文字与预设的应用的标识信息模板和控制指令模板进行匹配，得到识别结果。处理单元404可以根据识别单元403的识别结果对目标应用进行相应的处理，可以根据控制指令中的操作相关信息，诸如“移动”、“显示”、“隐藏”等操作信息分别进行对应的移动操作、显示操作和隐藏操作。从而实现通过语音方式更改应用的呈现状态。本领域技术人员可以理解，上述应用的控制装置400还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图4中未示出。装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对应用的控制方法描述的操作和特征同样适用于装置40及其中包含的单元，上文针对应用的控制方法描述的操作和特征同样适用于装置400及其中包含的单元，在此不再赘述。装置400中的相应单元可以与终端设备和/或服务器中的单元相互配合以实现本申请实施例的方案。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、认证单元、识别单元和处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，接收单元还可以被描述为“用于接收用户输入的语音信息的单元”。作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：接收用户输入的语音信息；基于所述语音信息对所述用户的身份进行认证；若所述用户通过身份认证，对所述语音信息的内容进行识别，以确定目标应用以及对目标应用进行控制的控制指令；根据所述控制指令对所述目标应用进行相应的处理。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：祝洪泉;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。