终端设备控制方法、设备及存储介质与流程

文档序号:16092339发布日期:2018-11-27 23:10阅读:154来源:国知局

本发明实施例涉及通信技术领域,尤其涉及一种终端设备控制方法、设备及存储介质。



背景技术:

随着通信技术的发展,终端设备已经成为人们生活中不可或缺的通信工具,该终端设备可安装有应用程序(Application,APP),用户通过该应用程序可获取相应的网络资源。

通常用户需要点触该终端设备的屏幕以打开该终端设备中安装的应用程序,但是有时候用户可能在行走、骑车或者手里领着东西,导致该用户无法点触该终端设备的屏幕以打开应用程序。



技术实现要素:

本发明实施例提供一种终端设备控制方法、设备及存储介质,以使得用户可以不通过点触该终端设备的屏幕也可以打开应用程序。

第一方面,本发明实施例提供一种终端设备控制方法,包括:

耳机采集样本语音信息;

所述耳机根据所述样本语音信息,确定所述样本语音信息中的特征信息;

所述耳机根据所述样本语音信息中的特征信息对预设声学模型进行训练;

所述耳机采用训练完成的预设声学模型对目标语音信息进行识别得到控制指令;

所述耳机将所述控制指令发送给终端设备,以使所述终端设备根据所述控制指令控制所述终端设备中安装的应用程序。

第二方面,本发明实施例提供一种耳机,包括:

采集模块,用于采集样本语音信息;

确定模块,用于根据所述样本语音信息,确定所述样本语音信息中的特征信息;

训练模块,用于根据所述样本语音信息中的特征信息对预设声学模型进行训练;

识别模块,用于采用训练完成的预设声学模型对目标语音信息进行识别得到控制指令;

发送模块,用于将所述控制指令发送给终端设备,以使所述终端设备根据所述控制指令控制所述终端设备中安装的应用程序。

第三方面,本发明实施例提供一种耳机,包括:

存储器;

处理器;以及

计算机程序;

其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。

第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。

本发明实施例提供的终端设备控制方法、设备及存储介质,通过耳机采集样本语音信息,并采用该样本语音信息训练预设声学模型,使得该预设声学模型能够识别用户的语音信息得到控制指令,并将该控制指令发送给终端设备,实现了对该终端设备中应用程序的控制,使得用户可以不通过点触该终端设备的屏幕也可以打开应用程序。

附图说明

图1为本发明实施例提供的一种应用场景的示意图;

图2为本发明实施例提供的终端设备控制方法流程图;

图3为本发明实施例提供的终端设备控制方法流程图;

图4为本发明另一实施例提供的终端设备控制方法流程图;

图5为本发明实施例提供的耳机的结构示意图;

图6为本发明实施例提供的耳机的结构示意图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明提供的终端设备控制方法,可以适用于图1所示的通信系统。如图1所示,该通信系统包括:接入网设备11以及终端设备12。需要说明的是,图1所示的通信系统可以适用于不同的网络制式,例如,可以适用于全球移动通讯(Global System of Mobile communication,简称GSM)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、时分同步码分多址(Time Division-Synchronous Code Division Multiple Access,简称TD-SCDMA)、长期演进(Long Term Evolution,简称LTE)系统及未来的5G等网络制式。可选的,上述通信系统可以为5G通信系统中高可靠低时延通信(Ultra-Reliable and Low Latency Communications,简称URLLC)传输的场景中的系统。

故而,可选的,上述接入网设备11可以是GSM或CDMA中的基站(Base Transceiver Station,简称BTS)和/或基站控制器,也可以是WCDMA中的基站(NodeB,简称NB)和/或无线网络控制器(Radio Network Controller,简称RNC),还可以是LTE中的演进型基站(Evolutional Node B,简称eNB或eNodeB),或者中继站或接入点,或者未来5G网络中的基站(gNB)等,本发明在此并不限定。

上述终端设备12可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,简称SIP)话机、无线本地环路(Wireless Local Loop,简称WLL)站、个人数字助理(Personal Digital Assistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端设备12还可以是智能手表、平板电脑等设备。

本发明提供的终端设备控制方法,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。

图2为本发明实施例提供的终端设备控制方法流程图。本发明实施例针对现有技术的如上技术问题,提供了终端设备控制方法,该方法具体步骤如下:

步骤201、耳机采集样本语音信息。

本实施例中的耳机具体可以是蓝牙耳机,该蓝牙耳机具有录音功能,该蓝牙耳机通过其录音功能可以录制用户的语音信息。该蓝牙耳机可以录制多个不同用户的语音信息,每个用户的语音信息可作为样本数据对预设声学模型进行训练。另外,该蓝牙耳机还具有播放功能,该蓝牙耳机可通过该播放功能将其录制的语音信息进行播放,以检测其录制的语音信息是否清晰。

步骤202、所述耳机根据所述样本语音信息,确定所述样本语音信息中的特征信息。

当该蓝牙耳机采集到多个用户不同的样本语音信息后,该蓝牙耳机可确定所述样本语音信息中的特征信息,该特征信息具体可以是梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)特征。

步骤203、所述耳机根据所述样本语音信息中的特征信息对预设声学模型进行训练。

该蓝牙耳机根据该样本语音信息中的特征信息对预设声学模型进行训练。

可选的,该蓝牙耳机可构建堆栈式深度自动编码器网络(Deep Autoencoder,DAE),并以其录制的样本语音信息作为训练数据,通过无监督和有监督两种训练方式的模型,分别以该训练数据的MFCC特征为基础特征,提取其相应的深层语音特征,然后对基于隐马尔可夫模型(Hidden Markov Model,HMM)的声学模型进行重复性的训练,最后再用之前录制的语音信息作为验证数据,对该声学模型的检测结果进行验证。

步骤204、所述耳机采用训练完成的预设声学模型对目标语音信息进行识别得到控制指令。

当该基于隐马尔可夫模型的声学模型训练完成后,该蓝牙耳机可采用该训练完成的声学模型对目标语音信息进行识别得到控制指令,例如,该目标语音信息具体为“打开微信”,则该蓝牙耳机对该目标语音信息进行识别后得到“打开微信”的控制指令。可选的,所述控制指令包括AT指令。

可选的,AT指令集是从终端设备(Terminal Equipment,TE)或数据终端设备(Data Terminal Equipment,DTE)向终端适配器(Terminal Adapter,TA)或数据电路终端设备(Data Circuit Terminal Equipment,DCE)发送的。AT指令的大小可以是预先设定的,例如,该AT指令中需要出现A、T这两个字符,此外,该AT指令中还可以包括1056个其他字符,该1056个其他字符包括该AT指令最后的空字符。

可选的,每个AT命令行中包含一条AT指令;对于由蓝牙耳机向智能手机端报告的URC指示或者response响应,也要求一行最多有一个,不允许上报的一行中有多条指示或者响应。可选的,AT指令以回车作为结尾。例如,通过蓝牙耳机打开微信的控制指令具体为AT+WeixinOpen。

本实施例所述的蓝牙耳机对语音信息的识别过程具体可以如图3所示,当有语音输入到蓝牙耳机时,蓝牙耳机首先进行语音信息预处理,例如去除该语音信息中的噪音等,进一步对该语音信息进行特征提取,以提取出该语音信息中的特征信息,并根据该特征信息对预设声学模型进行训练,得到相应的模型库,该模型库中可包括训练好的预设声学模型。当蓝牙耳机再次采集到语音信息例如待识别语音时,经过语音信息预处理和特征提取得到该待识别语音的特征信息,并通过训练好的预设声学模型对该待识别语音进行模式匹配,得到识别结果,该识别结果具体可以为控制指令。

步骤205、所述耳机将所述控制指令发送给终端设备,以使所述终端设备根据所述控制指令控制所述终端设备中安装的应用程序。

可选的,所述耳机将所述控制指令发送给终端设备,包括:所述耳机通过蓝牙协议将所述控制指令发送给所述终端设备。

例如,蓝牙耳机可以和终端设备通过蓝牙协议进行通信,当该蓝牙耳机根据用户的语音信息得到相应的控制指令后,通过蓝牙协议将该控制指令发送给所述终端设备,以使所述终端设备根据所述控制指令控制所述终端设备中安装的应用程序。例如,该用户的语音信息具体为“打开微信”,则该蓝牙耳机对该语音信息进行识别后得到“打开微信”的控制指令,并将该控制指令通过蓝牙协议发送给终端设备,以使该终端设备打开其安装的微信程序。

本发明实施例通过耳机采集样本语音信息,并采用该样本语音信息训练预设声学模型,使得该预设声学模型能够识别用户的语音信息得到控制指令,并将该控制指令发送给终端设备,实现了对该终端设备中应用程序的控制,使得用户可以不通过点触该终端设备的屏幕也可以打开应用程序。

图4为本发明另一实施例提供的终端设备控制方法流程图。在上述实施例的基础上,所述耳机根据所述样本语音信息中的特征信息对预设声学模型进行训练,包括如下步骤:

步骤401、所述耳机根据所述样本语音信息中的特征信息,确定所述样本语音信息中的深层语音特征。

可选的,所述耳机根据所述样本语音信息中的特征信息,确定所述样本语音信息中的深层语音特征,包括:

所述耳机根据所述样本语音信息中的特征信息,采用深度学习中的堆栈式深度自动编码器网络模型提取所述样本语音信息中的深层语音特征。

步骤402、所述耳机根据所述样本语音信息中的深层语音特征对预设声学模型进行训练。

本实施例可以构建堆栈式深度自动编码器网络(Deep Autoencoder,DAE),并采用深度学习模型对该网络进行训练。深度学习模型采用了逐层贪婪无监督预训练,具体的,先初始化该网络权值,再用大量无标签数据逐层进行预训练,即通过无监督学习方式来学习原始输入数据的结构,而通过这个预训练得到的这个初始权值是更接近目标的最优解的区间,所以在接下来的训练中,再用少量有标签数据对整个网络进行微调,这样才能取得更好的结果。

由多个自动编码器堆叠而成的网络称为深度堆栈式自动编码器网络,它属于无监督模型结构。在自动编码器的最顶编码层添加一个分类器,先用多个堆叠的AE进行非监督训练确定网络初始值(降低了对数据的要求),在最后结合一个输出层(分类器),用有标签数据自顶向下的使用BP(Error Back Propagation)算法对网络进行微调,这样就变成了一种有监督和无监督相结合的混合模型。

无监督方式:在无监督的堆栈式自动编码器模型中,先随机初始化每个自动编码器的权值参数;再使用随机梯度下降法和串行训练的方式训练网络权值参数。然后,一帧一帧的原始24维MFCC特征经过第一个自动编码器,到达的第一个中间编码层(第一个隐含层H1),即相当于原始特征空间映射到隐含层各节点所构成的新特征空间里,获得其在第一个隐含层的特征表示形式;类似的依次每经过一个自动编码器,都可视为上一个特征的重新组合并通过非线性映射在本编码层重构;最终,最后一个自动编码器的中间编码值作为此深度模型提取的新特征。

有监督方式:区分性训练是综合考虑不同类别的训练样本之间的相互影响,以调整不同类别间的分界线,如果能使声学特征本身也具备一定的区分性,对识别正确率的提升肯定会产生积极的影响。有监督模型结构就是在无监督模型中的最后一个编码层上再加上一个输出层(即二进制编码),将无监督特征与所属类别关联起来,以最小化损失函数为准则,通过BP算法重新调谐整个网络参数,最终在H4层得到区分性特征。

特征提取:本发明用深度学习中的堆栈式深度自动编码器网络模型提取深层语音特征时,采用提取MFCC特征作为该模型的网络节点的输入数据。一个人对一个词语的一遍发音后提取的24维MFCC特征数据,其中该词语发音的语音帧数为168帧。

本发明实施例通过耳机采集样本语音信息,并采用该样本语音信息训练预设声学模型,使得该预设声学模型能够识别用户的语音信息得到控制指令,并将该控制指令发送给终端设备,实现了对该终端设备中应用程序的控制,使得用户可以不通过点触该终端设备的屏幕也可以打开应用程序。

图5为本发明实施例提供的耳机的结构示意图。本发明实施例提供的耳机可以执行终端设备控制方法实施例提供的处理流程,如图5所示,耳机50包括:采集模块51、确定模块52、训练模块53、识别模块54和发送模块55;其中,采集模块51用于采集样本语音信息;确定模块52用于根据所述样本语音信息,确定所述样本语音信息中的特征信息;训练模块53用于根据所述样本语音信息中的特征信息对预设声学模型进行训练;识别模块54用于采用训练完成的预设声学模型对目标语音信息进行识别得到控制指令;发送模块55用于将所述控制指令发送给终端设备,以使所述终端设备根据所述控制指令控制所述终端设备中安装的应用程序。

可选的,训练模块53包括:确定单元531和训练单元532;确定单元531用于根据所述样本语音信息中的特征信息,确定所述样本语音信息中的深层语音特征;训练单元532用于根据所述样本语音信息中的深层语音特征对预设声学模型进行训练。

可选的,确定单元531具体用于:根据所述样本语音信息中的特征信息,采用深度学习中的堆栈式深度自动编码器网络模型提取所述样本语音信息中的深层语音特征。

可选的,所述控制指令包括AT指令。

可选的,发送模块55具体用于:通过蓝牙协议将所述控制指令发送给所述终端设备。

图5所示实施例的耳机可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图6为本发明实施例提供的耳机的结构示意图。本发明实施例提供的耳机可以执行终端设备控制方法实施例提供的处理流程,如图6所示,耳机60包括存储器61、处理器62、计算机程序和通讯接口63;其中,计算机程序存储在存储器61中,并被配置为由处理器62执行以上实施例所述的终端设备控制方法。

图6所示实施例的耳机可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的终端设备控制方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1