一种语音控制方法及装置的制造方法

文档序号:8446548阅读:236来源:国知局
一种语音控制方法及装置的制造方法
【技术领域】
[0001]本发明涉及语音技术,尤其涉及一种语音控制方法及装置。
【背景技术】
[0002]本申请发明人在实现本申请实施例技术方案的过程中,至少发现现有技术中存在如下技术问题:
[0003]以可视通讯场景为例,随着语音识别技术在市场上大规模的应用,用户对通过语音发出控制命令,来代替人工操作控制命令的需求日益增强,目前在可视通讯领域中,控制方案都功能单一,且都是建立在简单的人工操作基础上,不具备新颖的实用功能,缺乏创新性,对于这个问题,现有技术并未存在有效的解决方案。

【发明内容】

[0004]为解决现有技术存在的问题,本发明实施例希望提供一种一种语音控制方法及,能通过语音发出控制命令,便于用户操作,将用户的双手解放出来。
[0005]一种语音控制方法,所述方法包括:
[0006]触发用户操作后获取语音数据;
[0007]对所述语音数据进行语音识别,按照预定方式进行关键字匹配,从所述语音数据中得到识别出的关键字数据;
[0008]触发关键字控制命令的发送,将所述识别出的关键字数据作为控制命令对所述用户操作进行响应,来实现语音控制。
[0009]优选地,所述对所述语音数据进行语音识别,按照预定方式进行关键字匹配,从所述语音数据中得到识别出的关键字数据,包括:
[0010]基于隐马尔科夫模型HMM建模的预定方式进行关键字匹配时,所述语音数据进行语音识别所提取的声学特征参数为MFCC特征参数,将识别结果作为关键字匹配的参考基准,得到识别出的关键字数据。
[0011]优选地,所述方法还包括:得到识别出的关键字数据后,基于最短距离的预定方式进行关键字匹配优化处理。
[0012]优选地,所述基于最短距离的预定方式进行关键字匹配优化处理,包括:
[0013]建立关键字数据语音库;
[0014]提取所述识别出的关键字数据的声学特征参数为MFCC特征参数,并使用矢量量化(VQ)进行所述关键字数据语音库中的数据聚类,得到每个类内的代表矢量;
[0015]根据每个类内的代表矢量得到所述及识别出的关键字数据的MFCC特征参数与每个类内的代表矢量的最短距离;
[0016]所述最短距离与经验阈值匹配成功时得到关键字匹配优化处理后识别出的关键字数据。
[0017]优选地,所述方法还包括:
[0018]通过对关键字数据的能量信息对比,判断控制命令是否执行完毕,若执行完毕,则结束当前关键字匹配,重新对所述语音数据进行语音识别。
[0019]优选地,所述关键字数据包括:呼入、呼出、接听、挂断中至少一个基本控制命令信肩、O
[0020]一种语音控制装置,所述装置包括:
[0021]语音获取单元,用于触发用户操作后获取语音数据;
[0022]关键字识别单元,用于对所述语音数据进行语音识别,按照预定方式进行关键字匹配,从所述语音数据中得到识别出的关键字数据;
[0023]语音控制单元,用于触发关键字控制命令的发送,将所述识别出的关键字数据作为控制命令对所述用户操作进行响应,来实现语音控制。
[0024]优选地,所述关键字识别单元,进一步用于基于隐马尔科夫模型HMM建模的预定方式进行关键字匹配时,所述语音数据进行语音识别所提取的声学特征参数为MFCC特征参数,将识别结果作为关键字匹配的参考基准,得到识别出的关键字数据。
[0025]优选地,所述关键字识别单元,进一步用于得到识别出的关键字数据后,基于最短距离的预定方式进行关键字匹配优化处理。
[0026]优选地,所述关键字识别单元,进一步用于基于最短距离的预定方式进行关键字匹配优化处理的情况下,建立关键字数据语音库;提取所述识别出的关键字数据的声学特征参数为MFCC特征参数,并使用矢量量化(VQ)进行所述关键字数据语音库中的数据聚类,得到每个类内的代表矢量;根据每个类内的代表矢量得到所述及识别出的关键字数据的MFCC特征参数与每个类内的代表矢量的最短距离;所述最短距离与经验阈值匹配成功时得到关键字匹配优化处理后识别出的关键字数据。
[0027]优选地,所述关键字识别单元,进一步用于通过对关键字数据的能量信息对比,判断控制命令是否执行完毕,若执行完毕,则结束当前关键字匹配,重新对所述语音数据进行语音识别。
[0028]优选地,所述关键字数据包括:呼入、呼出、接听、挂断中至少一个基本控制命令信肩、O
[0029]本发明实施例的方法包括:触发用户操作后获取语音数据;对所述语音数据进行语音识别,按照预定方式进行关键字匹配,从所述语音数据中得到识别出的关键字数据;触发关键字控制命令的发送,将所述识别出的关键字数据作为控制命令对所述用户操作进行响应,来实现语音控制。由于能通过识别出的关键字数据触发关键字控制命令的发送,对所述用户操作进行响应,来实现语音控制,因此,采用本发明实施例控制命令的自动匹配发出代替了现有的用户手工操作,便于用户操作,将用户的双手解放出来。
【附图说明】
[0030]图1为本发明实施例的方法流程图;
[0031]图2为本发明实施例的装置结构图;
[0032]图3为本发明实施例一应用场景的流程图;
[0033]图4为本发明实施例矢量量化例子的示意图;
[0034]图5-7为本发明实施例一应用场景的装置基本模块运行的实现流程图。
【具体实施方式】
[0035]下面结合附图对技术方案的实施作进一步的详细描述。
[0036]本发明实施例的方案是一种应用语音识别技术进行关键字识别进而实现语音控制的方案,可以用于可视通讯系统、终端设备间通话和互发短信等各个应用场景,通过语音数据关键字的识别得到自动匹配的控制命令,代替目前的人工控制,本发明实施例作为一种辅助手段使得用户能进行更为人性化的各种控制操作。
[0037]本发明实施例的语音控制方法,如图1所示,包括:
[0038]步骤101、触发用户操作后获取语音数据。
[0039]步骤102、对所述语音数据进行语音识别,按照预定方式进行关键字匹配,从所述语音数据中得到识别出的关键字数据。
[0040]步骤103、触发关键字控制命令的发送,将所述识别出的关键字数据作为控制命令对所述用户操作进行响应,来实现语音控制。
[0041]这里,所述关键字数据包括:呼入、呼出、接听、挂断中至少一个基本控制命令信肩、O
[0042]这里,步骤102对所述语音数据进行语音识别,按照预定方式进行关键字匹配,如果从所述语音数据中得到识别出的关键字数据,则可以执行步骤103,如果不匹配,无法得到识别出的关键字数据,则可以将语音数据作为普通数据发送。
[0043]本发明实施例的语音控制装置,如图2所示,包括:
[0044]语音获取单元11,用于触发用户操作后获取语音数据。关键字识别单元12,用于对所述语音数据进行语音识别,按照预定方式进行关键字匹配,从所述语音数据中得到识别出的关键字数据。语音控制单元13,用于触发关键字控制命令的发送,将所述识别出的关键字数据作为控制命令对所述用户操作进行响应,来实现语音控制。
[0045]本发明实施例可以用于可视通讯系统、终端设备间通话和互发短信等各个应用场景,以下以可视通讯应用场景进行具体阐述。
[0046]如图3所示,本发明实施例在可视通讯应用场景中,包括以下步骤:
[0047]步骤201、用户触发可视通讯操作后获取语音数据。
[0048]步骤202、对语音数据进行关键字匹配识别,如果匹配,则执行步骤203,否则,执行步骤204。
[0049]步骤203、响应用户操作,发出关键字控制命令,实现可视通讯操作中的语音控制。
[0050]步骤204、RTP数据包发送。
[0051]这里需要指出的是,本发明实施例主要在将RTP语音数据包发送之前,嵌入了语音
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1