智能设备的语音唤醒方法及实现所述方法的系统的制作方法_2

文档序号：9454217阅读：来源：国知局

6]2、用户通过非接触的方法，通过语音启动智能设备，是非常友好的交互方式；
[0047]3、通过自定义唤醒关键词和系统的关键词构建方式建立语料库，提高识别正确率和有效使用距离；
[0048]4、本发明占用资源少、运行速度快，适用于嵌入式平台的应用。
【【附图说明】】
[0049]图1是本发明的系统结构图；
[0050]图2是本发明的方法流程图；
[0051]图3是本发明的设计流程图；
[0052]图4是本发明自定义唤醒关键词的方法流程图。
【【具体实施方式】】
[0053]如图1所示的语音唤醒系统，包括语音检测唤醒模块11、自定义唤醒词模块12及唤醒词资源包13。
[0054]语音检测唤醒模块11包括录音模块111、语音端点检测模块112、前端处理模块113语音唤醒检测模块114及反馈控制模块115。其中，录音模块111通过调用智能终端的相关API接口获取录音数据；语音检测模块112通过基于子带谱熵的方法实时检测录音数据中是否包含语音，并将语音信号提取出来；前端处理模块113用来对语音信号进行分析，并提取语音特征向量，本实施例采用梅尔频率倒谱系数(MFCC)的方法实现特征向量提取；唤醒关键词检测模块114用于将113中提取的语音特征向量进行解码，检测是否包含唤醒关键词；反馈控制模块115负责根据识别结果判断是否启动智能终端设备。
[0055]具体地，语音端点检测模块112用于对录音进行分析，检测是否包含语音。首先，采用25毫秒的窗口及10毫秒的帧移将录音信号进行分帧；接着，对每帧信号进行傅里叶变换，并将频率谱分成若干个子带，分别计算谱熵；最后根据子带谱熵，判断时候是语音的开始或结束。
[0056]语音前端处理模块113用于提取语音信号的声学特征。采用每25毫秒提取一次梅尔频率倒谱系数(MFCC)，帧移为10毫秒，并将提取的声学特征传给语音唤醒关键词检测模块114通过维特比解码算法进行解码，并使用上下文相关的三音子声学模型。
[0057]自定义唤醒词模块12用于将用户自定义的唤醒关键词由文本数据转换成相应的资源文件。用户只需要将自定义的唤醒关键词以汉字的形式写入到关键词表中，该模块自动将文本转换成关键词唤醒模块所需的解码网络资源。
[0058]唤醒关键词资源13包括唤醒关键词检测模块所需的声学模型资源和由自定义唤醒关键词模块12生成的解码网络资源。
[0059]关键词表的设计如图4所示，采取基于规则驱动和基于数据驱动相结合的方法，详细描述如下:
[0060]根据通用汉语的语音学和声学中的发音规则，确定关键词的近似词条或竞争词条。根据我国通用的语文教材，汉语的声母发音按发音方式，共分为塞音、擦音、塞擦音、鼻音和边音，塞音共有6个:b、p、d、t、g、k ;擦音共有6个:f、h、x、sh、r、s ;塞擦音共有6个:z、zh、C、ch、j、q ;鼻音声母2个:m、η ;边音I个:1。
[0061]韵母则可按照韵母开头元音口形，分为开口呼、齐齿呼、合口呼、撮口呼等几种，例如a、O、e属于开口呼，齐齿呼是主要元音为i和韵头为i的韵母；合口呼是主要元音为u和韵头为u的韵母；撮口呼是主要兀首为U和韵头为U的韵母。
[0062]本发明按照上述发音规则，将与关键词发音方式相近的词条，如声母或韵母与目标唤醒关键词都属于同一类发音方式的，一起作为唤醒关键词；而对于其余发音方式不同的，比如声母和韵母与目标关键词不同，则作为竞争词条。比如对于关键词“云宝”，会根据它的声母韵母的发音特征，因为“a”和“ao”都属于开口呼的发音方式，所以认为“把”的发音与“宝”相近，而认为与“非”、“服”、“发”等字的发音方式则相不同。
[0063]基于数据驱动的方法中，通过寻找在我们语料库中实际识别次数较多的词条构造词表。例如，在“云宝”的语料中，被识别成“玲卯”、“联马”等词次数较多。该种方法很好的利用了实际语料中的信息，在语料库足够大的情况下，可以获得很好的效果。
[0064]为了降低误唤醒次数，在建立语料库时，本发明还可以通过收集了包含多个说话人的公共语料库，该语料库包括人们自由的交谈、打电话及电视节目的录音等，通过设计一些词条匹配这些声音，达到了降低误唤醒的效果。
[0065]本发明通过自定义关键词和建立语料库，特别是通过采用包括基于规则驱动建立关键词和基于数据驱动建立关键词，以及建立的语音库覆盖中文中所有音素和音节单元，且包含各个年龄层和各地口音，作为解码特征向量的关键依据，以训练非特定说话人的声学模型。
[0066]在使用语音唤醒功能时，用户可以站在离智能终端较远的距离，一般0.2米到5米以的范围内。用户只要用正常说话声音说出唤醒关键词，即便由于噪声或距离导致系统解码获得的关键词偏离用户实际说出的关键词，但依据自定义关键和语料库，系统依然能够有效检测到语音并正确识别出语音中的唤醒词，则可启动智能终端设备。
[0067]以上所述，仅为本发明的优选实施例，并不用以限制本发明，凡依据本发明权利要求及说明书内容所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。
【主权项】
1.智能设备的语音唤醒方法，所述方法包括: A、获取音频数字信号； B、对音频数字信号进行语音端点检测，判断是否含有语音信号； C、若音频数字信号中含有语音信号，通过语音前端处理方法逐帧提取特征向量； D、通过关键词检测方法对特征向量进行逐帧解码，得到唤醒词指令； E、通过唤醒词指令对智能设备进行反馈控制；其特征在于步骤D中对特征向量进行解码包括前置步骤: Dl、建立自定义唤醒关键词文本集，和 D2、将所述文本集转换为关键词网络解码资源，生成语料库；其中，所述步骤Dl采用包括基于规则驱动建立关键词和基于数据驱动建立关键词；基于规则驱动建立关键词是指通过语音发音规则，获取与关键词发音相似的近似词条，除近似词条以外的词条定义为竞争词条；当步骤D的解码得到近似词条，则认为得到与所述近似词条对应的关键词；基于数据驱动建立关键词是指获取实际被识别次数较多的词条，当步骤D的解码得到所述实际被识别次数较多的词条，则认为得到与之对应的关键词。2.根据权利要求1所述的方法，其特征在于基于规则驱动建立关键词包括根据汉字语音声韵母的发音规则将声母和韵母发音分别进行分类，其中声母分为塞音、擦音、塞擦音、鼻首和边首，韵母分为开口呼、齐齿呼、合口呼和撮口呼，其中与关键词的汉字发首具有同一声母类型或同一韵母类型的词定义为近似词条。3.根据权利要求1所述的方法，其特征在于步骤B中采用基于子带谱熵的方法实现语音端点检测，包括将数字语音信号划分为多个语音帧，对各语音帧进行傅里叶变换，得到多个语音频谱；将每个语音频谱划分为多个子带，计算各子带谱熵；将各子带谱熵与预设的谱熵阈值进行比较，通过结果检测各语音帧是否含有语音。4.根据权利要求3所述的方法，其特征在于划分语音帧采用25毫秒窗及10毫秒的帧移。5.根据权利要求1所述的方法，其特征在于步骤C中提取特征向量中，提取梅尔频率倒谱系数的作为特征向量。6.一种语音唤醒智能设备的系统，所述系统包括: 语音检测模块，负责实时采集和检测用户的语音；语音唤醒模块，用于实时检测采集的语音数据中是否存在唤醒关键词，在检测到唤醒关键词之后，发出控制信号，启动智能设备；唤醒关键词自定义模块，用户根据自己的喜好或者智能产品的需要，自定义关键词唤醒词表，再由该模块生成本地资源文件保存。7.根据权利要求6所述的系统，其特征在于所述语音检测模块包括: 实时录音模块(111)，调用智能设备的相关接口获取录音数据；语音端点检测模块(112)，采用基于子带谱熵的方法检测实时录音模块是否含有语音信号，并提取语音信号。8.根据权利要求6所述的系统，其特征在于所述语音唤醒模块包括: 语音信号前端处理模块(113)，用于对语音信号进行短时谱分析，并提取梅尔频率倒谱系数作为语音特征向量；语音唤醒关键词检测模块(114)，用于将提取到的语音特征向量进行解码，判断是否匹配唤醒关键词；反馈控制模块(115)，根据语音关键词检测模块给出的结果，决定是否启动智能设备。9.根据权利要求5所述的系统，其特征在于唤醒关键词自定义模块包括基于规则驱动建立的关键词库和基于数据驱动建立的关键词库；基于规则驱动建立的关键词库是通过语音发音规则建立的与关键词发音相似的近似词条以及除近似词条以外的的竞争词条的库；基于数据驱动建立的关键词库是实际被识别次数建立的词条的库。
【专利摘要】本发明涉及智能设备的语音唤醒方法及系统，所述方法包括获取音频数字信号、对音频数字信号进行语音端点检测、音频数字信号中含有语音信号，通过语音前端处理方法提取特征向量、通过关键词检测方法对特征向量进行解码，得到唤醒词指令、通过唤醒词指令对智能设备进行反馈控制；其中对特征向量进行解码包括前置步骤：建立自定义唤醒关键词文本集，和将所述文本集转换为关键词网络解码资源。本发明的方法和系统具有唤醒识别率高、交互方式友好、有效使用距离远、占用资源少、运行速度快的优点。
【IPC分类】G10L15/26, G10L15/04
【公开号】CN105206271
【申请号】CN201510526185
【发明人】何娅玲, 何宇新
【申请人】北京宇音天下科技有限公司
【公开日】2015年12月30日
【申请日】2015年8月25日

完整全部详细技术资料下载

当前第2页1 2