语音唤醒方法和装置的制造方法

文档序号:9371983阅读:447来源:国知局
语音唤醒方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域,尤其涉及一种语音唤醒方法和装置。
【背景技术】
[0002]语音唤醒技术是语音识别技术中重要分支,语音唤醒技术主要应用于车载导航、智能家居等领域,用户可通过语音指令启动程序或者服务,而无需手动操作。
[0003]目前,语音唤醒技术主要分为三种:第一种方式为基于置信度的语音唤醒技术,通过计算用户输入的语音信息的置信度,并根据置信度判断是否语音唤醒。第二种方式为基于识别引擎的语音唤醒技术,采用语言模型作为解码网络,对用户输入的语音信息进行解码识别,再根据识别出的识别结果判断是否语音唤醒。第三种方式为基于垃圾词的语音唤醒技术,通过唤醒词和唤醒词对应的垃圾词生成识别网络,基于识别网络对用户输入的语音信息进行识别,再根据识别出的识别结果判断该识别结果是否为唤醒词,如果是则唤醒成功,如果否则无法唤醒。
[0004]但是,第一种方式仅通过置信度判断是否语音唤醒,由于环境的不同,置信度的预设阈值也会相应改变,因此预设阈值难以确定,具有局限性;第二种方式计算量大,功耗高,实用性差;第三种方式在噪音环境中很难唤醒成功或者用户说出的是否为唤醒词都会唤醒,误报率高,用户体验差。

【发明内容】

[0005]本发明旨在至少在一定程度上解决上述技术问题。
[0006]为此,本发明需要提供一种语音唤醒方法,计算量小,功耗低,能够降低语音唤醒的误报率,提升用户使用体验。
[0007]此外,本发明还需要提供一种语音唤醒装置。
[0008]为解决上述技术问题中的至少一个,根据本发明第一方面实施例提出了一种语音唤醒方法,包括以下步骤:S1、获取唤醒词,并根据所述唤醒词生成符合预设条件的垃圾词,以及根据所述唤醒词和所述垃圾词构建识别网络;S2、获取用户输入的语音信息,将所述语音信息切分为多个语音帧,并提取所述每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算,以获得所述每个声学特征的声学特征得分;S4、根据所述声学特征得分从所述识别网络中选取最优识别路径,以及将所述最优识别路径对应的语音结果作为所述识别结果;以及S5、根据所述识别结果计算所述识别结果对应的置信度,并根据所述置信度获得唤醒结果并输出。
[0009]本发明实施例的语音唤醒方法,通过唤醒词和符合预设条件的垃圾词构建识别网络,然后基于卷积神经网络声学模型对用户输入的语音信息的声学特征进行似然计算,获得识别结果,并计算出识别结果对应的置信度,最终根据置信度获得唤醒结果并输出,环境鲁棒性好,无需根据环境改变预设阈值,计算量小,功耗低,降低了语音唤醒的误报率,进而提升用户使用体验。
[0010]本发明第二方面实施例提供了一种语音唤醒装置,包括:构建模块,用于获取唤醒词,并根据所述唤醒词生成符合预设条件的垃圾词,以及根据所述唤醒词和所述垃圾词构建识别网络;提取模块,用于获取用户输入的语音信息,将所述语音信息切分为多个语音帧,并提取所述每个语音帧中的声学特征;计算模块,用于基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算,以获得所述每个声学特征的声学特征得分;选取模块,用于根据所述声学特征得分从所述识别网络中选取最优识别路径,以及将所述最优识别路径对应的语音结果作为所述识别结果;以及输出模块,用于根据所述识别结果计算所述识别结果对应的置信度,并根据所述置信度获得唤醒结果并输出。
[0011]本发明实施例的语音唤醒装置,通过唤醒词和符合预设条件的垃圾词构建识别网络,然后基于卷积神经网络声学模型对用户输入的语音信息的声学特征进行似然计算,获得识别结果,并计算出识别结果对应的置信度,最终根据置信度获得唤醒结果并输出,环境鲁棒性好,无需根据环境改变预设阈值,计算量小,功耗低,降低了语音唤醒的误报率,进而提升用户使用体验。
[0012]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0013]图1为根据本发明一个实施例的语音唤醒方法的流程图。
[0014]图2为根据本发明一个实施例的语音唤醒装置的结构示意图一。
[0015]图3为根据本发明一个实施例的语音唤醒装置的结构示意图二。
【具体实施方式】
[0016]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0017]下面参考附图描述根据本发明实施例的语音唤醒方法和装置。
[0018]图1为根据本发明一个实施例的语音唤醒方法的流程图。
[0019]如图1所示,语音唤醒方法包括以下步骤:
[0020]S1、获取唤醒词,并根据唤醒词生成符合预设条件的垃圾词,以及根据唤醒词和垃圾词构建识别网络。
[0021]在本发明的实施例中,唤醒词可通过用户预先设置,例如“小度你好”。然后可根据唤醒词生成符合预设条件的垃圾词。具体地,可先获取唤醒词对应的第一状态序列,然后再从垃圾词典中获取与第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词。其中,第一编辑距离小于第二编辑距离。举例来说,假设唤醒词由Wl、W2、W3三个汉字组成,Wl具有两个音节Pll和P12,W2具有两个音节P21和P22,W3具有三个音节P31、P32和P33。而每个音节均可对应三个状态,即Pll对应的状态为S111、S112和S113,P12对应的状态为S121、S122和S123,P21对应的状态为S21US212和S213,P22对应的状态为S22US222和S223,P31对应的状态为S31US312和S313,P32对应的状态为S32US322和S323,P33对应的状态为S33US332和S333。由此,可获取对应的第一状态序列SListl为S111、S112、S113、S121......S331, S332、S333。然后再获取编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列。其中,编辑距离又称Levenshtein距离,为第一个字符串转换为第二个字符串所需的最少编辑操作次数,用来表示两个字符串之间的距离,可用Levenshtein(SListl,SList2)表示。本实施例中,假设第一编辑距离为A,第二编辑距离为B,则A〈Levenshtein (SListl,SList2)〈B的第二状态序列,均可作为第二状态序列。其中,A和B为实验数值,如果编辑距离小于A,则两个字符串太过相似,如果编辑距离大于B,则两个字符串完全不相关。而与多个第二状态序列对应的字符串即为垃圾词。
[0022]在生成垃圾词后,可从真实语音词典中获取通用垃圾词,然后将唤醒词的第一个字与通用垃圾词生成网络A,最后将生成的垃圾词、唤醒词、通用垃圾词以及网络A四者进行并联,最终生成识别网络。其中,通用垃圾词为针对所有语音聚类生成的垃圾词网络,均为真实用户的语音输入。
[0023]S2、获取用户输入的语音信息,将语音信息切分为多个语音帧,并提取每个语音帧中的声学特征。
[0024]在本发明的实施例中,可先获取用户输入的语音信息,再将语音信息切分为多个语音帧,例如1ms为一帧,然后提取每个语音帧中的声学特征。其中,声学特征可以是40维的FilterBank特征,也可以是13维的MFCC特征。
[0025]S3、基于卷积神经网络声学模型对多个声
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1