一种多场景命令词语音识别装置的制作方法

文档序号:13867891阅读:545来源:国知局
一种多场景命令词语音识别装置的制作方法

本实用新型属于语音识别领域,更具体地,涉及一种多场景命令词识别装置。



背景技术:

近年来,随着语音识别技术的进步,语音交互因其天然的便利性,在日常生活中应用越来越广泛。语音唤醒和命令词识别这两个最常用的技术点在车载系统、智能家居等领域里已经得到广泛的应用。但我们也发现,在目前大部分的应用方案中,语音交互采用的是在线识别的方式,这就要求设备在使用时需要连接互联网,将计算好的语音特征值上传到服务器,服务器再返回识别后的结果。这种方式的好处是识别在云端进行,识别的结果会很精确,但这种方式的用户体验与网络环境密切相关,在没有网络的时候就无法使用;而且因为要传回数据到服务器,这就牵涉到用户隐私和网络安全等因素,所以大大的影响了应用范围。

在这种情况下,业界开始采用离线的语音交互方式,相对于在云端服务器的识别方法,离线语音识别精简了语言和声学模型,所有的运算都在本地进行。离线语音交互种核心部件是命令词的语音识别,但是受制于硬件条件限制,如计算能力、RAM和Flash大小以及功耗散热等因素,尤其是主频和RAM大小,这两项直接限制了模型的大小以及所支持的命令词数量,模型精简过度之后会严重影响识别的准确率。此外,这种离线识别方案中,不同的应用场景使用的是不同的命令词,需要提前将模型和代码写入硬件,这意味着不同的应用场景必须得开发不同的固件模块,这在实际生产、使用中造成了极大的不便。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本实用新型提供了一种多场景命令词语音识别装置,其目的在于通过集成所有场景下语音识别模型,并在相应场景下进行调用,由此解决现有技术对于不同场景下的语音命令识别需要精简模型导致识别率不高、或者针对不同场景设计不同固件造成成本过高的技术问题。

为实现上述目的,按照本实用新型的一个方面,提供了一种多场景命令词语音识别装置,包括场景标识器、外挂存储器、内置存储器、以及处理器;

所述处理器与场景标识器、外挂存储器、以及内置存储器电相连;

所述场景标识器,用于标识当前应用场景;

所述外挂存储器,用于按照不同的应用场景,存储应用场景相应的命令词及其识别模型;

所述内置存储器,用于存储当前应用场景相应的命令词极其识别模型;

所述处理器,用于根据场景标识器标识的当前应用场景,调用所述外挂存储器种存储的当前应用场景相应的命令词极其识别模型进入所述内置存储器,进行命令词识别处理。

优选地,所述多场景命令词语音识别装置,其所述场景标识器为数字电路。

优选地,所述多场景命令词语音识别装置,其场景标识器为拨线器。

优选地,所述多场景命令词语音识别装置,其外挂存储器为RAM存储器或FLASH存储器。

优选地,所述多场景命令词语音识别装置,其内置存储器为RAN存储器。

优选地,所述多场景命令词语音识别装置,其识别模型为隐马尔科夫模型。

优选地,所述多场景命令词语音识别装置,其装置还包括语音输入模块、以及输出模块;所述语音输入模块、以及输出模块与处理器电相连。

优选地,所述多场景命令词语音识别装置,其语音输入模块,用于采集交互装置外部语音信号并进行及降噪处理。

优选地,所述多场景命令词语音识别装置,其输出模块,用于按照处理器识别出的命令,调用相应接口,实现命令功能。

优选地,所述多场景命令词语音识别装置,其应用场景包括不同类型的应用场景和/或同一类型不同级别的应用场景。

总体而言,通过本实用新型所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

本实用新型利用内置存储器调用外挂存储器中的命令词识别模型,可以大大的节省内存,在同等硬件条件下,支持更多的命令词;对于同一套元器件可以适用于不同的应用场景,并且不必针对不同的场景中的内置存储器中写入不同的代码,只需要在实施的时候调用不同的外挂存储器即可,大大的节省了应用成本,提高经济效益。

附图说明

图1是本实用新型提供的多场景命令词语音识别装置结构示意图;

图2是本实用新型实施例提供的多场景命令词语音识别装置结构示意图。

具体实施方式

为了使本实用新型的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本实用新型进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本实用新型,并不用于限定本实用新型。此外,下面所描述的本实用新型各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本实用新型提供的多场景命令词语音识别装置,如图1所示,包括:场景标识器、外挂存储器、内置存储器、处理器、语音输入模块、以及输出模块;

所述处理器与场景标识器、外挂存储器、内置存储器以及输出模块电相连;

所述场景标识器,用于标识当前应用场景;优选采用数字电路,例如拨码开关、拨码盘、微型开关、滑动开关、跳线装置。

所述外挂存储器,用于按照不同的应用场景,存储应用场景相应的命令词及其识别模型;优选为RAM存储器或FLASH存储器。

所述内置存储器,用于存储当前应用场景相应的命令词极其识别模型;优选为RAM存储器。

所述处理器,用于根据场景标识器标识的当前应用场景,调用所述外挂存储器种存储的当前应用场景相应的命令词极其识别模型进入所述内置存储器,进行命令词识别处理。

所述识别模型,优选为隐马尔科夫模型。

所述应用场景包括:不同类型的应用场景和/或同一类型不同级别的应用场景;不同类型的应用场景如不同家用电器的控制场景;同一类型不同级别的应用场景如同一家用电器不同使用状态下的控制场景。

所述语音输入模块,用于采集交互装置外部语音信号并进行及降噪处理;

所述输出模块,用于按照处理器识别出的命令,调用相应接口,实现命令功能。

以下为实施例:

本实用新型提供的多场景命令词识别装置,如图2所示,包括:场景标识器、外挂存储器、内置存储器、处理器、语音输入模块、语音唤醒模块、以及输出模块;

所述语音输入模块与语音唤醒模块相连;所述语音唤醒模块与处理器相连;所述处理器与外挂存储器、内置存储器以及输出模块相连;

所述场景标识器,采用管线脚数字编码电路,接高电压表示1,接地表示0,这样对于两个管脚,总共可以得到00、01、10、11共计四种编码,程序启动时,按照不同管脚的高低电平编码,调入不同的模型到RAM中,以适应不同的应用场景。这样在实际应用中,我们都只需要提供同一套电子元器件,里面的软件代码也都一样,只是在不同的应用场景的时候,硬件电路接通相应的管脚。例如:我们可以将00对应电灯的命令词,01对应空调的命令词,10对应冰箱的命令词,11对应风扇的命令词。在实现过程中,我们先检测编码,然后调入不同的命令词模型到RAM存储器中,这样就不需要同时支持电灯、空调、冰箱和风扇的命令词,实际应用只需要调入其中一个到RAM中即可。

所述外挂存储器,为外挂闪存,即FLASH存储器;其中FLASH存储器中预设有本交互装置所应用的场景相对应的命令词识别模型,FLASH存储器中的命令词识别模型可被处理器,调入RAM存储器。

所述内置存储器,为SDRAM存储器,用于存储当前应用场景相应的命令词极其识别模型。

所述处理器,为嵌入式智能语音芯片内核,用于根据场景标识器标识的当前应用场景,调用所述外挂存储器种存储的当前应用场景相应的命令词极其识别模型进入所述内置存储器;接受来自语音输入模块经过降噪处理后的语音信号,并根据本交互装置所应用的场景从RAM存储器中的命令词识别模型从而进行语音识别,并将识别得到的有效命令提交给输出模块。

所述处理器采用的唤醒/命令词识别算法如下:通过实时语音采集,然后计算语音能量,如果一定时候这些能量没有超过一个阈值,我们认为没有声音,这个时候也就不需要进行语音算法处理处理。一旦检测到有声音,我们将会对其后的语音数据计算特征然后语音识别。从工程的角度,从检测到声音和声音结束,会有一段时间,如果时间太长或者太短,我们可以都认为不是我们期望的命令词语。考虑到识别率和嵌入式计算性能的平衡,我们通常采用基于隐马尔科夫模型的方法做语音识别。基于隐马尔科夫模型的语音识别算法是一种经典的、高效的、与说话人无关的一种语音识别算法。它通过使用大量语音语料对语音建模(比如中文可以对每个声母和韵母建模,或者对每个音节建模等),然后使用这些模型搭建需要的识别网络。在命令词识别的时候,针对每个命令词,我们对连续提取语音特征和建模数据进行计算得到得分,最终我们以最高得分的命令词为识别结果。另外,为了识别排除一些不是属于这些命令词集的语音,我们提供一个通用的共有的模型来计算得分,通过比较这个得分和之前的命令词网络得分,以便于判断这段语音是否是属于命令词中的一种,这样子使得识别算法更有实用性。实现时可通过对编译器进行定点化代码实现隐马尔科夫模型中涉及到的各种浮点运算过程。

所述语音输入模块,用于采集语音信号并进行降噪。

所述输出模块,用于按照处理器识别出的命令,调用相应接口,实现命令功能,具体为应用场景中的外围设备如各种家电及开关进行响应。

本领域的技术人员容易理解,以上所述仅为本实用新型的较佳实施例而已,并不用以限制本实用新型,凡在本实用新型的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本实用新型的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1