一种远场语音交互装置的制作方法

文档序号:14094606阅读:694来源:国知局
一种远场语音交互装置的制作方法

本实用新型涉及人工智能技术领域,特别涉及一种远场语音交互装置。



背景技术:

智能硬件是以平台性底层软硬件为基础,以智能传感互联、人机交互、新型显示及大数据处理等新一代信息技术为特征,以新设计、新材料硬件为载体的新型智能终端产品及服务。随着技术升级、关联基础设施完善和应用服务市场的不断成熟,智能硬件的产品形态从智能手机延伸到智能可穿戴、智能家居、智能车载、医疗健康、智能无人系统等,成为信息技术与传统产业融合的交汇点。

目前,智能硬件产品在很多场景下因为语音交互体验不如人意而深受诟病,究其原因主要是语音交互用户场景的变化,当用户从手机的Siri切换到类似智能音箱的时候,实际上麦克风面临的环境就完全变了,这就如同两个人窃窃私语和大声嘶喊的区别。语音交互受限于背景噪音、其他人声干扰、回声和混响等多重复杂因素,进而导致的识别距离近、识别率低等明显痛点。



技术实现要素:

(一)解决的技术问题

为了解决上述技术问题,本实用新型提供了一种远场语音交互装置,采用高集成度和高性价比一体化设计,具有全方位唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、远场语音识别等功能。

(二)技术方案

一种远场语音交互装置,包括语音拾取模块、前端放大模块、处理器、第一存储器、第二存储器、无线通信模块、指示灯和电源模块;所述电源模块分别为所述语音拾取模块、所述前端放大模块、所述处理器、所述第一存储器、所述第二存储器、所述无线通信模块和所述指示灯提供电源。

进一步的,所述语音拾取模块为麦克风阵列,且所述麦克风阵列数量为6个。

进一步的,所述麦克风阵列在PCB板上为直径8cm的环形分布。

进一步的,所述第一存储器为DDR3。

进一步的,所述第二存储器为eMMC。

进一步的,所述处理器为Cypress CYW43438。

进一步的,所述无线通信模块为红外线模块、蓝牙模块或者WIFI模块中的一种或者组合。

(三)有益效果

本实用新型提供了一种远场语音交互装置,采用高集成度和高性价比一体化设计,具有全方位唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、远场语音识别等功能,广泛适用于智能音箱、DOT、电视盒子等智能硬件设备。

附图说明

图1为本实用新型所涉及的一种远场语音交互装置系统框图。

图2为本实用新型所涉及的一种远场语音交互装置PCB分布示意图。

图3为本实用新型所涉及的一种远场语音交互装置语音算法流程图。

具体实施方式

下面结合附图对本实用新型所涉及的实施例做进一步详细说明。

实施例1:

如图1所示,一种远场语音交互装置,包括语音拾取模块、前端放大模块、处理器、第一存储器、第二存储器、无线通信模块、指示灯和电源模块;

语音拾取模块识别环境中的语音信号;

前端放大模块对语音拾取模块拾取的语音信号进行滤波和放大处理;

第一存储器存储语音算法代码等底层指令,用户对底层指令不能修改;

第二存储器存储外围智能硬件设备的配置信息和激活词等上层指令,用户对上层指令可进行修改;

处理器执行第一存储器和第二存储器的指令;

无线通信模块连接外围智能硬件设备;

指示灯为LED发光二极管;

电源模块为上述各部分提供电源。

实施例2:

结合图2和图3,说明装置工作原理。

语音拾取模块为麦克风阵列,麦克风阵列是利用一定数目,一定空间构型的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。线性、环形、球形麦克风阵列在原理上并无太大区别,只是由于空间构型不同,导致它们可分辨的空间范围也不同。比如,在声源定位上,线性阵列只有一维信息,只能分辨180度;环形阵列是平面阵列,有两维信息,能分辨360度;球形阵列是立体三维空间阵列,有三维信息,能区分360度的方位角和180度俯仰角。其次麦克风的个数越多,对说话人的定位精度越高,但是定位精度的差别体现在交互距离的远近上,如果交互距离不是很远,5麦和8麦的定位效果差异不是很大。此外,麦克风个数越多,波束能区分的空间越精细,在嘈杂环境下的拾音质量越高,但是在一般室内的安静环境下,5麦和8麦的识别率相差不是很大。同时麦克风个数越多,成本也越高。

综合考量,麦克风阵列数量选取6个,并且在PCB板上设计成直径为8cm的环形分布,兼具360度全方位的高定位精度和高拾音质量,同时使得开发成本不会很高,有利于装置的小型化设计。

第一存储器选用DDR3,属于SDRAM家族的内存产品,提供了相较于DDR2更高的运行效能与更低的电压,功耗和发热量更小。

DDR3存储的语音算法包括语音激活检测、语音唤醒、回声消除、低信噪比和混响。

语音激活检测就是判断环境中什么时候有语音什么时候没有语音,后续的语音信号处理都是在这一步截取出来的有效语音片段上进行的,这样可以极大的减少计算量,同时也能减少噪声误识别等情况。

语音唤醒是人机交互的主要触发方式,在语音激活检测到语音信号之后进行工作,判断语音信号中是否包含预先存储的激活词,若包含,则对后续的语音信号继续识别,否则后续的语音不进行处理。

回声消除是全双工通信中的一个名词,即在播放的同时可以拾音。回声消除的难点在于它要和智能硬件设备比如智能音箱的音响效果之间有一个平衡和折中。

低信噪比和混响。有时候环境中背景噪声很大,比如家里开电视、或者在汽车里面等等,从而使得语音质量变差,即信噪比降低。另外家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。为了对语音信号进行增强,提高语音的信噪比,通过深度神经网络对带噪语音和干净语音间的复杂关系进行回归拟合建模,该方法基于对数功率谱最小均方误差准则,多帧扩展对提升语音增强质量和连续性有很大帮助。

第二存储器选用eMMC存储器,其带有多媒体卡接口、快闪存储器设备及主控制器,所有都在一个小型的BGA封装,有利于装置小型化,同时接口速度高达每秒52M字节。

处理器选用Cypress CYW43438型号芯片,该芯片集成了IEEE 802.11a/b/g/n/ac WLAN和蓝牙,采用高集成度和高性价比的一体化设计,可实现小尺寸的物联网产品设计。

无线通信模块为红外线模块、蓝牙模块或者WIFI模块中的一种或者组合。鉴于此实施例中处理器已经集成了蓝牙和WIFI模块,只需补充红外线模块即可。

远场语音识别,需要软硬件结合,一方面通过硬件使用环形6麦克风阵列和滤波信号放大电路,通过声源定位及自适应波束形成语音增强,在硬件端完成远场拾音,并初步完成滤噪,另一方面通过Cypress CYW43438处理器运行内存DDR3中存储的语音算法代码,对语音信号进行语音激活检测、语音唤醒、回声消除、低信噪比和混响的处理,从环境的语音信号中提取出清晰的激活词。用户根据个人需要通过红外、蓝牙或者WIFI连接若干个外围智能硬件设备和设置多个激活词,并将配置信息和激活词存储在eMMC存储器中。当处理器接收到有效激活词的时候,LED指示灯闪烁,同时处理器控制相应的外围智能硬件设备进行响应。

在实际使用过程中,本实用新型所提供的一种远场语音交互装置的灵敏度>-42dBV@94dB 1KHz,水平方向实现360°声源定位,定位精度为±10°,动态噪声抑制>20dB,信噪比>65dB,唤醒距离可达20m,并且3m的唤醒率>96%,5m的唤醒率>91%;识别距离可达5m,并且2m的识别率>95%,5m的识别率>90%,支持任意打断,连续唤醒,完全满足了一般室内的智能硬件设备布置需求。

本实用新型提供了一种远场语音交互装置,采用高集成度和高性价比一体化设计,具有全方位唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、远场语音识别等功能,广泛适用于智能音箱、DOT、电视盒子等智能硬件设备。

上面所述的实施例仅仅是对本实用新型的优选实施方式进行描述,并非对本实用新型的构思和范围进行限定。在不脱离本实用新型设计构思的前提下,本领域普通人员对本实用新型的技术方案做出的各种变型和改进,均应落入到本实用新型的保护范围,本实用新型请求保护的技术内容,已经全部记载在权利要求书中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1