集成远场语音识别和声场录制的系统的制作方法

文档序号：11764489阅读：373来源：国知局

本实用新型总体上涉及语音处理技术领域，尤其涉及集成远场语音识别和声场录制的系统。

背景技术：

近几年人工智能，人工智能的前端最重要的是信息的正确获取，特别是音视频技术受到格外关注，但与视频技术的进步相比，虽说在近场单通道语音识别上获得很大进展，已经达到非常高的正确识别率，但远场语音交互技术还需要更大的发展，基于麦克风阵列的远场语音识别是其中最关键的技术。同样的，AR(Augmented Reality，增强现实)/VR(Virtual Reality，虚拟现实)技术在近些年开始逐步走向应用，相对于视觉体验，音频体验同样相对滞后，其中一项重要的技术是原始声场的采集与重现，利用麦克风技术阵列技术，同样可以实现原始声场的采集。

但是现有产品及技术都是针对其中某项应用进行的设计，仅仅能实现远场语音识别或者声场录制，而在实际应用过程中，例如在办公场所或者家庭客厅中，一方面有远场语音识别与控制的需求，例如利用远场识别控制电视或者投影仪的操作灯；另一方面又有声场录制的需求，例如与远方朋友或亲人全息通话，或者会议室内的全息音视频会议通讯等，现有技术并没有能够同时满足上述两种需求的系统。

例如，亚马逊推出的echo音箱利用麦克风阵列技术进行远场语音采集。在音箱顶部布放了6+1个麦克风，其中6个麦克风均匀布放构成一个环形阵列，另外中心布放一个麦克风，利用麦克风阵列信号处理技术，实现远场语音识别，但并没有声场录音的功能。其他类似的智能音箱都采用了类似的方案，但都只实现远场语音识别功能。1.2.2现有技术一的缺点

又例如，CN104754471A利用麦克风阵列中的两两组合成新的麦克风对进行处理，计算获得声场各阶分量，利用解码矩阵合成各扬声器激励，从而重建二维声场。但其只能进行声场录制，没有远场语音识别功能。

技术实现要素：

(一)要解决的技术问题

本实用新型提供了一种集成远场语音识别和声场录制的系统，既能实现远场语音识别，又能够实现声场录制，并且能进行两种模式的灵活切换。

(二)技术方案

本实用新型提供了一种集成远场语音识别和声场录制的系统，包括：麦克风阵列和数据处理终端；其中，所述系统包括远场语音识别和声场录制两种工作模式；所述麦克风阵列对声音信号进行采集；所述数据处理终端连接所述麦克风阵列，接收所述麦克风阵列采集的声音信号，并对所述声音信号进行处理，实现远场语音识别和声场录制。

优选地，所述麦克风阵列为圆形阵、矩形阵或椭圆形阵。

优选地，所述麦克风阵列的麦克风数量大于等于4，麦克风之间的间距小于8cm。

优选地，所述数据处理终端为计算机。

优选地，当系统处于远场语音识别工作模式时，所述麦克风阵列采集远场语音信号，所述数据处理终端对所述远场语音信号进行远场语音识别；当系统处于声场录制工作模式时，所述麦克风阵列采集多通道音频信号，所述数据处理终端对所述多声道音频信号进行声场录制。

优选地，所述数据处理终端包括：语音控制模块、远场语音识别模块和声场录制模块；在所述语音控制模块的控制下，所述远场语音识别模块对远场语音信号进行远场语音识别，系统进入远场语音识别工作模式；在所述语音控制模块的控制下，所述声场录制模块对多声道音频信号进行声场录制，系统进入声场录制工作模式，实现工作模式的切换。

优选地，还包括控制端；所述控制端为手机。

优选地，所述数据处理终端包括远程控制模块，远场语音识别模块和声场录制模块，所述远程控制模块与所述控制端无线连接；所述控制端向所述远程控制模块发送控制信号，在所述远程控制模块的控制下，所述远场语音识别模块对远场语音信号进行远场语音识别，系统进入远场语音识别工作模式；所述控制端向所述远程控制模块发送控制信号，在所述远程控制模块的控制下，所述声场录制模块对多声道音频信号进行声场录制，系统进入声场录制工作模式，实现工作模式的切换。

优选地，所述远场语音识别模块为广义旁瓣对消器。

(三)有益效果

从上述技术方案可以看出，本实用新型的集成远场语音识别和声场录制的系统具有以下有益效果：

(1)将远场语音识别和声场录制集成在一个系统中，利用同一个小型麦克风阵列，即可实现远场语音识别又可实现声场录制，相对于现有技术，只需一套系统即可同时实现远场语音识别功能和声场录制功能，功能多样，一机两用，节约了设备成本；

(2)可以采用语音指令或者移动终端切换工作模式，切换方式灵活简单，便于用户操作。

附图说明

为了更完整地理解本实用新型及其优势，现在将参考结合附图的以下描述，其中：

图1为本实用新型实施例的集成远场语音识别和声场录制的系统的结构示意图；

图2为本实用新型实施例的集成远场语音识别和声场录制的系统的处理流程图；

图3为集成远场语音识别和声场录制的流程图。

具体实施方式

根据结合附图对本实用新型示例性实施例的以下详细描述，本实用新型的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本实用新型中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本实用新型原理的各种实施例只是说明，不应该以任何方式解释为限制实用新型的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本实用新型的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本实用新型的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

本实用新型实施例提供了一种集成远场语音识别和声场录制的系统，该系统可以工作于远场语音识别和声场录制两种模式，分别完成远场语音识别功能和声场录制功能，如图1所示，该系统包括：麦克风阵列和数据处理终端；其中，

麦克风阵列包括四个麦克风构成的小型圆形阵列，麦克风阵列用于对声音信号进行采集，当系统进行远场语音识别时，麦克风阵列采集远场语音信号，当系统进行声场录制时，麦克风阵列采集多通道音频信号。

数据处理终端连接麦克风阵列，接收麦克风阵列采集的声音信号，并对声音信号进行处理。数据处理终端具有远场语音识别和声场录制两种工作模式，当其工作于远场语音识别模式时，对远场语音信号进行远场语音识别，当其工作于声场录制模式时，对多声道音频信号进行声场录制。

由此可见，本实用新型将远场语音识别和声场录制集成在一个系统中，利用同一个小型麦克风阵列，即可实现远场语音识别又可实现声场录制，相对于现有技术，只需一套系统即可同时实现远场语音识别功能和声场录制功能，功能多样，一机两用，节约了设备成本。

在本实用新型中，数据处理终端可以是计算机等数据处理设备，包括：语音控制模块、远场语音识别模块和声场录制模块。用户根据所需的应用场景和使用目的，可以通过语音切换数据处理终端的工作模式。例如，当需要进行远场语音识别时，用户可发出相应的语音指令，语音控制模块接收语音指令，并根据语音指令生成控制信号，远场语音识别模块对远场语音信号进行远场语音识别，使数据处理终端工作于远场语音识别模式。当需要进行全息音/视频会议或环绕声场采集时，用户可发出相应的语音指令，语音控制模块接收语音指令，并根据语音指令生成控制信号，声场录制模块对多声道音频信号进行声场录制，使数据处理终端工作于声场录制模式，从而实现工作模式的切换。

除了通过上述方式切换工作模式外，本实用新型还可以采用远程控制的方式。本实用新型的系统还可以包括控制端，数据处理终端还可以包括远程控制模块。

控制端可以是手机等移动终端，其与远程控制模块无线连接，控制端与远程控制模块可以通过例如Wi-Fi或蓝牙等无线协议通信。用户根据所需的应用场景和使用目的，可以通过控制端切换数据处理终端的工作模式。例如，当需要进行远场语音识别时，用户可以通过启动控制端的特定应用程序，使控制端发出相应的控制信号，远程控制模块接收控制信号，在控制信号的控制下，远场语音识别模块对远场语音信号进行远场语音识别，使数据处理终端工作于远场语音识别模式。当需要进行全息音/视频会议或环绕声场采集时，控制端发出相应的控制信号，远程控制模块接收控制信号，在控制信号的控制下，声场录制模块对多声道音频信号进行声场录制，使数据处理终端工作于声场录制模式，从而实现工作模式的切换。

由此可见，本实用新型的系统可以采用语音指令或者移动终端切换工作模式，切换方式灵活简单，便于用户操作。

如图2所示，远场语音识别模块可以采用GSC(广义旁瓣对消器)实时识别远场语音，获得单通道语音信号，并输出语音识别结果。

声场录制模块可以利用麦克风阵列的麦克风生成指向不同方向的多个虚拟麦克风，录制不同方向的多通道音频信号，例如2.0通道，5.0通道，7.0通道等等，得到多通道声场数据，采用多通道编码技术对多通道数据进行编码，完成环绕声场录制。

麦克风阵列由于物理尺寸受到限制，麦克风之间的间距较小，因此也可以利用差分信号处理方法实现环绕声场录制。声场录制模块可以基于ambisonics方法，采用多通道音频信号进行差分阵列处理获得基本声场分量B-format，实现环绕声场录制，并传输B-format信号到远端设备，通过解码合成重建环绕声场。

由于封闭式阵列形态可以获得二维平面内任意方向波束，同时麦克风数量越多，远场语音识别和声场录制的效果就越好。因此。麦克风之间的间距优选小于8cm，麦克风阵列的麦克风数量不做限制，可以是5、6甚至更多。麦克风阵列的形状也不做限制，只要可以构成封闭式阵列形态，例如矩形，椭圆形等，就可以实现同时进行远场语音识别和声场录音，本实用新型的麦克风阵列布阵形态更加自由。本实用新型不仅可以应用于智能音箱领域，还可以应用于其它利用麦克风阵列的设备中。

在本实用新型的系统的默认工作模式为远场语音识别模式，即在默认情形下，系统运行在远场语音识别模式，实时识别远场语音。当需要进行全息音/视频会议或环绕声场采集时，自动切换到声场录制模式，进行声场录制。当全息音/视频会议或环绕声场采集结束后，或者需要进行远场语音识别时，系统自动切换至远场语音识别模式。

本实用新型可以利用上述集成远场语音识别和声场录制的系统进行远场语音识别和声场录制，包括：

进入远场语音识别模式，采集远场语音信号，对远场语音信号进行远场语音识别；

当需要进行声场录制时，切换至声场录制模式，采集多通道音频信号，对多声道音频信号进行声场录制；

当声场录制结束或需要进行远场语音识别时，切换至远场语音识别模式，对远场语音信号进行远场语音识别。

至此，已经结合附图对本实施例进行了详细描述。依据以上描述，本领域技术人员应当对本实用新型的集成远场语音识别和声场录制的系统有了清楚的认识。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换，例如：

(1)还可以采用其他方式实现工作模式的切换；

(2)实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本实用新型的保护范围；

(3)上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

以上所述的具体实施例，对本实用新型的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本实用新型的具体实施例而已，并不用于限制本实用新型，凡在本实用新型的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本实用新型的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈日林;冯大航;陈孝良;苏少炜;
技术所有人：北京声智科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。