一种语音识别方法、装置、设备和介质与流程

文档序号：30843263发布日期：2022-07-23 01:22阅读：141来源：国知局

技术简介：
本专利针对传统语音识别中噪声干扰和目标对象偏离摄像头范围导致识别精度低的问题，提出采用八麦麦克风阵列结合自适应滤波技术增强目标方向语音信号，并同步获取视频信息进行多模态融合识别，有效提升噪声环境下的识别准确率和用户体验。
关键词：八麦阵列,自适应滤波,语音识别

1.本技术涉及多模态语音识别技术领域，特别是涉及一种语音识别方法、装置、设备和介质。

背景技术：

2.目前的多模态识别采用二麦或四麦麦克风阵列，来判断声音的方向，计算固定角度内的声音，配合语音引擎算法，可以有效降低噪声。此外，获取的声音方向也可以进一步提供给摄像头，用于将摄像头的方向对准目标对象。
3.但是，目前的多模态识别在语音识别时噪声较大的问题，并且摄像头和语音识别模块无法在方向上进行统一，因此会出现目标对象在摄像头的拍摄范围之外，仅能通过语音识别的情况。

技术实现要素：

4.基于上述问题，本技术提供一种语音识别方法、装置、设备和介质。
5.第一方面，本技术实施例提供一种语音识别方法，包括：
6.采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号；
7.获取语音的目标方向的大致方向的视频；
8.根据目标方向增强后的语音信号和语音的目标方向的大致方向的视频对语音进行识别。
9.进一步地，上述一种语音识别方法中，采用八麦麦克风阵列确定语音的目标方向的大致方向，包括：
10.通过八麦克风阵列接收信号对语音信号波达方向进行估计确定语音的目标方向的大致方向。
11.进一步地，上述一种语音识别方法中，采用八麦麦克风阵列确定目标方向增强后的语音信号，包括：
12.八麦克风阵列对所述目标方向的大致方向设计波束形成器和陷波器；
13.通过波束形成器增强目标方向的语音信号，抑制除目标方向之外的干扰噪声得到第一信号；
14.通过陷波器抑制目标方向的语音信号，保留除目标方向之外的干扰噪声得到第二信号；
15.将第一信号作为远端信号，第二信号作为近端信号，输入自适应滤波器对消，自适应滤波器进行参数更新控制得到所述目标方向增强后的语音信号。
16.进一步地，上述一种语音识别方法中，自适应滤波器进行自适应滤波器参数更新控制得到目标方向增强后的语音信号，包括：
17.若语音的目标方向的大致方向和目标方向的偏差在预设范围内，则不更新自适应
滤波器参数；
18.若语音的目标方向的大致方向和目标方向的偏差不在预设范围内，则更新自适应滤波器参数。
19.进一步地，上述一种语音识别方法中，目标方向增强后的语音信号后，还包括：
20.对目标方向增强后的语音信号进行降噪得到第一语音；
21.根据第一语音和所述语音的目标方向的大致方向的视频对语音进行识别。
22.进一步地，上述一种语音识别方法中，八麦克风阵列，包括麦克风和用于信号处理的芯片。
23.进一步地，上述一种语音识别方法，还包括：根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别后，还包括播放语音。
24.第二方面，本技术实施例还提供一种语音识别装置，包括：
25.第一确定模块：用于采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号；
26.获取模块：用于获取语音的目标方向的大致方向的视频；
27.识别模块：用于根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别。
28.第三方面，本技术实施例还提供一种电子设备，包括：处理器和存储器；
29.处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种语音识别方法。
30.第四方面，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行上述任一项一种语音识别方法。
31.本技术实施例的优点在于：本技术涉及一种语音识别方法、装置、电子设备和存储介质，该方法包括：采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号；获取语音的目标方向的视频；根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别。本技术采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号，可以有效降低噪声，并且在确定方向后通过摄像头获取语音的目标方向的视频，将目标方向的视频和目标方向降低噪声后的语音信号相结合后对语音进行识别，避免了目标对象在摄像头的拍摄范围之外以及噪音干扰的情形，使得多模态中的图像检测和语音识别可以利用麦克风阵列获得的声音来源方向获得更好的协同，不仅提高了语音识别的准确率而且提升了用户体验。
附图说明
32.为了更清楚地说明本技术实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本技术实施例提供的一种语音识别方法示意图一；
34.图2为本技术实施例提供的一种语音识别方法示意图二；
35.图3为本技术实施例提供的一种语音识别方法示意图三；
36.图4为本技术实施例提供的一种语音识别装置示意图；
37.图5是本技术实施例提供的一种电子设备的示意性框图。
具体实施方式
38.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图对本技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵时做类似改进，因此本技术不受下面公开的具体实施的限制。
39.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
40.图1为本技术实施例提供的一种语音识别方法示意图一。
41.第一方面，本技术实施例提供一种语音识别方法，结合图1，包括s101至s103三个步骤：
42.s101：采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号。
43.具体的，本技术实施例中，八麦克风阵列接收到语音信号后，估计语音的目标方向的大致方向，然后对目标方向的大致方向设计波束形成器和陷波器，通过波束形成器和陷波器确定目标方向增强后的语音信号，具体步骤下文详细介绍。
44.s102：获取语音的目标方向的视频。
45.具体的，本技术实施例中，确定语音的目标方向的大致方向后，通过摄像头获取语音的目标方向的视频，这里的视频可以是一个人的语音视频也可以是多个人交流的语音视频。
46.s103：根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别。
47.具体的，本技术实施例中，采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号，可以有效降低噪声，并且在确定方向后通过摄像头获取语音的目标方向的视频，将目标方向的视频和目标方向降低噪声后的语音信号相结合后对语音进行识别，避免了目标对象在摄像头的拍摄范围之外的情形，提高了语音识别的准确率。
48.进一步地，上述一种语音识别方法中，采用八麦麦克风阵列确定语音的目标方向的大致方向，包括：
49.通过八麦克风阵列接收信号对语音信号波达方向进行估计确定语音的目标方向的大致方向。
50.具体的，本技术实施例中，根据八麦克风阵列接收信号可以对信号波达方向进行估计，可得到语音的目标方向的大致方向。
51.图2为本技术实施例提供的一种语音识别方法示意图二。
52.进一步地，上述一种语音识别方法中，采用八麦麦克风阵列确定目标方向增强后
的语音信号，结合图2，包括s201至s204四个步骤：
53.s201：八麦克风阵列对所述目标方向的大致方向设计波束形成器和陷波器；
54.s202：通过波束形成器增强目标方向的语音信号，抑制除目标方向之外的干扰噪声得到第一信号；
55.s203：通过陷波器抑制目标方向的语音信号，保留除目标方向之外的干扰噪声得到第二信号；
56.s204：将第一信号作为远端信号，第二信号作为近端信号，输入自适应滤波器对消，自适应滤波器进行参数更新控制得到所述目标方向增强后的语音信号。
57.具体的，本技术实施例中，八麦克风阵列对目标方向的大致方向设计波束形成器和陷波器，波束形成器用来增强目标方向的语音信号同时抑制其它方向干扰噪声，记为输出信号一即第一信号；陷波器用来目标方向的语音信号并保留其它方向干扰噪声，记为输出信号二即第二信号，将输出信号一作为远端信号，输出信号二作为近端信号，送入自适应滤波器进行对消，自适应滤波器进行自适应滤波器参数更新控制得到目标方向增强后的语音信号具体参数更新方法下文介绍。
58.进一步地，上述一种语音识别方法中，自适应滤波器进行自适应滤波器参数更新控制得到目标方向增强后的语音信号，包括：
59.若语音的目标方向的大致方向和目标方向的偏差在预设范围内，则不更新自适应滤波器参数；
60.若语音的目标方向的大致方向和目标方向的偏差不在预设范围内，则更新自适应滤波器参数。
61.具体的，本技术实施例中，自适应滤波器参数更新控制根据语音的目标方向的大致方向和目标方向的偏差来确定是否更新自适应滤波器参数，若偏差在可接受范围内，则不更新自适应滤波器参数，若在可接受范围外，则更新自适应滤波器参数；最终得到进一步增强后的该方向信号。应理解，预设范围是用户的可接受范围，具体范围大小根据实际情况灵活确定。
62.图3为本技术实施例提供的一种语音识别方法示意图三。
63.进一步地，上述一种语音识别方法中，目标方向增强后的语音信号后，结合图3，还包括s301和s302两个步骤：
64.s301：对目标方向增强后的语音信号进行降噪得到第一语音。
65.s302：根据第一语音和所述语音的目标方向的大致方向的视频对语音进行识别。
66.具体的，本技术实施例中，通过采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号，可以有效降低噪声，通过对目标方向增强后的语音信号再进行降噪，将目标方向的视频和目标方向再进行降噪的语音信号相结合后对语音进行识别，不仅避免了目标对象在摄像头的拍摄范围之外的情形，而且避免了噪音的干扰，进一步提高了语音识别的准确率。
67.进一步地，上述一种语音识别方法中，八麦克风阵列，包括麦克风和用于信号处理的芯片。
68.具体的，本技术实施例中，八麦克风阵列通过麦克风和用于信号处理的芯片封装后得到八麦克风阵列模组。
69.进一步地，上述一种语音识别方法，还包括：根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别后，还包括播放语音。
70.具体的，本技术实施例中，根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别提高了语音识别的准确率，并且通过afc主控、功放和喇叭将识别后的语音播放出来，使得播放出来的语音更准确，提升了用户体验。
71.图4为本技术实施例提供的一种语音识别装置示意图。
72.第二方面，本技术实施例还提供一种语音识别装置，结合图4，包括：
73.第一确定模块401：用于采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号。
74.具体的，本技术实施例中，八麦克风阵列接收到语音信号后，第一确定模块401确定语音的目标方向的大致方向，然后对目标方向的大致方向设计波束形成器和陷波器，通过波束形成器和陷波器的第一确定模块401确定目标方向增强后的语音信号，具体步骤上文已详细介绍。
75.获取模块402：用于获取语音的目标方向的视频。
76.具体的，本技术实施例中，确定语音的目标方向的大致方向后，通过摄像头的获取模块402获取语音的目标方向的视频，这里的视频可以是一个人的语音视频也可以是多个人交流的语音视频。
77.识别模块403：用于根据目标方向增强后的语音信号和语音的目标方向的大致方向的视频对语音进行识别。
78.具体的，本技术实施例中，采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号，可以有效降低噪声，并且在确定方向后通过摄像头获取语音的目标方向的视频，将目标方向的视频和目标方向降低噪声后的语音信号相结合后通过识别模块403对语音进行识别，避免了目标对象在摄像头的拍摄范围之外的情形，提高了语音识别的准确率。
79.第三方面，本技术实施例还提供一种电子设备，包括：处理器和存储器；
80.处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种语音识别方法。
81.第四方面，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行上述任一项一种语音识别方法。
82.图5是本公开实施例提供的一种电子设备的示意性框图。
83.如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统505耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。
84.可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。
85.在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。
86.其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本技术实施例提供的一种语音识别方法中任一方法的程序可以包含在应用程序中。
87.在本技术实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本技术实施例提供的一种语音识别方法各实施例的步骤。
88.采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号；
89.获取语音的目标方向的视频；
90.根据目标方向增强后的语音信号和语音的目标方向的视频对语音进行识别。
91.本技术实施例提供的一种语音识别方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
92.本技术实施例提供的一种语音识别方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成一种语音识别方法的步骤。
93.本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。
94.本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
95.以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王彬李旭滨陈吉胜
技术所有人：云知声智能科技股份有限公司
我是此专利的发明人

上一篇：手机银行读屏时多音字的处理方法及装置与流程
下一篇：一种有机膦环氧有机硅单体的制备方法与流程