一种波束形成方法、装置及计算机可读存储介质与流程

文档序号:21398784发布日期:2020-07-07 14:31阅读:183来源:国知局
一种波束形成方法、装置及计算机可读存储介质与流程

本发明涉及语音识别领域,具体涉及一种波束形成方法与装置。



背景技术:

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在语音识别、音源定向等音频信号处理领域中,由于单个麦克风接收到的音频信号受到环境噪声和干扰的影响很大,因此通常采用麦克风阵列采集多路音频信号,进一步将多路音频信号进行处理以获得具有更好的增强效果的音频信号。

通常情况下,可以对麦克风阵列所采集到的多路音频信号执行“延迟累加”(delay-and-sum)算法从而在期望声源方向形成波束以实现语音增强。上述延迟累加算法由于只考虑各个麦克风位置的不同而导致的时间延迟信息,因此通常只应用于支持同步采集多路音频信号的硬件系统中。然而音频信号采集-处理系统在同时采集并处理多路音频信号时必然会导致系统内的某些设备难以被复用,进一步造成硬件浪费。



技术实现要素:

针对上面提到的现有技术中波束形成需要基于同步采集多路音频信号的硬件系统中,进而导致难以复用硬件的问题,提出了一种基于非同步的音频采集系统的波束形成方法和装置,其能基于非同步采集的多路音频信号进行波束形成,从而提高了硬件的使用率。

依据本发明的第一方面,提供了一种波束形成方法,其特征在于,所述方法包括:

对麦克风阵列执行非同步的采集指令以获取多路音频信号,所述麦克风阵列包括多个麦克风;

根据所述非同步的采集指令获取所述多路音频信号中每路音频信号的第一时延值;

对所述麦克风阵列建模,获取所述每路音频信号在多个预设方向上的多个第二时延值;以及

根据上述第一时延值与上述多个第二时延值获取目标波束信号。

优选地,其中,在每个采集周期内,上述非同步的采集指令用于控制上述多个麦克风在多个时间段分别执行音频信号的采样,从而获取上述多路音频信号。

优选地,其中,根据上述非同步的采集指令获取上述多路音频信号中每路音频信号的第一时延值包括:

上述非同步的采集指令控制第一麦克风在第一时间点开始采集音频信号,以及控制多个麦克风分别在多个第二时间点开始采集音频信号;

基于上述第一时间点与上述多个第二时间点确定上述第一时间点分别与上述多个第二时间点之间的多个第一时间差;以及

基于上述多个第一时间差获取上述多个麦克风中的每个麦克风所采集的每路音频信号所对应的第一时延值;

其中,上述多个麦克风包含上述第一麦克风。

优选地,其中,对上述麦克风阵列建模,获取上述每路音频信号在多个预设方向上的多个第二时延值包括:

对上述麦克风阵列建模,获取上述麦克风阵列中每个麦克风的位置信息;

针对上述多个预设方向中的每个预设方向,根据上述每个麦克风的位置信息以及声速,计算上述音频信号按照上述每个预设方向到达上述麦克风阵列中多个麦克风的多个第二时间差;以及

基于上述多个第二时间差,获取上述多个麦克风中的每个麦克风所采集的每路音频信号与上述每个预设方向所对应的第二时延值。

优选地,其中,根据上述第一时延值与上述多个第二时延值获取目标波束信号包括:

根据上述第一时延值与多个第二时延值对上述多路音频信号执行延迟累加运算以形成多个中间信号;以及

根据上述多个中间信号获取目标波束信号。

优选地,其中,根据上述第一时延值与上述第二时延值对上述多路音频信号进行延迟累加运算还包括:

计算上述第一时延值与第二时延值的差值,从而获取上述每路音频信号所对应的第三时延值;

计算上述每路音频信号所对应的第三时延值与上述每路音频信号所对应的第三时延值的最小值之间的差值,从而得到上述每路音频信号所对应的第四时延值;

根据上述第四时延值对上述多路音频信号进行延迟累加运算。

优选地,其中,根据上述第一时延值与多个第二时延值对上述多路音频信号执行延迟累加运算以形成多个中间信号包括:

针对上述多个预设方向的每个预设方向,基于上述第一时延值与上述第二时延值对每路音频信号在时域执行时延补偿;

对上述时延补偿后的上述每路音频信号执行重叠累加,以形成对应于上述每个预设方向的上述中间信号。

优选地,其中,根据上述多个中间信号获取目标波束信号包括以下中的至少一种:

从上述多个中间信号中选取具有最大总能量的一个作为目标波束信号;

将上述多个中间信号进行矢量累加,以获取上述目标波束信号。

根据本发明的另一方面,提供一种波束形成装置,其特征在于,上述装置包括:

采集模块,用于对麦克风阵列执行非同步的采集指令以获取多路音频信号,上述麦克风阵列包括多个麦克风;

第一计算模块,用于根据上述非同步的采集指令获取上述多路音频信号中每路音频信号的第一时延值;

第二计算模块,用于对上述麦克风阵列建模,获取上述每路音频信号在多个预设方向上的多个第二时延值;以及

处理模块,用于根据上述第一时延值与上述多个第二时延值获取目标波束信号。

优选地,其中,上述采集模块用于

在每个采集周期内,上述非同步的采集指令用于控制上述多个麦克风在多个时间段分别执行音频信号的采样,从而获取上述多路音频信号。

优选地,其中,上述第一计算模块具体用于:

上述非同步的采集指令控制第一麦克风在第一时间点开始采集音频信号,以及控制多个麦克风分别在多个第二时间点开始采集音频信号;

基于上述第一时间点与上述多个第二时间点确定上述第一时间点分别与上述多个第二时间点之间的多个第一时间差;以及

基于上述多个第一时间差获取上述多个麦克风中的每个麦克风所采集的每路音频信号所对应的第一时延值;

其中,上述多个麦克风包含上述第一麦克风。

优选地,其中,上述第二计算模块具体用于:

对上述麦克风阵列建模,获取上述麦克风阵列中每个麦克风的位置信息;

针对上述多个预设方向中的每个预设方向,根据上述每个麦克风的位置信息以及声速,计算上述音频信号按照上述每个预设方向到达上述麦克风阵列中多个麦克风的多个第二时间差;以及

基于上述多个第二时间差,获取上述多个麦克风中的每个麦克风所采集的每路音频信号与上述每个预设方向所对应的第二时延值。

优选地,其中,上述处理模块具体用于:

根据上述第一时延值与多个第二时延值对上述多路音频信号执行延迟累加运算以形成多个中间信号;以及

根据上述多个中间信号获取目标波束信号。

优选地,其中,上述处理模块进一步用于:

计算上述第一时延值与第二时延值的差值,从而获取上述每路音频信号所对应的第三时延值;

计算上述每路音频信号所对应的第三时延值与上述每路音频信号所对应的第三时延值的最小值之间的差值,从而得到上述每路音频信号所对应的第四时延值;

根据上述第四时延值对上述多路音频信号进行延迟累加运算。

优选地,其中,上述处理模块进一步用于:

针对上述多个预设方向的每个预设方向,基于上述第一时延值与上述第二时延值对每路音频信号在时域执行时延补偿;

对上述时延补偿后的上述每路音频信号执行重叠累加,以形成对应于上述每个预设方向的上述中间信号。

优选地,其中,上述处理模块进一步用于:

从上述多个中间信号中选取具有最大总能量的一个作为目标波束信号;

将上述多个中间信号进行矢量累加,以获取上述目标波束信号。

根据本方面的又一方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,上述计算机指令被处理器执行时实现如上上述的方法。

利用以上方案,通过对多个麦克风执行非同步的采集指令以分时采集上述多路音频信号,综合考虑由于音频信号的分时采集所导致的第一时延值以及多个麦克风所处的物理位置不同所导致的第二时延值,并在后续执行的对获取的多路音频信号进行处理的过程中,进一步基于第一时延值与第二时延值获取目标波束信号。从而实现了波束形成过程中的硬件设备(例如,数据线、加法器、减法器等)的分时复用功能,达到了降低硬件成本的目的。

应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举说明本发明的具体实施方式。

附图说明

通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的有点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:

图1为根据本发明一实施例的波束形成方法的流程示意图;

图2为根据本发明另一实施例的波束形成方法的示例,其中(a)示出多路音频信号输入输出的示意图,(b)示出非同步采集的每帧音频信号的示意图;

图3为根据本发明另一实施例的波束形成方法的另一示例,其中(a)示出预设方向的示例,而(b)示出采用本发明实施例中的方法获取第二时延值的示意图;

图4为根据本发明又一实施例的波束形成方法的示意图;

图5为根据本发明又一实施例的波束形成方法的示意图;

图6为根据本发明又一实施例的波束形成方法的示意图;

图7为根据本发明又一实施例的波束形成方法的示意图;

图8为根据本发明又一实施例的波束形成装置的示意图;

图9示出了根据本发明一实施例的计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。

另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

在图1中,示出了根据本发明一实施例的一种波束形成方法的流程示意图。该波束形成方法包括:

101:对麦克风阵列执行非同步的采集指令以获取多路音频信号。

其中,麦克风阵列包括多个麦克风;

102:根据非同步的采集指令获取多路音频信号中每路音频信号的第一时延值;

103:对麦克风阵列建模,获取每路音频信号在多个预设方向上的多个第二时延值;以及

104:根据第一时延值与多个第二时延值获取目标波束信号。

具体地,在上述101中,上述麦克风阵列至少包括2个分处于不同位置的麦克风;非同步的采集指令具体指的是控制麦克风阵列中的每一个麦克风在不同的时间点执行音频信号采样,进而获取多路音频信号的采集指令;多路音频信号也即来自于麦克风阵列中多个麦克风的多个音频信号。

具体地,在上述102中,可以理解非同步的采集指令中具有预设的采集时间差。在上述103中,多个预设方向指的是假定的音频信号入射方向,可以理解,,当实际工作时,由于音频信号的实际传入方向不定,麦克风阵列中的多个麦克风的位置也不一致,因此无法直接获取第二时延值,在本实施例中,可以采用多个假定的音频信号入射方向,并对多个假定的音频信号入射方向下所获取的多路音频信号进行分析,从而获得实际的第二时延值。

具体地,在上述104中,可以基于上述第一时延值与多个第二时延值共同对获取的原始的多路音频信号进行预处理,并分析,最终获取目标波束信号并执行输出。

本发明实施例中,利用以上方案,通过对多个麦克风执行非同步的采集指令以分时采集上述多路音频信号,综合考虑由于音频信号的分时采集所导致的第一时延值以及多个麦克风所处的物理位置不同所导致的第二时延值,并在后续执行的对获取的多路音频信号进行处理的过程中,进一步基于第一时延值与第二时延值获取目标波束信号。从而实现了波束形成过程中的硬件设备(例如,数据线、加法器、减法器等)的分时复用功能,达到了降低硬件成本的目的。

本领域技术人员可以理解的是,通过采用对硬件设备执行分时复用,两个以上的信号或数据流可以在一条通信线路上传输,例如,可以将时间域划分成周期循环的一些小段,传输每帧音频信号时可以依次传输每一路音频信号,当最后一路音频信号传输完毕,可以重复上述传输过程来传输下一帧的音频帧,也就是下一个信号片段。

图2(a)示出了麦克风阵列采集音频信号的示意图,图2(b)示出了与图2(a)相对应的音频信号示意图。结合图1,本实施例进一步对如何对麦克风阵列执行非同步的采集指令以获取多路音频信号进行示例性说明。

在一实施例中,在每个采集周期内,非同步的采集指令用于控制多个麦克风在多个时间段分别执行音频信号的采样,从而获取多路音频信号。

例如,如图2(a)以及图2(b)中所示,在第一帧音频信号的采集周期t1~t5内,可以通过mic1、mic2、mic3以及mic4分时段地对原始输入音频信号执行采集,其中mic1可以在t=t1~t2获取音频信号①,mic2在t=t2~t3获取音频信号②,mic3在t=t3~t4获取音频信号③以及mic4在t=t4~t5获取音频信号④,依次类推至后续的每一帧音频信号,进而将每一帧音频信号中的音频信号①组合后即可获得第一路音频信号,同样地,对上述音频信号②、③、④各自进行组合后相应可以获得第二路音频信号、第三路音频信号及第四路音频信号。

利用以上多个麦克风在多个时间段分别执行音频信号的采样的技术方案,保证了分时复用硬件的可实现性。

图2(a)示出了麦克风阵列采集音频信号的示意图,图2(b)示出了与图2(a)相对应的音频信号示意图。结合图1,结合图1,本实施例进一步对如何对根据非同步的采集指令获取多路音频信号中每路音频信号的第一时延值进行示例性描述,在一实施例中,上述102具体包括以下步骤:

(1)非同步的采集指令控制第一麦克风在第一时间点开始采集音频信号,以及控制多个麦克风分别在多个第二时间点开始采集音频信号;

(2)基于第一时间点与多个第二时间点确定第一时间点分别与多个第二时间点之间的多个第一时间差;以及

(3)基于多个第一时间差获取多个麦克风中的每个麦克风所采集的每路音频信号所对应的第一时延值;

例如,如图2(a)所示,在本示例中,在线性排列的声音麦克风阵列上分布有4个声音麦克风:mic1、mic2、mic3、mic4。非同步的采集指令可以控制上述mic1、mic2、mic3、mic4分别在时间点t=t1、t=t2、t=t3、t=t4对输入的音频信号进行采样。进一步地,可以根据该预设的非同步的采集指令并通过选取第一麦克风(基准)可以获取第一时延值。具体地,可以从上述四个mic中选取任一个mic作为第一麦克风(基准),例如,选取mic1作为第一麦克风,因此,对于第一帧音频数据而言,t=t1为基准时间点,进一步地,计算每个mic进行音频信号采样的时间点与基准时间点t=t1之间的时间差并获取对应于每个mic的第一时延值k。例如,对应于mic1输出的音频信号①的第一时延值k1=t1-t1=0,对应于mic2输出的音频信号②的第一时延值k2=t2-t1,对应于mic3输出的音频信号③的第一时延值k3=t3-t1以及对应于mic4输出的音频信号④的第一时延值k4=t4-t1。

在这里,对麦克风的排列方式不作具体限定,其可以是线性排列,例如图2(a)中所示出的麦克风排列方式,也可以是非线性排列的麦克风阵列,例如现有技术中常采用的十字型麦克风阵列,还可以是非平面排列的麦克风阵列,例如现有技术中常采用的在球型装置的表面布置麦克风阵元的麦克风阵列,本申请中以线性排列的麦克风阵列为例进行说明,但是不限于上述线性排列的麦克风阵列。

通过采用上述技术方案,可以根据非同步的指令信息直接计算出对应于每路音频信号的第一时延值。

图3为根据本发明另一实施例的波束形成方法的示例,其中(a)示出了本发明实施例中预设方向的示意图,(b)示出了对麦克风阵列进行建模的示意图。结合图1,本实施例进一步对如何根据非同步的采集指令获取多路音频信号中每路音频信号的第一时延值进行示例性说明。在一实施例中,上述103具体可以包括:

(1)对麦克风阵列建模,获取麦克风阵列中每个麦克风的位置信息;

(2)针对多个预设方向中的每个预设方向,根据每个麦克风的位置信息以及声速,计算音频信号按照每个预设方向到达麦克风阵列中多个麦克风的多个第二时间差;以及

(3)基于多个第二时间差,获取多个麦克风中的每个麦克风所采集的每路音频信号与每个预设方向所对应的第二时延值。

例如,如图3(a)所示,在本示例中,可以预先设置8个预设方向d1—d8。具体地,预设方向也即假定的平行入射至每一个麦克风的音频信号入射方向。在这里,对预设方向的设置方式不做具体限定,其可以是平面方向,如图3(a)中所示出的d1—d8,也可以将预设方向设置为空间方向(也即,该预设方向不限于同一平面),预设方向的数量与角度可以根据实际需要进行设定,本申请以图3(a)中均分设计的d1—d8为例进行描述,但不限于此。

优选地,若音频的入射角度事先已经可以确定于某一角度范围内时,例如,当麦克风阵列放置于房间墙面时,则只有一侧方向可能传来音频信号。可以进一步对预设方向进行限定,例如,仅设置由该侧空间范围内指向麦克风阵列的预设方向。

如图3(b)所示,在线性排列的声音麦克风阵列上分布有4个声音麦克风:mic1、mic2、mic3、mic4,图中具体示出基于第二预设方向d2(与x轴正向的夹角为θ)下的第二时延值的运算方式作为示例,对于其它预设方向,同样可以基于以下所示出的相同或相似的方法进行运算以获取相对于的第二时延值。

首先,对麦克风阵列建模以获取每个麦克风的位置信息,例如,在建立的x-y坐标轴中,各麦克风的坐标信息为:mic1(0,0)、mic2(s,0)、mic3(2s,0)、mic4(3s、0);进一步,由各麦克风的位置向预设方向d2作垂线,获得各麦克风在d2-y坐标轴中的坐标信息为:mic1(0,0)、mic2(s×cosθ,0)、mic3(2s×cosθ,0)、mic4(3s×cosθ、0)可以计算出当音频信号按预设方向d2入射至每个麦克风的距离差值d,例如,可以将mic1设置为作为基准麦克风,则mic1的d1=0,mic2的d2=s×cosθ,mic3的d3=2s×cosθ,mic4的d4=3s×cosθ。

进一步地,可以根据每个麦克风的距离差值d以及声速c计算音频信号按照预设方向d2到达每个麦克风的时间差,并基于上述时间差计算获得多个麦克风中的每个麦克风基于预设方向d2所采集的每路音频信号所对应的第二时延值p。例如,对应于mic1输出的音频信号①的第二时延值k1=d1/c=0,对应于mic2输出的音频信号②的第二时延值k2=d2/c=s×cosθ/c,对应于mic3输出的音频信号③的第二时延值k3=d3/c=2s×cosθ/c以及对应于mic4输出的音频信号④的第二时延值k4=d3/c=3s×cosθ/c。

值得注意的是,根据本发明实施例的计算方法,在忽略其他因素的情况下向麦克风阵列输入音频信号,若某一麦克风所对应的第二时延值为正数,则该麦克风收到信号的时间点要晚于基准麦克风,其时间差值也即第二时延值。

上述通过设置多个预设方向并根据多个预设方向计算时延值的技术方案,采用了反向计算的思想,相较于现有技术中的时延估计的方法更为简便,运算量更少。

图4示出了本发明提供的另一个波束形成方法的流程示意图,结合图1,本实施例进一步对如何根据第一时延值与多个第二时延值获取目标波束信号进行示例性说明,如图4所示,包括如下步骤:

s401:根据第一时延值与多个第二时延值对多路音频信号执行延迟累加运算以形成多个中间信号。

s402:根据多个中间信号获取目标波束信号。

具体地,在s401中,基于第一时延值与第二时延值对每路音频信号在时域执行时延补偿;将时延补偿后的每路音频信号执行重叠累加以形成多个中间信号。

本领域技术人员可以理解的是,延时累加算法可以分为三部分:a、时延估计、b、时延补偿、c、累加。其中的时延估计也即上文中所描述的获取每路音频信号的第一时延值与第二时延值的步骤。本实施例即是对时延补偿与累加进行详细描述的步骤。

在一实施例中,基于图4所示出的波束形成方法,本实施例进一步对s401进行示例性描述,具体包括:

(1)针对多个预设方向的每个预设方向,基于第一时延值与第二时延值对每路音频信号在时域执行时延补偿。

(2)对时延补偿后的每路音频信号执行重叠累加,以形成对应于每个预设方向的中间信号。

以下结合图5对本实施例进行详细描述。

例如,如图5所示,在某一时间点,非同步的采集指令控制mic1采集输入的音频信号并输出音频信号①,则根据音频信号①所对应的第一时延值对其执行第一时延补偿。具体地,若该第一时延值为负值,则将该时域信号沿时间轴向右偏移,若该第一时延值为正值,则将该时域信号沿时间轴向左偏移,偏移量与第一时延值成正比。

进一步根据音频信号①所对应的第二时延值对其执行第二时延补偿,具体地,若该第二时延值为负值,则将该时域信号沿时间轴向左偏移,若该第二时延值为正值,则将该时域信号沿时间轴向右偏移,偏移量与第二时延值成正比。在第二时延补偿中,由于音频信号①在每个预设方向都具有一个相对应的第二时延值,因此,在第二时延补偿后,事实上可以同时获取与预设方向数量相同个数的处理后的音频信号①。

非同步的采集指令控制mic2、mic3、mic4在不同的时段采集输入信号并输出音频信号①、③、④,同样对各路音频信号执行上述相同或相似的处理过程,在此不再赘述。进一步地,当一帧音频信号中的每一路音频信号的收集与时延补偿处理完成后,将每一路音频信号数据在时域进行累加以同时获取与预设方向数量相同个数的中间信号。

通过上述共同基于第一时延值与第二时延值对非同步采集的多路音频信号执行延迟累加运算的技术方案,相较于现有技术中只对由于麦克风位置不同而导致的延迟信息进行时延补偿的方案,避免了由于非同步指令而导致的音频信号偏移对最终的目标波束信号的增强效果造成不利影响。

在一实施例中,基于图4所示出的波束形成方法,本实施例进一步对s401中的根据第一时延值与第二时延值对多路音频信号进行延迟累加运算进行示例性描述,具体包括:

(1)计算第一时延值与第二时延值的差值,从而获取每路音频信号所对应的第三时延值;

(2)计算每路音频信号所对应的第三时延值与每路音频信号所对应的第三时延值的最小值之间的差值,从而得到每路音频信号所对应的第四时延值;

(3)根据第四时延值对多路音频信号进行延迟累加运算。

可以理解,由上文描述可知,第一时延补偿与第二时延补偿所分别执行的信号偏移事实上是相反的,因此可以计算第一时延值与第二时延值的差值以获取每路音频信号所对应的第三时延值。进一步地,可以计算每路音频信号所对应的第三时延值与每路音频信号所对应的第三时延值的最小值之间的差值以获取每路音频信号所对应的第四时延值,从而将所有的时延值规整为正数。进一步地,在时延补偿时仅需要将音频信号向右偏移,即可防止在时间域为负的区域内进行运算,这样有利于计算机执行。

例如,如图6所示,本实施例中,可以根据上述第四时延值直接执行第三时延补偿,以替代分别根据第一时延值执行第一时延补偿与根据第二时延值执行第二时延补偿的步骤,简化了时延补偿的运算步骤。

在一实施例中,基于图4所示出的波束形成方法,本实施例进一步对s402进行示例性描述,其中,根据多个中间信号获取目标波束信号具体包括:

(1)从多个中间信号中选取具有最大总能量的一个作为目标波束信号.

(2)将多个中间信号进行矢量累加,以获取目标波束信号。

具体地,如图7所示,可以将上一步中计算获得的8个预设方向所对应的八个中间信号分别存入第一缓存区~第八缓存区中,

其中,若采用上述方法(1),可以理解,在其它的因素相同的情况下,选定的预设方向与实际音频信号入射方向越接近,则该预设方向对应的时延估计值越接近于真实时延值,进一步地,时延补偿后的各路音频信号的重合度越高,各路音频信号叠加后的中间信号会具有更好的增强效果,可以获得更高的总能量。因此,可以在第一缓存区~第八缓存区中选取具有最大总能量中间信号以输出目标波束信号。

其中,若采取上述方法(2),可以将第一缓存区~第八缓存区中的中间信号进行累加后获取目标波束信号以输出,进一步提高了目标波束形成的准确度,矢量累加相较于前述的信号能量比较过程减少了运算量。

综上,利用以上方案,通过对多个麦克风执行非同步的采集指令以分时采集上述多路音频信号,综合考虑由于音频信号的分时采集所导致的第一时延值以及多个麦克风所处的物理位置不同所导致的第二时延值,并在后续执行的对获取的多路音频信号进行处理的过程中,基于第一时延值与第二时延值共同对每路音频信号执行延迟累加算法从而在期望声源方向上形成目标波束信号。进一步实现了波束形成过程中的硬件设备(例如,数据线)的分时复用功能,达到了降低硬件成本的目的。

本实施例还提供了一种用于实现上述波束形成方法的波束形成装置。如图8所示,示出了根据本发明又一实施例的波束形成装置的示意图。

采集模块801,用于对麦克风阵列执行非同步的采集指令以获取多路音频信号。

其中,麦克风阵列包括多个麦克风;

第一计算模块802,用于根据非同步的采集指令获取多路音频信号中每路音频信号的第一时延值;

第二计算模块803,用于对麦克风阵列建模,获取每路音频信号在多个预设方向上的多个第二时延值;以及

处理模块804,用于根据第一时延值与多个第二时延值获取目标波束信号。

具体地,在对上述801的描述中,上述麦克风阵列至少包括2个分处于不同位置的麦克风;非同步的采集指令具体指的是控制麦克风阵列中的每一个麦克风在不同的时间点执行音频信号采样,进而获取多路音频信号的采集指令;多路音频信号也即来自于麦克风阵列中多个麦克风的多个音频信号。

具体地,在对上述802的描述中,可以理解非同步的采集指令中具有预设的采集时间差。在对上述803的描述中,多个预设方向指的是假定的音频信号入射方向,可以理解,,当实际工作时,由于音频信号的实际传入方向不定,麦克风阵列中的多个麦克风的位置也不一致,因此无法直接获取第二时延值,在本实施例中,可以采用多个假定的音频信号入射方向,并对多个假定的音频信号入射方向下所获取的多路音频信号进行分析,从而获得实际的第二时延值。

具体地,在对上述804的描述中,可以基于上述第一时延值与多个第二时延值共同对获取的原始的多路音频信号进行预处理,并分析,最终获取目标波束信号并执行输出。

本发明实施例中,利用以上方案,通过对多个麦克风执行非同步的采集指令以分时采集上述多路音频信号,综合考虑由于音频信号的分时采集所导致的第一时延值以及多个麦克风所处的物理位置不同所导致的第二时延值,并在后续执行的对获取的多路音频信号进行处理的过程中,进一步基于第一时延值与第二时延值获取目标波束信号。从而实现了波束形成过程中的硬件设备(例如,数据线、加法器、减法器等)的分时复用功能,达到了降低硬件成本的目的。

本领域技术人员可以理解的是,通过采用对硬件设备执行分时复用,两个以上的信号或数据流可以在一条通信线路上传输,例如,可以将时间域划分成周期循环的一些小段,传输每帧音频信号时可以依次传输每一路音频信号,当最后一路音频信号传输完毕,可以重复上述传输过程来传输下一帧的音频帧,也就是下一个信号片段。

优选地,其中,所述采集模块用于

在每个采集周期内,所述非同步的采集指令用于控制所述多个麦克风在多个时间段分别执行音频信号的采样,从而获取所述多路音频信号。

优选地,其中,所述第一计算模块具体用于:

所述非同步的采集指令控制第一麦克风在第一时间点开始采集音频信号,以及控制多个麦克风分别在多个第二时间点开始采集音频信号;

基于所述第一时间点与所述多个第二时间点确定所述第一时间点分别与所述多个第二时间点之间的多个第一时间差;以及

基于所述多个第一时间差获取所述多个麦克风中的每个麦克风所采集的每路音频信号所对应的第一时延值;

其中,所述多个麦克风包含所述第一麦克风。

优选地,其中,所述第二计算模块具体用于:

对所述麦克风阵列建模,获取所述麦克风阵列中每个麦克风的位置信息;

针对所述多个预设方向中的每个预设方向,根据所述每个麦克风的位置信息以及声速,计算所述音频信号按照所述每个预设方向到达所述麦克风阵列中多个麦克风的多个第二时间差;以及

基于所述多个第二时间差,获取所述多个麦克风中的每个麦克风所采集的每路音频信号与所述每个预设方向所对应的第二时延值。

优选地,其中,所述处理模块具体用于:

根据所述第一时延值与多个第二时延值对所述多路音频信号执行延迟累加运算以形成多个中间信号;以及

根据所述多个中间信号获取目标波束信号。

优选地,其中,所述处理模块进一步用于:

计算所述第一时延值与第二时延值的差值,从而获取所述每路音频信号所对应的第三时延值;

计算所述每路音频信号所对应的第三时延值与所述每路音频信号所对应的第三时延值的最小值之间的差值,从而得到所述每路音频信号所对应的第四时延值;

根据所述第四时延值对所述多路音频信号进行延迟累加运算。

优选地,其中,所述处理模块进一步用于:

针对所述多个预设方向的每个预设方向,基于所述第一时延值与所述第二时延值对每路音频信号在时域执行时延补偿;

对所述时延补偿后的所述每路音频信号执行重叠累加,以形成对应于所述每个预设方向的所述中间信号。

优选地,其中,所述处理模块进一步用于:

从所述多个中间信号中选取具有最大总能量的一个作为目标波束信号;

将所述多个中间信号进行矢量累加,以获取所述目标波束信号。

根据本发明的又一实施例,还提供了一种计算机可读存储介质。如图9所示,示出了根据本发明一实施例的计算机可读存储介质900的示意图,该计算机可读存储介质上存储有计算机指令,该计算机指令被处理器执行时实现如上的波束形成方法。该计算机可读存储介质900可以采用便携式紧凑盘只读存储器(cd-rom)。然而,本发明的计算机可读存储介质900不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储计算机指令的有形介质。

利用以上方案,通过对多个麦克风执行非同步的采集指令以分时采集上述多路音频信号,综合考虑由于音频信号的分时采集所导致的第一时延值以及多个麦克风所处的物理位置不同所导致的第二时延值,并在后续执行的对获取的多路音频信号进行处理的过程中,进一步基于第一时延值与第二时延值获取目标波束信号。从而实现了波束形成过程中的硬件设备(例如,数据线、加法器、减法器等)的分时复用功能,达到了降低硬件成本的目的。

附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机可读存储介质的可能实现的体系架构、功能和操作。应当注意,流程图中的每个方框所表示的步骤未必按照标号所示的顺序进行,有时可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的硬件来实现,或者可以用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。

通过以上对实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1