活动说话者的位置估计的制作方法

文档序号:15441822发布日期:2018-09-14 22:53阅读:317来源:国知局

本发明涉及活动说话者的位置估计。

在许多情况下,确定声源的位置是有用的。举例来说,声学传感器用于估计地震事件的位置。在另一类型的应用中,可以布置麦克风阵列以获得声音以供放大、记录或发射。在这种情况下,可以基于感兴趣的特定位置来估计应用于麦克风阵列的已知波束形成算法的参数。举例来说,可以执行波束形成,使得阵列中的麦克风聚焦在面板上的扬声器上或乐团内的独奏者。在示例性车辆应用中,可以基于车辆乘员中当前正讲话的任何一位车辆乘员来在麦克风阵列上执行波束形成。举例来说,在麦克风上执行波束形成有助于降低噪声并改善语音识别。然而,使用波束形成算法需要实时地准确估计说话者(即,活动说话者)的位置。因此,需要提供一种实时地确定说话者的位置的方法和系统。



技术实现要素:

在一个示例性实施例中,一种实时地执行活动说话者的位置估计的方法包含:将麦克风阵列中的一个麦克风指定为参照麦克风;以及将麦克风阵列中除了与若干潜在位置中的每个潜在位置相关联的参照麦克风以外的每个麦克风的相对传递函数(rtf)存储为存储rtf组。方法还包含:获得活动说话者的语音样本,并且获得麦克风阵列中除了参照麦克风以外的每个麦克风的说话者rtf;以及在存储rtf组上执行每个麦克风的说话者rtf的rtf投影。基于执行rtf投影,将潜在位置中的一个确定为活动说话者的位置。

除了在此描述的特征中的一个或多个之外,还实时地执行获得语音样本。

除了在此描述的特征中的一个或多个之外,还对来自潜在位置中的每一个的声音进行取样以获得存储rtf组。

除了在此描述的特征中的一个或多个之外,还基于针对潜在位置中的每一个计算从潜在位置中的一个潜在位置到麦克风的声学传递函数与从潜在位置中的一个潜在位置到参照麦克风的声学传递函数的比率来获得存储rtf组作为麦克风阵列中除参照麦克风以外的每个麦克风的rtf。

除了在此描述的特征中的一个或多个之外,获得麦克风阵列中除参照麦克风以外的每个麦克风的说话者rtf还包含针对潜在位置中的每一个计算麦克风处的语音样本的声学传递函数与参照麦克风处的语音样本的声学传递函数的比率。

除了在此描述的特征中的一个或多个之外,执行rtf投影包含计算每个说话者rtf与存储rtf组中的每个rtf之间的余弦距离。

除了在此描述的特征中的一个或多个之外,确定活动说话者的位置是基于余弦距离中的最大值。

除了在此描述的特征中的一个或多个之外,存储潜在位置的存储rtf组包含存储汽车中的每个座位的存储rtf组。

除了在此描述的特征中的一个或多个之外,存储存储rtf组是对汽车执行的校准过程的一部分。

除了在此描述的特征中的一个或多个之外,存储存储rtf组是对与汽车型号相同的校准汽车执行的校准过程的一部分。

在另一示例性实施例中,一种估计活动说话者的位置的系统包含存储器装置,用以将麦克风阵列中除了与若干潜在位置中的每个潜在位置相关联的参照麦克风以外的每个麦克风的相对传递函数(rtf)存储为存储rtf组。所述系统还包含处理器,用以获得活动说话者的语音样本,并且获得麦克风阵列中除了参照麦克风以外的每个麦克风的说话者rtf、在存储rtf组上执行每个麦克风的说话者rtf的rtf投影,并且基于rtf投影将潜在位置中的一个确定为活动说话者的位置。

除了在此描述的特征中的一个或多个之外,处理器还实时地获得语音样本。

除了在此描述的特征中的一个或多个之外,处理器还对来自潜在位置中的每一个的声音进行取样以获得存储rtf组。

除了在此描述的特征中的一个或多个之外,处理器还基于针对潜在位置中的每一个计算从潜在位置中的一个潜在位置到麦克风的声学传递函数与从潜在位置中的一个潜在位置到参照麦克风的声学传递函数的比率来获得存储rtf组作为麦克风阵列中除参照麦克风以外的每个麦克风的rtf。

除了在此描述的特征中的一个或多个之外,处理器还基于针对潜在位置中的每一个计算麦克风处的语音样本的声学传递函数与参照麦克风处的语音样本的声学传递函数的比率来获得麦克风阵列中除参照麦克风以外的每个麦克风的说话者rtf。

除了在此描述的特征中的一个或多个之外,处理器通过计算每个说话者rtf与存储rtf组中的每个rtf之间的余弦距离来执行rtf投影。

除了在此描述的特征中的一个或多个之外,处理器还基于余弦距离中的最大值来确定活动说话者的位置。

除了在此描述的特征中的一个或多个之外,存储器装置存储汽车中的每个座位的存储rtf组。

除了在此描述的特征中的一个或多个之外,存储器装置将存储rtf组存储为对汽车执行的校准过程的一部分。

除了在此描述的特征中的一个或多个之外,存储器装置将存储rtf组存储为对与汽车型号相同的校准汽车执行的校准过程的一部分。

在结合附图考虑时,根据以下详细描述,本发明的以上特征和优点以及其它特征和优点将变得显而易见。

附图说明

其它特征、优点和细节仅作为实例出现在以下详细描述中,详细描述参考附图,其中:

图1示出了根据一个或多个实施例的估计说话者的位置的系统;

图2是根据一个或多个实施例的执行说话者的位置估计的方法的处理流程;以及

图3详述根据一个或多个实施例的与作为校准过程的一部分执行位置估计相关联的过程。

具体实施方式

以下描述在性质上仅仅是示例性的,且并不希望限制本发明、其应用或用途。

如前所述,估计说话者的位置可能是有用的。在示例性车辆应用中,估计说话者的座位可以促进在麦克风阵列上使用波束形成算法。估计说话者的位置还可能促进其它应用。此处详述的系统和方法的实施例涉及使用相对传递函数(rtf)来估计说话者的位置。为了解释目的,具体详述确定汽车内的说话者的座位位置的示例性情况。然而,此处详述的实施例适用于已经识别出潜在说话者位置以进行校准的任何场景。

根据示例性实施例,图1示出了估计说话者的位置的系统。示出具有四个潜在说话者位置105w、105x、105y和105z(统称105)的车辆101。在车辆101中示出两位乘员。乘员处于位置105w和105z。乘员的任一者可以在任何给定时间说话。车辆101包含麦克风110a、110b、110c和110d的阵列(统称110)。尽管图1中示出了用于示例性阵列的布置成行的四个麦克风110,但可以使用处于任何布置的任何数目个麦克风。然而,在参考图2论述的校准过程期间,必须使用麦克风110和潜在位置105的相同布置。当乘员中的一位说话时,确定哪个乘员在说话(即,估计说话者在坐的位置105)促进利用麦克风阵列110执行波束形成。根据一个或多个实施例,控制器100进行所述确定。

控制器100包含处理电路,处理电路可以包含执行一个或多个软件或固件程序、组合逻辑电路和/或提供功能的其它合适部件的专用集成电路(asic)、电子电路、处理器(例如,处理器107)(共享的、专用的或群组)以及存储器(例如,存储器装置103)。

图2是根据一个或多个实施例的确定活动说话者的位置105的方法的处理流程。图2中的虚线分开涉及校准过程的过程210、220、230和240与涉及实时操作的以框250开始的过程。如前所述,在实时过程期间必须存在与在校准过程中使用的位置105和麦克风110相同的相对布置。举例来说,在车辆101中确定说话者的位置105的示例性情况下,可以对一种型号的车辆101执行一次校准处理。因此,相同型号的每个车辆101不需要再次进行校准过程。

在框210处,指定参照麦克风110是指将阵列中的麦克风110中的一个识别为参照麦克风110。举例来说,图1所示的示例性阵列中的麦克风110a可以被指定为参照麦克风110。在框220处,所述过程包含获得每个麦克风110处每个位置105的声音样本。如前所述,对于所述型号的车辆101可以执行一次校准。因此,在校准过程期间从每个位置105w、105x、105y和105z获得每个麦克风110处的声音样本,即使在图1中示出的示例性实时配置只在位置105w和105z处包含乘员也是如此。

在框230处执行rtf估计实质上是指获得与每个位置105相关联的每个非参照麦克风110的rtf值。可以根据不同的实施例来执行rtf估计,其中一个实施例参考图3进行了详细描述。在框240处,存储rtf完成校准过程。

在框250处,当车辆101中的乘员中的一位开始说话时,从每个麦克风110对说话者进行取样。在框260处获得说话者rtf是指获得与说话者相关联的每个非参照麦克风110的rtf。在框270处执行rtf投影涉及使用在框240处作为校准过程的一部分存储的rtf以及在框260处获得的说话者rtf。实质上,控制器100计算所存储rtf(在框240处)与所获得的说话者rtf(在框260处)之间的余弦距离,且基于余弦距离确定说话者的位置105。

余弦距离由下式给出:

d是余弦距离,i是被校准的每个位置105的索引,l是时间索引,并且k是频率索引。c是rtf的列向量,其中是指在活动说话者的操作模式下获得的说话者rtf。h指示共轭转置。一旦获得每个潜在位置105的余弦距离,就将位置i(l)确定为提供活动说话者的最大余弦距离位置105的位置105。具体来说,假设只有一位乘员在说话,那么位置i(l)被确定为:

图3详述了作为校准过程的一部分的与在框230处执行rtf估计相关联的过程。为了解释目的而论述的示例性情况是图1中所示的布置,其中麦克风110a被指定为参照麦克风。根据示例性实施例,基于每个位置105处的声源,确定包含参照麦克风110a的每一麦克风110的声学传递函数(atf)。在表310中示出了与用于每个位置105w、105x、105y、105z处的声源的每个麦克风110a、110b、110c、110d相关联的atf值。每个声学传递函数值提供给定位置105处(在声源处)的声级与给定麦克风110处的声级之间的关系。根据多种方法测量atf是已知的,在此不再详述。与用于位置105w、105x、105y、105z中的每一个的参照麦克风110a相关联的atf值是表310中的参照atf值atfw-a、atfx-a、atfy-a、atfz-a。

在获得表310中的atf值之后,与每个位置105w、105x、105y、105z相关联的每个非参照麦克风110(麦克风110b、110c、110d)的rtf是声学传递函数与和相同位置相关联的参照声学传递函数的比率。表320中指示rtf值。作为实例,rtfx-c_a是麦克风110c对于位置105x(atfx-c)的atf与参照麦克风110a对于相同位置105x(atfx-a)的atf的比率。

虽然已参考示例性实施例描述了以上公开内容,但本领域技术人员将理解,在不脱离其范围的情况下,可以作出各种改变并且可以用等效物替换其元件。另外,可以作出许多修改以使特定情况或材料适合于本发明的教导,而不脱离其基本范围。因此,希望本发明不限于所公开的特定实施例,而是将包含落入其范围内的所有实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1