音频用户交互辨识和上下文精炼的制作方法

文档序号：2827151阅读：154来源：国知局

音频用户交互辨识和上下文精炼的制作方法
【专利摘要】一种跟踪多个参与者之间的社交交互的系统包含：固定波束成形器，其适于输出第一经空间滤波输出，且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出。每一可导向波束成形器输出所述第二经空间滤波输出中与所述参与者中的不同一者相关联的相应一者。所述系统还包含：处理器，其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性。所述处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。
【专利说明】音频用户交互辨识和上下文精炼
[0001] 相关申请案的夺叉参考
[0002] 本申请案依据35U.S.C. § 119(e)的权益主张2012年5月11日申请且标题为 "音频用户交互辨识和上下文精炼（AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT) "的第61/645, 818号美国临时专利申请案的优先权，且主张2012年11月12日申请且标题为"音频用户交互辨识和上下文精炼（AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT) "的第13/674, 690号美国非临时专利申请案的优先权，以上申请案的内容明确地以引用方式并入本文。

【背景技术】
[0003] 通过在不同时间点确定用户正看着的方向可推导大量有用信息，且此信息可用以增强用户与多种计算系统的交互。因此，常见的是已经采取大量使用基于视觉的方法进行的凝视跟踪研究（即，使用若干不同装置跟踪眼睛）。然而，了解用户的凝视方向仅给出关于用户关注的一个维度的语义信息，且不考虑大部分由语音给出的上下文信息。换句话说，与语音跟踪结合的凝视跟踪的组合将在多种不同用户应用中提供较富含的且较有意义的信息。

【发明内容】

[0004] 使用基于音频的方法确定上下文信息（即，正发送或由用户接收的非视觉信息）。通过朝向特定人或特定声音源导向音频波束可增强接收侧上的音频用户交互。本文描述的技术因此可允许用户较清楚地理解例如对话的上下文。为了实现这些益处，来自一或多个可导向麦克风阵列的输入和来自固定麦克风阵列的输入可用以在正呈现基于音频的上下文信息（或甚至基于视觉的语义信息）的情况下确定一个人正看着谁或一个人相对于正在说话的人注意什么内容。
[0005] 对于各种实施方案，使用两种不同类型的麦克风阵列装置（MAD)。第一类型的MAD 是可导向麦克风阵列（本文也称为可导向阵列），其由用户佩戴在关于用户的眼睛的已知定向上，且多个用户可各自佩戴可导向阵列。第二类型的MAD是固定位置麦克风阵列（本文也称为固定阵列），其放置于与用户（其中一或多者正使用可导向阵列）相同的声学空间中。
[0006] 对于某些实施方案，可导向麦克风阵列可为有源噪声控制（ANC)头戴式耳机或助听器的部分。可存在多个可导向阵列，其各自与例如会议或群组中的不同用户或说话者 (本文也称为参与者）相关联。在此上下文中，固定麦克风阵列将随后用以使用音频波束来分离在群组会议期间说话和收听的不同人，所述音频波束对应于所述不同人相对于所述固定阵列定位的方向。
[0007] 评估固定阵列的经分离说话者的音频波束与可导向阵列的输出之间的相关或相似性。相关是相似性量度的一个实例，但可使用若干相似性测量或确定技术中的任一者。
[0008] 在一实施方案中，固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以跟踪参与者之间的社交交互，包含在不同参与者说话或呈现基于音频的信息时参与者随着时间的凝视方向。
[0009] 在一实施方案中，固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以例如放大目标参与者。此缩放又可能在一个用户（在所述时刻是收听者）正凝视着正提供基于音频的信息（即，说话）的另一个人时导致增强的噪声滤波和放大。
[0010] 在一实施方案中，固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以自适应地形成目标参与者的较好波束，从而实际上较好地确定用户中的每一者相对于彼此的物理定向。
[0011] 提供此概述以用简化形式介绍概念的选择，所述概念在以下详细描述中进一步描述。此概述既定不识别所主张标的物的关键特征或本质特征，也既定不用以限制所主张标的物的范围。

【专利附图】

【附图说明】
[0012] 当结合附图阅读时更好地理解前述概述以及以下对说明性实施例的详细描述。为了说明实施例的目的，在图中展示实施例的实例性构造；然而，实施例不限于所揭示的特定方法和手段。在图中：
[0013] 图1是可用以确定上下文信息的各自佩戴可导向麦克风阵列的用户群组连同固定麦克风阵列的图；
[0014] 图2是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的实施方案的操作流程；
[0015] 图3是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的另一实施方案的操作流程；
[0016] 图4是可提供用户身份和用户正观看哪一方向的指示的实例性显示的图；
[0017] 图5是可产生和显示且指示各种用户交互和会议数据的用户接口的图；
[0018] 图6是可产生且显示（例如，在智能电话显示器上）且指示各种用户交互（例如，在会议期间）的用户接口的实例性显示的图；
[0019] 图7是指示相对于各种话题的各种用户交互的实例性显示的图；
[0020] 图8是指示随着时间的各种用户交互的实例性显示的图；
[0021] 图9是指示随着时间的各种用户交互的另一实例性显示的图；
[0022] 图10是使用交叉相关测量相似性的方法的实施方案的操作流程；
[0023] 图11是使用交叉累积量测量相似性的方法的实施方案的操作流程；
[0024] 图12是使用时域最小二乘法拟合测量相似性的方法的实施方案的操作流程；
[0025] 图13是使用频域最小二乘法拟合测量相似性的方法的实施方案的操作流程；
[0026] 图14是使用板仓-斋藤距离测量相似性的方法的实施方案的操作流程；
[0027] 图15是使用基于特征的方法测量相似性的方法的实施方案的操作流程；
[0028] 图16展示实例性用户接口显示；
[0029] 图17展示示范性用户接口显示以展示显示上的合作缩放；
[0030] 图18是用于放大目标参与者的方法的实施方案的操作流程；
[0031] 图19展示具有额外候选观看方向的实例性用户接口显示；
[0032] 图20是用于自适应地精炼目标说话者的波束的方法的实施方案的操作流程；
[0033] 图21展示相对于麦克风对的平面波传播的远场模型；
[0034] 图22展示线性阵列中的多个麦克风对；
[0035] 图23展示四个不同D0A的未缠绕相位延迟对频率的绘图，且图24展示相同D0A 的缠绕相位延迟对频率的绘图；
[0036] 图25展示两个D0A候选的测得相位延迟值和所计算值的实例；
[0037] 图26展示沿着电视机屏幕的顶部边限布置的线性麦克风阵列；
[0038] 图27展示计算帧的D0A差的实例；
[0039] 图28展示计算D0A估计的实例；
[0040] 图29展示针对每一频率识别D0A估计的实例；
[0041] 图30展示使用所计算可能性来针对给定频率识别最佳麦克风对和最佳D0A候选的实例；
[0042] 图31展示可能性计算的实例；
[0043] 图32展示扬声器电话应用的实例；
[0044] 图33展示逐对D0A估计到麦克风阵列的平面中的360°范围的映射；
[0045] 图34和35展示D0A估计中的模糊性；
[0046] 图36展示观测到的D0A的正负号与x-y平面的象限之间的关系；
[0047] 图37到40展示其中源位于麦克风的平面上方的实例；
[0048] 图41展示沿着非正交轴的麦克风对的实例；
[0049] 图42展示使用图41的阵列获得相对于正交X和y轴的D0A估计的实例；
[0050] 图43和44展示针对两对麦克风阵列（例如，如图45中所示）的逐对正规化波束成形器/空波束成形器（BFNF)的实例；
[0051] 图46展示逐对正规化最小方差无失真响应（MVDR)BFNF的实例；
[0052] 图47展示其中矩阵AHA并非条件不良的频率的逐对BFNF的实例；
[0053] 图48展示导向向量的实例；以及
[0054] 图49展示如本文描述的源方向估计的集成方法的流程图。

【具体实施方式】
[0055] 除非由其上下文明确限制，否则术语"信号"在此用以指示其普通意义中的任一者，包含如在电线、总线或其它传输媒体上表示的存储器位置（或存储器位置集合）的状态。除非由其上下文明确限制，否则术语"产生"在此用以指示其普通意义中的任一者，例如计算或以其它方式产生。除非由其上下文明确限制，否则术语"计算"在此用以指示其普通意义中的任一者，例如计算、评估、估计和/或从多个值中选择。除非由其上下文明确限制，否则术语"获得"用以指示其普通意义中的任一者，例如计算、推导、接收（例如，从外部装置）和/或检索（例如，从存储元件阵列）。除非由其上下文明确限制，否则术语"选择" 用以指示其普通意义中的任一者，例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在本发明描述和权利要求书中使用术语"包括"的情况下，其并不排除其它元件或操作。术语"基于"（如"A基于B"中）用以指示其普通意义中的任一者，包含如下情况：（i) "推导自"（例如，"B是A的前体"），（ii) "至少基于"（例如，"A至少基于B"），以及在特定上下文中适当的情况下，（iii) "等于"（例如，"A等于B"或"A与 B相同"）。类似地，术语"响应于"用以指示其普通意义中的任一者，包含"至少响应于"。
[0056] 对多麦克风音频感测装置的麦克风的"位置"的参考指示所述麦克风的声学敏感面的中心的位置，除非上下文另外指示。根据特定上下文，术语"通道"有时候用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示，否则术语"系列"用以指示两个或两个以上项目的序列。术语"对数"用以指示基于十的对数，但此运算向其它基数的扩展在本发明的范围内。术语"频率分量"用以指示信号的一组频率或频带当中的一者，例如所述信号的频域表示的样本（或"区间"例如，由快速傅立叶变换产生）或所述信号的子带（例如，巴克（Bark)尺度或梅尔（mel)尺度子带）。
[0057] 除非另外指示，否则对具有特定特征的设备的操作的任何揭示也明确预期揭示具有类似特征的方法（且反之亦然），且对根据特定配置的设备的操作的任何揭示也明确预期揭示根据类似配置的方法（且反之亦然）。术语"配置"可参考由其特定上下文指示的方法、设备和/或系统来使用。术语"方法"、"过程"、"程序"和"技术" 一股地且可互换地使用，除非特定上下文另外指示。术语"设备"和"装置"也一股地且可互换地使用，除非特定上下文另外指示。术语"元件"和"模块"通常用以指示较大配置的一部分。除非由其上下文明确限制，否则术语"系统"在此用以指示其普通意义中的任一者，包含"相互作用以用于共同目的的元件群组"。
[0058] 通过引用文档的一部分的任何并入也应当理解为并入了在所述部分内参考的术语或变量的定义，此些定义在文档中的别处出现的地方，以及在所并入部分中参考的任何图式。除非初始通过定冠词介绍，否则用以修改权利要求元素的序数术语（例如，"第一"、 "第二"、"第三"等等）本身并不指示所述权利要求元素相对于另一元素的任何优先级或次序，而是仅使所述权利要求元素区别于具有相同名称（但出于序数术语的使用）的另一权利要求元素。除非通过其上下文明确限制，否则术语"多个"和"集合"中的每一者在本文用以指示大于一的整数量。
[0059] 本文描述组合基于视觉和听力的方法以使得用户能够朝向人（或声音源）导向，以便使用声音传感器和多种基于位置的计算和所得的交互增强来更清楚地理解在所述时刻正呈现的基于音频的信息（例如，对话的上下文和/或声音源的身份）。
[0060] 举例来说，固定阵列的经分离说话者的音频束与可导向阵列的输出之间的相关或相似性可用以跟踪说话者之间的社交交互。相关仅是相似性量度的一个实例，且可使用任何相似性测量或确定技术。
[0061] 更特定来说，用户（本文也称为说话者或参与者）群组的社交交互或社交联网分析可使用响应于分别与群组的每一用户相关联的固定阵列的经分离说话者的音频束与每一可导向阵列的输出之间的相关或其它相似性量度而产生的连接曲线图来执行和显示。因此，举例来说，可使用会议参与者之间的连接曲线图在参与者的群组会议中执行自动社交网络分析以推导关于谁主动参加呈现或（更一股地）保持用户的注意的呈现的有效性的有用信息。
[0062] 图1是可用以确定上下文信息的各自佩戴可导向麦克风阵列110的用户群组连同与用户在相同空间（例如，房间）中的固定位置麦克风阵列150的图100。如图1所示，房间（或其它经界定空间）中的用户群组的每一用户105佩戴可导向麦克风阵列（例如，作为可包含执行自适应噪声控制（ANC)的能力的头戴式耳机），且固定位置麦克风阵列150 位于房间中（例如，桌子上、电话中等等）。固定位置麦克风阵列150可例如为例如视频游戏平台、平板计算机、笔记本计算机或智能电话等电子装置的部分，或可为独立装置或实施方案。替代地或另外，固定位置麦克风阵列150可包括分布式麦克风阵列（S卩，分布式麦克风）。
[0063] 佩戴头戴式耳机的用户105可从指向用户的物理视觉（或"观看"）方向的他的可导向（例如，可佩戴）麦克风阵列产生固定波束模式120。如果用户转动他的头，那么用户的波束模式的观看方向也改变。作用中说话者的位置可使用固定麦克风阵列来确定。通过从具有对应于每一作用中说话者的固定麦克风阵列输出的可导向麦克风阵列相关经波束成形输出（或任一类型的空间经滤波输出）或另外确定其相似性，可确定用户正看着（例如，注意着、听着等等）的人的识别。每一头戴式耳机可具有与主处理器（例如，集中式本地或远程计算装置中）通信（例如，经由无线通信链路）以分析头戴式耳机和/或固定阵列之间的波束的相关或相似性的处理器。
[0064] 换句话说，在任一时间时刻的固定波束模式可基于可与固定麦克风阵列输出相关的用户的物理观看方向来形成，进而经由连接曲线图130(例如，在例如手持机、膝上型计算机、平板计算机、计算机、上网本或移动计算装置等任一类型的计算装置的显示器上显示）提供目标用户的社交交互的视觉指示。因此，通过使来自可导向麦克风阵列的经波束成形输出与对应于每一作用中说话用户的固定麦克风阵列输出相关，可执行和显示社交交互或网络分析的跟踪。而且，通过检查来自观看方向可导向麦克风阵列的经波束成形输出与对应于每一作用中说话者的位置固定麦克风阵列输出之间的相似性，用户正看着或注意着的人可被识别且放大。
[0065] 图2是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法200的实施方案的操作流程。在210处，可导向麦克风阵列和固定麦克风阵列大致在同时各自接收声音（但可检测小的变化且用以计算用户的相对位置）。在220处，由可导向麦克风阵列和固定麦克风阵列中的每一者产生例如经波束成形输出等经空间滤波输出。在230处，将每一可导向麦克风阵列的经空间滤波输出与固定麦克风阵列的经空间滤波输出进行比较。可使用用于确定相似性或相关的任何已知技术。在240处，从230获得的相似性或相关信息可用以确定和/或显示用户交互信息，如本文进一步描述。
[0066] 图3是使用可导向麦克风阵列和固定位置麦克风阵列确定用户交互的方法300 的另一实施方案的操作流程。多个用户中的每一者具有可导向立体麦克风阵列，例如ANC 头戴式耳机，其具有对应于每一此用户的视觉凝视方向的已知定向。在305处可导向阵列 (ANC头戴式耳机中）中的每一者提供固定边射波束成形，其中在310处在用户观看方向上 (即，在可导向阵列的用户正观看的方向上）产生经波束成形输出（或任一类型的经空间滤波输出）。
[0067] 具有相关联处理器的固定麦克风阵列（例如在智能电话中）在围绕固定麦克风阵列的三个维度（3D)中在320处执行到达方向（D0A)估计，且在325处分离作用中说话者。在370处确定作用中说话者的数目，且在380处产生每一作用中说话者的单独输出（由例如识别号识别）。在一实施方案中，可在330处执行作用中说话者的说话者辨识和标记。
[0068] 在340处测量固定阵列的经分离说话者与可导向阵列的输出之间的相似性。使用测得的相似性和D0A估计和说话者ID，可在350处产生和显示用户交互的视觉化（具有说话者身份（ID)或参与者ID)。在360处可将每一用户的观看方向作为例如智能电话坐标提供到固定阵列。
[0069] 可产生连接曲线图（也称为交互曲线图），其显示例如（a)谁正在讲话和/或听着谁和/或看着谁，（b)谁正在支配和/或领导群组的讨论，和/或（c)谁已厌烦、未参与和/ 或安静。可执行实时会议分析以帮助会议和未来会议的效率。例如会议时间、地点（例如，会议位置）、说话者身份或参与者身份、会议话题或标的以及参与者数目等信息例如可显示且在分析中使用。
[0070] 图4是可提供用户身份和用户正观看哪一方向的指示的实例性显示器403的图 400。连同用户正观看的方向（参与者观看方向410) -起显示用户身份（参与者ID 406)。在例如会议期间，参与者观看方向410的此显示可产生且提供到关注方，例如会议管理者或领导者或监督者，使得关注方可看见在会议的各个时间所述参与者正看着谁。虽然在图 403中仅展示一个参与者ID 406和参与者观看方向410,但这既定不是限制性的。关注方可接收一个以上参与者的此信息，且此信息可取决于实施方案在一或多个显示器上同时显示。用于在显示器403上显示而产生的数据可存储在存储器中且在较晚时间检索和显示，以及实时显示。
[0071] 图5是可在显示器418上产生和显示且指示各种用户交互和会议数据的用户接口的图415。可产生和显示（例如，在会议期间实时）各种类型的信息，例如正在讲话的参与者的识别符（ID)420、正在听着的参与者的ID 422和/或未参与的参与者的ID 424(例如，在所述时刻不在听、在超过预定时间量或会议的至少一百分比的时间中不在听、看着除了正在讲话的参与者之外的某个地方或看着另一预定位置或方向等等）。在例如会议期间，此显示4108可产生且提供到关注方，例如会议管理者或领导者或监督者。
[0072] 可在显示418上显示额外数据，例如会议时间426、会议位置428、会议长度 430(即，持续时间）、会议话题432以及会议参与者数目434。可显示此数据中的一些或全部。另外或替代地，取决于实施方案可显示其它数据，例如所有参与者的ID和如本文进一步描述可产生的其它统计数据。用于在显示器418上显示而产生的信息和数据可存储在存储器中且在较晚时间检索和显示，以及实时显示。
[0073] 应注意，即使参与者仅在会议中听着（且未说话），她也将是参与的，因为所述参与者的麦克风（可导向麦克风阵列）将仍在她正听着时观看的方向上拾取声音。因此，即使参与者不说话，也将仍存在与她的收听相关联的待分析的声音。
[0074] 可产生和显示用户接口（例如，在智能电话显示器或其它计算装置显示器上，例如与手持机、膝上型计算机、平板计算机、计算机、上网本或移动计算装置相关联的显示器），其指示在会议期间的各种用户交互。图4是可产生且显示（例如，在智能电话显示器 443上）且指示各种用户交互（例如，在会议期间）的用户接口 440的实例性显示的图。在此实例中，每一箭头454的方向指示谁正看着谁（在此实例中仅展示一个箭头454,但取决于实施方案和特定时间的用户交互可展示多个此类箭头）。每一箭头的厚度指示交互的相对强度（例如，基于连接时间等等）。从一个人或到一个人无箭头指示所述用户未涉及于群组会议中。针对用户可显示百分比数字，其指示针对群组会议的参与比率。可显示指示符448以识别会议的领导者，且可确定和显示百分比450、452以分别展示讨论中有多少被引导到一个人，且讨论中有多少是来自所述人。在一实施方案中，可使用颜色或突出显示来指示参与者群组的领导者。
[0075] 在图6的实例中，约翰（John)和马克（Mark)正进行很多交互，如相对大的厚箭头 446指示。玛丽（Mary)是安静的。可执行实时会议分析（例如上文相对于图4和5以及本文别处所描述）以帮助会议的效率。举例来说，因为看上去玛丽不在对话中，所以约翰可鼓励玛丽参与（例如，通过向玛丽问问题）。
[0076] 可在一时间周期上（例如，一个月、一年等等）累积社交交互绘图以评估例如群组动态性或话题动态性。图7是指示相对于各种话题464的各种用户交互的实例性显示462 的图460。此信息可在一或多个会议期间俘获，存储在一存储器（或多个存储器）中，且在较晚时间（例如，在历史数据分析期间）以一或多个格式显示。此处，每一参与者ID 466 连同其针对各种话题464的参与比率468 -起列出。
[0077] 因此举例来说，简（Jane)在关于"设计"的会议中具有20%参与比率，在关于"代码走查"的会议中具有40%参与比率，且在关于"文档化"的会议中具有10%参与比率。此数据可用以确定哪些参与者最适合或关注例如特定话题，或哪些参与者可能需要相对于特定话题的更多鼓励。参与比率可经确定且基于本文描述的一或多个数据项目，例如在会议中说话的时间量、在会议中注意的时间量、在会议中收听的时间量等等。虽然在图7中展示百分比，但可使用任何相对测量、编号或指示系统或技术来识别参与水平或比率中的相对强度和/或弱度。
[0078] 图460中的"L"用作实例性指示符以指示哪一用户在某一话题中参与最多，进而指示例如所述话题的潜在领导者。可使用任何指示符，例如颜色、突出显示或特定符号。在此实例中，约翰最多地参与设计，简最多地参与代码走查，且玛丽最多地参与文档化。因此，他们可被识别为相应话题中的潜在领导者。
[0079] 另外，可针对一或多个会议参与者产生具有交互历史的个人时间线。因此，不仅可俘获、分析在会议期间的单个快照或时间周期且显示（在实时或较晚离线显示）与其有关的信息，而且可存储（例如，在例如智能电话等计算装置或例如手持机、膝上型计算机、平板计算机、计算机、上网本或移动计算装置等任一类型的计算装置的存储器中）、分析和显示（例如，在例如智能电话等计算装置或例如手持机、膝上型计算机、平板计算机、计算机、上网本或移动计算装置等任一类型的计算装置的日历或其它显示中）随着时间的历史。
[0080] 图8是可用于例如在一或多个会议之后的历史分析的指示随着时间的各种用户交互的实例性显示472的图470。此处，连同例如会议日期和会议话题等信息一起提供用户识别符474。随着时间476提供此显示472上的信息478。其针对每一周期或时刻展示信息478,例如在所述周期或时刻用户正看着谁、在那时用户是否正在说话，以及在所述周期或时刻正看着所述用户的会议参与者的百分比。此信息478可在会议期间的预定时间（例如，每分钟、每5分钟等等）确定，或经确定为例如特定时间周期上的平均值或其它经加权确定。此信息仅作为实例提供且无意为限制性的，可产生和显示额外或替代信息作为信息 478。
[0081] 图8中显示的信息可用于会议分析和用户分析。因此，在图8中，可确定当简不在说话时用户简通常看着玛丽或马克，但当简在说话时简看着约翰。图8还指示当简不在说话时，看着简的参与者的百分比为零，但此百分比在简说话时增加。
[0082] 还可产生、存储、分析和显示交互统计数据。举例来说，可跟踪且显示人之间的交互演进。可使用随着时间的回归加权（例如，〇. 9*历史数据+0. 1*当前数据），使得随着数据变得较旧，其变得较不相关，其中最当前数据被加权最高（或反之亦然）。以此方式，用户可能够看见他或其他人正在与哪些人联网多于其他人。可将额外统计数据作为分析中的因数以提供更准确的交互信息。举例来说，可与会议、历史和/或参与者交互数据一起使用 (组合）从电子邮件交换或其它通信获得的交互信息以提供额外（例如，较准确）交互信肩、。
[0083] 图9是指示随着时间的各种用户交互的另一实例性显示482的图480。此处，连同交互尺度488和时间周期一起识别用户简。图480展示其它用户ID 484和过去的月份列表486。在此实例中的交互尺度范围是从0到10,其中0表示无交互且10表示在月份486 中的每一者中所识别用户与简之间的非常强的交互。此信息可产生且作为历史数据提供，且例如由会议参与者或领导者或监督者用来查看和分析随着时间的各种用户交互，以例如看谁在何时与谁最强地交互。
[0084] 作为另一实例，可执行在线学习监视以确定远程位点的学生是否正在主动参与。同样，还预期用于具有参与者交互的视频游戏的应用，其中可存在在可能的声音事件位置当中用户正看着何处的立即辨识。
[0085] 图10是方法500的实施方案的操作流程，且使用交叉相关作为示范性量度，但可使用任何相似性测量技术。在503处，固定麦克风阵列提供作用中说话者的数目N和作用中说话者的经分离语音信号。一个信号（声音）由固定麦克风阵列接收。固定麦克风阵列的输出包括波束，每一参与者对应于一个波束。因此，单独输出与每一参与者相关联。在510 处，可导向麦克风阵列提供用户的观看方向。对于每一用户，个别用户的输出与从固定麦克风阵列输出的波形（或其它经空间滤波输出）中的每一者相关。
[0086] 在515处可使用此信息产生位置映射。可利用与用户何时转向某人且看着他们有关的信息。如图示可使用例如506处所示的众所周知的经典相关方程式，其中E等于期望值且c为相关值。每当存在最大峰时，就是强相关角度。在一实施方案中，可使用物理约束或系统复杂性来预定最大可允许时间移位。举例来说，仅当佩戴可导向阵列的用户在作用中时，可测量和使用可导向麦克风与固定麦克风之间的时间延迟。应注意，常规帧长度20ms 对应于几乎7米。角度Θ是作用中说话者相对于收听用户定位的相对角度。在513处可确定固定阵列与可导向阵列之间的角度Θ。
[0087] 图11是测量相似性的方法520的实施方案的操作流程，且使用交叉累积量作为示范性量度，但可使用任何相似性测量技术。在523处，固定麦克风阵列提供作用中说话者的数目N和作用中说话者的经分离语音信号。一个信号（声音）由固定麦克风阵列接收。固定麦克风阵列的输出包括波束，每一参与者对应于一个波束。因此，单独输出与每一参与者相关联。在530处，可导向麦克风阵列提供用户的观看方向。对于每一用户，个别用户的输出与从固定麦克风阵列输出的波形（或其它经空间滤波输出）中的每一者相关。
[0088] 在525处可使用此信息产生位置映射。可利用与用户何时转向某人且看着他们有关的信息。如图示可使用526处所示的众所周知的经典累积量方程式，其中E等于期望值且c为相关值。每当存在最大峰时，就是强相关角度。角度Θ是作用中说话者相对于收听用户定位的相对角度。在513处可确定固定阵列与可导向阵列之间的角度θ。
[0089] 应注意，可使用任何相似性或相关技术。关于可能的相似性量度，实际上可使用任何距离度量，例如（但不限于）以下众所周知的技术：（1)具有可允许时间调整的最小二乘法拟合：时域或频域；（2)基于特征的方法：使用线性预测译码（LPC)或梅尔频率倒谱系数（MFCC);和（3)基于较高阶的方法：交叉累积量、经验库贝克-李柏发散 (Kullback-Leibler Divergence)或板仓-斋藤（Itakura-Saito)距离。
[0090] 图12是使用时域最小二乘法拟合测量相似性的方法540的实施方案的操作流程，且图13是使用频域最小二乘法拟合测量相似性的方法550的实施方案的操作流程。使用时域最小二乘法拟合的方法540类似于上述图11的方法520,不同的是替代于使用526的累积量方程，可如所示使用542处所示的时域方程式。类似地，方法550类似于图11的方法520,但不是使用能量正规化，而是使用快速傅立叶变换（FFT)结合552处所示的频域方程式。
[0091] 图14是使用板仓-斋藤距离测量相似性的方法560的实施方案的操作流程。此技术类似于图13的FFT技术，但使用562处所示的方程式。图15是使用基于特征的方法测量相似性的方法570的实施方案的操作流程。如573和575处所示执行且结合图10的其它操作503、510、513和515以及572处所示的方程式来执行特征提取。
[0092] 在一实施方案中，固定麦克风阵列的经分离说话者的音频波束与可导向麦克风阵列的输出之间的相关或相似性可用以放大目标说话者。此类型的合作缩放可提供用于放大所要说话者的用户接口。
[0093] 换句话说，可执行合作放大，其中为具有多个装置的多个用户提供用户接口以用于通过仅看着目标说话者来放大目标说话者。可经由头戴式耳机或手持机在目标人处产生波束成形，使得可组合多个装置的所有可用资源以用于合作缩放，进而增强目标人的观看方向。
[0094] 举例来说，用户可看着目标人，且可通过使用头戴式耳机或手持机（无论哪一者较靠近目标人）在目标人处产生波束成形。这可通过使用包含具有两个麦克风的隐藏相机的装置来实现。当多个装置的多个用户看着目标人时，相机可视觉上聚焦于所述人。另外，装置可通过使用（例如，全部）可用麦克风在听觉上聚焦（即，放大）所述人来增强目标人的观看方向。
[0095] 另外，可通过消除其它说话者且增强目标人的话音来在听觉上放大目标人。所述增强也可使用头戴式耳机或手持机（无论哪一者较靠近目标人）来完成。
[0096] 图16中展示示范性用户接口显示600。所述显示（例如，在智能电话显示器610 或其它显示装置上显示）展示作用中用户位置620和相关联能量630。图17展示示范性用户接口显示，用以展示显示器上的合作缩放，其中说话者1如显示660中所示从初始显示 650放大。
[0097] 图18是用于放大目标人的方法700的实施方案的操作流程。如图3中，在710处可导向阵列705(在ANC头戴式耳机中）提供固定边射波束成形，其中在用户观看方向上 (即，在可导向阵列的用户正观看的方向上）产生经波束成形输出。具有相关联处理器的固定麦克风阵列707 (例如在智能电话中）在围绕固定麦克风阵列的三个维度中执行D0A估计，且在720处分离作用中说话者。确定作用中说话者的数目，且产生每一作用中说话者的单独输出（由例如识别号识别）。
[0098] 在一实施方案中，可在730处执行作用中说话者的说话者辨识和标记。在750处确定固定阵列的经分离说话者与可导向阵列的输出之间的相关或相似性。使用相关或相似性测量和说话者的ID，可在760处检测、定位和放大目标用户。
[0099] 可用例如具有两个麦克风的隐藏相机等装置代替用户，且仅通过看着目标人，便可以用通过听觉以及视觉的缩放来聚焦于目标人。
[0100] 具有多个装置的摄像机应用是预期的。观看方向是已知的，且其它装置的所有可用麦克风可用以增强观看方向源。
[0101] 在一实施方案中，固定阵列的经分离说话者的音频波束与可导向阵列的输出之间的相关或相似性可用以自适应地形成目标说话者的较好波束。以此方式，可自适应地精炼固定麦克风波束成形器，使得固定波束成形器可自适应地产生新观看方向。
[0102] 举例来说，头戴式耳机麦克风阵列的波束成形器输出可用作参考以精炼固定麦克风阵列的波束成形器的观看方向。头戴式耳机波束成形器输出与当前固定麦克风阵列波束成形器输出之间的相关或相似性可同头戴式耳机波束成形器输出与具有稍微移动的观看方向的固定麦克风阵列波束成形器输出之间的相关或相似性进行比较。
[0103] 图19展示具有额外候选观看方向810的实例性用户接口显示800。通过利用如图19所示的头戴式耳机波束成形器输出与原始固定麦克风波束成形器输出820之间的相关或相似性，可产生固定波束成形器的新候选观看方向。使用此技术，头戴式耳机麦克风波束成形器输出可用作参考以精炼固定麦克风波束成形器的观看方向。举例来说，图19中的说话者1可正在说话，且在他说话时，可自适应地形成新候选观看方向。
[0104] 图20是用于自适应地精炼目标说话者的波束的方法900的实施方案的操作流程。如图3中，在910处可导向阵列905 (例如，在ANC头戴式耳机中）提供固定边射波束成形，其中在用户观看方向上（即，在可导向阵列的用户正观看的方向上）产生经波束成形输出。具有相关联处理器的固定麦克风阵列907 (例如在智能电话中）在围绕固定麦克风阵列的三个维度中执行D0A估计，且在920处分离作用中说话者。确定作用中说话者的数目，且产生每一作用中说话者的单独输出（由例如识别号识别）。如同图18,在950处确定固定阵列的经分离说话者与可导向阵列的输出之间的相关或相似性。
[0105] 继续图20,在960处，使用所确定相关或相似性来增加作用中用户的D0A附近的角度分辨率，且再次执行作用中说话者的分离。使用增加的角度分辨率和可导向阵列的输出，在970处，确定固定阵列的经分离说话者与可导向阵列的输出之间的另一相关或相似性量度。在980处可随后使用此相关或相似性量度来放大目标说话者。
[0106] 为在背景噪声和混响下充分稳健的同时多个声音事件的音频信号的每一巾贞估计三维到达方向（D0A)的方法是一个挑战。通过最大化可靠频率区间的数目可获得稳健性。可能希望此方法适合于任意形状的麦克风阵列几何形状，使得可避免麦克风几何形状上的特定约束。如本文描述的逐对1D方法可适当地并入到任何几何形状中。
[0107] 针对此一股扬声器电话应用或远场应用可实施解决方案。可实施此方法以在无麦克风放置约束的情况下操作。也可实施此方法以使用上至奈奎斯特频率且下至较低频率的可用频率区间（例如，通过支持具有较大麦克风间距离的麦克风对的使用）来跟踪源。并非限于用于跟踪的单个对，可实施此方法以选择所有可用对当中的最佳对。此方法可用以支持甚至远场情境（多达三到五米或更大的距离）中的源跟踪，且提供高得多的DOA分辨率。其它潜在特征包含获得作用中源的确切2D表示。为了最佳结果，可能希望每一源是稀疏宽带音频源，且每一频率区间大部分由不超过一个源支配。
[0108] 对于由一对麦克风在特定D0A上从点源直接接收的信号，相位延迟对于每一频率分量不同且还取决于麦克风之间的间距。在特定频率区间处的相位延迟的观测值可计算为复FFT系数的虚项与复FFT稀疏的实项的比率的反正切。如图21所示，在特定频率f处的相位延迟值Δφ/可涉及在作为

【权利要求】
1. 一种跟踪多个参与者之间的社交交互的系统，其包括：固定波束成形器，其适于输出第一经空间滤波输出，且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出，每一可导向波束成形器输出所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联；以及处理器，其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性，且能够基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。
2. 根据权利要求1所述的系统，其中所述固定波束成形器包括固定麦克风阵列，且所述可导向波束成形器中的每一者包括可导向麦克风阵列。
3. 根据权利要求1所述的系统，其中所述固定波束成形器和所述处理器包括在移动装置内。
4. 根据权利要求1所述的系统，其中所述固定波束成形器和所述处理器包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
5. 根据权利要求1所述的系统，其中所述多个可导向波束成形器中的每一者包括在相应装置内，且其中每一相应装置能够与所述参与者中的不同一者相关联。
6. 根据权利要求5所述的系统，其中每一相应装置包括由所述相关联参与者佩戴的头戴式耳机。
7. 根据权利要求1所述的系统，其进一步包括能够显示所述参与者之间的所述社交交互的用户接口。
8. 根据权利要求7所述的系统，其中用户接口显示器能够以图形方式立即显示所述多个参与者。
9. 根据权利要求8所述的系统，其中所述用户接口显示器能够经由所述用户接口放大所述参与者中的一者以提供所述经放大参与者的增强语音。
10. 根据权利要求1所述的系统，其中所述固定波束成形器的所述第一经空间滤波输出是基于所述多个可导向波束成形器的所述第二经空间滤波输出中的至少一者来精炼。
11. 根据权利要求1所述的系统，其中所述处理器适于将（1)所述固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者之间的所述相似性与（2)具有经移动观看方向的固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者之间的所述相似性进行比较。
12. 根据权利要求1所述的系统，其进一步包括能够基于音频波束成形跟踪参与者之间的所述社交交互的移动装置。
13. 根据权利要求1所述的系统，其中所述处理器经配置以执行所述固定波束成形器的所述第一经空间滤波输出与所述可导向波束成形器的所述第二经空间滤波输出中的选定一者之间的相关。
14. 根据权利要求13所述的系统，其中所述固定波束成形器包括在第一移动装置内，且选定可导向波束成形器包括在不同于所述第一移动装置的第二移动装置内。
15. 根据权利要求1所述的系统，其中所述相似性是使用以下各项中的一者来确定：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
16. 根据权利要求1所述的系统，其中所述处理器进一步经配置以确定所述参与者中的至少一者的位置。
17. -种用于确定固定麦克风阵列的输出与可导向麦克风阵列的输出之间的相似性的系统，其包括：处理器，其经配置以接收来自所述固定麦克风阵列的第一经空间滤波输出和来自所述可导向麦克风阵列的第二经空间滤波输出，且进一步经配置以将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较以确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的所述输出之间的所述相似性；以及输出装置，其经配置以输出所述相似性。
18. 根据权利要求17所述的系统，其中每一经空间滤波输出包括经波束成形输出。
19. 根据权利要求17所述的系统，其中所述处理器进一步经配置以多次重复所述接收和比较，针对多个可导向麦克风阵列中的每一者重复一次。
20. 根据权利要求17所述的系统，其中所述处理器和所述输出装置包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
21. 根据权利要求17所述的系统，其中所述处理器进一步经配置以：估计所述固定麦克风阵列周围的到达方向；使用所述到达方向确定作用中说话者，且使用所述到达方向分离所述作用中说话者的输出；以及使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所述相似性。
22. 根据权利要求21所述的系统，其中估计所述到达方向可在三维3D中执行。
23. 根据权利要求21所述的系统，其中所述第二经空间滤波输出在作用中说话者观看方向上。
24. 根据权利要求21所述的系统，其中所述第二经空间滤波输出是从有源噪声控制 ANC头戴式耳机通过固定边射波束成形产生。
25. 根据权利要求21所述的系统，其中所述处理器进一步经配置以：从多个可导向麦克风阵列接收多个经空间滤波输出，每一可导向麦克风阵列对应于不同作用中说话者；识别所述作用中说话者，且使用所述到达方向分离所述作用中说话者的所述输出；以及确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中说话者的所述经分离输出之间的所述相似性。
26. 根据权利要求25所述的系统，其中所述固定麦克风阵列经配置以提供作用中说话者的数目和每一作用中说话者的经分离语音信号，且所述可导向麦克风阵列提供每一作用中说话者的观看方向，且确定所述相似性包括：针对每一作用中说话者；使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向找到交叉相关方程式的最大峰，以及使用所述最大峰确定强相关角度，其中所述强相关角度对应于所述固定麦克风阵列与所述作用中说话者的所述可导向麦克风阵列之间的角度。
27. 根据权利要求25所述的系统，其中确定所述相似性使用以下各项中的一者：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
28. -种用于跟踪多个参与者之间的社交交互的方法，其包括：从固定波束成形器输出第一经空间滤波输出；从多个可导向波束成形器输出多个第二经空间滤波输出，每一可导向波束成形器输出所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联；确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性；以及利用处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。
29. 根据权利要求28所述的方法，其中所述固定波束成形器包括固定麦克风阵列，且所述可导向波束成形器中的每一者包括可导向麦克风阵列。
30. 根据权利要求28所述的方法，其中所述固定波束成形器和所述处理器包括在移动装置内。
31. 根据权利要求28所述的方法，其中所述固定波束成形器和所述处理器包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
32. 根据权利要求28所述的方法，其中所述多个可导向波束成形器中的每一者包括在相应装置内，且其中每一相应装置能够与所述参与者中的不同一者相关联。
33. 根据权利要求32所述的方法，其中每一相应装置包括由所述相关联参与者佩戴的头戴式耳机。
34. 根据权利要求28所述的方法，其进一步包括显示所述参与者之间的所述社交交互。
35. 根据权利要求34所述的方法，其中所述显示进一步包括以图形方式立即显示所述多个参与者。
36. 根据权利要求35所述的方法，其中所述显示进一步包括经由用户接口放大所述参与者中的一者以提供所述经放大参与者的增强语音。
37. 根据权利要求28所述的方法，其进一步包括基于所述多个可导向波束成形器的所述第二经空间滤波输出中的至少一者来精炼所述固定波束成形器的所述第一经空间滤波输出。
38. 根据权利要求28所述的方法，其进一步包括将（1)所述固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者之间的所述相似性与（2)具有经移动观看方向的固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者之间的所述相似性进行比较。
39. 根据权利要求28所述的方法，其进一步包括基于音频波束成形跟踪参与者之间的所述社交交互。
40. 根据权利要求28所述的方法，其进一步包括执行所述固定波束成形器的所述第一经空间滤波输出与所述可导向波束成形器的所述第二经空间滤波输出中的选定一者之间的相关。
41. 根据权利要求40所述的方法，其中所述固定波束成形器包括在第一移动装置内，且选定可导向波束成形器包括在不同于所述第一移动装置的第二移动装置内。
42. 根据权利要求28所述的方法，其中所述相似性是使用以下各项中的一者来确定：在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
43. 根据权利要求28所述的方法，其进一步包括确定所述参与者中的至少一者的位置。
44. 一种用于确定固定麦克风阵列的输出与可导向麦克风阵列的输出之间的相似性的方法，其包括：从所述固定麦克风阵列接收第一经空间滤波输出；从可导向麦克风阵列接收第二经空间滤波输出；将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较；基于所述比较确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的所述输出之间的所述相似性；以及输出所述相似性。
45. 根据权利要求44所述的方法，其中每一经空间滤波输出包括经波束成形输出。
46. 根据权利要求44所述的方法，其进一步包括多次重复所述接收和比较，针对多个可导向麦克风阵列中的每一者重复一次。
47. 根据权利要求44所述的方法，其中所述固定麦克风阵列包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
48. 根据权利要求44所述的方法，其进一步包括：估计所述固定麦克风阵列周围的到达方向；使用所述到达方向确定作用中说话者；使用所述到达方向分离所述作用中说话者的输出；以及使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所述相似性。
49. 根据权利要求48所述的方法，其中估计所述到达方向可在三维3D中执行。
50. 根据权利要求48所述的方法，其中所述第二经空间滤波输出在作用中说话者观看方向上。
51. 根据权利要求48所述的方法，其中所述第二经空间滤波输出是从有源噪声控制 ANC头戴式耳机通过固定边射波束成形产生。
52. 根据权利要求48所述的方法，其进一步包括：从多个可导向麦克风阵列接收多个经空间滤波输出，每一可导向麦克风阵列对应于不同作用中说话者；识别所述作用中说话者，且使用所述到达方向分离所述作用中说话者的所述输出；以及确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中说话者的所述经分离输出之间的相似性。
53. 根据权利要求52所述的方法，其进一步包括提供作用中说话者的数目和每一作用中说话者的经分离语音信号，且提供每一作用中说话者的观看方向，其中确定所述相似性包括针对每一作用中说话者：使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向找到交叉相关方程式的最大峰；以及使用所述最大峰确定强相关角度，其中所述强相关角度对应于所述固定麦克风阵列与所述作用中说话者的所述可导向麦克风阵列之间的角度。
54. 根据权利要求52所述的方法，其中确定所述相似性使用以下各项中的一者：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
55. -种用于跟踪多个参与者之间的社交交互的设备，其包括：用于输出第一经空间滤波输出的装置；用于输出多个第二经空间滤波输出的装置，所述第二经空间滤波输出中的每一者与所述参与者中的不同一者相关联；用于确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性的装置；以及用于基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互的装置。
56. 根据权利要求55所述的设备，其中所述装置包括在移动装置内。
57. 根据权利要求55所述的设备，其中所述装置包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
58. 根据权利要求55所述的设备，其进一步包括用于显示所述参与者之间的所述社交交互的装置。
59. 根据权利要求58所述的设备，其进一步包括用于以图形方式立即显示所述多个参与者的装置。
60. 根据权利要求59所述的设备，其进一步包括用于经由用户接口放大所述参与者中的一者以提供所述经放大参与者的增强语音的装置。
61. 根据权利要求55所述的设备，其进一步包括用于基于所述第二经空间滤波输出中的至少一者精炼所述第一经空间滤波输出的装置。
62. 根据权利要求55所述的设备，其进一步包括用于将（1)所述第一经空间滤波输出与所述第二经空间滤波输出中的所述至少一者之间的所述相似性与（2)具有经移动观看方向的第一经空间滤波输出与所述第二经空间滤波输出中的所述至少一者之间的所述相似性进行比较的装置。
63. 根据权利要求55所述的设备，其进一步包括用于基于音频波束成形跟踪参与者之间的所述社交交互的装置。
64. 根据权利要求55所述的设备，其进一步包括用于执行所述第一经空间滤波输出与所述第二经空间滤波输出中的选定一者之间的相关的装置。
65. 根据权利要求55所述的设备，其中所述相似性是使用以下各项中的一者来确定：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
66. 根据权利要求55所述的设备，其进一步包括用于确定所述参与者中的至少一者的位置的装置。
67. -种用于确定固定麦克风阵列的输出与可导向麦克风阵列的输出之间的相似性的设备，其包括：用于从所述固定麦克风阵列接收第一经空间滤波输出的装置；用于从所述可导向麦克风阵列接收第二经空间滤波输出的装置；用于将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较的装置；用于基于所述比较确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的所述输出之间的所述相似性的装置；以及用于输出所述相似性的装置。
68. 根据权利要求67所述的设备，其中每一经空间滤波输出包括经波束成形输出。
69. 根据权利要求67所述的设备，其进一步包括用于多次重复所述接收和比较的装置，针对多个可导向麦克风阵列中的每一者重复一次。
70. 根据权利要求67所述的设备，其中所述用于接收的装置包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
71. 根据权利要求67所述的设备，其进一步包括：用于估计所述固定麦克风阵列周围的到达方向的装置；用于使用所述到达方向确定作用中说话者的装置；用于使用所述到达方向分离所述作用中说话者的输出的装置；以及用于使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所述相似性的装置。
72. 根据权利要求71所述的设备，其中所述用于估计所述到达方向的装置能够在三维 3D中执行所述估计。
73. 根据权利要求71所述的设备，其中所述第二经空间滤波输出在作用中说话者观看方向上。
74. 根据权利要求71所述的设备，其中所述第二经空间滤波输出是从有源噪声控制 ANC头戴式耳机通过固定边射波束成形产生。
75. 根据权利要求71所述的设备，其进一步包括：用于从多个可导向麦克风阵列接收多个经空间滤波输出的装置，每一可导向麦克风阵列对应于不同作用中说话者；用于识别所述作用中说话者且使用所述到达方向分离所述作用中说话者的所述输出的装置；以及用于确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中说话者的所述经分离输出之间的所述相似性的装置。
76. 根据权利要求75所述的设备，其进一步包括用于提供作用中说话者的数目和所述作用中说话者中的每一者的经分离语音信号的装置，以及用于提供所述作用中说话者中的每一者的观看方向的装置，其中确定所述相似性包括针对所述作用中说话者中的每一者：使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向找到交叉相关方程式的最大峰；以及使用所述最大峰确定强相关角度，其中所述强相关角度对应于所述固定麦克风阵列与所述作用中说话者的所述可导向麦克风阵列之间的角度。
77. 根据权利要求75所述的设备，其中确定所述相似性使用以下各项中的一者：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
78. -种非暂时性计算机可读媒体，其包括用于致使处理器进行以下操作的计算机可读指令：从固定波束成形器接收第一经空间滤波输出；从多个可导向波束成形器接收多个第二经空间滤波输出，每一可导向波束成形器输出所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联；确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性；以及利用处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的社交交互。
79. 根据权利要求78所述的计算机可读媒体，其中所述固定波束成形器包括固定麦克风阵列，且所述可导向波束成形器中的每一者包括可导向麦克风阵列。
80. 根据权利要求78所述的计算机可读媒体，其中所述固定波束成形器和所述处理器包括在移动装置内。
81. 根据权利要求78所述的计算机可读媒体，其中所述固定波束成形器和所述处理器包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
82. 根据权利要求78所述的计算机可读媒体，其中所述多个可导向波束成形器中的每一者包括在相应装置内，且其中每一相应装置能够与所述参与者中的不同一者相关联。
83. 根据权利要求82所述的计算机可读媒体，其中每一相应装置包括由所述相关联参与者佩戴的头戴式耳机。
84. 根据权利要求78所述的计算机可读媒体，其进一步包括用于致使所述处理器显示所述参与者之间的所述社交交互的指令。
85. 根据权利要求84所述的计算机可读媒体，其进一步包括用于致使所述处理器以图形方式立即显示所述多个参与者的指令。
86. 根据权利要求85所述的计算机可读媒体，其进一步包括用于致使所述处理器经由用户接口放大所述参与者中的一者以提供所述经放大参与者的增强语音的指令。
87. 根据权利要求78所述的计算机可读媒体，其进一步包括用于致使所述处理器基于所述多个可导向波束成形器的所述第二经空间滤波输出中的至少一者来精炼所述固定波束成形器的所述第一经空间滤波输出的指令。
88. 根据权利要求78所述的计算机可读媒体，其进一步包括用于致使所述处理器将 (1)所述固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者之间的所述相似性与（2)具有经移动观看方向的固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者之间的所述相似性进行比较的指令。
89. 根据权利要求78所述的计算机可读媒体，其进一步包括用于致使所述处理器基于音频波束成形跟踪参与者之间的所述社交交互的指令。
90. 根据权利要求78所述的计算机可读媒体，其进一步包括用于致使所述处理器执行所述固定波束成形器的所述第一经空间滤波输出与所述可导向波束成形器的所述第二经空间滤波输出中的选定一者之间的相关的指令。
91. 根据权利要求90所述的计算机可读媒体，其中所述固定波束成形器包括在第一移动装置内，且选定可导向波束成形器包括在不同于所述第一移动装置的第二移动装置内。
92. 根据权利要求78所述的计算机可读媒体，其中所述相似性是使用以下各项中的一者来确定：在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码 LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
93. 根据权利要求78所述的计算机可读媒体，其进一步包括用于致使所述处理器确定所述参与者中的至少一者的位置的指令。
94. 一种非暂时性计算机可读媒体，其包括用于致使处理器进行以下操作的计算机可读指令：从固定麦克风阵列接收第一经空间滤波输出；从可导向麦克风阵列接收第二经空间滤波输出；将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较；基于所述比较确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的所述输出之间的相似性；以及输出所述相似性。
95. 根据权利要求94所述的计算机可读媒体，其中每一经空间滤波输出包括经波束成形输出。
96. 根据权利要求94所述的计算机可读媒体，其进一步包括用于致使所述处理器多次重复所述接收和比较的指令，针对多个可导向麦克风阵列中的每一者重复一次。
97. 根据权利要求94所述的计算机可读媒体，其中所述处理器包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
98. 根据权利要求94所述的计算机可读媒体，其进一步包括用于致使所述处理器进行以下操作的指令：估计所述固定麦克风阵列周围的到达方向；使用所述到达方向确定作用中说话者；使用所述到达方向分离所述作用中说话者的输出；以及使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所述相似性。
99. 根据权利要求98所述的计算机可读媒体，其进一步包括用于致使所述处理器在三维3D中估计所述到达方向的指令。
100. 根据权利要求98所述的计算机可读媒体，其中所述第二经空间滤波输出在作用中说话者观看方向上。
101. 根据权利要求98所述的计算机可读媒体，其中所述第二经空间滤波输出是从有源噪声控制ANC头戴式耳机通过固定边射波束成形产生。
102. 根据权利要求98所述的计算机可读媒体，其进一步包括用于致使所述处理器进行以下操作的指令：从多个可导向麦克风阵列接收多个经空间滤波输出，每一可导向麦克风阵列对应于不同作用中说话者；识别所述作用中说话者，且使用所述到达方向分离所述作用中说话者的所述输出；以及确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中说话者的所述经分离输出之间的所述相似性。
103. 根据权利要求102所述的计算机可读媒体，其进一步包括用于致使所述处理器提供作用中说话者的数目和所述作用中说话者中的每一者的经分离语音信号且提供所述作用中说话者中的每一者的观看方向的指令，其中确定所述相似性包括针对所述作用中说话者中的每一者：使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向找到交叉相关方程式的最大峰；以及使用所述最大峰确定强相关角度，其中所述强相关角度对应于所述固定麦克风阵列与所述作用中说话者的所述可导向麦克风阵列之间的角度。
104. 根据权利要求102所述的计算机可读媒体，其中确定所述相似性使用以下各项中的一者：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码 LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。
【文档编号】G10L25/48GK104254819SQ201380022351
【公开日】2014年12月31日申请日期:2013年5月6日优先权日:2012年5月11日
【发明者】金莱轩, 辛钟元, 埃里克·维瑟申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金莱轩;辛钟元;埃里克·维瑟
技术所有人：高通股份有限公司
我是此专利的发明人