音频用户交互辨识和上下文精炼的制作方法

文档序号:2827151阅读:154来源:国知局
音频用户交互辨识和上下文精炼的制作方法
【专利摘要】一种跟踪多个参与者之间的社交交互的系统包含:固定波束成形器,其适于输出第一经空间滤波输出,且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出。每一可导向波束成形器输出所述第二经空间滤波输出中与所述参与者中的不同一者相关联的相应一者。所述系统还包含:处理器,其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性。所述处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。
【专利说明】音频用户交互辨识和上下文精炼
[0001] 相关申请案的夺叉参考
[0002] 本申请案依据35U.S.C. § 119(e)的权益主张2012年5月11日申请且标题为 "音频用户交互辨识和上下文精炼(AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT) "的第61/645, 818号美国临时专利申请案的优先权,且主张2012年11月12日 申请且标题为"音频用户交互辨识和上下文精炼(AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT) "的第13/674, 690号美国非临时专利申请案的优先权,以上申请 案的内容明确地以引用方式并入本文。

【背景技术】
[0003] 通过在不同时间点确定用户正看着的方向可推导大量有用信息,且此信息可用以 增强用户与多种计算系统的交互。因此,常见的是已经采取大量使用基于视觉的方法进行 的凝视跟踪研究(即,使用若干不同装置跟踪眼睛)。然而,了解用户的凝视方向仅给出关 于用户关注的一个维度的语义信息,且不考虑大部分由语音给出的上下文信息。换句话说, 与语音跟踪结合的凝视跟踪的组合将在多种不同用户应用中提供较富含的且较有意义的 信息。


【发明内容】

[0004] 使用基于音频的方法确定上下文信息(即,正发送或由用户接收的非视觉信息)。 通过朝向特定人或特定声音源导向音频波束可增强接收侧上的音频用户交互。本文描述的 技术因此可允许用户较清楚地理解例如对话的上下文。为了实现这些益处,来自一或多个 可导向麦克风阵列的输入和来自固定麦克风阵列的输入可用以在正呈现基于音频的上下 文信息(或甚至基于视觉的语义信息)的情况下确定一个人正看着谁或一个人相对于正在 说话的人注意什么内容。
[0005] 对于各种实施方案,使用两种不同类型的麦克风阵列装置(MAD)。第一类型的MAD 是可导向麦克风阵列(本文也称为可导向阵列),其由用户佩戴在关于用户的眼睛的已知 定向上,且多个用户可各自佩戴可导向阵列。第二类型的MAD是固定位置麦克风阵列(本 文也称为固定阵列),其放置于与用户(其中一或多者正使用可导向阵列)相同的声学空间 中。
[0006] 对于某些实施方案,可导向麦克风阵列可为有源噪声控制(ANC)头戴式耳机或助 听器的部分。可存在多个可导向阵列,其各自与例如会议或群组中的不同用户或说话者 (本文也称为参与者)相关联。在此上下文中,固定麦克风阵列将随后用以使用音频波束来 分离在群组会议期间说话和收听的不同人,所述音频波束对应于所述不同人相对于所述固 定阵列定位的方向。
[0007] 评估固定阵列的经分离说话者的音频波束与可导向阵列的输出之间的相关或相 似性。相关是相似性量度的一个实例,但可使用若干相似性测量或确定技术中的任一者。
[0008] 在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间 的相似性量度可用以跟踪参与者之间的社交交互,包含在不同参与者说话或呈现基于音频 的信息时参与者随着时间的凝视方向。
[0009] 在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间 的相似性量度可用以例如放大目标参与者。此缩放又可能在一个用户(在所述时刻是收听 者)正凝视着正提供基于音频的信息(即,说话)的另一个人时导致增强的噪声滤波和放 大。
[0010] 在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间 的相似性量度可用以自适应地形成目标参与者的较好波束,从而实际上较好地确定用户中 的每一者相对于彼此的物理定向。
[0011] 提供此概述以用简化形式介绍概念的选择,所述概念在以下详细描述中进一步描 述。此概述既定不识别所主张标的物的关键特征或本质特征,也既定不用以限制所主张标 的物的范围。

【专利附图】

【附图说明】
[0012] 当结合附图阅读时更好地理解前述概述以及以下对说明性实施例的详细描述。为 了说明实施例的目的,在图中展示实施例的实例性构造;然而,实施例不限于所揭示的特定 方法和手段。在图中:
[0013] 图1是可用以确定上下文信息的各自佩戴可导向麦克风阵列的用户群组连同固 定麦克风阵列的图;
[0014] 图2是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的实施方 案的操作流程;
[0015] 图3是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的另一实 施方案的操作流程;
[0016] 图4是可提供用户身份和用户正观看哪一方向的指示的实例性显示的图;
[0017] 图5是可产生和显示且指示各种用户交互和会议数据的用户接口的图;
[0018] 图6是可产生且显示(例如,在智能电话显示器上)且指示各种用户交互(例如, 在会议期间)的用户接口的实例性显示的图;
[0019] 图7是指示相对于各种话题的各种用户交互的实例性显示的图;
[0020] 图8是指示随着时间的各种用户交互的实例性显示的图;
[0021] 图9是指示随着时间的各种用户交互的另一实例性显示的图;
[0022] 图10是使用交叉相关测量相似性的方法的实施方案的操作流程;
[0023] 图11是使用交叉累积量测量相似性的方法的实施方案的操作流程;
[0024] 图12是使用时域最小二乘法拟合测量相似性的方法的实施方案的操作流程;
[0025] 图13是使用频域最小二乘法拟合测量相似性的方法的实施方案的操作流程;
[0026] 图14是使用板仓-斋藤距离测量相似性的方法的实施方案的操作流程;
[0027] 图15是使用基于特征的方法测量相似性的方法的实施方案的操作流程;
[0028] 图16展示实例性用户接口显示;
[0029] 图17展示示范性用户接口显示以展示显示上的合作缩放;
[0030] 图18是用于放大目标参与者的方法的实施方案的操作流程;
[0031] 图19展示具有额外候选观看方向的实例性用户接口显示;
[0032] 图20是用于自适应地精炼目标说话者的波束的方法的实施方案的操作流程;
[0033] 图21展示相对于麦克风对的平面波传播的远场模型;
[0034] 图22展示线性阵列中的多个麦克风对;
[0035] 图23展示四个不同D0A的未缠绕相位延迟对频率的绘图,且图24展示相同D0A 的缠绕相位延迟对频率的绘图;
[0036] 图25展示两个D0A候选的测得相位延迟值和所计算值的实例;
[0037] 图26展示沿着电视机屏幕的顶部边限布置的线性麦克风阵列;
[0038] 图27展示计算帧的D0A差的实例;
[0039] 图28展示计算D0A估计的实例;
[0040] 图29展示针对每一频率识别D0A估计的实例;
[0041] 图30展示使用所计算可能性来针对给定频率识别最佳麦克风对和最佳D0A候选 的实例;
[0042] 图31展示可能性计算的实例;
[0043] 图32展示扬声器电话应用的实例;
[0044] 图33展示逐对D0A估计到麦克风阵列的平面中的360°范围的映射;
[0045] 图34和35展示D0A估计中的模糊性;
[0046] 图36展示观测到的D0A的正负号与x-y平面的象限之间的关系;
[0047] 图37到40展示其中源位于麦克风的平面上方的实例;
[0048] 图41展示沿着非正交轴的麦克风对的实例;
[0049] 图42展示使用图41的阵列获得相对于正交X和y轴的D0A估计的实例;
[0050] 图43和44展示针对两对麦克风阵列(例如,如图45中所示)的逐对正规化波束 成形器/空波束成形器(BFNF)的实例;
[0051] 图46展示逐对正规化最小方差无失真响应(MVDR)BFNF的实例;
[0052] 图47展示其中矩阵AHA并非条件不良的频率的逐对BFNF的实例;
[0053] 图48展示导向向量的实例;以及
[0054] 图49展示如本文描述的源方向估计的集成方法的流程图。

【具体实施方式】
[0055] 除非由其上下文明确限制,否则术语"信号"在此用以指示其普通意义中的任一 者,包含如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置集合)的状 态。除非由其上下文明确限制,否则术语"产生"在此用以指示其普通意义中的任一者,例 如计算或以其它方式产生。除非由其上下文明确限制,否则术语"计算"在此用以指示其普 通意义中的任一者,例如计算、评估、估计和/或从多个值中选择。除非由其上下文明确限 制,否则术语"获得"用以指示其普通意义中的任一者,例如计算、推导、接收(例如,从外部 装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则术语"选择" 用以指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合 中的至少一者且少于全部。在本发明描述和权利要求书中使用术语"包括"的情况下,其并 不排除其它元件或操作。术语"基于"(如"A基于B"中)用以指示其普通意义中的任一 者,包含如下情况:(i) "推导自"(例如,"B是A的前体"),(ii) "至少基于"(例如,"A至 少基于B"),以及在特定上下文中适当的情况下,(iii) "等于"(例如,"A等于B"或"A与 B相同")。类似地,术语"响应于"用以指示其普通意义中的任一者,包含"至少响应于"。
[0056] 对多麦克风音频感测装置的麦克风的"位置"的参考指示所述麦克风的声学敏感 面的中心的位置,除非上下文另外指示。根据特定上下文,术语"通道"有时候用以指示信 号路径且在其它时候用以指示由此路径载运的信号。除非另外指示,否则术语"系列"用以 指示两个或两个以上项目的序列。术语"对数"用以指示基于十的对数,但此运算向其它基 数的扩展在本发明的范围内。术语"频率分量"用以指示信号的一组频率或频带当中的一 者,例如所述信号的频域表示的样本(或"区间"例如,由快速傅立叶变换产生)或所述 信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)。
[0057] 除非另外指示,否则对具有特定特征的设备的操作的任何揭示也明确预期揭示具 有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示也明确预 期揭示根据类似配置的方法(且反之亦然)。术语"配置"可参考由其特定上下文指示的方 法、设备和/或系统来使用。术语"方法"、"过程"、"程序"和"技术" 一股地且可互换地使 用,除非特定上下文另外指示。术语"设备"和"装置"也一股地且可互换地使用,除非特定 上下文另外指示。术语"元件"和"模块"通常用以指示较大配置的一部分。除非由其上下 文明确限制,否则术语"系统"在此用以指示其普通意义中的任一者,包含"相互作用以用于 共同目的的元件群组"。
[0058] 通过引用文档的一部分的任何并入也应当理解为并入了在所述部分内参考的术 语或变量的定义,此些定义在文档中的别处出现的地方,以及在所并入部分中参考的任何 图式。除非初始通过定冠词介绍,否则用以修改权利要求元素的序数术语(例如,"第一"、 "第二"、"第三"等等)本身并不指示所述权利要求元素相对于另一元素的任何优先级或次 序,而是仅使所述权利要求元素区别于具有相同名称(但出于序数术语的使用)的另一权 利要求元素。除非通过其上下文明确限制,否则术语"多个"和"集合"中的每一者在本文 用以指示大于一的整数量。
[0059] 本文描述组合基于视觉和听力的方法以使得用户能够朝向人(或声音源)导向, 以便使用声音传感器和多种基于位置的计算和所得的交互增强来更清楚地理解在所述时 刻正呈现的基于音频的信息(例如,对话的上下文和/或声音源的身份)。
[0060] 举例来说,固定阵列的经分离说话者的音频束与可导向阵列的输出之间的相关或 相似性可用以跟踪说话者之间的社交交互。相关仅是相似性量度的一个实例,且可使用任 何相似性测量或确定技术。
[0061] 更特定来说,用户(本文也称为说话者或参与者)群组的社交交互或社交联网分 析可使用响应于分别与群组的每一用户相关联的固定阵列的经分离说话者的音频束与每 一可导向阵列的输出之间的相关或其它相似性量度而产生的连接曲线图来执行和显示。因 此,举例来说,可使用会议参与者之间的连接曲线图在参与者的群组会议中执行自动社交 网络分析以推导关于谁主动参加呈现或(更一股地)保持用户的注意的呈现的有效性的有 用信息。
[0062] 图1是可用以确定上下文信息的各自佩戴可导向麦克风阵列110的用户群组连同 与用户在相同空间(例如,房间)中的固定位置麦克风阵列150的图100。如图1所示,房 间(或其它经界定空间)中的用户群组的每一用户105佩戴可导向麦克风阵列(例如,作 为可包含执行自适应噪声控制(ANC)的能力的头戴式耳机),且固定位置麦克风阵列150 位于房间中(例如,桌子上、电话中等等)。固定位置麦克风阵列150可例如为例如视频游 戏平台、平板计算机、笔记本计算机或智能电话等电子装置的部分,或可为独立装置或实施 方案。替代地或另外,固定位置麦克风阵列150可包括分布式麦克风阵列(S卩,分布式麦克 风)。
[0063] 佩戴头戴式耳机的用户105可从指向用户的物理视觉(或"观看")方向的他的可 导向(例如,可佩戴)麦克风阵列产生固定波束模式120。如果用户转动他的头,那么用户 的波束模式的观看方向也改变。作用中说话者的位置可使用固定麦克风阵列来确定。通过 从具有对应于每一作用中说话者的固定麦克风阵列输出的可导向麦克风阵列相关经波束 成形输出(或任一类型的空间经滤波输出)或另外确定其相似性,可确定用户正看着(例 如,注意着、听着等等)的人的识别。每一头戴式耳机可具有与主处理器(例如,集中式本 地或远程计算装置中)通信(例如,经由无线通信链路)以分析头戴式耳机和/或固定阵 列之间的波束的相关或相似性的处理器。
[0064] 换句话说,在任一时间时刻的固定波束模式可基于可与固定麦克风阵列输出相 关的用户的物理观看方向来形成,进而经由连接曲线图130(例如,在例如手持机、膝上型 计算机、平板计算机、计算机、上网本或移动计算装置等任一类型的计算装置的显示器上显 示)提供目标用户的社交交互的视觉指示。因此,通过使来自可导向麦克风阵列的经波束 成形输出与对应于每一作用中说话用户的固定麦克风阵列输出相关,可执行和显示社交交 互或网络分析的跟踪。而且,通过检查来自观看方向可导向麦克风阵列的经波束成形输出 与对应于每一作用中说话者的位置固定麦克风阵列输出之间的相似性,用户正看着或注意 着的人可被识别且放大。
[0065] 图2是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法200的实施 方案的操作流程。在210处,可导向麦克风阵列和固定麦克风阵列大致在同时各自接收声 音(但可检测小的变化且用以计算用户的相对位置)。在220处,由可导向麦克风阵列和固 定麦克风阵列中的每一者产生例如经波束成形输出等经空间滤波输出。在230处,将每一 可导向麦克风阵列的经空间滤波输出与固定麦克风阵列的经空间滤波输出进行比较。可使 用用于确定相似性或相关的任何已知技术。在240处,从230获得的相似性或相关信息可 用以确定和/或显示用户交互信息,如本文进一步描述。
[0066] 图3是使用可导向麦克风阵列和固定位置麦克风阵列确定用户交互的方法300 的另一实施方案的操作流程。多个用户中的每一者具有可导向立体麦克风阵列,例如ANC 头戴式耳机,其具有对应于每一此用户的视觉凝视方向的已知定向。在305处可导向阵列 (ANC头戴式耳机中)中的每一者提供固定边射波束成形,其中在310处在用户观看方向上 (即,在可导向阵列的用户正观看的方向上)产生经波束成形输出(或任一类型的经空间滤 波输出)。
[0067] 具有相关联处理器的固定麦克风阵列(例如在智能电话中)在围绕固定麦克风阵 列的三个维度(3D)中在320处执行到达方向(D0A)估计,且在325处分离作用中说话者。 在370处确定作用中说话者的数目,且在380处产生每一作用中说话者的单独输出(由例 如识别号识别)。在一实施方案中,可在330处执行作用中说话者的说话者辨识和标记。
[0068] 在340处测量固定阵列的经分离说话者与可导向阵列的输出之间的相似性。使用 测得的相似性和D0A估计和说话者ID,可在350处产生和显示用户交互的视觉化(具有说 话者身份(ID)或参与者ID)。在360处可将每一用户的观看方向作为例如智能电话坐标提 供到固定阵列。
[0069] 可产生连接曲线图(也称为交互曲线图),其显示例如(a)谁正在讲话和/或听着 谁和/或看着谁,(b)谁正在支配和/或领导群组的讨论,和/或(c)谁已厌烦、未参与和/ 或安静。可执行实时会议分析以帮助会议和未来会议的效率。例如会议时间、地点(例如, 会议位置)、说话者身份或参与者身份、会议话题或标的以及参与者数目等信息例如可显示 且在分析中使用。
[0070] 图4是可提供用户身份和用户正观看哪一方向的指示的实例性显示器403的图 400。连同用户正观看的方向(参与者观看方向410) -起显示用户身份(参与者ID 406)。 在例如会议期间,参与者观看方向410的此显示可产生且提供到关注方,例如会议管理者 或领导者或监督者,使得关注方可看见在会议的各个时间所述参与者正看着谁。虽然在图 403中仅展示一个参与者ID 406和参与者观看方向410,但这既定不是限制性的。关注方 可接收一个以上参与者的此信息,且此信息可取决于实施方案在一或多个显示器上同时显 示。用于在显示器403上显示而产生的数据可存储在存储器中且在较晚时间检索和显示, 以及实时显示。
[0071] 图5是可在显示器418上产生和显示且指示各种用户交互和会议数据的用户接 口的图415。可产生和显示(例如,在会议期间实时)各种类型的信息,例如正在讲话的参 与者的识别符(ID)420、正在听着的参与者的ID 422和/或未参与的参与者的ID 424(例 如,在所述时刻不在听、在超过预定时间量或会议的至少一百分比的时间中不在听、看着除 了正在讲话的参与者之外的某个地方或看着另一预定位置或方向等等)。在例如会议期间, 此显示4108可产生且提供到关注方,例如会议管理者或领导者或监督者。
[0072] 可在显示418上显示额外数据,例如会议时间426、会议位置428、会议长度 430(即,持续时间)、会议话题432以及会议参与者数目434。可显示此数据中的一些或全 部。另外或替代地,取决于实施方案可显示其它数据,例如所有参与者的ID和如本文进一 步描述可产生的其它统计数据。用于在显示器418上显示而产生的信息和数据可存储在存 储器中且在较晚时间检索和显示,以及实时显示。
[0073] 应注意,即使参与者仅在会议中听着(且未说话),她也将是参与的,因为所述参 与者的麦克风(可导向麦克风阵列)将仍在她正听着时观看的方向上拾取声音。因此,即 使参与者不说话,也将仍存在与她的收听相关联的待分析的声音。
[0074] 可产生和显示用户接口(例如,在智能电话显示器或其它计算装置显示器上,例 如与手持机、膝上型计算机、平板计算机、计算机、上网本或移动计算装置相关联的显示 器),其指示在会议期间的各种用户交互。图4是可产生且显示(例如,在智能电话显示器 443上)且指示各种用户交互(例如,在会议期间)的用户接口 440的实例性显示的图。在 此实例中,每一箭头454的方向指示谁正看着谁(在此实例中仅展示一个箭头454,但取决 于实施方案和特定时间的用户交互可展示多个此类箭头)。每一箭头的厚度指示交互的相 对强度(例如,基于连接时间等等)。从一个人或到一个人无箭头指示所述用户未涉及于 群组会议中。针对用户可显示百分比数字,其指示针对群组会议的参与比率。可显示指示 符448以识别会议的领导者,且可确定和显示百分比450、452以分别展示讨论中有多少被 引导到一个人,且讨论中有多少是来自所述人。在一实施方案中,可使用颜色或突出显示来 指示参与者群组的领导者。
[0075] 在图6的实例中,约翰(John)和马克(Mark)正进行很多交互,如相对大的厚箭头 446指示。玛丽(Mary)是安静的。可执行实时会议分析(例如上文相对于图4和5以及本 文别处所描述)以帮助会议的效率。举例来说,因为看上去玛丽不在对话中,所以约翰可鼓 励玛丽参与(例如,通过向玛丽问问题)。
[0076] 可在一时间周期上(例如,一个月、一年等等)累积社交交互绘图以评估例如群组 动态性或话题动态性。图7是指示相对于各种话题464的各种用户交互的实例性显示462 的图460。此信息可在一或多个会议期间俘获,存储在一存储器(或多个存储器)中,且在 较晚时间(例如,在历史数据分析期间)以一或多个格式显示。此处,每一参与者ID 466 连同其针对各种话题464的参与比率468 -起列出。
[0077] 因此举例来说,简(Jane)在关于"设计"的会议中具有20%参与比率,在关于"代 码走查"的会议中具有40%参与比率,且在关于"文档化"的会议中具有10%参与比率。此 数据可用以确定哪些参与者最适合或关注例如特定话题,或哪些参与者可能需要相对于特 定话题的更多鼓励。参与比率可经确定且基于本文描述的一或多个数据项目,例如在会议 中说话的时间量、在会议中注意的时间量、在会议中收听的时间量等等。虽然在图7中展示 百分比,但可使用任何相对测量、编号或指示系统或技术来识别参与水平或比率中的相对 强度和/或弱度。
[0078] 图460中的"L"用作实例性指示符以指示哪一用户在某一话题中参与最多,进而 指示例如所述话题的潜在领导者。可使用任何指示符,例如颜色、突出显示或特定符号。在 此实例中,约翰最多地参与设计,简最多地参与代码走查,且玛丽最多地参与文档化。因此, 他们可被识别为相应话题中的潜在领导者。
[0079] 另外,可针对一或多个会议参与者产生具有交互历史的个人时间线。因此,不仅可 俘获、分析在会议期间的单个快照或时间周期且显示(在实时或较晚离线显示)与其有关 的信息,而且可存储(例如,在例如智能电话等计算装置或例如手持机、膝上型计算机、平 板计算机、计算机、上网本或移动计算装置等任一类型的计算装置的存储器中)、分析和显 示(例如,在例如智能电话等计算装置或例如手持机、膝上型计算机、平板计算机、计算机、 上网本或移动计算装置等任一类型的计算装置的日历或其它显示中)随着时间的历史。
[0080] 图8是可用于例如在一或多个会议之后的历史分析的指示随着时间的各种用户 交互的实例性显示472的图470。此处,连同例如会议日期和会议话题等信息一起提供用户 识别符474。随着时间476提供此显示472上的信息478。其针对每一周期或时刻展示信 息478,例如在所述周期或时刻用户正看着谁、在那时用户是否正在说话,以及在所述周期 或时刻正看着所述用户的会议参与者的百分比。此信息478可在会议期间的预定时间(例 如,每分钟、每5分钟等等)确定,或经确定为例如特定时间周期上的平均值或其它经加权 确定。此信息仅作为实例提供且无意为限制性的,可产生和显示额外或替代信息作为信息 478。
[0081] 图8中显示的信息可用于会议分析和用户分析。因此,在图8中,可确定当简不在 说话时用户简通常看着玛丽或马克,但当简在说话时简看着约翰。图8还指示当简不在说 话时,看着简的参与者的百分比为零,但此百分比在简说话时增加。
[0082] 还可产生、存储、分析和显示交互统计数据。举例来说,可跟踪且显示人之间的交 互演进。可使用随着时间的回归加权(例如,〇. 9*历史数据+0. 1*当前数据),使得随着数 据变得较旧,其变得较不相关,其中最当前数据被加权最高(或反之亦然)。以此方式,用 户可能够看见他或其他人正在与哪些人联网多于其他人。可将额外统计数据作为分析中的 因数以提供更准确的交互信息。举例来说,可与会议、历史和/或参与者交互数据一起使用 (组合)从电子邮件交换或其它通信获得的交互信息以提供额外(例如,较准确)交互信 肩、。
[0083] 图9是指示随着时间的各种用户交互的另一实例性显示482的图480。此处,连同 交互尺度488和时间周期一起识别用户简。图480展示其它用户ID 484和过去的月份列 表486。在此实例中的交互尺度范围是从0到10,其中0表示无交互且10表示在月份486 中的每一者中所识别用户与简之间的非常强的交互。此信息可产生且作为历史数据提供, 且例如由会议参与者或领导者或监督者用来查看和分析随着时间的各种用户交互,以例如 看谁在何时与谁最强地交互。
[0084] 作为另一实例,可执行在线学习监视以确定远程位点的学生是否正在主动参与。 同样,还预期用于具有参与者交互的视频游戏的应用,其中可存在在可能的声音事件位置 当中用户正看着何处的立即辨识。
[0085] 图10是方法500的实施方案的操作流程,且使用交叉相关作为示范性量度,但可 使用任何相似性测量技术。在503处,固定麦克风阵列提供作用中说话者的数目N和作用中 说话者的经分离语音信号。一个信号(声音)由固定麦克风阵列接收。固定麦克风阵列的 输出包括波束,每一参与者对应于一个波束。因此,单独输出与每一参与者相关联。在510 处,可导向麦克风阵列提供用户的观看方向。对于每一用户,个别用户的输出与从固定麦克 风阵列输出的波形(或其它经空间滤波输出)中的每一者相关。
[0086] 在515处可使用此信息产生位置映射。可利用与用户何时转向某人且看着他们有 关的信息。如图示可使用例如506处所示的众所周知的经典相关方程式,其中E等于期望 值且c为相关值。每当存在最大峰时,就是强相关角度。在一实施方案中,可使用物理约束 或系统复杂性来预定最大可允许时间移位。举例来说,仅当佩戴可导向阵列的用户在作用 中时,可测量和使用可导向麦克风与固定麦克风之间的时间延迟。应注意,常规帧长度20ms 对应于几乎7米。角度Θ是作用中说话者相对于收听用户定位的相对角度。在513处可 确定固定阵列与可导向阵列之间的角度Θ。
[0087] 图11是测量相似性的方法520的实施方案的操作流程,且使用交叉累积量作为示 范性量度,但可使用任何相似性测量技术。在523处,固定麦克风阵列提供作用中说话者的 数目N和作用中说话者的经分离语音信号。一个信号(声音)由固定麦克风阵列接收。固 定麦克风阵列的输出包括波束,每一参与者对应于一个波束。因此,单独输出与每一参与者 相关联。在530处,可导向麦克风阵列提供用户的观看方向。对于每一用户,个别用户的输 出与从固定麦克风阵列输出的波形(或其它经空间滤波输出)中的每一者相关。
[0088] 在525处可使用此信息产生位置映射。可利用与用户何时转向某人且看着他们有 关的信息。如图示可使用526处所示的众所周知的经典累积量方程式,其中E等于期望值 且c为相关值。每当存在最大峰时,就是强相关角度。角度Θ是作用中说话者相对于收听 用户定位的相对角度。在513处可确定固定阵列与可导向阵列之间的角度θ。
[0089] 应注意,可使用任何相似性或相关技术。关于可能的相似性量度,实际上可使 用任何距离度量,例如(但不限于)以下众所周知的技术:(1)具有可允许时间调整的 最小二乘法拟合:时域或频域;(2)基于特征的方法:使用线性预测译码(LPC)或梅尔 频率倒谱系数(MFCC);和(3)基于较高阶的方法:交叉累积量、经验库贝克-李柏发散 (Kullback-Leibler Divergence)或板仓-斋藤(Itakura-Saito)距离。
[0090] 图12是使用时域最小二乘法拟合测量相似性的方法540的实施方案的操作流程, 且图13是使用频域最小二乘法拟合测量相似性的方法550的实施方案的操作流程。使用 时域最小二乘法拟合的方法540类似于上述图11的方法520,不同的是替代于使用526的 累积量方程,可如所示使用542处所示的时域方程式。类似地,方法550类似于图11的方 法520,但不是使用能量正规化,而是使用快速傅立叶变换(FFT)结合552处所示的频域方 程式。
[0091] 图14是使用板仓-斋藤距离测量相似性的方法560的实施方案的操作流程。此 技术类似于图13的FFT技术,但使用562处所示的方程式。图15是使用基于特征的方法 测量相似性的方法570的实施方案的操作流程。如573和575处所示执行且结合图10的 其它操作503、510、513和515以及572处所示的方程式来执行特征提取。
[0092] 在一实施方案中,固定麦克风阵列的经分离说话者的音频波束与可导向麦克风阵 列的输出之间的相关或相似性可用以放大目标说话者。此类型的合作缩放可提供用于放大 所要说话者的用户接口。
[0093] 换句话说,可执行合作放大,其中为具有多个装置的多个用户提供用户接口以用 于通过仅看着目标说话者来放大目标说话者。可经由头戴式耳机或手持机在目标人处产生 波束成形,使得可组合多个装置的所有可用资源以用于合作缩放,进而增强目标人的观看 方向。
[0094] 举例来说,用户可看着目标人,且可通过使用头戴式耳机或手持机(无论哪一者 较靠近目标人)在目标人处产生波束成形。这可通过使用包含具有两个麦克风的隐藏相机 的装置来实现。当多个装置的多个用户看着目标人时,相机可视觉上聚焦于所述人。另外, 装置可通过使用(例如,全部)可用麦克风在听觉上聚焦(即,放大)所述人来增强目标人 的观看方向。
[0095] 另外,可通过消除其它说话者且增强目标人的话音来在听觉上放大目标人。所述 增强也可使用头戴式耳机或手持机(无论哪一者较靠近目标人)来完成。
[0096] 图16中展示示范性用户接口显示600。所述显示(例如,在智能电话显示器610 或其它显示装置上显示)展示作用中用户位置620和相关联能量630。图17展示示范性 用户接口显示,用以展示显示器上的合作缩放,其中说话者1如显示660中所示从初始显示 650放大。
[0097] 图18是用于放大目标人的方法700的实施方案的操作流程。如图3中,在710处 可导向阵列705(在ANC头戴式耳机中)提供固定边射波束成形,其中在用户观看方向上 (即,在可导向阵列的用户正观看的方向上)产生经波束成形输出。具有相关联处理器的固 定麦克风阵列707 (例如在智能电话中)在围绕固定麦克风阵列的三个维度中执行D0A估 计,且在720处分离作用中说话者。确定作用中说话者的数目,且产生每一作用中说话者的 单独输出(由例如识别号识别)。
[0098] 在一实施方案中,可在730处执行作用中说话者的说话者辨识和标记。在750处 确定固定阵列的经分离说话者与可导向阵列的输出之间的相关或相似性。使用相关或相似 性测量和说话者的ID,可在760处检测、定位和放大目标用户。
[0099] 可用例如具有两个麦克风的隐藏相机等装置代替用户,且仅通过看着目标人,便 可以用通过听觉以及视觉的缩放来聚焦于目标人。
[0100] 具有多个装置的摄像机应用是预期的。观看方向是已知的,且其它装置的所有可 用麦克风可用以增强观看方向源。
[0101] 在一实施方案中,固定阵列的经分离说话者的音频波束与可导向阵列的输出之间 的相关或相似性可用以自适应地形成目标说话者的较好波束。以此方式,可自适应地精炼 固定麦克风波束成形器,使得固定波束成形器可自适应地产生新观看方向。
[0102] 举例来说,头戴式耳机麦克风阵列的波束成形器输出可用作参考以精炼固定麦克 风阵列的波束成形器的观看方向。头戴式耳机波束成形器输出与当前固定麦克风阵列波束 成形器输出之间的相关或相似性可同头戴式耳机波束成形器输出与具有稍微移动的观看 方向的固定麦克风阵列波束成形器输出之间的相关或相似性进行比较。
[0103] 图19展示具有额外候选观看方向810的实例性用户接口显示800。通过利用如 图19所示的头戴式耳机波束成形器输出与原始固定麦克风波束成形器输出820之间的相 关或相似性,可产生固定波束成形器的新候选观看方向。使用此技术,头戴式耳机麦克风波 束成形器输出可用作参考以精炼固定麦克风波束成形器的观看方向。举例来说,图19中的 说话者1可正在说话,且在他说话时,可自适应地形成新候选观看方向。
[0104] 图20是用于自适应地精炼目标说话者的波束的方法900的实施方案的操作流程。 如图3中,在910处可导向阵列905 (例如,在ANC头戴式耳机中)提供固定边射波束成形, 其中在用户观看方向上(即,在可导向阵列的用户正观看的方向上)产生经波束成形输出。 具有相关联处理器的固定麦克风阵列907 (例如在智能电话中)在围绕固定麦克风阵列的 三个维度中执行D0A估计,且在920处分离作用中说话者。确定作用中说话者的数目,且产 生每一作用中说话者的单独输出(由例如识别号识别)。如同图18,在950处确定固定阵 列的经分离说话者与可导向阵列的输出之间的相关或相似性。
[0105] 继续图20,在960处,使用所确定相关或相似性来增加作用中用户的D0A附近的角 度分辨率,且再次执行作用中说话者的分离。使用增加的角度分辨率和可导向阵列的输出, 在970处,确定固定阵列的经分离说话者与可导向阵列的输出之间的另一相关或相似性量 度。在980处可随后使用此相关或相似性量度来放大目标说话者。
[0106] 为在背景噪声和混响下充分稳健的同时多个声音事件的音频信号的每一巾贞估计 三维到达方向(D0A)的方法是一个挑战。通过最大化可靠频率区间的数目可获得稳健性。 可能希望此方法适合于任意形状的麦克风阵列几何形状,使得可避免麦克风几何形状上的 特定约束。如本文描述的逐对1D方法可适当地并入到任何几何形状中。
[0107] 针对此一股扬声器电话应用或远场应用可实施解决方案。可实施此方法以在无麦 克风放置约束的情况下操作。也可实施此方法以使用上至奈奎斯特频率且下至较低频率的 可用频率区间(例如,通过支持具有较大麦克风间距离的麦克风对的使用)来跟踪源。并 非限于用于跟踪的单个对,可实施此方法以选择所有可用对当中的最佳对。此方法可用以 支持甚至远场情境(多达三到五米或更大的距离)中的源跟踪,且提供高得多的DOA分辨 率。其它潜在特征包含获得作用中源的确切2D表示。为了最佳结果,可能希望每一源是稀 疏宽带音频源,且每一频率区间大部分由不超过一个源支配。
[0108] 对于由一对麦克风在特定D0A上从点源直接接收的信号,相位延迟对于每一频率 分量不同且还取决于麦克风之间的间距。在特定频率区间处的相位延迟的观测值可计算为 复FFT系数的虚项与复FFT稀疏的实项的比率的反正切。如图21所示,在特定频率f处的 相位延迟值Δφ/可涉及在作为

【权利要求】
1. 一种跟踪多个参与者之间的社交交互的系统,其包括: 固定波束成形器,其适于输出第一经空间滤波输出,且经配置以从多个可导向波束成 形器接收多个第二经空间滤波输出,每一可导向波束成形器输出所述第二经空间滤波输出 中的相应一者且与所述参与者中的不同一者相关联;以及 处理器,其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者 之间的相似性,且能够基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一 者之间的所述相似性确定所述参与者之间的所述社交交互。
2. 根据权利要求1所述的系统,其中所述固定波束成形器包括固定麦克风阵列,且所 述可导向波束成形器中的每一者包括可导向麦克风阵列。
3. 根据权利要求1所述的系统,其中所述固定波束成形器和所述处理器包括在移动装 置内。
4. 根据权利要求1所述的系统,其中所述固定波束成形器和所述处理器包括在来自包 括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
5. 根据权利要求1所述的系统,其中所述多个可导向波束成形器中的每一者包括在相 应装置内,且其中每一相应装置能够与所述参与者中的不同一者相关联。
6. 根据权利要求5所述的系统,其中每一相应装置包括由所述相关联参与者佩戴的头 戴式耳机。
7. 根据权利要求1所述的系统,其进一步包括能够显示所述参与者之间的所述社交交 互的用户接口。
8. 根据权利要求7所述的系统,其中用户接口显示器能够以图形方式立即显示所述多 个参与者。
9. 根据权利要求8所述的系统,其中所述用户接口显示器能够经由所述用户接口放大 所述参与者中的一者以提供所述经放大参与者的增强语音。
10. 根据权利要求1所述的系统,其中所述固定波束成形器的所述第一经空间滤波输 出是基于所述多个可导向波束成形器的所述第二经空间滤波输出中的至少一者来精炼。
11. 根据权利要求1所述的系统,其中所述处理器适于将(1)所述固定波束成形器的所 述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所 述至少一者之间的所述相似性与(2)具有经移动观看方向的固定波束成形器的所述第一 经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少 一者之间的所述相似性进行比较。
12. 根据权利要求1所述的系统,其进一步包括能够基于音频波束成形跟踪参与者之 间的所述社交交互的移动装置。
13. 根据权利要求1所述的系统,其中所述处理器经配置以执行所述固定波束成形器 的所述第一经空间滤波输出与所述可导向波束成形器的所述第二经空间滤波输出中的选 定一者之间的相关。
14. 根据权利要求13所述的系统,其中所述固定波束成形器包括在第一移动装置内, 且选定可导向波束成形器包括在不同于所述第一移动装置的第二移动装置内。
15. 根据权利要求1所述的系统,其中所述相似性是使用以下各项中的一者来确定:相 关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或梅 尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或板 仓-斋藤距离的基于较高阶的方法。
16. 根据权利要求1所述的系统,其中所述处理器进一步经配置以确定所述参与者中 的至少一者的位置。
17. -种用于确定固定麦克风阵列的输出与可导向麦克风阵列的输出之间的相似性的 系统,其包括: 处理器,其经配置以接收来自所述固定麦克风阵列的第一经空间滤波输出和来自所述 可导向麦克风阵列的第二经空间滤波输出,且进一步经配置以将所述第一经空间滤波输出 与所述第二经空间滤波输出进行比较以确定所述固定麦克风阵列的所述输出与所述可导 向麦克风阵列的所述输出之间的所述相似性;以及 输出装置,其经配置以输出所述相似性。
18. 根据权利要求17所述的系统,其中每一经空间滤波输出包括经波束成形输出。
19. 根据权利要求17所述的系统,其中所述处理器进一步经配置以多次重复所述接收 和比较,针对多个可导向麦克风阵列中的每一者重复一次。
20. 根据权利要求17所述的系统,其中所述处理器和所述输出装置包括在来自包括手 持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
21. 根据权利要求17所述的系统,其中所述处理器进一步经配置以: 估计所述固定麦克风阵列周围的到达方向; 使用所述到达方向确定作用中说话者,且使用所述到达方向分离所述作用中说话者的 输出;以及 使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述 输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所 述相似性。
22. 根据权利要求21所述的系统,其中估计所述到达方向可在三维3D中执行。
23. 根据权利要求21所述的系统,其中所述第二经空间滤波输出在作用中说话者观看 方向上。
24. 根据权利要求21所述的系统,其中所述第二经空间滤波输出是从有源噪声控制 ANC头戴式耳机通过固定边射波束成形产生。
25. 根据权利要求21所述的系统,其中所述处理器进一步经配置以: 从多个可导向麦克风阵列接收多个经空间滤波输出,每一可导向麦克风阵列对应于不 同作用中说话者; 识别所述作用中说话者,且使用所述到达方向分离所述作用中说话者的所述输出;以 及 确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中 说话者的所述经分离输出之间的所述相似性。
26. 根据权利要求25所述的系统,其中所述固定麦克风阵列经配置以提供作用中说话 者的数目和每一作用中说话者的经分离语音信号,且所述可导向麦克风阵列提供每一作用 中说话者的观看方向,且确定所述相似性包括: 针对每一作用中说话者; 使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向 找到交叉相关方程式的最大峰,以及 使用所述最大峰确定强相关角度,其中所述强相关角度对应于所述固定麦克风阵列与 所述作用中说话者的所述可导向麦克风阵列之间的角度。
27. 根据权利要求25所述的系统,其中确定所述相似性使用以下各项中的一者:相 关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或梅 尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或板 仓-斋藤距离的基于较高阶的方法。
28. -种用于跟踪多个参与者之间的社交交互的方法,其包括: 从固定波束成形器输出第一经空间滤波输出; 从多个可导向波束成形器输出多个第二经空间滤波输出,每一可导向波束成形器输出 所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联; 确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性; 以及 利用处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之 间的所述相似性确定所述参与者之间的所述社交交互。
29. 根据权利要求28所述的方法,其中所述固定波束成形器包括固定麦克风阵列,且 所述可导向波束成形器中的每一者包括可导向麦克风阵列。
30. 根据权利要求28所述的方法,其中所述固定波束成形器和所述处理器包括在移动 装置内。
31. 根据权利要求28所述的方法,其中所述固定波束成形器和所述处理器包括在来自 包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
32. 根据权利要求28所述的方法,其中所述多个可导向波束成形器中的每一者包括在 相应装置内,且其中每一相应装置能够与所述参与者中的不同一者相关联。
33. 根据权利要求32所述的方法,其中每一相应装置包括由所述相关联参与者佩戴的 头戴式耳机。
34. 根据权利要求28所述的方法,其进一步包括显示所述参与者之间的所述社交交 互。
35. 根据权利要求34所述的方法,其中所述显示进一步包括以图形方式立即显示所述 多个参与者。
36. 根据权利要求35所述的方法,其中所述显示进一步包括经由用户接口放大所述参 与者中的一者以提供所述经放大参与者的增强语音。
37. 根据权利要求28所述的方法,其进一步包括基于所述多个可导向波束成形器的所 述第二经空间滤波输出中的至少一者来精炼所述固定波束成形器的所述第一经空间滤波 输出。
38. 根据权利要求28所述的方法,其进一步包括将(1)所述固定波束成形器的所述第 一经空间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至 少一者之间的所述相似性与(2)具有经移动观看方向的固定波束成形器的所述第一经空 间滤波输出与所述多个可导向波束成形器的所述第二经空间滤波输出中的所述至少一者 之间的所述相似性进行比较。
39. 根据权利要求28所述的方法,其进一步包括基于音频波束成形跟踪参与者之间的 所述社交交互。
40. 根据权利要求28所述的方法,其进一步包括执行所述固定波束成形器的所述第一 经空间滤波输出与所述可导向波束成形器的所述第二经空间滤波输出中的选定一者之间 的相关。
41. 根据权利要求40所述的方法,其中所述固定波束成形器包括在第一移动装置内, 且选定可导向波束成形器包括在不同于所述第一移动装置的第二移动装置内。
42. 根据权利要求28所述的方法,其中所述相似性是使用以下各项中的一者来确定: 在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或梅尔 频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或板 仓-斋藤距离的基于较高阶的方法。
43. 根据权利要求28所述的方法,其进一步包括确定所述参与者中的至少一者的位 置。
44. 一种用于确定固定麦克风阵列的输出与可导向麦克风阵列的输出之间的相似性的 方法,其包括: 从所述固定麦克风阵列接收第一经空间滤波输出; 从可导向麦克风阵列接收第二经空间滤波输出; 将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较; 基于所述比较确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的所述 输出之间的所述相似性;以及 输出所述相似性。
45. 根据权利要求44所述的方法,其中每一经空间滤波输出包括经波束成形输出。
46. 根据权利要求44所述的方法,其进一步包括多次重复所述接收和比较,针对多个 可导向麦克风阵列中的每一者重复一次。
47. 根据权利要求44所述的方法,其中所述固定麦克风阵列包括在来自包括手持机、 膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
48. 根据权利要求44所述的方法,其进一步包括: 估计所述固定麦克风阵列周围的到达方向; 使用所述到达方向确定作用中说话者; 使用所述到达方向分离所述作用中说话者的输出;以及 使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述 输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所 述相似性。
49. 根据权利要求48所述的方法,其中估计所述到达方向可在三维3D中执行。
50. 根据权利要求48所述的方法,其中所述第二经空间滤波输出在作用中说话者观看 方向上。
51. 根据权利要求48所述的方法,其中所述第二经空间滤波输出是从有源噪声控制 ANC头戴式耳机通过固定边射波束成形产生。
52. 根据权利要求48所述的方法,其进一步包括: 从多个可导向麦克风阵列接收多个经空间滤波输出,每一可导向麦克风阵列对应于不 同作用中说话者; 识别所述作用中说话者,且使用所述到达方向分离所述作用中说话者的所述输出;以 及 确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中 说话者的所述经分离输出之间的相似性。
53. 根据权利要求52所述的方法,其进一步包括提供作用中说话者的数目和每一作用 中说话者的经分离语音信号,且提供每一作用中说话者的观看方向,其中确定所述相似性 包括针对每一作用中说话者: 使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向 找到交叉相关方程式的最大峰;以及 使用所述最大峰确定强相关角度,其中所述强相关角度对应于所述固定麦克风阵列与 所述作用中说话者的所述可导向麦克风阵列之间的角度。
54. 根据权利要求52所述的方法,其中确定所述相似性使用以下各项中的一者:相 关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或梅 尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或板 仓-斋藤距离的基于较高阶的方法。
55. -种用于跟踪多个参与者之间的社交交互的设备,其包括: 用于输出第一经空间滤波输出的装置; 用于输出多个第二经空间滤波输出的装置,所述第二经空间滤波输出中的每一者与所 述参与者中的不同一者相关联; 用于确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相 似性的装置;以及 用于基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所 述相似性确定所述参与者之间的所述社交交互的装置。
56. 根据权利要求55所述的设备,其中所述装置包括在移动装置内。
57. 根据权利要求55所述的设备,其中所述装置包括在来自包括手持机、膝上型计算 机、平板计算机、计算机和上网本的群组当中的一者内。
58. 根据权利要求55所述的设备,其进一步包括用于显示所述参与者之间的所述社交 交互的装置。
59. 根据权利要求58所述的设备,其进一步包括用于以图形方式立即显示所述多个参 与者的装置。
60. 根据权利要求59所述的设备,其进一步包括用于经由用户接口放大所述参与者中 的一者以提供所述经放大参与者的增强语音的装置。
61. 根据权利要求55所述的设备,其进一步包括用于基于所述第二经空间滤波输出中 的至少一者精炼所述第一经空间滤波输出的装置。
62. 根据权利要求55所述的设备,其进一步包括用于将(1)所述第一经空间滤波输出 与所述第二经空间滤波输出中的所述至少一者之间的所述相似性与(2)具有经移动观看 方向的第一经空间滤波输出与所述第二经空间滤波输出中的所述至少一者之间的所述相 似性进行比较的装置。
63. 根据权利要求55所述的设备,其进一步包括用于基于音频波束成形跟踪参与者之 间的所述社交交互的装置。
64. 根据权利要求55所述的设备,其进一步包括用于执行所述第一经空间滤波输出与 所述第二经空间滤波输出中的选定一者之间的相关的装置。
65. 根据权利要求55所述的设备,其中所述相似性是使用以下各项中的一者来确定: 相关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或 梅尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或 板仓-斋藤距离的基于较高阶的方法。
66. 根据权利要求55所述的设备,其进一步包括用于确定所述参与者中的至少一者的 位置的装置。
67. -种用于确定固定麦克风阵列的输出与可导向麦克风阵列的输出之间的相似性的 设备,其包括: 用于从所述固定麦克风阵列接收第一经空间滤波输出的装置; 用于从所述可导向麦克风阵列接收第二经空间滤波输出的装置; 用于将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较的装置; 用于基于所述比较确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的 所述输出之间的所述相似性的装置;以及 用于输出所述相似性的装置。
68. 根据权利要求67所述的设备,其中每一经空间滤波输出包括经波束成形输出。
69. 根据权利要求67所述的设备,其进一步包括用于多次重复所述接收和比较的装 置,针对多个可导向麦克风阵列中的每一者重复一次。
70. 根据权利要求67所述的设备,其中所述用于接收的装置包括在来自包括手持机、 膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
71. 根据权利要求67所述的设备,其进一步包括: 用于估计所述固定麦克风阵列周围的到达方向的装置; 用于使用所述到达方向确定作用中说话者的装置; 用于使用所述到达方向分离所述作用中说话者的输出的装置;以及 用于使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的 所述输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间 的所述相似性的装置。
72. 根据权利要求71所述的设备,其中所述用于估计所述到达方向的装置能够在三维 3D中执行所述估计。
73. 根据权利要求71所述的设备,其中所述第二经空间滤波输出在作用中说话者观看 方向上。
74. 根据权利要求71所述的设备,其中所述第二经空间滤波输出是从有源噪声控制 ANC头戴式耳机通过固定边射波束成形产生。
75. 根据权利要求71所述的设备,其进一步包括: 用于从多个可导向麦克风阵列接收多个经空间滤波输出的装置,每一可导向麦克风阵 列对应于不同作用中说话者; 用于识别所述作用中说话者且使用所述到达方向分离所述作用中说话者的所述输出 的装置;以及 用于确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作 用中说话者的所述经分离输出之间的所述相似性的装置。
76. 根据权利要求75所述的设备,其进一步包括用于提供作用中说话者的数目和所述 作用中说话者中的每一者的经分离语音信号的装置,以及用于提供所述作用中说话者中的 每一者的观看方向的装置,其中确定所述相似性包括针对所述作用中说话者中的每一者: 使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向 找到交叉相关方程式的最大峰;以及 使用所述最大峰确定强相关角度,其中所述强相关角度对应于所述固定麦克风阵列与 所述作用中说话者的所述可导向麦克风阵列之间的角度。
77. 根据权利要求75所述的设备,其中确定所述相似性使用以下各项中的一者:相 关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或梅 尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或板 仓-斋藤距离的基于较高阶的方法。
78. -种非暂时性计算机可读媒体,其包括用于致使处理器进行以下操作的计算机可 读指令: 从固定波束成形器接收第一经空间滤波输出; 从多个可导向波束成形器接收多个第二经空间滤波输出,每一可导向波束成形器输出 所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联; 确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性; 以及 利用处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之 间的所述相似性确定所述参与者之间的社交交互。
79. 根据权利要求78所述的计算机可读媒体,其中所述固定波束成形器包括固定麦克 风阵列,且所述可导向波束成形器中的每一者包括可导向麦克风阵列。
80. 根据权利要求78所述的计算机可读媒体,其中所述固定波束成形器和所述处理器 包括在移动装置内。
81. 根据权利要求78所述的计算机可读媒体,其中所述固定波束成形器和所述处理 器包括在来自包括手持机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者 内。
82. 根据权利要求78所述的计算机可读媒体,其中所述多个可导向波束成形器中的每 一者包括在相应装置内,且其中每一相应装置能够与所述参与者中的不同一者相关联。
83. 根据权利要求82所述的计算机可读媒体,其中每一相应装置包括由所述相关联参 与者佩戴的头戴式耳机。
84. 根据权利要求78所述的计算机可读媒体,其进一步包括用于致使所述处理器显示 所述参与者之间的所述社交交互的指令。
85. 根据权利要求84所述的计算机可读媒体,其进一步包括用于致使所述处理器以图 形方式立即显示所述多个参与者的指令。
86. 根据权利要求85所述的计算机可读媒体,其进一步包括用于致使所述处理器经由 用户接口放大所述参与者中的一者以提供所述经放大参与者的增强语音的指令。
87. 根据权利要求78所述的计算机可读媒体,其进一步包括用于致使所述处理器基于 所述多个可导向波束成形器的所述第二经空间滤波输出中的至少一者来精炼所述固定波 束成形器的所述第一经空间滤波输出的指令。
88. 根据权利要求78所述的计算机可读媒体,其进一步包括用于致使所述处理器将 (1)所述固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述 第二经空间滤波输出中的所述至少一者之间的所述相似性与(2)具有经移动观看方向的 固定波束成形器的所述第一经空间滤波输出与所述多个可导向波束成形器的所述第二经 空间滤波输出中的所述至少一者之间的所述相似性进行比较的指令。
89. 根据权利要求78所述的计算机可读媒体,其进一步包括用于致使所述处理器基于 音频波束成形跟踪参与者之间的所述社交交互的指令。
90. 根据权利要求78所述的计算机可读媒体,其进一步包括用于致使所述处理器执行 所述固定波束成形器的所述第一经空间滤波输出与所述可导向波束成形器的所述第二经 空间滤波输出中的选定一者之间的相关的指令。
91. 根据权利要求90所述的计算机可读媒体,其中所述固定波束成形器包括在第一移 动装置内,且选定可导向波束成形器包括在不同于所述第一移动装置的第二移动装置内。
92. 根据权利要求78所述的计算机可读媒体,其中所述相似性是使用以下各项中的 一者来确定:在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码 LPC或梅尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发 散或板仓-斋藤距离的基于较高阶的方法。
93. 根据权利要求78所述的计算机可读媒体,其进一步包括用于致使所述处理器确定 所述参与者中的至少一者的位置的指令。
94. 一种非暂时性计算机可读媒体,其包括用于致使处理器进行以下操作的计算机可 读指令: 从固定麦克风阵列接收第一经空间滤波输出; 从可导向麦克风阵列接收第二经空间滤波输出; 将所述第一经空间滤波输出与所述第二经空间滤波输出进行比较; 基于所述比较确定所述固定麦克风阵列的所述输出与所述可导向麦克风阵列的所述 输出之间的相似性;以及 输出所述相似性。
95. 根据权利要求94所述的计算机可读媒体,其中每一经空间滤波输出包括经波束成 形输出。
96. 根据权利要求94所述的计算机可读媒体,其进一步包括用于致使所述处理器多次 重复所述接收和比较的指令,针对多个可导向麦克风阵列中的每一者重复一次。
97. 根据权利要求94所述的计算机可读媒体,其中所述处理器包括在来自包括手持 机、膝上型计算机、平板计算机、计算机和上网本的群组当中的一者内。
98. 根据权利要求94所述的计算机可读媒体,其进一步包括用于致使所述处理器进行 以下操作的指令: 估计所述固定麦克风阵列周围的到达方向; 使用所述到达方向确定作用中说话者; 使用所述到达方向分离所述作用中说话者的输出;以及 使用所述第一经空间滤波输出、所述第二经空间滤波输出和所述作用中说话者的所述 输出确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的所述输出之间的所 述相似性。
99. 根据权利要求98所述的计算机可读媒体,其进一步包括用于致使所述处理器在三 维3D中估计所述到达方向的指令。
100. 根据权利要求98所述的计算机可读媒体,其中所述第二经空间滤波输出在作用 中说话者观看方向上。
101. 根据权利要求98所述的计算机可读媒体,其中所述第二经空间滤波输出是从有 源噪声控制ANC头戴式耳机通过固定边射波束成形产生。
102. 根据权利要求98所述的计算机可读媒体,其进一步包括用于致使所述处理器进 行以下操作的指令: 从多个可导向麦克风阵列接收多个经空间滤波输出,每一可导向麦克风阵列对应于不 同作用中说话者; 识别所述作用中说话者,且使用所述到达方向分离所述作用中说话者的所述输出;以 及 确定所述可导向麦克风阵列的所述输出与所述固定麦克风阵列的对应于所述作用中 说话者的所述经分离输出之间的所述相似性。
103. 根据权利要求102所述的计算机可读媒体,其进一步包括用于致使所述处理器提 供作用中说话者的数目和所述作用中说话者中的每一者的经分离语音信号且提供所述作 用中说话者中的每一者的观看方向的指令,其中确定所述相似性包括针对所述作用中说话 者中的每一者: 使用所述作用中说话者的所述经分离语音信号和所述作用中说话者的所述观看方向 找到交叉相关方程式的最大峰;以及 使用所述最大峰确定强相关角度,其中所述强相关角度对应于所述固定麦克风阵列与 所述作用中说话者的所述可导向麦克风阵列之间的角度。
104. 根据权利要求102所述的计算机可读媒体,其中确定所述相似性使用以下各项中 的一者:相关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码 LPC或梅尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发 散或板仓-斋藤距离的基于较高阶的方法。
【文档编号】G10L25/48GK104254819SQ201380022351
【公开日】2014年12月31日 申请日期:2013年5月6日 优先权日:2012年5月11日
【发明者】金莱轩, 辛钟元, 埃里克·维瑟 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1