用于控制扩增实境的方法及设备的制作方法

文档序号：6534616阅读：239来源：国知局

用于控制扩增实境的方法及设备的制作方法
【专利摘要】本发明揭示用于控制扩增实境接口的方法及设备。在一个实施例中，一种适用于具有扩增实境功能的装置ARD的方法包括：接收用于跟踪多个对象的图像数据；从所述多个对象中识别待选择的对象；至少部分基于一组选择准则确定是否已选择所述对象；以及在确定已选择所述对象的情况下致使随所述对象显现扩增。
【专利说明】用于控制扩増实境的方法及设备
[0001]对相关申请案的交叉参考
[0002]本申请案主张以下申请案的权益:2013年3月15日申请且标题为“用于控制扩增实境的方法及设备(Method and apparatus for controlling augmented reality)，，的第13/815,820号美国申请案；2012年7月26日申请且标题为“有形对象与扩增实境对象的交互(Interact1ns of Tangible and Augmented Reality Objects)，，的第 61/676，246号美国临时申请案；2012年7月26日申请且标题为“维持扩增的连续性(MaintainingContinuity of Augmentat1ns) ” 的第 61/676，249 号美国临时申请案；2012 年 7 月 26 日申请且标题为“用于控制扩增实境的方法及设备(Method and Apparatus for ControllingAugmented Reality) ”的第61/676，278号美国临时申请案；2012年7月26日申请且标题为“有形对象与扩增实境对象的交互(Interact1ns of Tangible and Augmented RealityObjects)”的第61/676，255号美国临时申请案；以及2012年7月26日申请且标题为“有形项目对虚拟空间中的颗粒系统扩增的影响(Tangible Items' Effect on ParticleSystem Augmentat1n in Virtual Spaces) ”的第 61/676，274 号美国临时申请案。前述美国申请案的全文特此以引用的方式并入。

【技术领域】
[0003]本发明涉及扩增实境的领域。明确地说，本发明涉及用于控制扩增实境的方法及设备。

【背景技术】
[0004]常规扩增实境应用提供对现实世界环境的实况观看，其元素可被计算机生成的感觉输入(例如视频、声音、图形或GPS数据)加以扩增。通过此类应用，对现实的观看可通过计算装置修改，且所述应用可增强用户对现实的感知且提供关于用户环境的更多信息。举例来说，经扩增内容可实时地且在环境元素的语义上下文(例如在比赛期间的赛事统计及概述)中应用。随着例如智能电话等移动装置的激增，关于用户的周围现实世界的信息可在具有额外扩增内容的情况下显示在移动装置上，所述信息例如是关于具有重叠在现实世界对象上的虚拟对象的环境的人为信息。
[0005]在常规计算及游戏应用中，用户可能够通过使用以下用户接口装置中的至少一者而在显示器上选择项目，所述用户接口装置例如鼠标、触摸垫、触摸屏或操纵杆。然而，对于常规扩增实境应用，问题中的一者为用户的双手可能都被占用。举例来说，一只手可用以握住具有扩增实境功能的装置，且另一只手可用以处置有形对象。常规扩增实境应用的另一问题是可能出现扩增的偶然触发，其可干扰游戏且使用户感到沮丧。因此，需要可改进常规扩增实境应用的方法、计算机程序产品及具有扩增实境功能的装置。

【发明内容】

[0006]本发明涉及用于控制扩增实境否方法及设备。根据本发明的一实施例，一种适用于具有扩增实境功能的装置(ARD)的方法包括:接收用于跟踪多个对象的图像数据；从所述多个对象中识别待选择的对象；至少部分基于一组选择准则确定是否已选择所述对象；以及在确定已选择所述对象的情况下致使随所述对象显现扩增。
[0007]根据本发明的另一实施例，一种ARD包括包含处理逻辑的控制单元；所述处理逻辑包括:经配置以接收用于跟踪多个对象的图像数据的逻辑；经配置以从所述多个对象中识别待选择的对象的逻辑；经配置以至少部分基于一组选择准则确定是否已选择所述对象的逻辑；以及经配置以在确定已选择所述对象的情况下致使随所述对象显现扩增的逻辑。
[0008]注意，所述跟踪包括3维跟踪，包括:经配置以确定所述多个对象相对于所述ARD的相对姿势的逻辑；以及经配置以使用所述多个对象相对于所述ARD的所述相对姿势更新所述多个对象的状态的逻辑，其中所述多个对象的所述状态包含所述多个对象的关系信息。经配置以确定所述多个对象相对于所述ARD的相对姿势的所述逻辑包括经配置以检测所述多个对象相对于所述多个对象的先前所接收图像数据的姿势的逻辑。所述关系信息包括以下各者中的至少一者:所述多个对象之间在游戏中的关系、所述多个对象之间在故事中的关系，及/或所述多个对象之间相对于背景的关系。
[0009]经配置以识别待选择的对象的所述逻辑包括经配置以使用所述图像数据分析所述多个对象的逻辑及经配置以识别最接近于由所述图像数据表示的图像的中心的所述对象的逻辑。经配置以识别待选择的对象的所述逻辑进一步包括经配置以致使所述图像数据中的所述多个对象显现在所述ARD的显示器上的逻辑及经配置以识别覆盖所述ARD的所述显示器的大多数中心像素的所述对象的逻辑。
[0010]经配置以确定是否已选择所述对象的所述逻辑进一步包括经配置以测量所述对象与所述ARD之间的相对速度的逻辑及经配置以测量所述对象相对于所述ARD固定的时间量的逻辑。经配置以确定是否已选择所述对象的所述逻辑进一步包括经配置以接收音频命令的逻辑及经配置以测量所述音频命令的振幅的逻辑。所述组选择准则包括以下各者中的至少一者:所述对象在所述ARD的视图中达预定时间周期、所述对象在所述ARD的视图中且所述对象与所述ARD之间的相对速度低于预定阈值，及所述对象在所述ARD的视图中且音频命令的振幅超过预定值。经配置以致使所述扩增显现的所述逻辑包括经配置以在所述ARD的显示器中呈现所述对象与所述ARD之间的交互的逻辑。经配置以识别的所述逻辑包括经配置以确定所述对象已被放大的逻辑。
[0011]经配置以确定的所述逻辑包括:经配置以致使指示符被呈现的逻辑，其中所述指示符指示已识别所述对象；以及经配置以响应于所述指示符的呈现而确定所述对象是否被取消选择的逻辑。经配置以确定所述对象是否被取消选择的所述逻辑包括经配置以在所述对象相对于所述ARD的位置在呈现所述指示符之后维持阈值时间量的情况下确定已选择所述对象的逻辑。所述指示符包括以下各者中的至少一者:图标、所述对象在所述ARD的显示器上的振动、当所述对象居中于所述ARD的所述显示器上时所述ARD的振动，及经过的时间的表示。
[0012]所述具有扩增实境功能的装置进一步包括:经配置以致使场景的图像显示在所述ARD的显示器上的逻辑，所述场景包含一或多个对象；经配置以致使用从所述多个对象中识别待选择的对象的指示符扩增所述图像的逻辑；以及经配置以确定在用所述指示符扩增所述图像之后所述对象是否已被取消选择的逻辑。
[0013]根据本发明的又一实施例，一种计算机程序产品包括存储用于由一或多个计算机系统执行的指令的非暂时性媒体；所述指令包括:用于接收用于跟踪多个对象的图像数据的指令；用于从所述多个对象中识别待选择的对象的指令；用于至少部分基于一组选择准则确定是否已选择所述对象的指令；以及用于在确定已选择所述对象的情况下致使随所述对象显现扩增的指令。
[0014]根据本发明的又一实施例，一种设备包括:用于接收用于跟踪多个对象的图像数据的装置；用于从所述多个对象中识别待选择的对象的装置；用于至少部分基于一组选择准则确定是否已选择所述对象的装置；以及用于在确定已选择所述对象的情况下致使随所述对象显现扩增的装置。
[0015]根据进一步实施例，提供用于提供用于扩增实境的话音及有形用户接口的技术。本文中所说明的各种实例实施方案可实施于具有扩增实境(AR)功能的装置上。所述ARD可为移动电话、平板计算机或包含用于执行机器可执行机器可执行指令的处理器的其它此类装置、用于俘获现实世界环境的图像或视频的相机，及用于显示现实世界环境的扩增实境视图的显示器。这些技术可集成到多种扩增实境应用中以产生比常规AR应用更令人满意且投入的用户体验。

【专利附图】

【附图说明】
[0016]在配合以下图式阅读了本发明的实施例的详细描述之后，本发明的前述特征及优点以及其额外特征及优点将可更加明确地理解。
[0017]图1说明根据本发明的一些方面的具有扩增实境功能的装置。
[0018]图2说明根据本发明的一些方面的示范性具有扩增实境功能的装置的框图。
[0019]图3说明根据本发明的一些方面的至少部分基于来自用户的触发提供扩增的方法。
[0020]图4说明根据本发明的一些方面的至少部分基于具有扩增实境功能的装置与目标之间的相对速度提供扩增的另一方法。
[0021]图5说明根据本发明的一些方面的至少部分基于具有扩增实境功能的装置与背景之间的相对移动提供扩增的又一方法。
[0022]图6说明根据本发明的一些方面的用于控制扩增实境接口的流程图。
[0023]图7说明用以提供与现实世界对象相关联的扩增实境内容的具有扩增实境功能的装置的实例。
[0024]图8A、8B、8C及8D说明根据本发明的一些方面的用作自动家庭控制装置的具有扩增实境功能的装置的实例。
[0025]图9说明根据本发明的一些方面的用于在具有扩增实境功能的装置上提供扩增实境内容的实例方法的流程图。
[0026]图10说明根据本发明的一些方面的用于在具有扩增实境功能的装置上提供扩增实境内容的实例方法的流程图。
[0027]图11说明根据本发明的一些方面的用以基于从用户接收的音频输入控制角色的扩增实境表示的行为的实例行为方法的流程图。
[0028]图12说明根据本发明的一些方面的用于在辨识话音命令的具有扩增实境功能的装置上提供扩增实境的实例方法的流程图。
[0029]图13说明根据本发明的一些方面的用于在具有扩增实境功能的装置上提供扩增实境内容的实例方法的流程图。
[0030]图14说明根据本发明的一些方面的跨越多个具有扩增实境功能的装置提供交互的方法。
[0031]图15说明根据本发明的一些方面的用于在一或多个具有扩增实境功能的装置向多个用户提供扩增实境的实例方法的流程图。
[0032]图16说明根据本发明的一些方面的用于在多个具有扩增实境功能的装置上提供扩增实境内容的实例方法的流程图。
[0033]图17说明根据本发明的一些方面的可用以实施具有扩增实境功能的技术的装置的实例。
[0034]贯穿各图使用相同数字。

【具体实施方式】
[0035]揭示控制扩增实境接口的实施例。呈现以下描述以便使得所属领域的技术人员能够制作并使用本发明。具体实施例和应用的描述仅是作为实例提供。所属领域的技术人员将容易明白本文所述的实例的各种修改及组合，且在不脱离本发明的精神和范围的情况下，本文中所界定的一股原理可以应用于其它实例和应用。因而，本发明并不希望限于所描述和展示的实例，而是应被赋予符合本文揭示的原理和特征的最宽范围。词语“示范性”或“实例”在本文中用于意味着“充当实例、例子或说明”。本文中描述为“示范性”或描述为“实例”的任何方面或实施例未必应被解释为比其它方面或实施例优选或有利。
[0036]图1说明根据本发明的一些方面的具有扩增实境功能的装置。如图1所示，具有扩增实境功能的装置(ARD) 14包含外壳101、显示器112、一或多个扬声器118，及麦克风116。可为触摸屏显示器的显示器112可说明由相机108俘获的图像或任何其它所要用户接口信息。当然，ARD 14可包含未必与本发明有关的额外组件。
[0037]如本文中所使用，ARD装置指代任何便携式电子装置，例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PM)、个人数字助理(PDA)、膝上型计算机或其它合适的移动平台。移动平台可能够接收无线通信及/或导航信号，例如导航定位信号。术语ARD还意欲包含例如通过短程无线、红外线、有线连接或其它连接而与个人导航装置(PND)通信的装置，而不管是在所述装置处还是在PND处发生卫星信号接收、辅助数据接收及/或定位相关处理。而且，ARD意欲包含所有电子装置，包含能够俘获用于姿势跟踪的图像以及能够执行扩增实境用户接口功能的无线通信装置、计算机、膝上型计算机平板计算机、智能电话、数码相机等。
[0038]图2说明根据本发明的一些方面的示范性具有扩增实境功能的装置的框图。ARD14的移动平台包含用于俘获环境的图像的相机108，所述图像可为个别照片或视频帧。ARD14的移动平台还可包含传感器109，传感器109可用以提供ARD 14的移动平台可借以确定其位置及定向(即，姿势)的数据。可与ARD 14的移动平台一起使用的传感器的实例包含加速度计、石英传感器、陀螺仪、用作线性加速度计的微机电系统(MEMS)传感器，以及磁力
i+o
[0039]ARD 14的移动平台还可包含用户接口 110，所述用户接口 110包含能够显示图像的显示器112。用户接口 110还可包含用户可借以将信息输入到ARD 14的移动平台的小键盘114或其它输入装置。如果需要，则可通过将虚拟小键盘集成到具有触摸传感器的显示器112中而消除小键盘114。用户接口 110还可包含麦克风116及一或多个扬声器118 (例如，如果移动平台为蜂窝式电话)。当然，ARD 14的移动平台可包含与本发明不相关的其它组件。
[0040]ARD 14的移动平台进一步包含控制单元120，控制单元120可连接到相机108及传感器109以及用户接口 110连同任何其它所要特征且与之通信。控制单元120可由一或多个处理器122及相关联的存储器/存储装置124提供。控制单元120还可包含软件126以及硬件128及固件130。控制单元120包含跟踪单元132，所述跟踪单元132经配置以跟踪ARD 14的位置并且跟踪由ARD 14监视的一或多个对象的位置。控制单元120可进一步包含扩增实境用户接口单元134，所述扩增实境用户接口单元134经配置以在ARD 14的显示器112上呈现扩增实境交互。跟踪单元132及扩增实境用户接口单元134为了清楚起见而说明为与处理器122及/或硬件128分开，但可基于软件126及固件130中的指令而组合及/或实施于处理器122及/或硬件128中。
[0041]根据本发明的方面，可结合一或多个有形接口项目来使用ARD 14。在本文所述的实例中的许多者中，有形接口项目称为“对象”或“玩偶”。然而，还可使用其它类型的有形对象，且本文所揭示的技术不限于玩偶。举例来说，有形接口项目可包含用户的环境中的一或多个项目，例如可在ARD 14的相机的视野内的可乐罐、咖啡杯、杂志或其它有形项目。
[0042]由ARD 14提供的扩增可形成连续故事路径。此类连续故事路径在本文中可被称作“场景”。ARD 14的扩增逻辑可经配置以监视用户的注意力，且如果用户看起来对特定场景失去兴趣，则改变场景。下文更详细地描述用于与用户交互及用于定制由ARD 14提供的扩增内容的技术。
[0043]根据本发明的实施例，ARD可经配置以避免扩增的偶然触发，其可干扰游戏且使用户感到沮丧。此外，知晓其中可触发事件的情境可吸引进一步探索及交互，且因此增强用户体验。
[0044]在一些实施方案中，当用户执行触发动作(例如，放大浴缸22)时，可在项目触发之前的时间t(例如，2到8秒)内监视即将发生的触发17的指示，从而向用户给出改变动作的可能性，因此避免触发，如图3中所说明。指示可呈以下形式:1)视觉指示符17(例如，视觉指示符变得较亮或较暗，或开始振荡)；2)音频(20)(例如，魔法精灵粉的声音)；以及3)视觉与音频的组合。在其它实施方案中，当用户执行触发动作，例如放大对象时，其可在动作触发之前保持那一动作达预定时间周期。
[0045]在一种方法中，可至少部分基于用于例如针对学前儿童与青少年或成人的目标应用的各种用户因素来确定“保持”的实施方案。所述因素可包含但不限于发育状态及条件性因素，例如自闭症、部分失明(partial sightedness)、帕金森病等。在另一方法中，“保持”的实施方案可包含但不限于1)可调整的静止度；2)在目标上的可调整时间；以及3)用于暂时性目标丢失的可调整容许度。
[0046]根据本发明的方面，对于可调整静止度，如果学前儿童为应用程序受众，那么实施方案可允许明显移动，但如果成人为应用程序受众，则实施方案可允许最小移动。用于在目标上的可调整时间，如果学前儿童为应用程序受众，则可使用1到3秒之间的时间，但如果成人为应用程序受众，则可使用0.2到0.6秒之间的时间。对于暂时性目标丢失的可调整容许度，如果学前儿童为应用程序受众，则实施方案可允许在明显移动期间丢失目标；但如果成人为应用程序受众，则实施方案可不允许丢失目标。
[0047]在又其它实施方案中，用户可使用例如话音命令等二次交互方法来触发事件。此夕卜，可使用ARD的传感器数据来确定速度、加速度及/或减速度以便区分到新目标的移动与“环顾四周”，如图4中所示。在一种方法中，如果当对象进入视图(由灰色箭头及矩形指示)时移动快速地减速，则ARD的控制单元可经配置以确定用户是否希望选择对象/与对象交互。在确定选择对象之后，可即刻触发扩增，其中可在以下情形中出现过冲及返回，所述情形包含但不限于:1)当对象进入视图中时，ARD 14的移动快速减速；2)目标在ARD停止之前去往视图外；3)紧接着反转或校正ARD移动以使对象回到视图中；以及4)ARD停止，其中对象在视图中。
[0048]在另一方法中，如果速度改变较不明显，则ARD的控制单元120可经配置以确定用户是否正环顾四周。其可执行以下功能，包含但不限于:1)不开始扩增；2)展示可具有扩增(例如，发光、轻微振荡、静静上覆……)但不开始动画扩增的对象的指示；以及3)如果用户通过以下方式起始与对象的交互，则开始扩增:a)突然停止在所述对象上，b)将对象保持在相机视图中达预定时间周期，或c)与速度不相关的任何其它直接或间接方式。
[0049]在又其它实施方案中，ARD的控制单元可经配置以通过应用与确定目标与环顾四周相关联的控制逻辑来使用参考背景12 (例如垫)跟踪ARD 14的移动。在一种方法中，控制单元120可经配置以使用垫上的子标记或单独地跟踪垫的不同区域。在又其它实施方案中，跟踪ARD相对于参考背景12(例如垫)的移动(由灰色箭头及矩形指示)的方法可包含但不限于:1)跟踪垫的子区域；2)跟踪垫上的标记或子特征；3)跟踪可临时或永久地组合以形成较大垫的多个小垫(例如，盥洗室地板上的瓷砖，例如12a到12e)，如图5中所说明；以及4)跟踪这些子区域/标记/小垫与总体垫的关系，使得使一个子区域/标记/小垫在相机视图可使得ARD 14能够确定用户可看向较大垫上何处。
[0050]根据本发明的一些方面，图6中描述的功能可由图2的控制单元120实施。在一些实施方案中，所述功能可由处理器122、软件126、硬件128及固件130或这些框的组合来执行以执行上文所描述的ARD的各种功能，包含由跟踪单元132及扩增实境用户接口单元134执行的功能。
[0051]图6说明根据本发明的一些方面的用于控制扩增实境接口的流程图。在框602中，控制单元120可经配置以接收用于跟踪多个对象的图像数据。在框604中，控制单元120可经配置以从所述多个对象中识别待选择的对象。在框606中，控制单元120可经配置以至少部分基于一组选择准则确定是否已选择所述对象。在框608中，控制单元120可经配置以在确定已选择所述对象的情况下致使显现扩增。
[0052]根据本发明的实施例，在框602中执行的方法可进一步包含在框610及622中执行的方法。举例来说，在框610中，控制单元120可经配置以确定所述多个对象相对于ARD的相对姿势，且使用所述相对姿势更新所述多个对象的状态，其中所述多个对象的状态包含所述多个对象的关系信息。在框610中执行的方法可进一步包含在框622中执行的方法，其中控制单元120检测所述多个对象相对于所述多个对象的先前所接收图像数据的姿势。注意，关系信息包括以下各者中的至少一者:所述多个对象之间在游戏中的关系、所述多个对象之间在故事中的关系，及所述多个对象之间相对于背景的关系。
[0053]在框604中执行的方法可进一步包含在框612及614中执行的方法。在框612中，控制单元120使用图像数据分析所述多个对象，且识别最接近于由所述图像数据表示的图像的中心的对象。在框614中，控制单元120致使所述图像数据中的所述多个对象显现在所述ARD的显示器上，且识别覆盖所述ARD的显示器的大多数中心像素的对象。在框604中执行的方法可进一步包含确定所述对象已被放大。
[0054]在框606中执行的方法可进一步包含在框616及618中执行的方法。在框616中，控制单元120测量所述对象与所述ARD之间的相对速度，且测量所述对象相对于ARD固定的时间量。在框618中，控制单元120接收音频命令，且测量所述音频命令的振幅。
[0055]所述组选择准则包括以下各者中的至少一者:所述对象在所述ARD的视图中达预定时间周期、所述对象在所述ARD的视图中且所述对象与所述ARD之间的相对速度低于预定阈值，及所述对象在所述ARD的视图中且音频命令的振幅超过预定值。
[0056]在框608中执行的方法可进一步包含在框620中执行的方法，其中控制单元120在ARD的显示器中呈现所述对象与ARD之间的交互。
[0057]参考框606，所述方法可进一步包含:致使指示符被呈现，其中所述指示符指示已识别所述对象；以及响应于所述指示符的呈现而确定所述对象被取消选择。所述对象是否被取消选择的确定包括在对象相对于ARD的位置在呈现所述指示符之后维持阈值时间量的情况下确定已选择所述对象。所述指示符包括以下各者中的至少一者:图标、对象在ARD的显示器上振动，及经过的时间的表示。
[0058]根据本发明的一些方面，一种适用于ARD的方法包括:致使场景的图像显示在所述ARD的显示器上，其中所述场景包含一或多个对象；致使用从所述多个对象中识别待选择的对象的指示符扩增所述图像；以及确定在用所述指示符扩增所述图像之后所述对象是否已被取消选择。
[0059]提供用于提供用于扩增实境的话音及有形用户接口的技术。本文中所说明的各种实例实施方案可实施于ARD上。ARD 14可为移动电话、平板计算机或包含用于执行机器可执行机器可执行指令的处理器的其它此类装置、用于俘获现实世界环境的图像或视频的相机，及用于显示现实世界环境的扩增实境视图的显示器。这些技术可集成到多种扩增实境应用中以产生比常规AR应用更令人满意且投入的用户体验。
[0060]图7说明游戏环境的实例，其中ARD 14与现实世界项目结合使用以提供增强的用户体验。在图7的实例中，例如垫等参考背景12可在现实世界及AR环境两者中充当用于房间的表示的“地板”。在此实例中，由ARD 14提供的扩增包含墙壁及在现实世界环境中不存在的房间的其它特征。ARD 14还可提供一或多个对象放置在垫上的扩增。ARD 14还可经配置以辨识存在于ARD 14的相机的视野中的对象，而不管对象是否放置在参考平面12(例如在图7中所说明的垫)上。
[0061]如图7的实例中所示，一或多个玩偶可放置在垫上。玩偶21在ARD 14上所显示的AR环境中表示为由玩偶21表示的角色的扩增实境表示31。用户可与玩偶21及提供于ARD 14上的角色的扩增实境表示31两者交互。在装置上所说明的AR环境中，玩偶21可制成动画且对用户交互作出响应。举例来说，角色的扩增实境表示31可在AR环境中四处移动(例如，跳舞、坐下、站立，等)且与用户交互(例如，唱歌，讲话，或听取用户响应)。角色的扩增实境表示31还可通过分析用户发声及提供扩增而提供对用户发声的情境相关响应。
[0062]在一个示范性应用中，控制单元120可经配置以在装置的视图中跟踪收音机，提供由收音机播放歌曲的扩增，且基于确定收音机已旋转而调整歌曲的音量。在另一示范性应用中，控制单元120可经配置以在装置的视图中跟踪电视，确定对象已被放置在电视附近，且基于所放置的对象触发在电视上播放视频的扩增。在又一示范性应用中，控制单元120可经配置以跟踪便利贴，所述便利贴展示剩余电视节目，且引起数字录像机的记录设定的改变以记录所述电视节目。
[0063]图8A、8B、8C及8D说明用作自动家庭控制装置的具有扩增实境功能的装置的实例。在图8A、8B、8C及8D中所说明的实例中，说明家用项目29(可乐罐)及家用项目12 (杂志)，且在ARD 14上提供用于家用项目29及12的经扩增对象34。还可使用其它类型的家用对象或其它类型的对象。
[0064]在一些实施方案中，经扩增对象34可完全覆盖与经扩增对象34相关联的有形对象(也可被称作现实世界对象或现实对象)。在其它实施方案中，经扩增对象34可仅覆盖有形项目的部分。举例来说，可看到有形项目被经扩增对象34的一部分覆盖，或可对有形项目进行滤波以提供更微妙的外观。可应用的滤波器类型的一些实例为用以相对于场景的其余项目减小有形项目的亮度、对比度及/或饱和度的滤波器。在一些实施方案中，环境扩增可用以覆盖所有或一些有形项目，即使扩增内容可能小于项目的图像。举例来说，在图8A中所说明的实例中，扩增内容16覆盖有形项目:杂志12。扩增内容16可能小于可乐罐29，但环境扩增已在ARD 14所显示的扩增内容中减小可乐罐的对比度及饱和度。
[0065]在一些实施方案中，例如在图8A、8B、8C及8D中所说明的实例中，针对有形项目提供的扩增内容可为与有形项目类型不同的对象。举例来说，图8A、8B、8C及8D中的可乐罐29已被看起来像电视机的经扩增对象34替换。可使用其它类型的表示。扩增内容与有形项目的关联可为:(1)持久性的——持续跨越多个AR会话，直到有形项目与扩增内容之间的关联被重新指派；(2)粘性的一一持续使用会话的持续时间(例如，只要应用程序接通)；或(3)宽松的，仅持续“场景”的持续时间。
[0066]根据本发明的方面，可与ARD 14结合使用的某些对象可具有与其相关联的拟人化方面，例如一或多个面部特征(例如，眼睛、口部或耳朵)或其它特征(例如，动画式移动)。ARD 14的扩增逻辑可经配置以提供与使用这些拟人化方面来与装置的用户通信相关联的扩增内容。举例来说，玩偶的经扩增表示可制作成动画以展现感情，在场景中四处移动，唱歌，说话，且展示对用户的关注(或“听取”)。
[0067]对象可驻留在目标参考背景上。举例来说，玩偶可驻留在地板、桌面、游戏垫或其它表面上。ARD 14可经配置以跟踪参考地板与一或多个玩偶。ARD 14可任选地在ARD 14所提供的AR视图中将背景扩增上覆在现实世界的地板及其它部分上。图8A、8B、8C及80说明一实例，其中项目可乐罐29驻留在例如杂志等目标参考背景12上，目标参考背景12可充当用于显示在ARD 14上的经扩增内容的参考平面。例如桌面、书本、纸张、墙壁或其它项目等其它目标参考背景也可充当参考平面。在ARD 14所提供的扩增内容中包含参考平面可为任选的。
[0068]在图8A、8B、8C及8D中所说明的实例中，在ARD 14的用户的茶几上发现的对象可经配置以控制电视34或其它电子装置。在此实例中，可乐罐29与现实世界电视相关联，且可用以控制电视机的某些功能，例如频道及音量。如从图8A、8B、8C及8D中可看出，ARD 14可经配置以显示与可乐罐29相关联的扩增实境内容16，包含电视机的表示。扩增内容16可包含待控制的装置的表示。图8B、8C及8D说明其中现实世界项目可乐罐29可充当现实世界电视机的遥控器的实例。ARD 14提供扩增内容16，其表示可用以控制电视的某些功能的控件。在图8B、8C及8D中所说明的实例中，用户可通过移动或操纵现实世界对象可乐罐29来控制电视的某些功能。举例来说，在图8B中，用户可向左或向右旋转可乐罐29以调整电视的音量，或向上或向下移动可乐罐以改变电视上的频道。在图8C中所说明的实例中，用户可向左或向右旋转可乐罐29以调整电视的音量，且在图8D中所说明的实例中，使用可向左或向右旋转可乐罐29以改变电视的频道。
[0069]尽管控件在图8B、8C及8D中所说明的实例中表示为箭头，但其它类型的控件可包含在扩增内容16中，例如扩增的可使用状态的表示(例如，旋钮、按钮、控制杆)、使用方向(例如，如何旋拧或抬升可乐罐29以影响音量或改变TV上的频道)或这些元素的组合。在图8B、8C及8D中所说明的实例中，杂志12可充当由ARD 14 114显示的扩增内容中的参考平面16。在此实例中，杂志12充当用于确定罐29是否已移动的参考平面。
[0070]图9是用于在ARD 14上提供扩增实境的实例方法的流程图。ARD 14的控制单元120可包含用于提供扩增实境体验的扩增逻辑(框905)。所述扩增逻辑执行对象检测以检测在ARD 14的相机的视野中的对象(框910)。所述扩增逻辑还可任选地存取参考数据库以进行对象检测(框915)。所述参考数据库可包含可通过扩增逻辑扩增的各种类型的对象的属性，且所述扩增逻辑可比较在由ARD 14的相机俘获的视频或图像中检测到的对象的属性。所述扩增逻辑可接着检测在ARD 14的相机的视野中的有形目标项目(框920)。可使用参考信息检测所述对象以对所发现的对象的类型进行分类(如果参考数据库可用)。一旦已检测到对象，所述扩增逻辑就可执行对象扩增(框925)。所述扩增逻辑还可接着执行对象跟踪(框930)。举例来说，返回参考图7，如果用户将玩偶21随相机的视野移动到不同地点或用户移动所述ARD而使得玩偶21在相机的视野内移动，则所述扩增逻辑可跟踪所述对象在显示于ARD 14上的“检视区”内的地点，且在对象的新地点处显示用于所述对象的扩增(框935)。所述扩增逻辑还可周期性地确定是否有任何新对象已进入相机的视野(框940)。如果检测到新对象，则可将所述对象添加到待跟踪及扩增的对象列表(框945)，且所述扩增逻辑可继续在已检测到的对象上执行对象扩增(框925)。
[0071]以下实例说明可如何将本文所揭示的扩增实境技术实施于具有扩增实境能力的装置中。
[0072]根据本发明的方面，ARD 14可经配置以控制扩增实境、有形及话音用户接口的组合来进行社会性游戏。在一个实施方案中，ARD 14可经配置以促进社会游戏探索及学习。此技术奖励发声以促进语言发展且提供大脑刺激。用户可由于在与ARD 14交互的同时进行的发声而受到奖赏。举例来说，用户30可用角色21参与到社会游戏中。在用户正发声时，显示在由用户握持的装置14上的角色的扩增实境表示31可能正显示听取扩增。与角色相关联的听取扩增可包含角色停止说话、通过“看”向装置的屏幕而面向所述用户，及指示注意力且促进用户发声的的其它此类动作。
[0073]显示在装置上的扩增实境表示中的角色可经配置以对用户作出响应及/或引发用户的响应。ARD 14可包含用以控制角色在场景的扩增实境表示中的行为的扩增逻辑。在实例以下实例中，与角色相关联的扩增逻辑可经配置以对在ARD 14的麦克风输入中检测到的音频事件作出响应。
[0074]再次参考图8A、8B、8C及8D中所说明的实例，可使用话音命令来与由ARD 14显示的经扩增视图交互。举例来说，用户30可将相机指向例如可乐罐29等项目，且说出“TV”以使可乐罐29与现实世界环境中的电视相关联。ARD 14可经配置以在可乐罐29上显示与电视34相关联或与用于控制电视的功能的控件(图8B、8C及8D)相关联的扩增内容16，例如电视的表示(图8A)。还可使用话音命令来将属性指派给项目。举例来说，用户可说出“音量”以将音量控件添加到与由ARD 14显示的场景中的可乐罐29相关联的扩增内容16，或用户可说出“频道”以将频道控件添加到与由ARD 14显示的场景中的可乐罐29相关联的扩增内容16。用户可接着经由话音命令、ARD 14的触摸屏或其它用户接口与具备扩增内容16的控件交互。
[0075]图10是用于在ARD 14上提供扩增实境的实例方法的流程图。ARD 14运行对象检测以检测视野中的对象(框1005)。如上文所描述，ARD 14包含可俘获现实世界场景的图像或视频的相机。ARD 14的扩增逻辑可分析场景的图像或视频以检测待扩增的对象。举例来说，可通过扩增逻辑及针对所检测对象提供的扩增检测玩偶或其它现实世界项目。ARD14可显示表示在ARD 14的相机的视野中可见的现实世界环境的至少一部分的“检视区”。扩增逻辑可经配置以将此视图上的视听内容(在本文中被称作“扩增”)上覆到现实世界环境中以提供现实世界环境的扩增实境视图。所述扩增逻辑可提供在背景、前景及/或在ARD14的视野内的一或多个有形对象上的上覆。
[0076]ARD 14的扩增逻辑可辨识可在ARD 14的视野内的有形对象(框1010)。所述扩增逻辑可经配置以实时地估计一或多个对象的姿势(位置及定向)。所述扩增逻辑可经配置以辨识现实世界环境中的一或多个对象上的基准标记以辨识在ARD 14的视野内的有形对象。所述扩增逻辑还可经配置以使用自然特征跟踪来辨识在ARD 14的视野内的有形对象。所述扩增逻辑还可经配置以使用其它技术或其组合来辨识在ARD 14的视野内的有形对象。ARD 14可接着起始用于所辨识项目的视听扩增(框1015)。举例来说，如果所辨识项目为洋娃娃，则扩增逻辑可在由ARD 14显示的经扩增视图中显示上覆在现实世界对象上的洋娃娃的动画表示。所述扩增逻辑还可经配置以将表示制成动画以唱歌、说话、在显示于ARD 14上的AR环境中随处移动，或进行其它此类行为。
[0077]可接着通过扩增逻辑起始话音检测(框1020)。如果检测到话音(框1025)，则扩增逻辑可修改角色的扩增以使得角色展现听取行为(框1030)。举例来说，角色可展现一或多个行为，例如停止说话、转身面向ARD 14的屏幕、以专注方式向一侧伸直头部，及提供角色正在听取的口头指示。举例来说，可将角色制成动画以在用户正说话时周期性地发出
_，，

Ο
[0078]图11提供基于从用户接收的音频输入的角色的行为方法的流程图。所述方法以听取来自用户的音频输入(框1155)开始。扩增逻辑可接着确定用户是否正在说话(框1160)。可修改所述方法以辨识用户正在说话、唱歌、鼓掌、吹口哨还是正在提供其它类型的用户输入(框1162)。如果用户并未说话(或提供其它类型的可听响应)，则可起始引发用户响应的动作(框1165)。缺乏来自用户的可听响应可指示缺乏来自用户的注意，其可指示用户已失去兴趣或厌烦了当前场景。扩增逻辑可触发角色的扩增实境表示31以执行一些动作以吸引用户的注意。举例来说，扩增逻辑可经配置以致使角色的扩增实境表示31开始唱歌、跳舞，或执行某一其它动作以引起用户的注意。扩增逻辑还可经配置以辨识用户是否未能在扩展时间周期内作出响应(其可指示用户已离开、入睡或其它)、不再参与到扩增实境，且关断或进入“休眠模式”，直到再次检测到来自用户的可听声音。
[0079]如果将用户输入中的内容辨识(框1170)为触发内容，则可产生对用户输入的情境性响应(框1175)。举例来说，如果用户说出触发单词“狗”，则扩增逻辑可经配置以产生情境性响应，例如将角色制成动画以提供响应“我喜欢狗！ ”在另一实例中，如果检测到笑声，则扩增逻辑可经配置以响应于在用户输入中检测到笑声而将角色制成动画以笑。
[0080]否则，如果没有发现情境匹配，或由用户提供的可听响应不可理解，则扩增逻辑可经配置以产生对可听输入的替代响应，所述替代响应不基于来自用户的可听输入的内容(框1180)。举例来说，扩增逻辑可经配置以将角色的扩增实境表示31制成动画以说出“那是什么？”或“哦，谢谢您与我分享。”扩增逻辑可经配置以返回到框1155，继续听取来自用户的可听输入。
[0081]扩增逻辑可进一步经配置以进一步使用户体验更丰富。举例来说，扩增逻辑可经配置以通过促进用户使用以下技术中的一或多者来讲话而促进用户练习言语表达技能。
[0082]扩增逻辑可经配置以辨识用户何时开始谈话，且执行以下动作中的一或多者:(a)如果角色31的扩增实境表示当前正说话以吸引用户发声的关注，则停止说话。(b)将角色的扩增实境表示31制成动画以提供角色正注意用户的印象。举例来说，可将角色的扩增实境表示31制成动画以在用户的方向上转身。举例来说，角色的扩增实境表示31可经配置以面向场景的扩增实境表示中的装置的屏幕，以使得看起来角色的扩增实境表示31正面向用户。(c)当用户停止说话时，以动画及/或发声作出响应。
[0083]用动画及/或发声进行的响应可经配置以提供不同响应度。响应于简单的音频触发，例如噪声、笑声、话音、鼓掌，由角色的扩增实境表示31提供的响应可更模糊且具较少上下文特定性。举例来说，可将角色制成动画以用微笑及点头作出响应或可发出简单的惊叹词，例如“哦！”在话音或声音辨识实施于扩增逻辑中且辨识出触发声音或单词的情况下，可提供更适合情境的响应。举例来说，如果检测到一阵笑声，则扩增逻辑可经配置以将角色的扩增实境表示31制成动画以与用户一起笑。在另一实例中，如果检测到响亮的噪声，则扩增逻辑可经配置以将角色的扩增实境表示31制成动画以说出“那是什么？”在另一实例中，如果检测到话音，则扩增逻辑可经配置以将角色的扩增实境表示31制成动画以说出“谢谢您与我分享！ ”
[0084]在一些情况下，扩增逻辑可经配置以利用话音辨识算法来辨识来自用户的可听声音中的一组触发单词或短语，且产生对用户输入的上下文适当响应。举例来说，如果在扩增经配置以辨识出单词“狗”的情况下用户大喊“麦迪逊有一条新狗，它的毛真蓬松”，则扩增逻辑可经配置以将角色的扩增实境表示31制成动画以说出“哦，我喜欢狗！ ”
[0085]在用户尚未发展出强的言语表达技能且用户发音可能又不太理想的情况下，辨识来自用户的音频响应中的特定单词可尤其具有挑战性。扩增逻辑可经配置以基于场景的上下文搜索来自用户的可听输入中的特定单词。举例来说，如果ARD 14上描绘的扩增实境场景描绘狗、铅笔、苹果及鸭子，则扩增逻辑可经配置以搜索与所述场景中可见的对象相关联的单词。举例来说，扩增逻辑可使狗与单词“狗”、“幼犬”及“小狗”相关联，且使鸭子与单词“鸭子”、“鸟”及“小鸭”相关联。
[0086]还可依据用户的所确定言语表达水平来定制对用户的可听输入的响应。举例来说，扩增逻辑可经配置以基于在用户的响应中识别的单词来确定与所述用户相关联的水平言语表达水平。较复杂的单词及/或短语可与较高言语表达水平相关联，且扩增逻辑可经配置而响应以用户的适当言语表达水平。扩增逻辑还可经配置以选择对用户音频输入的响应，其与稍高的言语表达水平相关联以促进用户的言语表达水平的提高。
[0087]还可定制由ARD 14显示的场景的内容以将用户说出的一或多个单词或短语包含到场景的稍后部分中。举例来说，如果用户在与ARD 14交互的同时提及狗或足球，则狗或足球可集成到场景中。举例来说，角色的扩增实境表示31可踢足球、提及狗，或在场景中稍后与狗玩耍。将用户说出的单词或短语集成到场景中可有助于使用户更完全地投入到由ARD 14提供的AR环境。
[0088]扩增逻辑还可经配置以基于用户的语音输入而驱动环境中的角色及/或对象的动画化。举例来说，如果用户提及其在足球游戏中获胜，则场景中的角色的扩增实境表示31可通过说出“您真擅长踢足球。”来作出响应，且开始踢足球。如果场景中涉及两个以上角色，则角色的扩增实境表示31可经配置以响应于用户的可听输入而与彼此交互。举例来说，第一角色的扩增实境表示可询问第二角色的扩增实境表示:“您也喜欢足球吗？ ”，且所述两个角色可接着开始来回踢足球。
[0089]扩增逻辑可经配置以使用户投入且持续对话以促进用户的言语表达技能的发展。用于促进此类发声的一个技术包含持续与角色转换，即使用户移动装置以使得角色超出相机的视野范围且因此在ARD 14所提供的“检视区”中不再可见。如果继续检测到来自用户的话音响应，则应继续转换，即使对话中所涉及的一或多个角色不再处于ARD 14的检视区中。此外，如果用户将另一角色添加到ARD 14的视野，则扩增逻辑可经配置以识别新添加的角色且提供用于新添加的角色的视听扩增。可将新添加的角色包含在已经在进行中的场景中。
[0090]扩增逻辑可包含一系列话音辨识方案以用以试图识别由用户提供的可听响应。扩增逻辑可经配置以使用优雅降级方案用于确定如何对用户作出响应。举例来说，扩增逻辑可经配置以一个或话音辨识方案应用于可听输入，其中每一方案使所提出的单词或短语与发声相关联且指派发声为那一特定单词或短语的百分比确定性。扩增逻辑可经配置以基于确定性百分比选择对发声的响应。在与发声相关联的确定性降低到预定阈值以下的情况下，可响应于所述发声而发出简单音频触发响应，即使可能不能以所要确定性水平确定用户所说的内容。此外，如果在用户的可听响应中不能识别出任何单词，则扩增逻辑可经配置以应用识别逻辑以确定来自用户的可听响应为语音、笑声、哭声还是非发声(例如鼓掌)。如果可进行确定，则扩增逻辑可选择对用户的适当响应。如果无法对来自用户的可听响应进行分类，则可通过扩增逻辑选择简单的音频触发响应。
[0091]根据本发明的方面，ARD 14可经配置以控制扩增实境、有形及话音用户接口的组合以便于游戏。在一个实施方案中，ARD 14可经配置以通过奖励发声而促进社会游戏探索、语言发展及大脑刺激。ARD 14可经配置以提供话音命令，用户可使用所述话音命令来推进游戏且增强用户体验。在一个实例中，在用户30玩耍有形玩偶21且“经由”ARD 14看向经扩增场景16 (如在图7中)时，用户的手可能正忙于操纵玩偶21且握持ARD 14。用户可通过将话音命令呈现给ARD 14而与场景中的对象交互。
[0092]图12是用于在辨识话音命令的ARD 14上提供扩增实境的实例方法的流程图。ARD14运行对象检测(框1205)。如上文所描述，ARD 14包含可俘获现实世界场景的图像或视频的相机。ARD 14可包含扩增逻辑，所述扩增逻辑可分析场景的图像或视频以检测在由ARD14提供的视图中可能经扩增的对象，例如玩偶或其它现实世界项目。ARD 14的扩增逻辑可接着辨识有形对象(框1210)。ARD 14可接着起始用于所辨识项目的视听扩增(框1215)。举例来说，如果所辨识项目为洋娃娃，则扩增逻辑可在显示于ARD 14上的AR表示中显示洋娃娃的草图版本。所述扩增逻辑还可经配置以致使角色唱歌、说话、在显示于ARD 14上的AR环境中四处移动，或进行其它此类行为。
[0093]可接着通过所述扩增逻辑起始话音检测以识别由用户说出的话音命令(框1220)。如果检测到话音命令(框1225)，则所述扩增逻辑可修改角色的扩增以执行与所述命令相关联的动作(框1230)。举例来说，在图14中所说明的实例中，用户可说出“使用马桶”，且扩增逻辑可经配置以将角色的扩增实境表示31制成动画以在提供于ARD 14上的场景的AR表示中使用马桶。话音命令还可为对角色的扩增实境表示31提出的问题的响应。举例来说，角色的扩增实境表示31可询问用户“我应该洗澡吗？ ”如果用户响应以“是的”，则扩增逻辑可触发角色的扩增实境表示31在AR场景中洗澡的动画。如果用户说出“不”或不作响应，则扩增逻辑可不触发角色的扩增实境表示31在AR场景中洗澡的动画，因为触发事件尚未发生。
[0094]根据本发明的方面，ARD 14可经配置以控制扩增实境、有形及话音用户接口的组合以实现持续参与。在一个实施方案中，ARD 14可经配置以促进参与以帮助发展言语表达技能。言语表达可用作确定参与及学习深度的指标。为奖励言语表达且保持用户参与，可使用用户的言语表达来驱动场景。出于本发明的目的，场景被定义为显示于ARD 14上的AR环境内的连续动作流程。扩增逻辑可经配置而以数种方式对言语表达作出响应以驱动场景。举例来说，如果用户在当前场景期间言语表达很多，则扩增逻辑可经配置以使场景保持在所述主题上，或深化其当前主题，或保持在当前目标等级内容处。如果用户不进行言语表达，或减少言语表达，则扩增逻辑可经配置以将场景移动到新主题上或改变内容的目标等级。
[0095]图13是用于在ARD 14上提供扩增实境以提供用户的持续参与的实例方法的流程图。ARD 14运行对象检测(框1305)。如上文所描述，ARD 14包含可俘获现实世界场景的图像或视频的相机。ARD 14可包含扩增逻辑，所述扩增逻辑可分析场景的图像或视频以检测在由ARD 14提供的视图中可能经扩增的对象，例如玩偶或其它现实世界项目。ARD 14的扩增逻辑可接着辨识有形对象(框1310)。ARD 14可接着起始用于所辨识项目的视听扩增(框1315)。举例来说，如果所辨识项目为洋娃娃，则扩增逻辑可在显示于ARD 14上的AR表示中显示洋娃娃的草图版本。所述扩增逻辑还可经配置以致使角色唱歌、说话、在显示于ARD 14上的AR环境中四处移动，或进行其它此类行为。
[0096]可由扩增逻辑起始话音检测以识别用户的发声(框1320)。话音检测可使用音频消除滤波来滤除超出发声的预期频率范围的声音以消除不合需要的音频输入，例如背景噪声，其可能不指示用户的参与度。在一些情况下，话音检测逻辑可经配置以寻找特定发声。例如，用户说出的特定单词或短语。如果检测到发声(框1325)，则扩增逻辑可经配置以以将场景的视听扩增提供在ARD 14上(框1330)。所述扩增逻辑可经配置以继续提供扩增的至少音频部分，而不管角色的扩增实境表示31是否保持处于ARD 14的显示器上可见的检视区中。举例来说，所述用户可为一用户，且所述用户可允许装置移动或“偏移”出场景的视图。此类移动可指示用户可能不再参与到场景中且扩增逻辑不再需要产生角色的扩增实境表示31的表示。然而，只要用户继续发声，扩增逻辑就可经配置以持续播放与角色的扩增实境表示31相关联的扩增内容的音频部分，因为持续发声可指示用户可能仍参与到场景中。举例来说，如果用户可响应于角色的扩增实境表示31唱歌而唱歌或跳舞。用户的移动可致使ARD 14偏移且与角色的扩增实境表示31相关联的玩偶移出相机的视图。扩增逻辑可经配置以持续播放用于角色的扩增实境表示31的内容的至少音频部分，即使角色在ARD14的显示器上的可见表示可能不再可见。
[0097]根据本发明的方面，ARD 14可经配置以控制扩增实境、有形及话音用户接口的组合以实现群组游戏。在一个实施方案中，ARD 14可经配置以促进群组游戏以帮助发展言语表达技能。有形用户接口吸引多用户交互且可用以促进用户一起游戏。此联合游戏行为可刺激玩游戏的用户之间的言语表达。所述方法通过用聚焦扩增奖励共同言语表达来促进共同语言表达。
[0098]在群组游戏期间，扩增逻辑可经配置以确定哪一用户正提供可听输入以及扩增逻辑是否可对那一用户作出响应。在其中多个用户可使用单个装置的实例中，扩增逻辑可识别检测为装置的主用户的最响话音，且以一种方式对从所述主用户接收的可听输入作出响应而以不同方式(如果作出相应)对来自次用户的可听输入作出响应。在多个ARD—起使用的情况下，所述ARD可经配置以识别其何时可接近于其它ARD 15。在一些情况下，ARD 14可包含无线连接性，例如用于连接到WLAN连接的WiFi连接性，且ARD 14可使用由第二 ARD15发射的无线信号来检测到第二 ARD 15的接近度。
[0099]根据本发明的方面，两个用户30及32可共享单个ARD 14。在本发明的一些其它方面中，每一用户30及32可具有其自身的ARD 14或15，如图14中所示。在两者实例中，两个用户都可提供可由相应ARD 14及15辨识的话音命令。根据本发明的实施例，多个ARD可经配置以跨越所述多个ARD维持扩增。如图14中所说明，如果具有对应具有扩增实境功能的装置的多个用户在相同时间或接近相同的时间正以相同游戏设定玩游戏，则某些扩增元素可保持跨越多个ARD实质上相同，而其它扩增元素可不同。
[0100]在一个示范性实施方案中，如果用户30将狗25变为超级狗35，另一用户32在另一 ARD 15上可同样看到狗25在其相应扩增16及17中变为超级狗35。注意，来自每一 ARD的声音扩增可与特定ARD可能指向的游戏有关。
[0101]ARD 14的扩增逻辑可经配置以识别装置的主用户。在多个用户使用单个ARD 14的情况下，ARD 14可识别装置的主用户且向主用户提供的话音命令及/或言语表达给予优先级。举例来说，如果当前没有与ARD 14相关联的主用户，则ARD 14可经配置以选择最响的用户作为装置的主用户，因为此用户可能为最接近于所述装置的用户。在已使用户的话音与ARD 14相关联之后，ARD 14可经配置以继续将那一话音辨识为主用户。ARD 14的扩增逻辑可经配置以对来自主用户的发声提供优势聚焦，且对来自其它用户的发声提供次级聚焦。通过此方法，扩增逻辑可解决来自用户的冲突性输入，有利于装置的主用户。
[0102]在多个用户(30及32)正使用多个ARD 14及15的情况下，例如在图14中，每一ARD 14或15可识别那一装置的主用户，且向主用户提供的话音命令及/或言语表达给予优先级。如上文所描述，如果当前没有与ARD 14或15相关联的主用户，则ARD 14或15可经配置以选择最响的用户作为装置的主用户，因为此用户可能为最接近于所述装置的用户。在两个或两个以上ARD 14及15彼此紧邻的情况下，扩增逻辑可经配置以确定所述ARD是否正用于相同场景。举例来说，在确定ARD是否用于相同场景时，可考虑ARD到彼此的接近度及ARD的定向。在可使用参考背景12或其它有形目标项目来界定“房间”的情况下，扩增逻辑可经配置以与另一 ARD的扩增逻辑共享信息，以确定两个用户是否都可采用相同场景的部分。如果所述ARD正用于不同场景，则扩增逻辑可经配置以识别装置的主用户且对那一用户作出响应。如果两个ARD都正用于相同场景且所述装置中的一者可能不聚焦于场景上(例如，装置可能已被用户放下)，可一前一后地考虑话音，且可选择装置的主用户。所述ARD(14及15)可经配置以使用点对点通信进行通信。举例来说，所述ARD可经配置以使用蓝牙、W1-Fi或其它无线协议进行通信。在一些实施方案中，所述ARD (14及15)可经配置以与无线接入点或无线基站进行通信，且可经由中间物服务器将装置之间的消息路由到彼此。在所述ARD之间交换的消息可包含每一对象相对于目标的姿势及每一装置接收的话音命令，以使得由所述两个或两个以上装置显示的扩增内容可同步。
[0103]扩增逻辑可经配置以供多个用户使用。举例来说，如果第一用户提及足球且第二用户提及狗，则扩增逻辑可将足球及狗两者集成到场景中。扩增逻辑可经配置以将场景中的角色制成动画以说出“我喜欢狗和足球”。
[0104]扩增逻辑还可经配置以促进每一用户参与且发声。如果一个话音听到的次数远多于另一话音，则扩增逻辑可提示来自第二用户的响应。举例来说，扩增逻辑可经配置以将场景中的角色制成动画以说出“你呢？你喜欢什么？ ”
[0105]扩增逻辑还可经配置以缓解或避免用户之间的对抗。举例来说，如果从一或多个话音检测到争论性语调或辱骂性词语，则扩增逻辑可经配置以相应地作出响应。举例来说，扩增逻辑可经配置以将角色的扩增实境表示31制成动画以提示用户端正其态度或引入新主题。举例来说，角色可能大喊“嘿！你知道我真的喜欢什么吗？冰淇淋！”，则开始唱歌，或角色可能大喊“嘿，现在你们都注意！ ”，则唱一首关于在一起愉快玩耍的歌曲。
[0106]扩增逻辑可经配置以处置在群组游戏期间由不同用户给出的冲突性命令。举例来说，如果两个用户正共享同一 ARD 14且接收到冲突的命令，例如用户1说出“伯尼踢足球”且用户2说出“伯尼小憩一会”，则扩增逻辑可解决所述冲突。扩增逻辑可经配置以使一个用户给出的命令优先于另一用户(例如，先到先得)。扩增逻辑可经配置以忽略所述命令中的一者或依次执行所述命令。在每一用户具有ARD 14或正使用多个ARD的实施方案中，扩增逻辑可经配置而以类似于单个用户装置的方式解决冲突。
[0107]图15为用于在一 ARD 14或多个装置上向多个用户提供扩增实境的实例方法的流程图。可在第一 ARD 14处检测第二 ARD 15的存在(框1505)。响应于检测到第二 ARD 15接近于第一 ARD 14，第一 ARD 14可确定所述第二 ARD 15是否正显示与由第一 ARD 14正显示的扩增实境内容相关联的扩增实境内容(框1510)。可在第一 ARD 14处分析多个用户的发声(框1515)，且可基于所述发声确定第一 ARD 14的主用户(框1520)。第一 ARD 14可接着定制由所述装置提供的扩增实境内容以响应于所述发声而提供情境相关内容。在选择情境相关内容以提供给用户时，第一 ARD 14可向主用户提供的发声给出比其它用户提供的发声更大的权重(框1525)。
[0108]图16为用于在多个ARD上提供扩增实境内容的实例方法的流程图。图16中所说明的方法可用以实施其中一起使用多个ARD的扩增逻辑。所述方法可实施于ARD 14的扩增逻辑中。或者，一些或所有框可由服务器实施。所述方法包含:从ARD 14的相机接收下一图像(框1605)，及确定已知对象相对于相机的位置及定向(框1610)。如上文所描述，扩增逻辑可经配置以使用各种技术识别在相机的视野内的有形现实世界对象。可接着更新场景的当前状态(框1615)。扩增逻辑可维持关于场景的当前状态的信息，例如对象在场景内的位置及定向。如果一或多个对象移动，则可更新关于场景的当前状态的信息以反映这些改变。所述方法还包含可与方法的第一分枝(框1605、1610及1615)实质上并行执行的第二分枝。包含在所述方法的第二分枝中的框还可在包含在方法的第一分枝中的框之前、之后或与其互混而依次执行。所述第二分枝可包含接收来自ARD 14的说话者的下一声音样本(框1620)。可接着将声音输入流分段成个别声音、单词及/或短语(框1625)。可识别与单词或短语相关联的说话者，且可将单词或短语匹配到在数据库中的已知单词或短语的词典(框1630)。如果先前已识别说话者，则可更新关于场景的信息以使从那一用户接收的新发声相关联。如果先前尚未识别说话者，则扩增逻辑可开始跟踪从那一用户接收的发声。
[0109]可接着将关于场景及所辨识单词、短语及/或声音的状态更新的信息发送到可能接近于ARD 14的其它ARD (框1632)。ARD 14或另一 ARD 15的扩增逻辑还可经配置以确定两个或两个以上装置是否正用以与相同场景交互，且在所述装置不显示相同场景的情况下不共享或舍弃关于场景状态的所接收信息。还可从其它ARD接收关于状态更新及所辨识声音、单词及/或短语的信息(框1635)。可在从其它ARD接收的内容中识别与所述单词或短语相关联的说话者，且可进行到数据库中的已知单词及/或短语的匹配(框1640)。扩增逻辑可接着基于对表示场景的状态的信息所进行的更新而触发动作(框1645)，且显现扩增以反映场景的经更新状态(框1650)。
[0110]图17说明本文所述的ARD的另一实施方案。根据本发明的方面，ARD 14包含传感器1705(例如，陀螺仪、加速度计、惯性测量单元(IMU)及/或其它类型的传感器)及用于处理由传感器1705收集的数据的传感器处理器1710。ARD 14还包含相机1715及相机处理器1720。相机1715可经配置以俘获可使用上文所描述的扩增逻辑扩增的现实世界场景的图像及/或视频。相机处理器1720可经配置以处理由相机1720收集的数据，且将由相机收集的数据转换为可由扩增逻辑使用的格式。相机处理器1720可经配置以对从相机收集的数据执行各种类型的图像或视频处理以准备用于显示在显示器1725上的内容。
[0111]显示器1725可为包含触摸传感器1735的触摸屏接口。图形处理器1730可用以产生供显示于显示器1725上的图形数据。扩增逻辑可经配置以将命令发送到图形处理器1730以显示经扩增图像或视频内容。触摸传感器处理器1740可处理由触摸传感器1735输出的数据以识别用户何时触碰触摸屏。触摸传感器处理器1740可经配置以识别各种触摸示意动作，包含对触摸屏的多手指触碰。扩增逻辑可使用由触摸传感器处理器1740确定的示意动作信息来至少部分地确定扩增应如何响应于用户输入而作出反应。通信控制器1750可经配置以使得装置能够使用一个以上无线协议进行通信。通信控制器1750可经配置以允许装置发送数据且从附近的无线装置(包含无线接入点及其它ARD)接收数据。存储器1760可包含易失性及/或持久性存储器以用于存储由ARD 14的各种组件使用的数据。存储器1760可用以存储用于包含在装置中的处理器中的一或多者的处理器可执行程序代码。在一些情况下，扩增逻辑可实施为存储于存储器1760中的处理器可执行指令。处理器控制器1755可经配置以控制传感器处理器1710、相机处理器1720、图形处理器1730及触摸传感器处理器1740中的一或多者。传感器处理器1710、相机处理器1720、图形处理器1730及触摸传感器处理器1740中的一或多者还可由控制器处理器1755实施。如图17中所描述的ARD 14的各框可经由系统总线1770彼此通信。
[0112]根据本发明的方面，可使用数种技术执行识别及跟踪图像帧中的特征。在一种方法中，可通过检查每一 2乘2梯度矩阵的最小特征值来执行识别特征的方法。接着，使用最小化两个窗之间的差异的牛顿-拉普森方法(Newton-Raphson method)来跟踪特征。多分辨率跟踪方法允许图像之间的相对较大位移。注意，在从一个帧到下一帧跟踪特征期间，错误可能累积。为检测潜在不良的特征，移动装置可经配置以监视在当前帧中围绕所述特征的窗中的图像信号是否仍类似于在前一帧中围绕所述特征的图像信号。因为可在许多帧上跟踪特征，因此图像内容可能变形。为解决此问题，可用相似度或仿射映射来执行一致性检查。
[0113]根据本发明的方面，为识别图像中的对象，可提取所述对象上的若干点以提供所述对象的特征描述(也称为关键点、特征点或简称为特征)。当尝试在含有许多其它对象的测试图像中定位所述对象时，可接着使用从训练图像提取的此描述来识别所述对象。为执行可靠辨识，甚至在图像缩放、噪声及照明改变下仍可检测从训练图像提取的特征。此类点通常位于图像的高对比度区域，例如对象边缘上。
[0114]这些特征的另一特性为其间的在原始场景中的相对位置可不从一个图像到另一图像而改变。举例来说，如果仅将车门的四个拐角用作特征，则其可有效而不管车门的位置如何；但如果使用帧中的若干点，则如果车门打开或关闭，辨识可能失败。类似地，如果在所处理的组中的两个图像之间发生其内部几何布置的任何改变，则位于铰接或柔性对象中的特征通常可能无效。在一些实施方案中，SIFT检测且使用来自图像的大量特征，其可减少由所有特征匹配错误的平均错误的局部变化引起的错误的贡献。因此，所揭示方法可识别甚至处于杂物中且部分被遮挡的对象；因为SIFT特征描述符对于均匀缩放、定向可不变，且对于仿射失真及照明改变部分地不变。
[0115]举例来说，可首先从一组参考图像提取对象的关键点且将其存储于数据库中。通过比较来自新图像的每一特征与此数据库且基于其特征向量的欧几里得距离找出候选匹配特征来在新图像中辨识对象。从整组匹配，可识别在对象及其在新图像中的地点、缩放及定向上一致的关键点的子组以滤出良好匹配。可通过使用一股化的霍夫(Hough)变换的杂凑表实施方案来执行一致群集的确定。在对象及其姿势上一致的3个或3个以上特征的每一群集可接着经受进一步详述的模型验证，且随后可舍弃离群值。可接着基于拟合准确度及可能的错误匹配的数目来计算一组特定特征指示存在对象的概率。通过测试的对象匹配可以高置信度识别为正确的。
[0116]根据本发明的方面，图像特征产生将图像变换成大的特征向量集合，所述特征向量中的每一者对于图像平移、缩放及旋转可为不变的，且对于照明改变为不变的并且对于局部几何失真是稳健的。这些特征与灵长类动物视觉中用于对象辨识的下颞叶皮层中的神经元具有类似特性。关键地点可被定义为在尺度空间(scale space)中应用于一系列经平滑化且重新取样的图像的高斯功能的差异结果的最大值及最小值。可舍弃低对比度候选点及沿着边缘的边缘响应点。优势定向指派给局部化的关键点。此方法确保关键点对于匹配及辨识更为稳定。可接着通过考虑围绕所述关键地点的半径的像素、模糊化且重新取样局部图像定向平面来获得对局部仿射失真稳健的SIFT描述符。
[0117]特征匹配及编索引可包含存储SIFT关键点及从新图像识别匹配的关键点。在一种方法中，也称为最佳区间优先搜索方法(best-bin-first search method)的k_d树算法的修改可用以使用有限量的计算来以高概率识别最接近的相邻者。最佳区间优先算法使用k-d树算法的经修改搜索次序以使得可按距查询地点最近的距离的次序搜索特征空间中的区间。此搜索次序需要使用基于堆栈的优先级队列来有效地确定搜索次序。可通过从训练图像识别每一关键点在关键点数据库中的最接近的相邻者来找出每一关键点的最佳候选匹配。最接近的相邻者可被定义为距给定描述符向量具有最小欧几里得距离的关键点。可通过取距最近相邻者的距离与次近者的距离的比率来确定匹配是正确的概率。
[0118]在一个示范性实施方案中，可拒绝距离比率大于0.8的匹配，此举消除90%的错误匹配，同时舍弃小于5%的正确匹配。为进一步改进最佳区间优先算法的效率，可在检查预定数目个(例如100个)最接近的相邻候选者之后停止搜索。对于具有100，000个关键点的数据库，此可提供较之确切的最接近相邻者搜索加速约2个数量级，而又导致正确匹配数目的小于5%的损失。
[0119]注意，对于所述示范性实施方案，可使用霍夫变换来将可靠模型假设集群以搜索在特定模型姿势上一致的关键点。可使用霍夫变换来通过使用每一特征选出可与所述特征一致的对象姿势而识别具有一致解释的特征群集。当发现特征群集选出对象的相同姿势时，解释正确的概率可高于任何单个特征。可产生杂凑表中的条目以依据匹配假设预测模型地点、定向及缩放。可搜索杂凑表以识别在区间中具有至少3个条目的群集，且可将区间排序成大小的降序。
[0120]根据本发明的方面，SIFT关键点中的每一者可指定2D地点、缩放及定向。此外，数据库中的每一匹配关键点可具有与训练图像(在其中发现所述关键点)有关的其参数的记录。由这4个参数暗示的相似度变换可近似等于3D对象的6自由度姿势空间，并且也不考量任何非硬质变形。因此，示范性实施方案可对于定向使用30度的宽区间大小，对于缩放使用因数2，且对于地点使用0.25倍的最大投影训练图像维度(使用预测缩放)。可向以较大缩放产生的SIFT关键样本给出两倍于以较小缩放产生的样本的权重。对于此方法，较大缩放可实际上能够滤出用于以较小缩放进行检查的最可能相邻者。此方法还通过向噪声最小的缩放给出较大权重而改进辨识性能。根据本发明的方面，为避免区间指派中的边界效应问题，每一关键点匹配可在每一维度中选出2个最近的区间，从而对于每一假设得到总共16个条目且进一步加宽了姿势范围。
[0121]根据本发明的方面，对于给定参数解，可通过检查每一图像特征与模型之间的一致性来移除离群值。举例来说，给定线性最小平方解，可能需要每一匹配在用于霍夫变换区间中的参数的错误范围的一半内一致。在离群值被舍弃时，可用剩余点来求解线性最小平方解，且所述过程可迭代。在一些实施方案中，如果在舍弃离群值之后剩余小于预定数目个点(例如，3个点)，则可拒绝所述匹配。此外，可使用自上向下的匹配阶段来添加与所投影模型位置一致的任何进一步匹配，所述匹配可能归因于相似度变换近似或其它错误而从霍夫变换区间错过。
[0122]接受或拒绝模型假设的决策可基于详述的概率模型。给定模型的投影大小、区域内特征的数目及拟合的准确度，所述方法首先计算到模型姿势的错误匹配的预期数目。贝叶斯概率分析可接着给出可基于所发现的匹配特征的实际数目呈现对象的概率。如果正确解释的最终概率大于预定百分比(例如95% )，则可接受模型。
[0123]根据本发明的方面，在一种方法中，旋转不变特征变换(RIFT)方法可用作SIFT的旋转不变一股化以解决杂物下或部分遮挡情境。可使用划分成相等宽度的同心环的圆形归一化片来建构RIFT描述符，且在每一环内，可计算梯度定向直方图。为维持旋转不变性，可在每一点处相对于从中心指向外的方向测量定向。
[0124]在另一方法中，可使用一股化的稳健不变特征(G-RIF)方法。G-RIF以组合感知信息与空间编码的统一形式编码边缘定向、边缘密度及色调信息。对象辨识方案使用基于相邻上下文的表决来估计对象模型。
[0125]在又一方法中，可使用加速稳健特征(SURF)方法，其使用缩放及旋转不变关注点检测器/描述符，在可重复性、独特性及稳健性方面，其可能性能优于先前所提议的方案。SURF依赖于整体的图像用于图像卷积以减少计算时间，且依靠最主要的现有检测器及描述符的强度(对于检测器及分布式描述符使用基于快速赫斯矩阵的测量)。SURF方法描述哈尔小波响应(Haar wavelet response)在关注点领域内的分布。整体的图像可用于速度，且64个维度可用以减少用于特征计算及匹配的时间。编索引步骤可基于拉普拉斯(Laplacian)的正负号，其增大描述符的匹配速度及稳健性。
[0126]在又一方法中，可使用主分量分析SIFT(PCA-SIFT)方法。在一些实施方案中，PCA-SIFT描述符为在支持区域内计算的在X及y方向上的图像梯度的向量。梯度区域可在39x39个地点处取样。因此，向量可具有维度3042。通过PCA，维度可减小到36。在又一方法中，可使用梯度地点-定向直方图(GL0H)方法，其为经设计以增大其稳健性及独特性的SIFT描述符的扩展。在一些实施方案中，可针对在径向方向上具有三个区间(半径设定到6、11及15)且在倾斜方向上具有8个区间(其导致17个地点区间)的对数极坐标地点栅格计算SIFT描述符。中心区间可不在倾斜方向上进行划分。可在16个区间中量化梯度定向，从而导致272个区间的直方图。通过PCA可减小此描述符的大小。可根据从各种图像收集的图像块估计PCA的协方差矩阵。128个最大特征向量可接着用于描述。
[0127]在又一方法中，可使用两对象辨识算法来配合当前移动装置的限制而使用。与经典 SIFT 方法相比，加速分段测试特征(Features from Accelerated Segment Test, FAST)拐角检测器可用于特征检测。此方法在离线准备阶段(其中可以不同灰度层级产生特征)与在线阶段(其中可以移动装置的相机图像的当前固定灰度层级产生特征)之间加以区分。在一个示范性实施方案中，可从预定固定片大小(例如15x15像素)产生特征，且所述特征形成具有36个维度的SIFT描述符。可通过将可扩展词汇树(scalable vocabularytree)集成在辨识管线中而进一步扩展所述方法。此允许有效地辨识移动装置上的大量对象。
[0128]根据本发明的方面，局部图像特征的检测及描述可有助于对象辨识。SIFT特征可为局部的且基于对象在特定关注点处的外观，且对于图像缩放及旋转可为不变的。其对于照明、噪声的改变及视点的较小改变也可为稳健的。除这些特性之外，特征可为高度独特的，相对容易提取且允许以低失配概率正确地识别对象。可相对容易地对照局部特征的(大)数据库来匹配特征，且通常可使用例如具有最佳区间优先搜索的k维(k-d)树等概率算法。通过一组SIFT特征进行的对象描述对于部分遮挡也可为稳健的。举例来说，来自对象的少到3个SIFT特征可足以计算其地点及姿势。在一些实施方案中，对于小数据库且在现代计算机硬件上，可准实时地执行辨识。
[0129]根据本发明的方面，可使用随机样本一致性(RANSAC)技术来移除由相机视图中的移动对象引起的离群值。注意，RANSAC使用迭代方法来从含有离群值的一组所观测数据来估计数学模型的参数。此方法可为非确定性的，因为其以相关联概率产生合理结果，其中所述概率可随着执行更多迭代而增大。
[0130]在一个示范性实施方案中，一组观测到的数据值，可以对应置信度参数拟合到观测结果的参数化模型。在此示范性实施方案中，所述方法迭代地选择原始数据的随机子组。这些数据可为假想的群内值(inlier)，且可接着如下测试所述假设:
[0131]1.可将模型拟合到假想的群内值，即从所述群内值重建构模型的所有自由参数。
[0132]2.接着可对照拟合的模型测试所有其它数据，且如果一点良好地拟合到所述估计模型，则可认为其是假想的群内值。
[0133]3.如果已将足够数目的点分类为假想的群内值，则可认为所述估计模型可接受。
[0134]4.可从所有假想群内值重新估计所述模型，因为其仅已从初始组假想群内值进行了估计。
[0135]5.最终，可通过相对于模型估计群内值的错误来评估所述模型。
[0136]每当产生因为过少的点被分类为群内值而可被拒绝的模型或与对应错误测量一起产生改进的模型时，可重复以上程序预定次数。在后一种情况下，如果错误低于先前保存的模型，则可保持所述改进的模型。
[0137]在另一示范性实施方案中，可使用基于模型的运动跟踪方法来主动地识别并移除在相机视图中的移动对象。在一种方法中，跟踪的目标可处理为模型辨识问题。可跟踪目标的二进制表示，且可使用基于豪斯多夫距离(Hausdorff distance)的搜索来在图像的若干区域中搜索对象。对于目标的二进制表示(模型)，可用模型历史的概念来扩增从高斯平滑化图像的标准坎尼边缘检测器(canny edge detector)的输出。在每一帧处，可使用来自当前图像的坎尼边缘及当前模型来对每一目标执行豪斯多夫搜索。此外，可执行仿射估计以大致得出净背景运动。从这两个搜索的结果，可搜集关于目标的信息，且可使用所述信息来大致得出目标的运动并且在目标的区域中将背景与运动分离开来。为能够处置危险性/不寻常的条件(例如被遮挡的对象进入阴影中，对象离开帧，或相机图像失真提供不良图像质量)，可保持关于目标的历史数据，例如目标的过去运动及大小改变、目标的特征性视图(在所有时间存在的快照，其提供已跟踪目标的不同方式的准确表示)，及在过去的匹配质量。
[0138]跟踪目标的历史可不仅仅适用于辅助危险性/不寻常的条件；可靠的运动跟踪方法的那一部分可涉及历史数据，而不仅仅是运动比较的逐帧方法。此历史状态可提供关于如何决定应将何内容视为目标的部分的信息(例如，以相同速度移动的接近于对象移动的事物应并入所述对象中)，且通过关于运动及大小的信息，所述方法可预测性地估计丢失的对象可能去往何处，或其可能重新出现于何处(其始终适用于恢复离开帧且在时间上稍后重新出现的目标)。
[0139]运动跟踪方法中的固有挑战可能由以下事实引起:相机可具有任意移动(相较于固定相机)，其使得难以开发可处置相机运动的不可预测改变的跟踪系统。可使用具计算效益的仿射背景估计方案来提供关于相机及场景的运动的信息。
[0140]根据本发明的方面，可执行时间t的图像到时间t+dt的图像的仿射变换，其允许使两个图像的运动相关。此背景信息允许所述方法从时间t的图像及仿射变换(其可为净场景运动的近似)合成时间t+dt的图像。此合成图像可适用于产生新模型信息及从模型空间移除背景杂物，因为可采用在t+dt的实际图像与在t+dt处所产生的图像的差异来从目标周围的空间移除图像特征。
[0141]除使用仿射变换作为清除搜索空间的工具之外，其还可用以归一化目标的坐标移动:通过具有跟踪背景可如何移动的向量及跟踪目标可如何移动的向量，可采用所述两个向量的差异来产生描述目标相对于背景的运动的向量。此向量允许所述方法预测性地匹配目标应处的位置，且预测危险条件(例如，在运动的方向上向前看可提供关于即将出现的障碍物的线索，并且保持跟踪对象在危险条件下可能处于的位置。当对象进入危险条件时，所述方法可能仍能够估计背景运动，且结合模型的先前移动的知识来使用所述背景运动猜测模型可能重新出现于何处或重新进入帧中。
[0142]背景估计可为对象的长期跟踪的关键因素。注意，可在不进行背景估计的情况下执行短期跟踪，但在一段时间之后，在没有对背景的良好估计的情况下，可能难以有效地应对对象失真及危险。
[0143]根据本发明的方面，使用豪斯多夫距离作为匹配运算符的优点之一是其在匹配期间对于形状的改变可能非常耐受，但使用豪斯多夫距离作为匹配运算符可能需要更准确地定义所跟踪的对象。
[0144]在一种方法中，可使用从时间t+Ι图像获得新模型的基于直接扩张的方法(straight dilat1n-based method)。注意，在可能存在接近于对象的非对象特征(其出现频率很高)的一些情形中，扩张方法可能并不有效，因为其可能将整个场景缓慢地并入模型中。因此，可采用从帧到帧更新模型的方法，所述方法可耐受模型形状的改变，但并不过于宽松以致将非模型像素并入到模型中。一个示范性实施方案为使用背景移除与将先前模型添加到当前模型匹配窗及采用看似稳定的像素以及其周围的新像素(其随时间推移可因为其可能不稳定而从模型消除或并入到模型中)的组合。此方法可有效地保持模型在图像中相对清洁而无杂物。举例来说，通过此方法，接近于卡车的道路不再被逐像素地拉入模型中。注意，模型可能显得臃肿，但此可为建构模型的方式的历史效果的结果，但其还可具有使搜索结果更为确定的特征，因为此方法可使更多模型像素可能在下一帧中匹配。
[0145]注意，在每一帧处，可能存在大量计算要执行。根据一些实施方案，移动装置可经配置以执行平滑化/特征提取、匹配每一目标(例如每模型一个匹配)的豪斯多夫，以及仿射背景估计。这些操作中的每一者可个别地在计算上非常昂贵。为实现在移动装置上的实时执行，设计可经配置以使用尽可能多的并行性。
[0146]根据本发明的一实施例，一种用于在移动装置上提供扩增实境的方法包括:检测在所述移动装置的相机的视野内的有形现实世界对象；提供对应于所述有形现实世界对象的扩增实境对象，其中将所述扩增实境对象制成动画包含:在所述移动装置的显示器上提供交互式显示组件且经由所述移动装置的音频输出提供交互式音频组件；分析所述装置的用户的发声以确定对用户发声的响应；以及响应于所述发声而修改所述扩增实境对象以提供对所述用户发声的响应。
[0147]根据本发明的另一实施例，一种用于在移动装置上提供扩增实境的方法包括:检测在所述移动装置的相机的视野内的有形现实世界对象；提供对应于所述有形现实世界对象的扩增实境对象，其中提供所述扩增实境对象包含:在所述移动装置的显示器上提供交互式显示组件且经由所述移动装置的音频输出提供交互式音频组件；跟踪所述装置相对于所述有形现实世界对象的移动；确定所述有形现实世界对象是否仍在所述相机的视野内；响应于所述有形现实世界对象不再处于所述相机的视野内而分析所述装置的用户的发声以评估用户的投入程度；以及在所述投入程度超过预定阈值的情况下提供与所述扩增实境对象相关联的交互式音频组件，同时不再于所述移动装置的显示器上提供显示组件。注意，所述移动装置可为移动电话或平板计算机。
[0148]根据本发明的又一实施例，一种用于在移动装置上提供扩增实境的方法包括:检测在所述移动装置的相机的视野内的有形现实世界对象；提供对应于所述有形现实世界对象的扩增实境对象，其中将所述扩增实境对象制成动画包含:在所述移动装置的显示器上提供交互式显示组件且经由所述移动装置的音频输出提供与第一主题相关联交互式音频组件；分析所述装置的用户的发声以确定所述用户的投入程度；以及响应于所述用户的投入程度超过预定阈值而提供与所述第一主题相关联的额外交互内容。所述方法进一步包括响应于所述用户的投入程度不超过所述预定阈值而将所述扩增实境对象制成动画以提供与第二主题相关联的交互内容。
[0149]根据本发明的又一实施例，一种用于在移动装置上提供扩增实境的方法包括:检测在所述移动装置的相机的视野内的有形现实世界对象；将对应于所述有形现实世界对象的扩增实境对象制成动画，其中将所述扩增实境对象制成动画包含:在所述移动装置的显示器上提供交互式显示组件且经由所述移动装置的音频输出提供与第一主题相关联交互式音频组件；分析与所述扩增实境对象交互的多个用户的发声；基于所述发声从所述多个用户中确定与所述移动装置相关联的主用户；以及响应于所述发声而将所述扩增实境对象制成动画以提供情境相关内容，其中当选择情境相关内容时，由主用户提供的发声被给予比由其它用户提供的发声更大的权重。确定与所述移动装置相关联的主用户的方法包含:分析所述多个用户的发声以识别具有最响发声的用户；以及使具有所述最响发声的用户与所述移动装置相关联。
[0150]根据本发明的又一实施例，一种用于在移动装置上提供共享扩增实境体验的方法包括:在第一移动装置处检测接近于所述第一移动装置的第二移动装置的存在；响应于检测到所述第二移动装置接近于所述第一移动装置，确定所述第二移动装置是否正显示与由所述第一移动装置正显示的扩增实境内容相关联的扩增实境内容；分析多个用户的发声；基于所述发声确定与所述第一移动装置相关联的主用户；以及定制所述扩增实境内容以响应于所述发声而提供情境相关内容，其中当定制所述扩增实境内容时，由所述主用户提供的发声被给予比由其它用户提供的发声更大的权重。
[0151]注意，至少接下来的三个段落、图1到2、图6及其对应描述提供:用于接收用于跟踪多个对象的图像数据的装置；用于从所述多个对象中识别待选择的对象的装置；用于至少部分基于一组选择准则确定是否已选择所述对象的装置；以及用于在确定已选择所述对象的情况下致使随所述对象显现扩增的装置。
[0152]本文所述的方法和移动装置可以取决于应用通过各种装置实施。举例来说，这些方法可以用硬件、固件、软件或其组合实施。对于硬件实施方案，处理单元可以在一或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSro)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文所述的功能的其它电子单元或其组合内实施。本文中，术语“逻辑控制”涵盖通过软件、硬件、固件或组合实施的逻辑。
[0153]对于固件及/或软件实施方案，可用执行本文中所描述的功能的模块(例如，程序、功能等等)实施方法。任何有形地体现指令机器可读媒体都可以用于实施本文所述的方法。举例来说，软件代码可存储在存储器中并且通过处理单元执行。存储器可实施在处理单元内或处理单元外部。如本文所使用，术语“存储器”是指任何类型的长期、短期、易失性、非易失性或其它存储装置且不限于任何特定类型的存储器或数目的存储器，或任何类型的存储存储器的媒体。
[0154]如果在固件及/或软件中实施，则可将所述功能作为一或多个指令或代码存储在计算机可读媒体上。实例包含编码有数据结构的计算机可读媒体及编码有计算机程序的计算机可读媒体。计算机可读媒体可采用制品的形式。计算机可读媒体包含物理计算机存储媒体。存储媒体可为可由计算机存取的任何可用媒体。作为实例而非限制，此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置，磁盘存储装置或其它磁性存储装置，或任何其它可用于存储指令或数据结构的形式的期望程序代码并且可通过计算机存取的媒体；在本文中使用时，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)，软性磁盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。
[0155]除了存储在计算机可读媒体上之外，还可将指令及/或数据提供为通信设备中包含的发射媒体上的信号。举例来说，通信设备可包含具有指示指令及数据的信号的收发器。所述指令及数据经配置以致使至少一个处理器实施权利要求书中概述的功能。即，通信设备包含具有指示用以执行所揭示的功能的信息的信号的发射媒体。在第一时间，通信设备中所包含的发射媒体可包含用以执行所揭示的功能的信息的第一部分，而在第二时间，通信设备中所包含的发射媒体可包含用以执行所揭示的功能的信息的第二部分。
[0156]本发明可以配合例如无线广域网(WWAN)、无线局域网(WLAN)、无线个人局域网(WPAN)等各种无线通信网络实施。术语“网络”与“系统”常常可互换使用。术语“位置”与“地点”常常可互换使用。WWAN可为码分多址(CDMA)网络、时分多址(TDMA)网络、频分多址(FDMA)网络、正交频分多址(0FDMA)网络、单载波频分多址(SC-FDMA)网络、长期演进(LTE)网络、WiMAX(IEEE 802.16)网络等。CDMA网络可实施一或多种无线电接入技术(RAT)，例如 cdma2000、宽带 CDMA(ff-CDMA)等等。Cdma2000 包含 IS-95、IS2000 和 IS-856标准。TDMA网络可以实施全球移动通信系统(GSM)、数字高级移动电话系统(D-AMPS)或某种其它RAT。GSM及W-CDMA描述于来自名为“第三代合作伙伴计划”(3GPP)的协会的文献中。Cdma2000描述于来自名为“第三代合作伙伴计划2”(3GPP2)的协会的文献中。3GPP及3GPP2文献可公开获得。WLAN可为IEEE802.llx网络，且WPAN可为蓝牙网络、IEEE 802.15x或某种其它类型的网络。所述技术还可结合WWAN、WLAN及/或WPAN的任何组合来实施。
[0157]移动台是指例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)个人信息管理器(PM)、个人数字助理(PDA)、膝上型计算机或能够接收无线通信及/或导航信号的其它合适的移动装置等装置。术语“移动台”还希望包含例如通过短程无线、红外线线连接或其它连接(不管是卫星信号接收、辅助数据接收和/或在所述装置或在所述PND处发生的与位置相关的处理)与个人导航装置(PND)通信的装置。而且，“移动台”希望包含所有装置，包含无线通信装置、计算机、膝上型计算机等，其能够例如经由因特网、W1-Fi或其它网络与服务器通信，并且不管是在所述装置处、服务器处还是在与所述网络相关联的另一装置处发生卫星信号接收辅助数据接收及/或与位置相关的处理。以上各者的任何可操作组合也被视为“移动台”。
[0158]某个事物被“优化”、“需要”或其它说法并不指示本发明仅适用于被优化的系统或其中存在所述“所需”元件的系统(或其它归因于其它说法的局限性)。这些名称仅指代特定描述的实施方案。当然，许多实施方案是可能的。所述技术可以与除了本文中论述的协议之外的协议一起使用，包含正在开发或有待开发的协议。
[0159]相关领域的技术人员将认识到，可以使用所揭示的实施例的许多可能修改和组合，同时仍然采用相同的基本基础机构和方法。出于解释的目的，前文描述是参考具体实施例撰写的。然而，上文的说明性论述并不希望是穷举的或将本发明限于所揭示的精确形式。鉴于以上教示，许多修改及变化均是可能的。选择且描述所述实施例是为了阐释本发明的原理及其实际应用，且为了使得所属领域的技术人员能够以适合于所涵盖的特定用法的各种修改最好地利用本发明及各种实施例。
【权利要求】
1.一种适用于具有扩增实境功能的装置ARD的方法，其包括: 接收用于跟踪多个对象的图像数据；从所述多个对象中识别待选择的对象；至少部分基于一组选择准则确定是否已选择所述对象；以及在确定已选择所述对象的情况下致使随所述对象显现扩增。
2.根据权利要求1所述的方法，其中所述跟踪包括3维跟踪，包括: 确定所述多个对象相对于所述ARD的相对姿势；以及使用所述多个对象相对于所述ARD的所述相对姿势更新所述多个对象的状态，其中所述多个对象的所述状态包含所述多个对象的关系信息。
3.根据权利要求2所述的方法，其中所述确定所述多个对象相对于所述ARD的相对姿势包括: 检测所述多个对象相对于所述多个对象的先前所接收图像数据的姿势。
4.根据权利要求2所述的方法，其中所述关系信息包括以下各者中的至少一者: 所述多个对象之间在游戏中的关系；所述多个对象之间在故事中的关系；以及所述多个对象之间相对于背景的关系。
5.根据权利要求1所述的方法，其中识别待选择的对象包括: 使用所述图像数据分析所述多个对象；以及识别最接近于由所述图像数据表示的图像的中心的所述对象。
6.根据权利要求1所述的方法，其中识别待选择的对象进一步包括: 致使所述图像数据中的所述多个对象显现在所述ARD的显示器上；以及识别覆盖所述ARD的所述显示器的大多数中心像素的所述对象。
7.根据权利要求1所述的方法，其中确定是否已选择所述对象进一步包括: 测量所述对象与所述ARD之间的相对速度；以及测量所述对象相对于所述ARD固定的时间量。
8.根据权利要求1所述的方法，其中确定是否已选择所述对象进一步包括: 接收音频命令；以及测量所述音频命令的振幅。
9.根据权利要求1所述的方法，其中所述组选择准则包括以下各者中的至少一者: 所述对象在所述ARD的视图中达预定时间周期；所述对象在所述ARD的视图中且所述对象与所述ARD之间的相对速度低于预定阈值；以及所述对象在所述ARD的视图中且音频命令的振幅超过预定值。
10.根据权利要求1所述的方法，其中致使所述扩增显现包括: 在所述ARD的显示器中呈现所述对象与所述ARD之间的交互。
11.根据权利要求1所述的方法，其中所述识别包括确定所述对象已被放大。
12.根据权利要求1所述的方法，其中所述确定包括: 致使指示符被呈现，其中所述指示符指示已识别所述对象；以及响应于所述指示符的呈现而确定所述对象是否被取消选择。
13.根据权利要求12所述的方法，其中确定所述对象是否被取消选择包括: 在所述对象相对于所述ARD的位置在呈现所述指示符之后维持阈值时间量的情况下确定已选择所述对象。
14.根据权利要求12所述的方法，其中所述指示符包括以下各者中的至少一者: 图标；所述对象在所述ARD的显示器上的振动；当所述对象居中于所述ARD的所述显示器上时所述ARD的振动；以及经过的时间的表示。
15.根据权利要求1所述的方法，其进一步包括: 致使场景的图像显示在所述ARD的显示器上，所述场景包含一或多个对象；致使用从所述多个对象中识别待选择的对象的指示符扩增所述图像；以及确定在用所述指示符扩增所述图像之后所述对象是否已被取消选择。
16.一种具有扩增实境功能的装置ARD，其包括: 包含处理逻辑的控制单元，所述处理逻辑包括: 经配置以接收用于跟踪多个对象的图像数据的逻辑；经配置以从所述多个对象中识别待选择的对象的逻辑；经配置以至少部分基于一组选择准则确定是否已选择所述对象的逻辑；以及经配置以在确定已选择所述对象的情况下致使随所述对象显现扩增的逻辑。
17.根据权利要求16所述的具有扩增实境功能的装置，其中跟踪包括3维跟踪，包括: 经配置以确定所述多个对象相对于所述ARD的相对姿势的逻辑；以及经配置以使用所述多个对象相对于所述ARD的所述相对姿势更新所述多个对象的状态的逻辑，其中所述多个对象的所述状态包含所述多个对象的关系信息。
18.根据权利要求17所述的具有扩增实境功能的装置，其中经配置以确定所述多个对象相对于所述ARD的相对姿势的所述逻辑包括: 经配置以检测所述多个对象相对于所述多个对象的先前所接收图像数据的姿势的逻辑。
19.根据权利要求17所述的具有扩增实境功能的装置，其中所述关系信息包括以下各者中的至少一者: 所述多个对象之间在游戏中的关系；所述多个对象之间在故事中的关系；以及所述多个对象之间相对于背景的关系。
20.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以识别待选择的对象的逻辑包括: 经配置以使用所述图像数据分析所述多个对象的逻辑；以及经配置以识别最接近于由所述图像数据表示的图像的中心的所述对象的逻辑。
21.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以识别待选择的对象的逻辑进一步包括: 经配置以致使所述图像数据中的所述多个对象显现在所述ARD的显示器上的逻辑；以及经配置以识别覆盖所述ARD的所述显示器的大多数中心像素的所述对象的逻辑。
22.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以确定是否已选择所述对象的逻辑进一步包括: 经配置以测量所述对象与所述ARD之间的相对速度的逻辑；以及经配置以测量所述对象相对于所述ARD固定的时间量的逻辑。
23.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以确定是否已选择所述对象的逻辑进一步包括: 经配置以接收音频命令的逻辑；以及经配置以测量所述音频命令的振幅的逻辑。
24.根据权利要求16所述的具有扩增实境功能的装置，其中所述组选择准则包括以下各者中的至少一者: 所述对象在所述ARD的视图中达预定时间周期；所述对象在所述ARD的视图中且所述对象与所述ARD之间的相对速度低于预定阈值；以及所述对象在所述ARD的视图中且音频命令的振幅超过预定值。
25.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以致使所述扩增被显现的逻辑包括: 经配置以在所述ARD的显示器中呈现所述对象与所述ARD之间的交互的逻辑。
26.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以识别的所述逻辑包括经配置以确定所述对象已被放大的逻辑。
27.根据权利要求16所述的具有扩增实境功能的装置，其中经配置以确定的所述逻辑包括: 经配置以致使指示符被呈现的逻辑，其中所述指示符指示已识别所述对象；以及经配置以响应于所述指示符的呈现而确定所述对象是否被取消选择的逻辑。
28.根据权利要求27所述的具有扩增实境功能的装置，其中经配置以确定所述对象是否被取消选择的逻辑包括: 经配置以在所述对象相对于所述ARD的位置在呈现所述指示符之后维持阈值时间量的情况下确定已选择所述对象的逻辑。
29.根据权利要求27所述的具有扩增实境功能的装置，其中所述指示符包括以下各者中的至少一者: 图标；所述对象在所述ARD的显示器上的振动；当所述对象居中于所述ARD的所述显示器上时所述ARD的振动；以及经过的时间的表示。
30.根据权利要求16所述的具有扩增实境功能的装置，其进一步包括: 经配置以致使场景的图像显示在所述ARD的显示器上的逻辑，所述场景包含一或多个对象；经配置以致使用从所述多个对象中识别待选择的对象的指示符扩增所述图像的逻辑；以及经配置以确定在用所述指示符扩增所述图像之后所述对象是否已被取消选择的逻辑。
31.—种存储用于由一或多个计算机系统执行的指令的非暂时性媒体，所述指令包括: 用于接收用于跟踪多个对象的图像数据的指令；用于从所述多个对象中识别待选择的对象的指令；用于至少部分基于一组选择准则确定是否已选择所述对象的指令；以及用于在确定已选择所述对象的情况下致使随所述对象显现扩增的指令。
32.—种设备，其包括: 用于接收用于跟踪多个对象的图像数据的装置；用于从所述多个对象中识别待选择的对象的装置；用于至少部分基于一组选择准则确定是否已选择所述对象的装置；以及用于在确定已选择所述对象的情况下致使随所述对象显现扩增的装置。
33.根据权利要求32所述的设备，其中所述跟踪包括3维跟踪，包括: 用于确定所述多个对象相对于所述ARD的相对姿势的装置；以及用于使用所述多个对象相对于所述ARD的所述相对姿势更新所述多个对象的状态的装置，其中所述多个对象的所述状态包含所述多个对象的关系信息。
34.根据权利要求32所述的设备，其中用于识别待选择的对象的装置包括: 用于使用所述图像数据分析所述多个对象的装置；以及用于识别最接近于由所述图像数据表示的图像的中心的所述对象的装置。
35.根据权利要求32所述的设备，其中用于确定是否已选择所述对象的装置进一步包括: 用于测量所述对象与所述ARD之间的相对速度的装置；以及用于测量所述对象相对于所述ARD固定的时间量的装置。
36.根据权利要求32所述的设备，其中用于确定是否已选择所述对象的指令进一步包括: 用于接收音频命令的装置；以及用于测量所述音频命令的振幅的装置。
37.根据权利要求32所述的设备，其中所述组选择准则包括以下各者中的至少一者: 所述对象在所述ARD的视图中达预定时间周期；所述对象在所述ARD的视图中且所述对象与所述ARD之间的相对速度低于预定阈值；以及所述对象在所述ARD的视图中且音频命令的振幅超过预定值。
38.根据权利要求32所述的设备，其中用于致使所述扩增被显现的装置包括: 用于在所述ARD的显示器中呈现所述对象与所述ARD之间的交互的装置。
【文档编号】G06T19/00GK104508597SQ201380039208
【公开日】2015年4月8日申请日期:2013年6月28日优先权日:2012年7月26日
【发明者】维吉尼亚·沃克·基廷, 迈克尔·盖尔沃茨, 佩尔·O·尼尔森申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：维吉尼亚·沃克·基廷;迈克尔·盖尔沃茨;佩尔·O·尼尔森;
技术所有人：高通股份有限公司;
我是此专利的发明人

上一篇：姿势估计装置、姿势估计方法以及姿势估计程序的制作方法
上一篇：维持扩增的连续性的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。