在虚拟环境中选择对象的方法

文档序号：6425619阅读：215来源：国知局

专利名称：在虚拟环境中选择对象的方法
技术领域：
本发明涉及提供用户与虚拟环境之间的交互作用的用户界面的领域，且更具体地涉及在虚拟环境中使用代表用户的化身(avatar)的用户界面的领域。
背景技术：
按照现有技术，存在不同的通信应用程序使用户能够例如通过代表用户的化身的媒介与远程人员和/或对象交互作用，该化身涉及虚拟世界，而与其关联的用户涉及真实世界。然后，位于远程区域(例如，在不同房屋，在不同城镇或在不同国家)的不同用户可使用一个或多个通信应用程序(诸如像在线游戏、社交网等)通过他们各自化身的媒介进行通信。每个应用程序用户通过化身来表示，该化身重新改编(retranscribe)他的语音和 /或姿势和/或情绪以便将它们发送到应用程序的其它用户。当用户使用的通信应用程序被安装在PC(个人电脑)型计算机上时，自然地利用例如像键盘和鼠标一样的简单且令人愉快的控制设备来进行化身的控制，这使得用户与虚拟世界的交互作用能够易于管理。然而，当通信应用程序驻留于与例如平板屏幕(LCD、等离子体)型或投影屏幕型的显示设备连接的机顶盒时，用户通常正坐在他的起居室中的扶椅或沙发上，且不是很容易使用例如在计算机上使用的那些控制设备。然后可借助指引设备来进行用户与他的化身之间的交互作用。像Gyration公司销售那些一样的陀螺遥控单元或陀螺鼠标给出了这种设备的示例。使用姿势受控界面来获得更令人愉快的交互，而不需要用户对任何设备的操纵。在这些界面类型中，安装在解码器或电视机上的一个或多个相机对用户摄像，拍摄他的姿势，通过图像处理分析他的姿势以便根据预定词汇解释分类它们，从而推断出相关的命令。然而，在该用户界面类型中，在虚拟环境中选择对象仍旧有问题。事实上，电视机屏幕上虚拟对象的减小尺寸表示并不能通过指引来指定。指引方向的确定上的不精确性通常不认可所指引对象的非模糊检测。

发明内容
本发明的目的是克服现有技术的这些缺陷中的至少一个。更具体地，本发明的目的在于显著地提出一种基于姿势命令的简单且令人愉快的用户界面。本发明涉及一种在第一虚拟环境中选择第一对象的方法，所述第一对象在所述第一环境中用小于阈值的值的大小表示。所述方法包括以下步骤-估计与用户的指引姿势相关联的方向，-根据所述估计方向确定第二对象，所述第二对象具有大于所述阈值的值大小，以及-根据第二确定对象选择第一对象。有利地，所述第二对象属于真实环境。根据特定特征，所述第二对象属于第二虚拟环境。
根据具体特征，所述真实环境以三维映射。有利地，所述第一对象属于第一对象组，所述第二对象属于第二对象组，并且所述第一对象的所述选择包括使用建立每个第一对象与第二对象之间的关联的表格。按照另一特征，所述方法包括以下步骤使用摄像机获取所述指引姿势以及至少一项深度信息。有利地，所述第二对象的确定包括以下步骤计算射线和与所述射线相遇的第一元素之间的交叉点，所述射线将做出所述指引姿势的所述用户的身体部分作为它的原点，将与指引姿势相关联的所述方向作为它的方向，将所述指引姿势的方位作为它的方位。根据特定特征，指引姿势的所述方向是通过检测做出所述指引姿势的所述用户的身体部分以及通过在三维空间估计所述身体部分的纵轴来确定的。本发明还涉及多媒体终端，所述多媒体终端包括用于接收表示拍摄画面的信号的单元和画面处理单元，所述画面处理单元包括-用于估计与用户的指引姿势相关联的方向的部件，-用于根据所估计的方向确定第二对象的部件，所述第二对象具有大于阈值的值大小，以及-用于根据所述确定的第二对象选择第一对象的部件，所述第一对象属于第一虚拟环境并且具有小于所述阈值的值。

阅读参考附图的下列描述，本发明将更好理解，并且其它具体特征和优点将会浮现，附图中图1示出了根据本发明特定实施例的具有控制虚拟世界中其化身的用户的真实环境，图2示出了根据本发明特定实施例的估计图1中用户做出的姿势的方向的方法，图3图解地示出了根据本发明特殊实施例的用于实施本发明的多媒体终端的结构，以及图4示出了根据本发明特殊实施例的，在图3的多媒体终端中实施的在虚拟环境中选择对象的方法。
具体实施例方式图1示出了真实环境1，其中用户10通过在虚拟环境中代表他的化身110的媒介使用虚拟环境与远程对话者通信。虚拟环境对应于真实(例如，房屋、花园、停车场、建筑物、城镇等的视频)或者虚构环境的任何图形表示，或者对应于由计算机生成图像所生成的任何环境，或者对应于真实或虚构环境的任何投影，例如全息图。参考图1示出的真实环境1对应于用户10的起居室，用户10坐在他的沙发16上观看显示设备(例如等离子体显示板或LCD (液晶显示器))屏幕。与用户的真实环境1对应的用户的起居室包括多个对象，它们具体为沙发16、两个音频扬声器14和15、门13、扶椅12、咖啡桌17、显示设备11、多媒体终端18 (例如数字解码器，例如卫星或陆地(陆地数字电视TNT)、游戏控制台、多媒体电话、PC写字台等，多媒体终端连接到或不连接到xDSL网关)、配备有深度传感器的相机19，该深度传感器集成或不集成在相机中(例如3D深度网络摄像头)。相机19通过有线或无线连接连接到多媒体终端18。多媒体终端18通过有线或无线连接连接到显示设备11。使用户10能够通过他的化身110的媒介与远程对话者通信的应用程序安装在多媒体终端中，并且通信应用程序所显示的视频内容在显示设备11上显示。在显示设备上显示的视频内容代表包括代表用户10的化身110涉及的虚拟环境100。虚拟环境100包括一个或多个虚拟对象，其中明显地存在门112和电视机屏幕111。有利地，虚拟对象对应于真实或虚构对象的任何图形或全息表示，该真实对象已被本领域技术人员已知的任何装置(例如摄像机、相机)拍摄或由画面合成生成。在虚拟环境100中化身110的位移由用户10控制。有利地，通过遥控器130的媒介控制化身的位移，所述位移由例如使用方向键(丨，丨，一和一)、遥控器发送的由多媒体终端18接收并解码的信号来命令。根据变型，通过用户发送的口头命令来控制化身的位移。多媒体终端18通过麦克风的中介来接收然后解码该口头命令，所述麦克风集成到多媒体终端或者从多媒体终端拆除并通过有线或无线连接连接到后者(例如，麦克风集成到相机19或显示设备11或麦克风是独立的设备)。根据另一变型，化身110的位移由用户做出的姿势来控制。这些姿势在被发送到多媒体终端18以便解码和编译之前被相机19拍摄，以便提取相关的深度信息。在虚拟环境100中的它的进程期间，引导化身110从虚拟环境中选择虚拟对象，例如选择门112以便从一个虚拟环境穿到另一个(例如，从化身到处移动的建筑物的一个房间穿到另一个房间)或者再次选择任何描述的对象以便将其在虚拟环境中从一个空间移位到另一个空间。为了选择门112，用户利用他身体的任何部分，例如他的一只手臂，指向属于真实环境1的真实对象，例如橱柜。由相机19在该相机19拍摄的画面序列中检测用户10 做出的指引姿势。指引姿势的检测有利地使用机器学习技术来执行，所述机器学习技术已经广泛用于计算机视觉(例如，画面或视频中的面部检测)中的检测和分类的大量应用。根据这种技术，将包含指引姿势的画面与包含其手臂延伸的人员的一组画面(也称作积极画面)的大量知识库画面(例如10000个画面)以及包含不呈现具有延伸手臂的人员的一大组画面(也称作消极画面)的大量知识库画面相比较。使用这种比较，对于相机19拍摄的画面计算区分性属性，这些属性是从预定画面或画面区域的描述符族中选择的。通过例如 AdaBoost算法之类的机器学习算法，离线确定将这些区分性属性的值范围与其手臂延伸的人员的画面类别相关联的标准。如果在拍摄画面上满足该标准，则将拍摄画面解释为其内容表示做出指引姿势的人员的画面。在相反情况下，将拍摄画面与包括消极画面的知识库画面相关联，并且拍摄画面被解释为不是其内容表示做出指引姿势的人员的画面。实践中，在拍摄画面内的用户的画面的位置及其维数都是未知的。因此，在相机19拍摄的画面内，对于很可能包含其手臂延伸的人员的子画面的位置和尺寸组，必须重复上述的检测操作。在拍摄画面被解释为其内容表示做出指引姿势的人员的画面的情况下，通过画面分析来提取包含指引姿势的画面部分，在这种情况下为根据图1的示例的延伸手臂。为此目的可以重新使用用于检测具有上述延伸手臂的人员的机器学习技术，这次在具有延伸手臂的人员的画面内部应用该延伸手臂的检测。使用与包含指引姿势的画面部分的像素相关的深度信息，使用如图2中所示的3D回归技术在现实环境1的3维(3D)空间内确定与指引姿势相关联的方向，其中我们受到对二维空间的清晰度方面的限制。例如使用对与检测
5到的延伸手臂对应的画面的点的线性回归模式来执行指引方向的这种估计。指引姿势的方向有利地与做出指引姿势的用户10的身体部分的纵轴对应。在表示用户的延伸手臂的子画面内，也通过等同于先前的机器学习技术来检测用户的手，以便确定手臂的末端，即，确定指引姿势的相关末端以定义指引方位。通过使用3D几何的简单规则，确定与所计算的回归射线(从指引姿势的确定方向和指引姿势的确定方位出发，射线的原点对应于指引方向的相关末端)相遇的现实环境1的第一现实对象和所计算的回归射线之间的交叉点。为此，由用户10或者由其他人使用例如映射应用程序来以3D事先映射现实环境1，即，在现实环境的3D空间与它们各自的识别符和坐标(X，y和ζ)相关地识别并定位现实环境1的现实对象。根据变型，使用环境捕捉部件(例如与深度传感器相关联的相机)和分析现实环境的拍摄画面的处理部件(例如适配的映射应用程序)，以3D自动地映射现实环境。使用现实环境的3D映射以及所计算的回归射线，易于确定与回归射线相遇的第一现实对象是什么并且随之确定用户10的指引姿势所指向的对象。根据变型，如果没有现实对象与回归射线相遇，则被选的现实对象是最接近回归射线的现实对象，即位于距回归射线小于阈值的距离(例如，20cm、50cm或Im)处的现实对象。小于阈值的一组距离有利地形成容限带，该容限带的形式是其半径等于阈值的围绕回归射线的圆柱。有利地，现实环境的3D地图中映射的现实对象在尺寸大于临界尺寸，即，大于阈值(例如，它们周围的平行六面体的最小三维不小于预定值，例如40cm、50cm或60cm或者又一次对象在与指引方向垂直的平面上的最小二维投影不小于40cm、50cm或60cm)，从而指引姿势的方向的确定的不精确性对所指引的现实对象的选择没有影响。事实上，从用于估计指引姿势的方向的这些技术来看，太小的对象，即尺寸小于阈值的对象，只能通过使这些对象与回归射线之间交叉来确保确定。有利地，根据表示指引方向的估计的不精确性的信息来确定阈值。一旦已经确定并识别由指引姿势指向的现实对象，则通过代表用户10的化身110 依次选择与其相关联的虚拟世界的虚拟对象。根据图1的示例，化身110选择门112，用户用他的手臂指向与门112相关联的橱柜12。为了产生虚拟环境的虚拟对象(也称作第一对象)与现实环境1的对象(也称作第二对象)之间的关联，例如通过用户10建立关联(或者对应)表格。例如LUT(查找表)类型的关联表格有利地在第一对象与第二对象之间建立一对一关联，第一对象与一个或多个第二对象关联而不与另一个第一对象关联。因此，门 112例如与橱柜12和扬声器14相关联，电视机屏幕111与咖啡桌17相关联。根据未示出的有利变型，用户10通过他的指引姿势指向第二对象，该第二对象属于不同于第一虚拟环境100的第二虚拟环境。该第二虚拟环境与例如包括虚拟对象的合成画面对应，每个虚拟对象具有大于阈值的尺寸使得它们能够通过用户10的身体部分的指向来被选择。该第二虚拟环境被例如通过视频投影仪投影到现实环境1的墙壁或者足够大的投影屏幕。这种变型的优点在于，不必映射第二虚拟环境，这不同于针对现实环境所做的第二虚拟环境的两个虚拟对象通过画面合成组成，它们各自的位置默认为已知，第二虚拟对象和回归射线之间的交叉点的确定简单且自动。根据另一变型，第二虚拟环境是第一虚拟环境到投影屏幕的投影，所述投影以第一投影虚拟对象的尺寸大于阈值的方式进行，由此第一投影虚拟对象变成第二对象，从而它们能够通过指引来选择。关于通过不同显示设备(例如分别为显示设备11和视频投影仪)用不同尺寸显示的相同对象，第一对象和第二对象之间的关联由此不再必要。
6
根据另一种变型，用户10通过口头命令的发音或者通过在遥控器上按下按键来验证他的指引姿势。直到接收到验证命令，多媒体终端随后才开始分析所获得的画面以确定指引的方向。这种变型的优势是使得检测表示指引姿势的画面必需的画面分析最小化。自然地，做出指引姿势的用户10的身体部分不限于参考图1描述的那个，S卩，不限于手臂，而是也扩展到用户的任何身体部分，例如腿或一只手的手指。图2示出了根据本发明特殊实施例的估计用户10做出的指引姿势的方向的方法。为了简明，图2用图表示出了确定身体部分的纵轴和通过在二维空间(χ和y)延伸指引姿势的方向的结果。有利地，该纵轴在三维(x，y和ζ)空间延伸，现实环境1是三维空间。点 200与属于做出指引姿势的用户的身体部分(例如用户的手臂)的点对应，这些点是从相机 19拍摄的指引姿势的画面(或者更具体地，从其内容与做出指引姿势的身体部分对应的画面部分)中确定的，并且使用与表示做出指引姿势的用户的身体部分的画面部分的每个像素相关联的深度信息。该深度信息是通过与相机19相关联的深度传感器来拍摄的，并且该信息被有利地记录在深度地图(或ζ地图)中。从点200的三维星座来看，指引姿势的纵轴或方向通过线性回归或者通过多线性回归来确定，每个点200具有坐标(Xi，Yi和Zi)，坐标Zi未在图2中示出。表示指引姿势的方向的直线20以下列形式通过两个方程式系统来表示
权利要求
1.在第一虚拟环境(1)中选择第一对象(11 的方法，所述第一对象(11 在所述第一环境(1)中用小于阈值的值的大小表示，其特征在于，所述方法包括步骤-估计Gl)与用户的指引姿势相关联的方向(120)，-根据所估计的方向(120)确定0 第二对象(12)，所述第二对象具有大于所述阈值的值的大小，以及-根据所述确定的第二对象(1 选择^幻所述第一对象(112)。
2.如权利要求1的方法，其特征在于，所述阈值是根据表示方向(120)的所述估计 (41)的不精确性的信息而确定的。
3.如权利要求2的方法，其特征在于，所述阈值与表示界定第一对象(112)的方框的最小维数对应，所述最小维数大于一预定值。
4.如权利要求1的方法，其特征在于，所述第二对象(12)属于真实环境(1)。
5.如权利要求1的方法，其特征在于，所述第二对象属于第二虚拟环境。
6.如权利要求4的方法，其特征在于，所述真实环境以三维映射。
7.如权利要求1到6中任一项的方法，其特征在于，所述第一对象(112)属于第一对象组(111，112)，所述第二对象(12)属于第二对象组(12到17)，并且特征在于，所述第一对象的所述选择包括使用建立每个第一对象与第二对象之间的关联的表格。
8.如权利要求1到6中任一项的方法，其特征在于，所述方法包括以下步骤使用摄像机(19)获取所述指引姿势以及至少一项深度信息。
9.如权利要求1到6中任一项的方法，其特征在于，所述第二对象的确定包括以下步骤计算射线和与所述射线相遇的第一元素之间的交叉点，所述射线将做出所述指引姿势的所述用户的身体部分作为它的原点，将与指引姿势相关联的所述方向作为它的方向，并且将所述指引姿势的方位作为它的方位。
10.如权利要求1到6中任一项的方法，其特征在于，指引姿势的所述方向是通过检测做出所述指引姿势的所述用户的身体部分以及通过在三维空间估计所述身体部分的纵轴 (20)来确定的。
11.多媒体终端(3)，包括用于接收表示拍摄画面的信号的单元和适用于画面处理的中央单元(302)，其特征在于，所述中央单元包括-用于估计与用户的指引姿势相关联的方向(120)的部件，-用于根据所述估计方向(120)确定第二对象(1 的部件，所述第二对象具有大于阈值的值的大小，以及-用于根据所述确定的第二对象(1 选择第一对象(112)的部件，所述第一对象 (112)属于第一虚拟环境(1)并且具有小于所述阈值的值的大小。
全文摘要
本发明涉及一种在第一虚拟环境中选择第一对象的方法，所述第一对象在所述第一环境中用小于阈值的值的大小表示。为了更愉快地选择所述第一对象，所述方法包括以下步骤-估计与用户的指引姿势相关联的方向(120)，-根据所估计的方向(120)确定第二对象(12)，所述第二对象具有大于所述阈值的值大小，以及-根据所确定的第二对象(12)选择所述第一对象(112)。本发明还涉及一种适用于实施所述选择方法的多媒体终端(18)。
文档编号G06F19/00GK102270275SQ20111015052
公开日2011年12月7日申请日期2011年6月7日优先权日2010年6月4日
发明者弗朗索瓦.勒克勒克, 文森特.阿利厄姆, 皮埃里克.乔伊特申请人:汤姆森特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗朗索瓦.勒克勒克;文森特.阿利厄姆;皮埃里克.乔伊特
技术所有人：汤姆森特许公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。