增强视频的装置和方法

文档序号：8004636阅读：278来源：国知局

增强视频的装置和方法【专利摘要】一种生成在视频图像中捕捉的书的状态的内部一致模型的方法，包括：获得视频图像中关于书的对应的多个方面的状态的多个证据；将质量分数与每个证据相关联；生成书的状态的初始模型，其中书的状态被书的物理属性和至少最高分数的证据约束；以及响应于其分数满足相应的预定第一阈值的一个或多个连续的证据顺序地约束模型。【专利说明】增强视频的装置和方法【
技术领域：
】[0001]本发明涉及一种增强视频的装置和方法。【
背景技术：
】[0002]已知一种增强现实系统，其使用耦接到计算机的摄像机以捕捉视频图像，检测捕捉的视频图像的特征，然后响应于检测到的特征，生成以某种方式增强捕捉的视频图像的图形覆盖物以便叠加在捕捉的视频图像上。[0003]参考图1，在典型的增强现实应用中，在将由摄像机捕捉的场景中包括已知大小的所谓的受托标记(fiduciarymarker)800,以便提供可易于检测的特征。[0004]受托标记通常是高对比度(例如，黑和白)且不对称的图案，以便即使在相对较差的图像捕捉条件下(例如，在低分辨率图像捕捉、和较差的光照等的情况下)提供用于图案识别的范围。这种识别通常提供对捕捉的视频图像内的受托标记的位置(X和y轴位置)和旋转(通过标记的不对称性)的估计。[0005]可选地，此外可以通过将捕捉的图像中受托标记的大小与受托标记的已知大小(例如，距离I米时其像素大小)进行比较来估计受托标记到摄像机的距离(其Z轴位置)。类似地，可选地，可以通过将捕捉的图像中受托标记的纵横比与受托标记的已知纵横比进行比较，和/或使用例如检测捕捉的视频图像中受托标记的透视收缩(其中长方形看起来是梯形)或其他失真的其他技术估计受托标记的倾斜度(即其在z方向上对x-y平面的偏移)。[0006]生成的图形覆盖物通常包括可以随后在受托标记上叠加的虚拟图形元素，其中受托标记的估计位置、旋转距离和倾斜度被用于将虚拟图形元素修改为适用。[0007]然后向显示器输出增强的图像。[0008]这个过程的主观效果是输出的视频图像包括代替受托标记的图形元素(例如怪物或者城堡)，其通常复制受托标记的估计位置、旋转、距离和倾斜度。[0009]可替换地，受托标记可以以其他方式使用。例如，图形对象可以相对于受托标记放置而不是覆盖其上，或者受托标记可以被用于使娱乐系统或者其他计算机识别场景的选择对象或区域；例如，在桌子上放置受托标记可以使得娱乐系统识别出该桌子(例如，通过识别在受托标记附近发现的颜色容差内的连续颜色区域)，此后可以移除该受托标记。[0010]然而，将理解在这种增强现实系统中，使得用户共同认为图形覆盖物是捕捉的场景的一部分的用户的暂停的怀疑至少部分依赖于图形覆盖物与场景的某些现实世界方面匹配或交互的可靠性。这种可靠性通常依赖于对场景内受托标记的位置和朝向的估计。[0011]因此，期望减少不能可靠地进行这种估计的场合。【
发明内容】[0012]本发明试图减轻或缓解上述问题。[0013]在第一方面中，根据权利要求1提供生成视频图像中捕捉的书的状态的内部一致模型的方法。[0014]在另一方面中，根据权利要求7提供生成增强现实图像的方法。[0015]在另一方面中，根据权利要求9提供生成视频图像中捕捉的书的状态的内部一致模型的娱乐设备。[0016]在另一方面中，根据权利要求15提供增强现实系统。【专利附图】【附图说明】[0017]在所附权利要求中定义本发明的进一步的各个方面和特征。现在将通过参考附图的示例描述本发明的实施例，其中:[0018]图1是受托标记的示意图。[0019]图2A是根据本发明的实施例的书的示意图。[0020]图2B是根据本发明的实施例的增强视频图像的示意图。[0021]图3是根据本发明的实施例的娱乐设备书的示意图。[0022]图4是根据本发明的实施例的书的示意图。[0023]图5是根据本发明的实施例的估计书的翻转页的角度的方法的流程图。[0024]图6是根据本发明的实施例的书的双页面展开的示意图。[0025]图7A和B是根据本发明的买施例的书的示意图。[0026]图8A和B是根据本发明的实施例的书的示意图。[0027]图9是根据本发明的实施例的书的示意图。[0028]图10是根据本发明的实施例的生成书的状态的内部一致模型的方法的流程图。【具体实施方式】[0029]公开一种增强视频的装置和方法。在下面的描述中，呈现许多特定细节以便提供对本发明实施例的透彻理解。然而，将显而易见的是对本领域技术人员不需要采用这些特定细节来实施本发明。相反地，在适当情况下为了清楚的目的省略对本领域技术人员已知的特定细节。[0030]现在参考图2A和2B，如图2A所示，在本发明的实施例中书1000具有多个硬质、可翻转的页(所谓的“硬纸板书”)，并且在每个页面1001、1002上包括受托标记1011、1012。页将被理解为书的单个可翻转纸张或纸板，并通常在每一侧上包括一页面。通过示例的方式，图2A和2B示出页面I和2(分别被标记为1001和1002)。可选地，书的正面封面和/或背面封面的内侧也可以用作页面并包括受托标记。因此在这个示例中，页面I实际上可以是封面的内侧。类似地，可选地，正面封面和/或背面封面的外侧可以包括受托标记。此夕卜，可选地，每一页面在外侧边沿处使用高对比标记1020作为边沿以有助于检测页面的范围。[0031]耦接到摄像机的娱乐设备可以捕捉书的图像并使用已知技术来检测每个可见页面上的受托标记，从而定位书的这些页面。根据该信息，则如图2B中所示，娱乐设备可以使用与可见页面上的受托标记1011、1012的方位(placement)、比例和朝向对应的虚拟图形元素1111、1112来增强捕捉的书的视频图像，并输出增强的视频图像用于显示。以这种方式，书的显示版本变成页面显得逼真的“神奇的”立体书。[0032]将理解试图以上述方式将视频图像内捕捉的书完全替换为增强的版本的AR应用可以收集关于当前视频帧中书的许多方面的状态的信息，以便在输出图像中实现书的可信替代。[0033]图3示意性地示出适当的娱乐设备的整体系统构架，所述娱乐设备已知为可以在适当的软件指令下实现这种AR应用的Sony?Playstation3?娱乐设备或者PS3?。如下详述，PS3包括系统单元10，包括摄像机的各种外围设备可连接到该系统单元10。[0034]系统单元10包括:单元处理器100;Rambus?动态随机存取存储器(XDRAM)单元500;具有专用视频随机存取存储器(VRAM)单元250的现实合成图形单元200；以及I/O桥700。[0035]系统单元10还包括可以通过I/O桥700接入的，用于从盘440读取的BluRay?DiskBD-ROM?光盘读取器430和可移除插槽式硬盘驱动器(HDD)400。可选地，系统单元还包括类似地通过I/O桥700接入的,用于读取压缩闪存卡、MemoryStick?存储卡等的存储卡读取器450。[0036]I/O桥700还连接到四个通用串行总线(USB)2.0端口710;千兆比特以太网端口720;IEEE802.llb/g无线网络(W1-Fi)端口730;以及可以支持多达七个蓝牙连接的Bluetooth?无线链路端口740。[0037]在操作中，1/0桥700处理所有无线、USB和以太网数据，包括来自一个或多个游戏控制器751的数据。例如，当用户玩游戏时，1/0桥700通过蓝牙链路从游戏控制器751接收数据并将其引导到相应地更新游戏的当前状态的单元处理器100。[0038]除游戏控制器751之外，无线、USB和以太网端口还提供用于其他外围设备的连接，例如:遥控器752;键盘753;鼠标754;例如SonyPlaystationPortable?娛乐设备的便携式娱乐设备755;以及麦克风耳机757。从而这种外围设备原则上可以无线连接到系统单元10;例如便携式娱乐设备755可以通过W1-Fi专用连接通信，而麦克风耳机757可以通过蓝牙链路通信。[0039]具体地，这些连接使得例如EyeToy?摄像机756的摄像机(或者立体摄像机，未示出)能够耦接到PS3，以便捕捉书的视频图像(或者立体视频图像对)。[0040]提供这些接口意味着Playstation3设备也可以潜在地兼容其他外围设备，例如数字录影机(DVR)、机顶盒、数字相机、便携媒体播放器、IP语音电话、移动电话、打印机和扫描仪。[0041]此外，传统存储卡读取器410可以通过USB端口710连接到系统单元，使得可以读取Playstation?或者Playstation2?'设备使用的类型的存储卡420。[0042]在本实施例中，游戏控制器751可操作为通过蓝牙链路与系统单元10无线通信。然而，游戏控制器751可以替代地连接到USB端口，从而也提供对游戏控制器751的电池充电的电源。除了一个或多个模拟操纵杆和传统控制按钮之外，对应于每个轴中的平移和旋转，游戏控制器对6个自由度的运动是敏感的。因此除了或替代传统按钮或操纵杆命令，游戏控制器的用户的手势和运动可以被转换为对游戏的输入。可选地，其他无线地使能地外围设备，例如便携式娱乐设备755或PlaystationMove(RTM)758，可以用作控制器。在便携式娱乐设备的情况下，在设备的显示屏上提供附加的游戏或控制信息(例如，控制指令或者生命数量)。在PlaystationMove的情况下,可以通过内部运动传感器和通过PlaystationMove设备上光的视频监视两者来提供控制信息。也可以使用其他替代或辅助控制设备，例如跳舞毯(未示出)、光枪(未示出)、方向盘和踏板(未示出)或者定制控制器，例如用于快速响应测试游戏的单个或若干个大的按钮(也未示出)。[0043]遥控器752也可操作为通过蓝牙链路与系统单元10无线通信。遥控器752包括适用于BluRayDiskBD-ROM读取器430的操作和适用于盘内容导航的控件。[0044]BluRayDiskBD-ROM读取器430可操作为读取除了传统的预录和可录⑶之外与Playstation和Playstation〗设备兼容的⑶-ROM,和所谓的超级音频⑶。读取器430也可操作为读取除了传统的预录和可录DVD之外与Playstation〗和Playstation3设备兼容的DVD-ROM。读取器430进一步可操作为读取与Playstation3设备兼容的BD-R0M，以及传统的预录和可录蓝光盘。[0045]系统单元10可操作为通过音频和视频连接器向显示器和声音输出设备300提供通过现实合成图形单元200由Playstation3设备生成或解码的音频或视频,显示器和声音输出设备300是例如具有显不器305和一个或多个扬声器310的监视器或电视机。音频连接器210可以包括传统模拟和数字输出，而视频连接器220可以不同地包括分量视频、S-视频、复合视频和一个或多个高清晰度多媒体接口(HDMI)输出。因此，视频输出可以是以例如PAL或NTSC格式、或以720p、1080i或1080p高清晰度格式。[0046]由单元处理器100执行音频处理(生成、解码等)。Playstation3设备的操作系统支持Dolby?5.1环绕声、Dolby?'影院环绕(DTS)，以及从Blu-Ray?盘解码7.1环绕声。[0047]在本实施例中，摄像机756包括单个电荷耦接器件(CXD)、LED指示器和基于硬件的实时数据压缩和编码装置，使得压缩的视频数据可以以例如基于图像内的MPEG(运动图像专家组)标准的适当格式传输用于由系统单元10解码。摄像机LED指示器被布置为响应于来自系统单元10的适当控制数据发光，例如以表示不良的照明条件。摄像机756的实施例通过USB、蓝牙或者W1-Fi通信端口不同地连接到系统单元10。摄像机的实施例可以包括一个或多个相关联的麦克风，并且还能够传输音频数据。在摄像机的实施例中，CCD可以具有适用于高清晰度视频捕捉的分辨率。在摄像机的实施例中，其是立体的。在使用中，例如可以在游戏内合并被摄像机捕捉的图像，或者将被摄像机捕捉的图像解释为游戏控制输入。通常，为了通过系统单元10的通信端口中的一个与例如摄像机或遥控器的外围设备发生成功的数据通信，应当提供适当的软件，例如设备驱动器。设备驱动技术是公知的并且在这里不会详细描述，除了本领域技术人员将意识到在所述本实施例中可能需要设备驱动器或类似的软件接口。[0048]制造时提供的软件包括系统固件和Playstation3设备的操作系统(OS)。在操作中，OS提供使得用户能够从各种功能中选择的用户界面，所述功能包括玩游戏、听音乐、看照片或者看视频。界面采取所谓的十字媒体条(XMB)的形式，其中功能类别水平布置。用户通过使用游戏控制器751、遥控器752或者其他适当的控制设备在功能图标(代表功能)间水平移动来导航，以便高亮期望的功能图标，在该点处关于该功能的选项被显示为以该功能图标为中心的选项图标的垂直可滚动列表，所述列表可以以类似方式导航。然而，如果将游戏、音频或者电影盘440插入BD-ROM光盘读取器430中，Playstation3设备可以自动选择适当的选项(例如，通过开始游戏)，或者提供相关选项(例如，在播放音频盘或将其内容压缩到HDD400之间选择)。[0049]此外，OS提供在线能力，包括web浏览器、具有在线商店的界面，从该商店可以下载附加的游戏内容、演示游戏(demo)和其他媒体，以及提供与由当前设备用户指定的其他Playstation3设备用户的在线通信的朋友管理能力；例如，通过依赖于可用外围设备的文本、音频或视频。在线能力还提供在玩适当配置的游戏期间的在线通信，内容下载和内容购买，以及更新Playstation3设备本身的固件和OS。将理解术语“在线”并不意味着物理地存在线缆，因为该术语也可以应用于各种类型的无线连接。[0050]现在参考图4，将理解虽然当书打开并平放时可以容易地在检测到受托标记的状态，但翻转书页的过程可能产生问题。[0051]首先，将理解当用户翻转硬纸板书1000的硬质页1102时，则例如页面I和2变得模糊而露出页面3(未示出，但是位于与页面2相反的页1102的表面上)和页面4(1004)。当完成翻转动作并且完全露出页面3和4时，系统以与参考图2B对于页面I和2先前描述的类似的方式提供页面3和4的图像增强。[0052]然而，出现的问题是在翻转这些页面的过程中，存在这样的点，其中由于几乎侧对摄像机查看，页面2上的受托标记1012(例如)变得十分扭曲，使得其不再可以被娱乐设备识别。在该点处，优选地使用替代技术确定书的翻转页的位置，使得任何依赖于其的动画(例如示出页面I和2之间的对象向下折或者页面3和4之间的对象打开的立体动画)能够适当地连续。[0053]在通过引用合并于此的、共同未决的欧洲申请10175548.6中描述了这种技术。下面参考图5描述该技术的简要总结。[0054]在第一步骤SlO中，由可操作地耦接到PS3的图像输入(例如USB端口)的摄像机或者类似的图像捕捉设备捕捉包括书的场景，导致包括书的图像。如前所述，书本身包括实质上硬质的页面。[0055]在第二步骤s20中，PS3例如使用在适当软件指令下操作的单元处理器作为标记检测器来试图检测图像中的受托标记(即在书中可见的那些受托标记)。通常，如果在受托标记的标记中所述受托标记包括某种形式的空间分布冗余，则不需要所述受托标记的全部来识别它。[0056]在第三步骤s30中，将书的页面上的受托标记的图像或部分图像与标记的参考版本进行比较以便确定朝向和比例，并且根据与页面的已知物理关系(即其印刷位置)，这还提供对书的朝向和比例以及特别地作为书页旋转的起点的书脊的方位的估计。正如书的尺寸和其中标记的期望位置，单元处理器可以再次执行比较并估计书脊的方位，标记的参考版本可以存储在RAM中、硬盘上、光盘上、或远程存储器中、或者其他任何适当的存储介质及其组合中。[0057]基于旋转的起点位置与书脊一致，在第四步骤s40中，假设书的翻转页的多个可能位置。具体地，根据页的大小，则假设页的自由边沿的位置。因此，作为非限制性示例，可以以4度的增量生成在10到170度范围中的页面位置的假设。在这里单元处理器再次操作为假设装置。[0058]为了提供比较这些假设的基础，在第五步骤s50中处理捕捉的图像以便生成识别出边沿的图像。此外可以生成指示这些边沿的方向的数据。可以由单元处理器、现实合成图形单元或者二者的组合执行图像处理。[0059]在第六步骤s60中，使用若干可能的评分标准中的一个相对于包括识别的边沿以及可选地这些边沿的方向的图像评估各个书的翻转页的假设边沿，所述评分标准是例如生成与识别的边沿距离假设边沿多近成比例的分数的基于距离的标准。可以使用在适当软件指令下操作的单元处理器再次执行该评估或比较。然而，通常不需要将每个假设边沿与处理后的图像的所有像素进行比较。[0060]在第七步骤s70中，翻转页的预测自由边沿生成最优分数的假设被假定为对实际翻转页的位置的最佳匹配，其中单元处理器执行该假设的选择。[0061]最后在第八步骤s80中，例如图片或者多边形对象(例如，3D虚拟对象的2D渲染)的虚拟图形元素叠加到或另外合并到捕捉的图像中以便在与优胜假设一致的位置和朝向上增强所述捕捉的图像。该图像增强通常根据来自单元处理器的指令通过结合视频和图形元素的现实合成图形单元实现。虚拟图形元素本身可以本地存储在RAM中、硬盘上、或光盘上，或者远程存储，或者可以是例如树生长过程的程序性图形生成过程的产品。[0062]在图5中使用虚线箭头示出其他可能的步骤。这些步骤包括步骤sll、s22、s33,其对于立体图像对的第二图像重复步骤slO、s20、s30,以及步骤s88，其对于所述第二图像中的偏移位置(移位)重复步骤s80。类似地，使用点画箭头的步骤sl2例如通过单元处理器提供对立体图像对使用直接图像比较的sll、s22、和s33的替代移位确定。在任一情况下，这使得能够对立体显示进行3D增强。[0063]将理解上述步骤不一定需要按上述顺序实现。例如，第五步骤s50可以在第一步骤SlO之后立即发生。[0064]还将理解最初的假设集可以以非线性方式分布，其中较高密度的假设靠近翻转页的期望位置(例如，如根据最后N个视频帧中的翻转速率预测)。类似地在选择的范围内许多主要假设(例如根据先前的帧的先前优胜假设)可以作为较高密度的假设的中心。[0065]因此将理解在估计书的整个状态时，AR应用可以估计一个或多个完整的或部分的受托标记的标识和位置、朝向等，并且还可以估计书的一个或多个翻转页的位置。在每种情况下，估计过程还可以返回提供的估计的确信度值(例如依赖于受托标记的相对角度或者完整性，或者优胜假设边沿的分数)。[0066]除了上述估计之外，AR应用可以接收或者估计书状态的其他指标。[0067]现在还参考图6，为示出这一过程，示出在本发明的实施例中与这种AR应用一起使用的书的典型的双页面展开。如前所述，每个页面(1001、1002等)包括至少一个实质上位于页面中间的相应的受托标记(1011、1012)。[0068]这些页面上的每个受托标记包括不同的相应的不对称图案，所述不对称图案首先如上所述能够向增强现实应用指示书的比例和朝向，其次能够指示相应的页面(即其是书的哪一个页面)。将理解可以使用书操作的增强现实应用将保持每个受托标记的参考或者模版备份，并且每个标记将与书的特定页面相关联。因此，标记的识别也识别该标记印刷或附加到的页面。[0069]此外，在每个页面上非字母数字图案(1040AU040B)相比受托标记位于更靠近书的页面的外边沿。通常，该非字母数字图案位于受托标记和页面的边沿之间，在正常使用中，页面的边沿距离书的用户最远。因此对于书的大部分典型使用该边沿也最靠近摄像机，其中摄像机位于靠近将显示增强的图像的TV，并且用户面向TV。如图6中所示，非字母数字图案可以类似地位于受托标记的角和由离用户较远的页面边沿和外侧页面边沿(取决于页面左或右外部页面边沿)形成的页面的角之间。[0070]值得注意的是，非字母数字图案可以从而形成“L”形(即在角周围沿着书的外边沿)。在这种情况下，从而非字母数字图案相比受托标记位于更靠近两个边沿。[0071]该非字母数字图案原则上能够至少指示相对页面对(例如，图6中所示的页面I和2)，该页面对包括放置非字母数字图案的相对应的页面。因此在示出的示例中，非字母数字图案对于页面I和2的页面对是唯一的。可选地，非字母数字图案对于单个页面是可能唯一的，但是这可能潜在地需要更复杂的图案，因为其使得书中需要的唯一图案的数量翻倍。[0072]因为其位置更靠近书的边沿，给定页面的非字母数字图案在翻转其上的页面或多个页面的过程中较早露出。这允许对页面的适当增强，因为其在使用位于中心的受托标记识别前露出。[0073]值得注意的是，不同于受托标记，不需要非字母数字图案来最初确定书的位置、t匕例或朝向。作为结果非字母数字图案可以原则上在比例或者朝向方面是模糊的，因为图案的这些方面可以参考书中的受托标记解析。[0074]替代地，非字母数字图案依赖于参考可见受托标记的其比例和朝向的模糊性。例如，返回参考图4，如果非字母数字图案在页面6的角(图4中的参考标号1006)中露出，则可以在示出的示例中通过参考页面I上的受托标记1011以及基于页面边沿1020的任何可选的书追踪算法确定其比例和朝向。[0075]值得注意的是，因为图6中示出的关于书脊的镜像图像对用户显得更为舒适，因此非字母数字图案可以布置在相对的页面上，而不影响其功能。[0076]将理解非字母数字图案也可以关于页面的两个外边沿(即顶部和顶部边沿，因为左或右边沿没有对应的相对外边沿而是在书脊处结束)之间的中心线形成镜像。[0077]因此双页面展开可以具有相同的非字母数字图案的四个副本1040A-D，每个相对另一个旋转90度，并且具有关于书脊中点的旋转对称性。[0078]这意味着为了新露出的一个或多个页面的早期指示，如果书的用户将书上下倒置，非字母数字图案的副本对于摄像机仍然是可见的。[0079]因此，将理解在估计书的整个状态时，AR应用也可以估计一个或多个非字母数字图案的全部或部分的标识。[0080]除了书页上的标记之外，在本实施例中书具有尺寸大于书页的封面，因此当如在图6中从上面看时具有超出每个页面的外边沿的末端。[0081]封面包括沿着至少第一这种末端(1030A)的高对比度图案。因此将理解图案被印刷在封面内侧上的封面的外边沿处和靠近封面的外边沿处。[0082]就非字母数字图案来说，图案可以关于书脊形成镜像(因此出现在正面封面和背面封面的内侧上)，并且也可以关于页面的顶部和底部之间的中心线形成镜像，以便形成高对比度图案的四个副本(1030A-D)。[0083]图案可以编码关于书的信息(例如标题号)或者可以简单地是随机的。典型的高对比度图案可以以6到20比特的顺序编码。图案的亮和暗元素可以遵循规则的间隔方案或者具有任意间隔。[0084]此外，高对比度图案(1035L、R)也可以沿着书的侧部末端放置。这种高对比度图案可以与上面提到的高对比度图案相同，或者可以以不同方式编码相同的信息，或者编码不同的或者附加的信息，或者是随机的。[0085]在上述情况中的任何一种下，将理解封面具有预定的厚度。因此，在本发明的实施例中，高对比度图案遍布封面的边沿并且跨过至少封面的厚度的预定比例，以便在相对于摄像机的非常的锐角增强其可见性。[0086]可以使用封面上的图案通过与参考图案进行比较来提供书的朝向的进一步估计。此外，可以使用该图案来检测用户是否仅翻转书的一页或多页，或者还正在翻转正面封面或者背面封面(例如，以合上书)，因为如果用户正在合上书，则这些图案将仅相对于书脊旋转。因此，当正在合上书时，这可以用于禁止通过翻转过程露出的通用页面表面的显示(其可以用于填充书直到辨别出页面为止)。[0087]因此，将理解在估计书的整个状态时，AR应用也可以估计封面边沿图案的全部或部分的标识，及其相对书脊的朝向、当前旋转等。[0088]此外，AR应用可以基于上述估计的部分或全部生成书的状态的附加估计。例如，AR应用可以根据在当前帧中被检测为可见的内容生成书和书页的位置的确信度值。将理解如果正在翻转书页，则依赖于页的角度以及书的朝向和角度，书的不同部分将可见。因此，如果可以检测到书的特定特征，则这可以用于从考虑因素中排除特定角度和/或朝向。[0089]因此，例如，现在还参考图7A和7B，示出处于关于书脊旋转的不同阶段的两个页面。首先选择图7A中的页1102，可以看出使用书的页面I和2(1001和1001)上的受托标记1011、1012来识别该页面。在这个阶段书的翻转页的角度可以根据书的捕捉的图像中的受托标记在与PS3存储器中保存的标记的参考模版进行比较时得到的失真来估计是可能的。[0090]然而，可替换地或此外(例如如果书在视频图像中相对较小，或者闪光使得难以解析页面2上的受托标记)，可以根据上述可见性约束模型使用上述页面翻转估计技术，并修改所述页面翻转估计技术。[0091]在这种情况下，后面的页面对的非字母数字标记1044是可检测的，但是后面的页面上的受托标记1014不是。对于书的当前位置和朝向，这意味着翻转页面可能位于关于书脊的轴的15到75度的范围内，其中O度是水平的(与书平齐)并且90度是竖直的(与书垂直)。如果后面的页面的非字母数字标记不是可检测的，则翻转页面可能位于O到15度的范围内。[0092]类似地，把图7B中的页1104作为第二个例子，可以看出可以使用书的页面3(1003)上的受托标记1013来估计该页的标识。在这个旋转阶段不可能能够直接解析书的页面4(1004)上的受托标记1014，因此系统主要依赖于图5的上述技术来估计翻转页的位置。在这种情况下，后面的页面6(1006)的非字母数字标记1046和受托标记1016都是可检测的，并且如上所述书的页面3上的受托标记1013也是可见的。对于书的当前位置和朝向，这意味着翻转页面可能位于75到105度的范围内。[0093]将理解当页完成翻转的后半段时，类似地可以由可见性约束模型使用现在被页接连覆盖的页面上的受托标记和非字母数字标记来估计翻转页的可能角度范围，更一般地可以在任何时间使用书的任何显著标记。[0094]现在还转到图8A和8B，这些示出翻转页的角度和书的朝向之间的相互作用。图8A和8B也示出如先前在图7B中示出的页1104的翻转中的阶段。在图7B中，注意受托标记1013和1016的可见性意味着对于图7B中看到的书的位置和朝向，页的角度可能位于75到105度的范围内。然而，对于图8A和SB中示出的位置和朝向，可以看出受托标记1013和1016的可见性意味着页的角度可能位于40到60度的范围内。[0095]因此当估计当前正在翻转的页的角度的可能范围时，因为参考检测到的受托标记进行计算，AR应用可以考虑书的页面的期望外观，以及相对摄像机书的位置和朝向。[0096]该估计的角度的可能范围随后可以用于以下面的方式中的一种或多种来修改图5的页面翻转估计方法。[0097]首先，可以响应于可能范围缩小实现的假设范围。例如，不以4度步进(例如)实现10度到170度之间的假设范围，而是以2度步进实现30到70度之间的假设范围(例如响应于图8A或SB中示出的视图，指示40到60度的范围)。其次，可替换地或此外，可以根据假设是否位于通过可见性约束模型识别的可能范围内加权授予假设的分数。[0098]将理解在任一情况下范围变化或者加权可以是根据书的多个方面的可见性证据的函数。[0099]更一般地，参考图9，将理解书本身的状态可以被评估为许多估计的来源或证据的函数，包括从由下列各项组成的非穷举性列表中选择的部分或者全部:[0100]-一个或多个受托标记(1013、1014、1016)的标识；[0101]-一个或多个受托标记(1013、1014、1016)的位置和朝向；[0102]-一个或多个受托标记(例如1016)的遮挡的程度(degreeofocclusion)；[0103]-一个或多个非字母数字图案(1043、1044、1046)的标识；[0104]-翻转页(1004、1014、1044)的标识；[0105]-翻转页(1044)的角位置ΘI；[0106]-一个或多个封面边沿图案的角位置Θ2;以及[0107]-根据上述部分或全部的状态的范围的特征的可见性。[0108]为了预测当前视频图像中书的位置，证据的进一步来源可以是例如如在先前的N个视频图像帧中估计的书的状态，以及这些状态相对于时间的导数(例如书上的关键点的速度)，作为非限制性示例，其中N可以在I到10之间。[0109]如前所述，前述估计中的一些还可以具有与其相关联的确信度值。还可以理解在不同的时间可以获得不同的估计，并且不同的估计可以被假定为对于不同的时间段有效，或者由于矛盾或者新的证据可以被渲染为不可靠的。[0110]因此，在本发明的实施例中，为了在输出的增强的视频图像中将其如实地替换为增强的版本，AR应用评估由可用证据表示的关于获得的书的状态的部分信息，并且与书的物理约束相结合，结合证据来估计书的当前状态。[0111]在第一步骤中，AR应用基于评分度量来评估可用的证据。[0112]评分度量基于证据中指示的确信度和可选地证据中的固有可靠性的加权为证据分配分数。[0113]因此例如对于相同等级的确信度，受托标记的识别的分数可能高于页面角度的估计。这是因为书中的每个受托标记被选择为独特的，此外表示所有可能标记的非常小的子集中的一个，因此AR应用中与参考标记的合理匹配固有地可能是标记因而该标记的页面的至少部分可见性的确切地(positive)识别的有力证据。[0114]如前所述，同时翻转页的角度的确信度等级可以是指示在图5的方法中识别的边沿与假设的边沿有多靠近的分数的函数，可以可选地根据与角度的期望范围一致的假设边沿进行进一步加权。[0115]同时受托标记的分数可以基于标记和标记的参考模型之间的匹配的精度(并且如前所述可能非常高)，而标记的朝向、旋转和位置的确信度分数可以响应于图像中标记的有效分辨率(例如在视频图像中用于表示其的像素的数量)进行加权，因为这也限制朝向和旋转估计的有效分辨率。[0116]关于书的其他相应的方面的多个证据的分数对于本领域技术人员是显而易见的。[0117]在第二步骤中，AR应用使用需要的具有最高分数的证据以便为书建立最小“基本姿势”。[0118]因此，例如其可以把可见受托标记的最高评分识别作为书打开位置的证据，并将一个或多个标记(可能是同一标记)的最高评分位置、朝向等作为书的位置和朝向的指示，并且也用于书脊的轴。[0119]因此，书的状态的模型最初由该最高评分证据约束；例如，随后的证据需要与可见页面和书脊的轴的存在(presence)—致。[0120]在第三步骤中，AR应用以预定的优先级顺序浏览可用证据以便选择可以被分类为“已验证，，的证据。已验证的证据是具有超过该证据类型的相应的预定阈值的确信度值(分数)的证据。[0121]已验证的证据与由基本姿势施加在书上的约束进行比较。[0122]因此,例如如果基本姿势指示页面I和4是可见的,这反过来指示包括页面2和3的页处于翻转过程中。在特定角度，页面2或者页面3上的受托标记仍然可以可靠地识别，因此页面及其角度可以可验证地确认。[0123]以这种方式，可以结合书的物理约束和由前面的证据施加的约束使用关于书的状态的附加信息，以便进一步约束书的可能状态。通过以预定的优先级顺序浏览证据类型，已验证的证据以该预定的顺序对书的可能状态施加附加的限制。[0124]因此，例如，根据受托标记所有可解析页面的已验证的标识可以是第一优先级。这关于非字母数字图案的证据的随后的评估和正在翻转哪个(如果有)未识别的书页，以及转到哪个角度来限制书的可能状态。[0125]注意验证的标准可以被限于来自当前视频帧的证据。为了提高可用证据中的确信度，证据的某些来源可以利用历史数据。例如，如果识别出受托标记并且其位置、朝向等与先前的视频图像中处于基本上相同位置、朝向等的受托标记一致，则这可以用于增加标记的标识和位置中的确信度以及其分数。然而，如果当前图像中标记的标识不同于先前的图像(或者先前N个图像)中的标识，则可以实质上降低该标识的确信度。[0126]因此，对于某些证据(具体地，对于受托标记)，“已验证”的标准将是精确度的有力指标。[0127]然而，将理解虽然已验证的证据可能与由早先证据已经施加的约束矛盾。如果这种情况出现，则在本发明的实施例中AR应用可以继续，但检查有多少个已验证的证据与模型矛盾。[0128]如果两个或多个已验证的证据与模型矛盾，则可选地触发失败模式，其中书依赖于根据先前的帧的预测来构建的书的状态的部分或全部。[0129]同时如果仅一个已验证的证据与由早先证据施加的约束矛盾，则可选地使用失败模式，或者可替换地该项证据可以用于替代模型中的证据的矛盾元素，以便构建第二模型。[0130]因此，例如如果同一页面上的已验证的非字母数字图案与已验证的受托标记矛盾，则在本发明的实施例中这将初始化新的第二模型，其中支持来自非字母数字图案的证据而拒绝受托标记，从而形成竞争模型。[0131]这是因为例如对于受托标记和非字母数字图案已验证的证据可能都是正确的，但是不一致是由于未能识别出具有受托标记的页面实际上已经开始翻转，露出下一页面上的矛盾的非字母数字图案。通过并行评估两个模型，附加的证据可能可以解决该错误。然而，将理解如果第二模型随后与其他已验证的证据矛盾，这可以被视为第二模型(因而导致其创建的已验证的证据)是错误的初步证据，使得能够快速抛弃第二模型。[0132]相反地，一些类别的已验证的证据不可以被用作进入失败模式或者形成第二基本姿势的基础。通常这是固有地较不可靠或者不足以建立基本姿势的证据。作为非限制性示例，来自封面边沿的证据、或者来自页面翻转角度的证据不可以以这种方式用作基础。[0133]因此在第三步骤结束时，在本发明的实施例中三种结果中的一种是可能的:[0134]1.在基本姿势中定义的书的状态进一步被一致的已验证的证据约束(例如对于页面位置等)；[0135]i1.书的模型与已验证的`证据矛盾达到初始化失败模式的程度；或[0136]ii1.书的模型与已验证的证据矛盾，并且生成第二模型并针对已验证的证据对第二模型进行检查。[0137]也就是说，在本发明的变形实施例中，仅结果i是可能的(其中忽略矛盾的已验证的证据)，而在本发明的另一变形实施例中，结果i或ii是可能的(其中不一致性检查用于触发失败模式)。在本发明的另一变形实施例中，结果i或iii是可能的(其中不一致性检查可能导致生成附加的候选模型)，而在本发明的另一变形实施例中，结果1、?或iii是可能的(其中结果ii和iii依赖于不一致性的严重程度)。[0138]还将理解如在生成最初的基本姿势的第二步骤中使用的具有最高分数的证据也可能是已验证的证据。然而，在由于某种原因系统中的证据的整个等级具有低确信度的情况下(例如，在光线差，或者书被带离摄像机太远，或者在很大程度上被遮挡的情况下)，则基于未验证的证据的一项或多项的基本姿势可以具有与其相关联的警告标志，或者可以引起失败模式立即初始化。[0139]在可选的第四步骤中，然后假定没有初始化失败模式，再次优选地以预定的优先级顺序评估剩余的、未验证的证据(即不具有该类别的证据的预定等级以上的确信度阈值的证据)。值得注意的是，未验证的证据可能也必须满足评估的最小确信度阈值。在该第四步骤中比较该阈值，或者如果未满足最小阈值，则可以在证据搜集过程期间完全不输出证据来实现该阈值。[0140]在未验证的证据与AR应用的书的状态的当前估计(如由该或每个当前模型定义的)一致的情况下，则未验证的证据可以用于进一步定义书的状态。如果未验证的证据与AR应用的书的状态的当前估计不一致，则在本发明的实施例中其被简单地忽略。[0141]以这种方式，一旦书的状态已经被验证的证据约束，未验证的证据就可以用于在书的状态的估计中填补空白或者改进值，但是反之并非这样。[0142]如果在此阶段存在书的状态的两种估计(基于如先前描述的两种模型)，则可以选择与最多和最优证据(已验证的和未验证的)一致的模型。例如可以通过使用被认为是与竞争的书状态中的每一种一致的证据的分数的累积总和，并选择具有最高整体分数的模型来进行选择。在平局事件中，则可以选择基于最初书姿势的书的状态。[0143]最后，为了生成当前视频图像的书的增强的版本，在可选的第五步骤中AR应用可以评估书的状态描述的哪些剩余方面未确定或者没有缩小到足够精确的程度。作为响应AR应用使用试探法来填补缺失信息。通常这将落入以下三种类型之一:[0144]首先，假定与当前基本姿势一致；例如参考图8A，可以假定在可识别的页面4和6之间的页面将是页面5;这可以使得关于该页面的打开的一些动画的增强，例如在页面5中的虚拟洞投影出的光线并且在可以确切地识别页面5之前照射到页面6上。[0145]第二，根据先前的书状态的预测或复制。例如，在用户的手临时遮挡受托标记，但是书上的边界图案指示书没有大幅移动并且靠近该标记未检测到翻转页的情况下，则可以根据先前的状态复制页面的标识(如果完全没有检测到翻转页，则其当然还可以根据相对页的标识进行估计；当存在翻转页时出现不确定性，因为可能无法立即知道一次翻转了多少页面以及可见的其他标记和遮挡的标记之间的关系)。[0146]第三，内推法或者外推法。例如，在书的边沿不可见的情况下，可以使用书的物理模型来根据可见的证据内推或外推来填补书的缺失元素。[0147]将理解这些试探法以及例如用于验证的阈值的方面可以由游戏设计者适当地定制，并且还可以是时间或者事件的函数。例如如果游戏设计者知道他们将要要求用户旋转书以便产生虚拟字符混乱，或者像魔毯一样使书飞起来，则他们可能希望降低验证阈值或者放宽试探标准以便当视频帧之间存在不可预知的运动时提供较少的到失败模式的切换(其主要基于预测)。[0148]现在转到图10，然后如在这里先前描述地生成在视频图像中捕捉的书的状态的内部一致模型的方法包括:[0149]-在第一步骤SllO中，获得视频图像中关于书的对应的多个方面的状态的多个证据；[0150]-在第二步骤sl20中，将质量分数与每个证据相关联；[0151]-在第三步骤sl30中，生成书的状态的初始模型，其中书的状态由书的物理属性和至少最高分数的证据约束；以及[0152]-在第四步骤S140中，响应于其分数满足相应的预定第一阈值的一个或多个连续证据而顺序地约束模型。[0153]本领域技术人员将清楚的是与在这里描述和请求保护的装置的各种实施例的操作对应的上述方法中的变化被认为是在本发明的范围内，包括但不限于:[0154]-响应于证据类型以预定顺序执行顺序地约束初始模型的步骤；[0155]-响应于其分数未满足相应的预定第一阈值的一个或多个连续的证据顺序地约束模型，如果该证据或每个连续的证据与模型的当前状态一致，[0156]-其中该证据或每个证据可能仅在其分数满足低于第一阈值的相应的预定第二阈值时使用；[0157]-一个或多个相应的第一阈值响应于视频游戏中的事件改变；[0158]-证据包括从由下列项组成的列表中选择的一个或多个:[0159]-书的一个或多个受托标记的标识；[0160]-书的一个或多个受托标记的位置；[0161]-书的一个或多个受托标记的朝向；[0162]-书的一个或多个受托标记的遮挡的程度；[0163]-书的一个或多个非字母数字图案的标识；[0164]-书的翻转页的标识；[0165]-书的翻转页的角位置ΘI;以及[0166]-书的一个或多个封面边沿图案的角位置Θ2;以及[0167]-更一般地，生成增强现实图像的方法包括捕捉包括书的图像的视频图像，根据在这里描述的方法中的任何一种生成视频图像中捕捉的书的状态的内部一致模型，响应于生成的书的状态的模型渲染计算机图形书，以及使用渲染后的计算机图形书增强捕捉的视频图像。[0168]例如以PS3形式的娱乐设备的对应的装置可以类似地实现上述方法和技术中的任何一种。[0169]因此，在本发明的概括实施例中，用于生成视频图像中捕捉的书的状态的内部一致模型的娱乐设备(例如PS310)包括用于接收包括书的图像的视频图像的输入(例如，USB端口710)，可以操作以便获得视频图像中关于书的对应的多个方面的状态的多个证据的图像处理器(例如，现实合成器200、单元处理器100、或者二者的组合)，其中图像处理器还可以将质量分数与每个证据相关联；以及处理器(例如单元处理器100)，可以操作所述处理器以便生成书的状态的初始模型，其中书的状态由书的物理属性和至少最高分数的证据约束，该处理器还可以操作为响应于其分数满足预定第一阈值的一个或多个连续证据来顺序地约束模型。[0170]如前所述，因此书的模型顺序地首先被最高分数证据约束，然后被可信证据(已验证的证据)约束，使得当书的现有模型与书的模型的当前约束一致时，随后的证据仅用于进一步约束书的现有模型，从而基于来自视频图像的有力证据生成书的整体内部一致模型。[0171]在概括实施例的示例中，可以操作处理器以便响应于证据类型以预定顺序顺序地约束模型。[0172]在概括实施例的示例中，如果该证据或每个证据与模型的当前状态一致，可以操作处理器以便响应于其分数未满足相应的预定第一阈值的一个或多个连续的证据顺序地约束模型。[0173]在概括实施例的示例中，一个或多个相应的第一阈值响应于由娱乐设备运行的视频游戏中的事件改变。[0174]在概括实施例的示例中，可以操作图像处理器以便响应于生成的书的状态的模型渲染计算机图形书，并且可以操作图像处理器以便使用渲染后的计算机图书形来增强捕捉的视频图像。[0175]将理解在这里描述的娱乐设备可以形成包括在操作中被布置为耦接到娱乐设备的摄像机(例如，EyeToy或PlaystationEye756)的增强现实系统的部分；以及在多个页面上包括相应的受托标记(1011、1012、1013、1014、1015、1016)的书(1000)。[0176]如前所述，PS3在适当的软件指令下实现上述技术和方法。因此，将理解在这里公开的方法可以在通过软件指令或通过包括或替代专用硬件来适当地适配为适用的传统硬件上实现。[0177]因此，对传统等效设备的现有部分的所需适配可以以非临时性计算机程序产品或者包括在数据载体上存储的处理器可实现指令的制造的类似物的形式实现，所述数据载体是例如软盘、光盘、硬盘、PROM、RAM、闪存或者这些或其他存储介质的任意组合，或者在例如ASIC(专用集成电路)或者FPGA(现场可编程门阵列)或者适用于在适配传统等效设备时使用的其他可配置电路的硬件中实现。另外，如果适用，计算机程序可以采用在例如以太网、无线网络、因特网或者这些或其他网络的任意组合的网络上经由数据信号传输的形式。【权利要求】1.一种生成在视频图像中捕捉的书的状态的内部一致模型的方法，所述方法包括以下步骤:获得所述视频图像中关于所述书的对应的多个方面的状态的多个证据；将质量分数与每个证据相关联；生成所述书的状态的初始模型，其中所述书的状态被所述书的物理属性和至少最高分数的证据约束；以及响应于其分数满足相应的预定第一阈值的一个或多个连续的证据来顺序地约束所述模型。2.如权利要求1所述的方法，其中响应于证据类型以预定顺序执行顺序地约束所述初始模型的步骤。3.如权利要求1所述的方法，包括随后的步骤:如果所述证据或每个连续证据与所述模型的当前状态一致，则响应于其分数未满足相应的预定第一阈值的一个或多个连续的证据顺序地约束所述模型。4.如权利要求3所述的方法，其中所述证据或每个证据仅在其分数满足低于所述第一阈值的相应的预定第二阈值的情况下使用。5.如权利要求1所述的方法，其中一个或多个相应的第一阈值响应于视频游戏中的事件改变。6.如权利要求1所述的方法，其中所述证据包括从由下列各项组成的列表中选择的一个或多个:-所述书的一个或多个受托标记的标识；-所述书的一个或多个受托标记的位置；-所述书的一个或多个受托标记的朝向；-所述书的一个或多个受托标记的遮挡的程度；-所述书的一个或多个非字母数字图案的标识；-所述书的翻转页的标识；-所述书的翻转页的角位置ΘI;以及-所述书的一个或多个封面边沿图案的角位置Θ2。7.—种生成增强现实图像的方法，包括以下步骤:捕捉包括书的图像的视频图像；根据任一先前的权利要求的方法生成在视频图像中捕捉的书的状态的内部一致模型；响应于所述生成的书的状态的模型渲染计算机图形书；以及使用所述渲染后的计算机图形书增强捕捉的视频图像。8.一种用于实现任一先前的方法权利要求的步骤的计算机程序。9.一种用于生成在视频图像中捕捉的书的状态的内部一致模型的娱乐设备，所述设备包括:输入，其用于接收包括所述书的图像的视频图像；图像处理器，可操作所述图像处理器以便获得视频图像中关于书的对应的多个方面的状态的多个证据，可操作所述图像处理器将质量分数与每个证据相关联；处理器，可操作所述处理器以便生成所述书的状态的初始模型，其中所述书的状态被所述书的物理属性和至少最高分数的证据约束，可操作所述处理器以便响应于其分数满足相应的预定第一阈值的一个或多个连续的证据顺序地约束所述模型。10.如权利要求9所述的娱乐设备，其中可操作所述处理器以便响应于证据类型以预定顺序顺序地约束所述模型。11.如权利要求9所述的娱乐设备，其中如果所述证据或每个连续证据与所述模型的当前状态一致，则可操作所述处理器以便响应于其分数未满足相应的预定第一阈值的一个或多个连续的证据顺序地约束所述模型。12.如权利要求9所述的娱乐设备，其中一个或多个相应的第一阈值响应于由所述娱乐设备运行的视频游戏中的事件改变。13.如权利要求9所述的娱乐设备，其中所述证据包括从由下列各项组成的列表中选择的一个或多个:-所述书的一个或多个受托标记的标识；-所述书的一个或多个受托标记的位置；-所述书的一个或多个受托标记的朝向；-所述书的一个或多个受托标记的遮挡的程度；-所述书的一个或多个非字母数字图案的标识；-所述书的翻转页的标识；-所述书的翻转页的角位置ΘI;以及-所述书的一个或多个封面边沿图案的角位置Θ2。14.如权利要求9所述的娱乐设备，其中:可操作所述图像处理器以便响应于所述生成的书的状态的模型来渲染计算机图形书；以及可操作所述图像处理器以便使用渲染后的计算机图形书来增强捕捉的视频图像。15.一种增强现实系统，包括:如权利要求9到14中的任何一项所述的娱乐设备；在操作中被布置为耦接到所述娱乐设备的摄像机；以及在多个页面上包括相应的受托标记的书。【文档编号】H04N5/232GK103489158SQ201310361575【公开日】2014年1月1日申请日期:2013年6月3日优先权日:2012年6月1日【发明者】T·卢卡斯-伍德利,N·A·罗德,W·O·赛克斯,A·拜恩申请人:索尼电脑娱乐欧洲有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T·卢卡斯-伍德利;N·A·罗德;W·O·赛克斯;A·拜恩
技术所有人：索尼电脑娱乐欧洲有限公司
我是此专利的发明人

上一篇：摄像设备的制作方法
上一篇：实现在线音乐分段下载的方法、服务器和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。