书页跟踪的系统及方法与流程

文档序号:14135523阅读:217来源:国知局
书页跟踪的系统及方法与流程

本发明涉及一种书页跟踪的系统和方法。



背景技术:

增强的真实感的系统是已知的,其使用耦接到计算机的摄像机拍摄视频图像、检测所拍摄的视频图像的特征,然后响应于所检测到的特征生成图形覆盖物叠加在所拍摄的视频图像上,其以某种方式增强了所拍摄的视频图像。

参照图1,在一个典型的增强真实感的应用中,为了提供容易检测到的特征,将已知大小的所谓基准标记(fiduciary marker)800包括在待被摄像机拍摄的场景中。

基准标记通常是高对比度(例如,黑色和白色)且非对称的图案,以此在甚至相对较差的图像拍摄条件(例如,低分辨率图像拍摄、光线不好等)下提供图案辨识的机会(scope)。这种辨识通常提供所拍摄的视频图像内的基准标记的位置(x和y轴位置)和旋转(借助于标记的非对称性)的估计。

此外,可选地,基准标记与摄像机的距离(其z轴的位置)可以通过比较所拍摄的视频图像中的基准标记的大小与基准标记的已知大小(例如其在1m距离上的以像素为单位的大小)来估计。

类似地,可选地,基准标记的倾斜度(即其在z方向上与xy平面的偏离度)可以通过比较所拍摄的视频图像中的基准标记的高宽比与已知的基准标记的高宽比和/或使用其他技术(如,检测透视缩短(其中矩形表现为梯形)或所拍摄的视频图像中的基准标记的其他失真)来估计。

所生成的图形覆盖物通常包括虚拟图形元素,其可以随后被叠加在基准标记之上,基准标记的估计位置、旋转距离和倾斜度用于修改虚拟图形元素为可应用的。

然后,将增强后的图像输出到显示器。

此处理的主观效果是输出的视频图像包括替代基准标记的图形元素(例如,怪物或城堡),典型地复制估计的基准标记的位置、旋转、距离和倾斜度。

替代性地,基准标记可以用于其他方面。例如,图形对象可以相对于基准标记定位但不覆盖它,或者基准标记可用于娱乐系统或其他计算机识别某个场景中选定的对象或区域;例如,将基准标记放置在桌子上可以使得娱乐系统识别出该桌子(例如,通过识别出在基准标记附近发现的颜色的容差范围内的连续的颜色区域),在这之后可以将基准标记移除。

然而,应该理解的是,在这种增强的真实感系统中,用户的怀疑中止(suspension of disbelief)是至少部分地依赖于图形覆盖物与场景的某些真实世界方面匹配或交互的可靠性,这使得他们沉浸在图形覆盖物是所拍摄的场景的一部分的错觉中。这种可靠性经常依赖于对场景内基准标记的位置和方向的估计。

因此,人们希望减少不能可靠地作出这种估计的场合。



技术实现要素:

在第一方面,根据权利要求1提供了一种书页跟踪方法。

在另一方面,根据权利要求12提供了一种娱乐设备。

在另一方面,根据权利要求13提供了一种书页跟踪系统。

本发明其他的各个方面和特征在所附权利要求中限定。

附图说明

现在将通过示例的方式参考附图对本发明的实施例进行说明,附图中:

图1是根据本发明的一个实施例的基准标记的示意图。

图2A是根据本发明的一个实施例的包括基准标记的书的示意图。

图2B是根据本发明的一个实施例的增强后的书的图像的示意图。

图3是根据本发明的一个实施例的娱乐设备的示意图。

图4是根据本发明的一个实施例的包括基准标记的书的示意图。

图5是根据本发明的一个实施例的跟踪书页的转动的方法的流程图。

图6是根据本发明的一个实施例的书的两个页面展开的示意图。

图7A是根据本发明的一个实施例的使得页转动到第一位置的书的示意图。

图7B是根据本发明的一个实施例的使得页转动到第二位置的书的示意图。

图8A是根据本发明的一个实施例的使得页转动到第一位置的书的示意图。

图8B是根据本发明的一个实施例的使得页转动到第二位置的书的示意图。

图9A是根据本发明的一个实施例的使得页转动到说明性位置的书的示意图。

图9B是根据本发明的一个实施例的从书的图像投影书的特征的示意图。

图10是根据本发明的一个实施例的跟踪书页的转动的方法的流程图。

具体实施方式

本说明书公开了一种书页跟踪系统和方法。在下面的描述中,展示了许多特定的细节以提供对本发明的实施例的透彻理解。然而,对本领域技术人员来说显而易见的是,实施本发明并非必须采用这些特定的细节。相反,在适当的情况下,为清楚起见,省略了本领域技术人员所熟知的特定的细节。

现在参看图2A和2B,在本发明的一个实施例中,书1000具有多个刚性的、可转动的页(所谓的“板书”),并包括在每一个页面1001、1002上的基准标记1011、1012,如图2A所示。将页理解为书的可转动的单个片或板,通常包括每一侧的页面。图2A和图2B通过示例的方式示出了页面1和页面2(分别标记为1001和1002)。可选地,书的封面和/或封底内页也可作为页面,并包括基准标记。因此,在此示例中,页面1可以实际上是封面内页。类似地,可选地,封面和/或封底外页可以包括基准标记。此外,可选地,每一个页面在外边缘上镶边有高对比度标记1020,以方便检测页面的范围。

耦接到摄像机的娱乐设备可以拍摄书的图像,并使用现有技术检测在每个可见页面上的基准标记,从而确定书的这些页面的位置。给定这些信息,然后如图2B所示,娱乐设备可以使用与可见页面上的基准标记1011、1012的放置、比例和方向对应的虚拟图形元素1111、1112对所拍摄的书的视频图像进行增强,并输出增强后的视频图像以进行显示。通过这种方式,这本书的显示版本变成一本“神奇”的弹出式(pop-up)的书,书中的页面可以变得逼真。

图3示意性地示出了一个适用的娱乐设备——现有的索尼娱乐设备或——的整体系统架构。PS3包括系统单元10,它可与各种外围设备连接,包括摄像机,如下文所详述。

系统单元10包括:Cell处理器100;动态随机存取存储器(XDRAM)单元500;真实感合成图形单元200,具有专用视频随机存取存储器(VRAM)单元250;以及I/O桥700。

系统单元10还包括可通过I/O桥700访问的、用于从盘440中读取的光盘读取器430和可移除的插槽式硬盘驱动器(HDD)400。可选地,系统单元还包括存储卡读卡器450,用于读取闪存卡、存储卡等,它可以类似地通过I/O桥700访问。

I/O桥700还连接到4个通用串行总线(USB)2.0端口710;千兆以太网端口720;IEEE802.11b/g无线网络(Wi-Fi)端口730;以及能够支持多达7个蓝牙连接的无线链接端口740。

在工作时,I/O桥700处理所有的无线、USB和以太网数据,包括来自一个或多个游戏控制器751的数据。例如,当用户在玩游戏时,I/O桥700通过蓝牙链接从游戏控制器751接收数据并将其导向Cell处理器100,Cell处理器100相应地更新游戏的当前状态。

除了游戏控制器751以外,无线、USB和以太网端口还对其他外围设备提供连接,如:遥控器752;键盘753;鼠标754;便携式娱乐设备755,如娱乐设备;以及耳麦757。因此,这些外围设备可以原则上以无线方式连接到系统单元10;例如,便携式娱乐设备755可以通过无线专用连接通信,而耳麦757可以通过蓝牙链接通信。

具体地,这些连接使得摄像机之类的摄像机756(或立体摄像机,未示出)能够耦接到PS3,以拍摄书的视频图像(或立体视频图像对)。

提供这些接口意味着PlayStation3设备也与其他外围设备潜在兼容,如数字视频录像机(DVR)、机顶盒、数码相机、便携式媒体播放器、语音IP电话、移动电话、打印机和扫描仪。

此外,传统的存储卡读取器410可以通过USB端口710连接到系统单元,使得能够读取或设备使用的那种存储卡420。

在本实施例中,游戏控制器751可操作地通过蓝牙链路与系统单元10进行无线通信。然而,游戏控制器751也可以替代连接到USB端口,从而也提供电源,以对游戏控制器751的电池充电。除了一个或多个模拟游戏杆和传统的控制按钮外,游戏控制器对6个自由度的运动敏感,对应于每个轴上的平移和旋转。因此,除了传统的按钮或游戏杆命令之外,或代替传统的按钮或游戏杆命令,可以将游戏控制器用户的手势和动作翻译成对游戏的输入。可选地,其他无线地启用的外围设备可以用作控制器,如便携式娱乐设备755或PlayStation Move(RTM)758。在便携式娱乐设备的情形中,附加的游戏或控制信息(例如,控制指令或命的条数)也可以设置在设备的屏幕上。在PlayStation Move的情形中,控制信息可以通过内部运动传感器并通过视频监控PlayStation Move设备上的光来提供。也可以使用其他替代性或补充性的控制设备,如跳舞毯(未示出)、光枪(未示出)、方向盘和踏板(未示出)或定制的控制器,如单个或若干个用于快速反应问答游戏的大按钮(也未示出)。

遥控器752也可操作地通过蓝牙链路与系统单元10进行无线通信。遥控器752包括适合于操作蓝光盘BD-ROM读取器430和导航盘内容的控制。

除了传统的预记录和可记录CD以及所谓的超音频CD之外,蓝光盘BD-ROM读取器430还可操作地读取与PlayStation和PlayStation2设备兼容的CD-ROM。除了传统的预记录和可记录DVD之外,读取器430还可操作地读取与PlayStation2和PlayStation3设备兼容的DVD-ROM。读取器430还可操作地读取与PlayStation3设备兼容的BD-ROM以及传统的预记录和可记录蓝光盘。

系统单元10可操作地通过音频和视频连接器向具有显示器305和一个或多个扬声器310的显示和声音输出设备300(如,监视器或电视机)提供由PlayStation3设备经由真实感合成图形单元200生成或解码的音频和视频。音频连接器210可以包括传统的模拟和数字输出,而视频连接器220可以不同地包括分量视频、S-视频、复合视频和一个或多个高清晰度多媒体接口(HDMI)输出。因此,视频输出的格式可以是如PAL或NTSC,或720p、1080i或1080p的高清晰度。

音频处理(生成、解码等等)由Cell处理器100进行。PlayStation3设备的操作系统支持5.1环绕声、剧院环绕(DTS)以及对光盘的7.1环绕声的解码。

在本实施例中,摄像机756包括单个电荷耦接器件(CCD)、LED指示灯以及基于硬件的实时数据压缩和编码装置,使得以可以以适当的格式(如,基于帧内图像的MPEG(运动图像专家组)标准)发送压缩的视频数据供系统单元10解码。摄像机的LED指示灯被布置为响应于来自系统单元10的合适的控制数据进行照明,例如发信号指示不利的光照条件。摄像机756的实施例可以不同地通过USB、蓝牙或Wi-Fi通信端口连接到系统单元10。摄像机的实施例可以包括一个或多个相关联的麦克风,并还能够发送音频数据。在摄像机的实施例中,CCD可以具有适用于高清晰度视频拍摄的分辨率。在摄像机的实施例中,它是立体的。在使用中,摄像机拍摄的图像可以例如被合并到游戏中或者解释为游戏的控制输入。

一般情况下,为了通过系统单元10的通信端口之一与外围设备(如,摄像机或遥控器)成功地进行数据通信,应该提供合适的软件,如设备驱动程序。设备驱动程序技术是众所周知的,这里将不进行详细说明,除了说本领域的技术人员应该意识到在描述的本实施例中可能需要设备驱动程序或类似的软件接口。

制造时提供的软件包括系统固件和PlayStation3设备的操作系统(OS)。在工作时,操作系统提供使得用户能够从多种功能中选择的用户界面,包括玩游戏、听音乐、观看照片或观看视频。界面采用具有水平排列的功能类别的所谓跨媒体栏(XMB)形式。用户使用游戏控制器751、遥控器752或其他合适的控制装置穿过功能图标(代表功能)以突出显示想要的功能图标来进行导航,在该功能图标处,与该功能有关的选项表现为以该功能图标为中心的可垂直滚动的选项图标列表,可以以类似的方式对其进行导航。但是,如果游戏、音频或电影盘440被插入到BD–ROM光盘读取器430,那么Playstation3设备可以自动选择合适的选项(例如,开始游戏),或者可以提供相关选项(例如,选择播放音频盘或压缩其内容到HDD400)。

此外,操作系统提供在线能力,包括:Web浏览器、从中可以下载附加游戏内容、演示游戏(演示)和其他媒体的在线商店连接的界面,以及提供与由当前设备的用户指定的其他的Playstation3设备用户的在线通信的好友管理能力;例如,取决于可用的外围设备,通过文本、音频或视频进行。在线能力还在播放适当配置的游戏的过程中提供在线交流、内容下载和内容购买,并提供Playstation3设备本身的固件和操作系统的更新。应该理解的是,术语“在线”并不意味着导线的物理存在,因为该术语也适用于不同类型的无线连接。

现在参看图4,应该理解的是,虽然在书打开并放平的时候,可以很容易地检测到基准标记,但在转动书页的过程中可能会出现问题。

首先,应该理解的是,当用户翻转板书1000的刚性页1102时,则例如页面1和2变得不清楚,而页面3(未示出,但位于页1102与页面2相对的一面上)和页面4(1004)显露。当转动动作完成时,页面3和页面4完全显露,系统可以以类似于前面参照图2B描述的页面1和页面2的方式提供页面3和页面4的图像增强。

然而,出现的一个问题是,在转动这些页面的过程中,会出现某一点:其中页面2上的基准标记1012由于被相机接近侧向(edge-on)观看而变得(例如)如此失真以至于其不再能够被娱乐设备辨认。在此时刻,优选地使用一项替代性技术,确定书的转动页的位置,以使得依赖于它的任何动画(例如,显示页面1和2之间的对象折起来或页面3和3之间的对象展开的弹出式动画)能够适当地继续。

这项技术在共同待审的欧洲专利申请第10175548.6号中进行了说明,通过引用整体并入此文。下面,参照图5对该项技术的简要概述进行说明。

在第一步骤S10中,包括书的场景被可操作地耦接到PS3的图像输入端(例如,USB端口)的摄像机或类似的图像拍摄装置拍摄,从而得到包括书的图像。正如前面提到的,书本身包括基本上刚性的页。

在第二步骤S20中,PS3尝试检测图像中的基准标记(即,在书中可见的标记),例如使用在适当的软件指令下作为标记检测器运行的Cell处理器。通常情况下,如果基准标记在它的标记中包括某种形式的空间分布的冗余,那么识别出它并不需要该基准标记的全部。

在第三步骤S30中,对书的页面上的基准标记的图像或部分图像和该标记的参考版本进行比较,以确定方向和尺寸,并且,给定已知的与页面的物理关系(即,其印制位置),还可以提供书的方向和比例,尤其是书脊放置的估计,书脊用作书页旋转的原点。Cell处理器可以再次执行比较并估计书脊的放置,标记的参考版本可以存储在RAM、硬盘、光盘、或远程存储、或其他任何合适的存储介质或其组合中,书的尺寸以及其中标记的预期位置也可以存储在其中。

在第四步骤S40中,基于与书脊重合的旋转原点,假设转动的书页的多个可能位置。具体地,给定页的大小,然后假设页的自由边缘的位置。因此,作为一个非限制性的示例,在10到170度的范围内,可以以4度的增量生成页面位置的假设。这里Cell处理器可以再次用作假设部件。

为了提供与这些假设进行比较的基础,在第五步骤S50中,对所拍摄的图像进行处理,以生成其中识别边缘的图像。此外,可以生成指示这些边缘的方向的数据。图像处理可以由Cell处理器、真实感合成图形单元或两者的组合进行。

在第六步骤S60中,使用若干种可能的评分标准之一(如基于距离的标准,其生成与所识别的边缘多靠近假设边缘成比例的分数)相对于包括所识别的边缘的图像和可选地这些边缘的方向对转动的书页的每一个假设边缘进行评估。同样,该评估或比较可以使用运行在合适的软件指令下的Cell处理器进行。然而,通常情况下,没有必要比较每个假设边缘和处理过的图像上的所有像素。

在第七步骤S70中,将其所预测的转动页的自由边缘产生最佳分数的假设假定为是与实际的转动页的位置最为匹配,Cell处理器执行对该假设的选择。

最后,在第八步骤S80中,虚拟图形元素,如画面或多边形对象(例如,3D虚拟对象的2D呈现)被叠加在所拍摄的图像上或以其他方式被合并在所拍摄的图像中,以在与获得的假设一致的位置和方向上对其进行增强。可以使用真实感合成图形单元组合视频和图形元素(通常根据Cell处理器的指令)实现该图像增强。虚拟图形元素本身可以存储在本地RAM、硬盘、或光盘中,可以远程存储,或者可以是程序图形生成过程的产物,如树的生长过程。

其他可能的步骤如图5中用虚线箭头所示。这些包括:步骤S11、S22和S33,其对立体图像对的第二图像重复步骤S10、S20和S30;以及步骤S88,其对第二图像中的偏移位置(位移)重复步骤80。类似地,例如,通过Cell处理器使用立体图像对的直接图像比较,步骤S12中使用虚线箭头提供了对于S11,S22和S33的一种可替换的位移的确定。在任一种情况下,这使得能够对立体显示进行3D增强。

应该理解的是,上述步骤不一定必须按照上述顺序实施。例如,第五步骤S50可以在第一步骤S10之后立即出现。

还应该理解的是,最初的一组假设可以以非线性方式分布,在转动页的预期位置(例如,根据最后N个视频帧中的转动速率预测)附近的假设密度更高。类似地,在选定的范围内,多个较优假设可以作为较高密度的假设的中心(例如,来自前一帧的、之前获得的假设)。

然而,应该理解的是,上述技术在某些情况下可能会遇到问题,例如当某一页转动非常迅速而导致运动模糊并因此导致视频图像中的边缘数据有限时,或者当来自转动页的较强阴影在图像中产生假阳性边缘时。

为了缓解这些问题,在本发明的一个实施例中,工作在适当的软件指令下的Cell处理器对在图5的方法中假设的转动页的可允许的可能位置的范围实施可见性约束模型。该可见性约束模型有助于缩小可能的页角度的范围,从而减少不确定性,并区分出视频图像中的假阳性边缘。

可见性约束模型使用书的特定的物理外观的模型,下面参照图6对其进行说明。

如图6所示,在本发明的一个实施例中,每个页面(1001,1002等)包括至少一个各自的、大致位于页面中间的基准标记(1011,1012),如前所述。

中间可以被认为是距页面外边缘预定距离的页面区域,预定距离位于例如4厘米到10厘米的范围内(对于典型的A4大小的书)。此间隔的目的是降低在正常使用拿着书时手指或拇指遮挡某些或所有的基准标记的机会;因此,更一般地,预定距离可以是书的目标读者中的用户的拇指的平均长度。结果,如果想要最大化该中间区域内的基准标记的大小,那么假定标记是正方形或与页面具有相似高宽比的四边形,优选地将其定向为与页面边缘大致对齐。

因此,基准标记可以被准确地放置为相对于页面居中,或者在本发明的一个实施例中,其向书脊1060(在书完全打开放平时位于相对的页面之间)横向偏移。在此情形中,偏移量通常约为1至5厘米,尽管其他的偏移量可以根据书的大小设想。

这些页面上的每个基准标记包括各自不同的非对称图案,其首先能够向增强真实感应用程序指示书的尺寸和方向,如上所述,其其次能够指示相应的页面(即,是书的哪个页面)。应该理解的是,与书一起可操作的增强真实感应用程序将保存每个基准标记的参考或模板副本,每个标记将与书的特定页面相关联。因此,识别出标记也就识别出印有该标记或该标记附属的页面。

此外,在每个页面上,非字母数字的图案(1040A,1040B)位于比基准标记更靠近书的页面外边缘的位置。通常情况下,这种非字母数字的图案位于基准标记与正常使用时距离书的用户最远的页面外边缘之间。因此,在书的通常使用时,该边缘也最靠近摄像机,其中摄像机位于靠近要显示增强后的图像的电视机,而用户面对着电视机。非字母数字图案可以类似地位于基准标记的边角和由来自用户的更多页面边缘和横向页面外边缘(左或右页面外边缘,取决于页面)形成的页面的边角之间,如图6中所示。

值得注意的是,非字母数字图案因此可以形成“L”形状(即,在边角周围沿着书的外边缘)。在这种情况下,非字母数字图案因此位于比基准标记更靠近两个边缘的位置。

非字母数字图案在理论上能够指示至少一对相对的页面(例如,页面1和2,如图6所示),这对页面包括其上放置有非字母数字图案的相应页面。因此,在图示的示例中,非字母数字图案对页面1和2这对页面来说是唯一的。可选地,该非字母数字图案可以对单个页面唯一,但是这可能潜在地要求使用更加复杂的图案,因为它使得书中所需的唯一图案的数量加倍。

由于其位置更靠近书的边缘,因此给定页面上非字母数字图案在转动在它上面的单页或多页的过程中较早地显露出来。这允许对该页面进行合适的增强,因为该页面在用放置在中心的基准标记将其识别出之前就显露出来。

值得注意的是,不同于基准标记,非字母数字图案不需要在开始时确定书的位置、尺寸或方向。因此,非字母数字图案在理论上在尺寸或方向方面可以是模糊的,因为图案的这些方面可以相对于书中的基准标记来分辨。

相反,非字母数字图案依赖于通过参考可见的基准标记消除其尺寸和方向上的模糊。例如,参照图4,如果非字母数字图案在页面6(图4中参考标号1006)的边角上显露,那么它的尺寸和方向可以参照图示示例的页面1上的基准标记1011以及可选的任何基于页面边缘1020的书跟踪算法来确定。

因此,值得注意的是,非字母数字图案可以布置在相对的页面上,作为关于书脊的镜像图像(如图6所示)以在不影响其功能性的情况下使用户看起来更为愉悦。

应该理解的是,非字母数字图案也可以关于页面的两个外边缘(即,顶部和底部边缘,因为左边缘或右边缘不具有对应的相对的外边缘,而是在书脊处结束)之间的中心线进行镜像。

因此,两个页面展开可以有四个相同的非字母数字图案的拷贝1040A-D,每个相对于另一个旋转90度,并具有关于书脊中点的旋转对称。

这意味着,如果书的用户上下颠倒地拿着它,那么非字母数字图案的拷贝对摄像机而言仍然是可见的以出于较早地指示最新显露的(多个)页面的目的。

除了书页上的标记之外,在本发明的一个实施例中,书具有具有比书页更大尺寸的封面,并因此具有从上面看延伸超过每个页面的外边缘的末端,如图6所示。

封面包括沿着至少第一末端(1030A)的高对比度图案。应该理解的是,该图案因此印制在封面内侧上的封面外边缘处或附近。

与非字母数字图案一样,该图案可以关于书脊进行镜像(因此出现在封面和封底内页上),还可以关于页面顶部和底部之间的中心线进行镜像,以形成该高对比度图案的四个拷贝(1030A-D)。

该图案可以对与该书有关的信息进行编码(例如,标题号),或者简单地可以是随机的。一个典型的高对比度图案可以编码为约6至20个比特的量级。图案的亮和暗元素可以遵循规则间距方案或具有任意间距。

此外,高对比度的图案(1035L,R)也可以沿着书的横向末端放置。该高对比度图案可以与上面所述的高对比度图案相同,或者也可以以不同的方式对相同的信息进行编码,或者对不同或附加的信息进行编码,或者是随机的。

在上述任何一种情况下,应该理解的是,封面具有预定厚度。因此,在本发明的一个实施例中,高对比度图案延伸超过封面的边缘并至少越过封面厚度的某一预定尺寸,以提升其在非常小的锐角的情况下相对于摄像机的可见性。

现在又转回到图3和5,在本发明的一个实施例中,工作在适当的软件指令下的Cell处理器基于书的潜在可见特征(例如,上面所述的那些特征)对转动页位置的假设范围实施可见性约束模型。

Cell处理器可以使用书页面上的可见的基准标记和/或估计书的当前状态的书跟踪算法对书相对于摄像机的当前位置和方向(即“姿态”)进行估计,例如根据页面边缘标记1020和/或书封面末端上的高对比度图案1030(A-D)、1035(L,R)。

Cell处理器还可以访问一组关于书的运动的约束(即,书的自由度);例如,页只能绕书脊的轴线旋转。

此外,正如上面提到的,Cell处理器可以访问每个页面上的书的外观模型;也就是说,Cell处理器可以获取和/或计算(如适用)书的给定页面上的每个标记的位置和外观。

结合此外观模型和基于所检测到的基准标记估计的相对于摄像机的书的尺寸和方向,Cell处理器因此可以计算所拍摄的视频图像中的书的其他标记的预期位置和方向。

因此,理论上说,给定转动书页的旋转角度,Cell处理器可以计算出对书的当前位置和方向来说这些标记中的哪些标记是可看见的。

值得注意的是,预期标记的可见性和书页的旋转角度之间的这种关系可以反过来使用——也就是说,给定估计的书的位置和方向,并给定某些标记对该估计的位置和方向来说可见的确认,Cell处理器可以使用其外观模型和运动约束模型将转动的页的可能的页面角度范围限制为这些标记应该是可见的那些角度。

现在参照图7A和7B,通过示例的方式示出了处于绕书脊旋转的不同阶段的两页。

首先参见图7A中的页1102,可以看出该页可以使用书的页面1和2(1001和1002)上的基准标记1011、1012识别出来。在这个阶段,可以根据与存储在PS3存储器中的标记的参考模板相比,从在所拍摄的书的图像中产生的基准标记的失真来估计转动的书页的角度。

然而,作为替代或补充地(例如,如果书在视频图像中相对较小,或强光导致页面2上的基准标记难以分辨),可以根据上述可见性约束模型使用上面的页面转动估计技术并进行修改。

在这种情况下,下一对页面的非字母数字标记1044是可检测的,但下个页面上的基准标记1014不是如此。

对于书的当前位置和方向而言,意味着转动的页面很可能处于15到75度范围内,其中0度表示关于书脊轴线水平(与书平行),90度表示关于书脊轴线垂直(垂直于书)。

如果在下个页面的非字母数字标记未能被检测到,那么转动的页面很可能处于0到15度范围内。

类似地,将图7B中的页1104作为第二示例,可以看出该页的特征(identity)可以使用该书的页面3(1003)上的基准标记1013估计出来。由于在旋转的这个阶段不太可能能够直接分辨该书页面4(1004)上的基准标记1014,因此系统主要依赖于上述图5的技术来估计转动的页的位置。

在此情形中,下一页面6(1006)的非字母数字标记1046和基准标记1016是可检测的,并且如上面所述,该书页面3上的基准标记1013也是可见的。

对于书的当前位置和方向而言,意味着转动的页面很可能处于75到105度范围内。

应该理解的是,随着某页完成下一半转动,可见性约束模型可以类似地使用正在被该页依次覆盖的页面上的基准标记和非字母数字标记来对转动页可能的角度范围进行估计,并且更一般地,可以在任何时间使用书的任何明显的标记。

现在又转向图8A和8B,它们示出了参照可见性约束模型估计的书的位置和方向的重要性。图8A和8B还示出了之前图7B示出的在页1104转动过程中的几个阶段。在图7B中,值得注意的是,基准标记1013和1016的可见性意味着对图7B中的书的位置和方向来说,页的角度很可能处于75至105度范围内。然而,对图8A和8B中所示的位置和方向,可以看出基准标记1013和1016的可见性意味着页的角度很可能处于40至60度范围内。

因此,可见性约束模型在估计当前转动页可能的角度范围时考虑了书的页面的预期外观以及书相对于摄像机的位置和方向(与参考检测到的基准标记计算的)。

然后,该估计的可能的角度范围可以用来以下述一种或多种方式修改图5的页面转动估计方法。

首先,可以响应于可能的范围缩小实施的假设的范围。例如,取代以(例如)4度步长实施在10度至170度之间的假设范围,而是以2度步长实施在30至70度之间的假设范围(例如,响应于图8A或8B中所示的视图,表示40至60度的范围)。

因此,在第一实施例中,假设范围可以至少在最初被限制为由可见性约束模型返回的可能的角度范围,可选地加上预定的额外缓冲范围(在上面的示例中,可能的角度范围的任一边额外的10度)。此外,由于范围更小,可选地,对于相同的总体计算开销,可以以更小的增量(例如,2度,而非4度)实施假设,因此提高了最终位置估计的逼真度。

如果在该缩小的范围内未能找到满足目标阈值分数的候选页面匹配,那么可以使用更宽的角度范围的假设或失败模式。例如,在失败模式中,取代原来做法,根据从最后N个视频帧观察到的书页角度的变化计算得到的页面角速度可以外推出转动页的位置。尽管缺乏根据当前帧的图像数据对书页位置进行的直接估计,但这样做也可以给出合理的近似。

其次,替代性或补充地,可以根据其是否处于由可见性约束模型识别的可能的范围内,对给予假设的分数进行加权。单独来看,这样做维持了假设的完整范围,同时不利于(例如,由阴影和背景元素在书上造成的)假阳性和其他异常。结合上面的第一种技术,它可被用来帮助分辨在例如由于运动模糊引起的范围内存在多个局部边缘的情况下最可能的页面位置。

应该理解的是,在这两种情况下,权重可能是一个来自书的多个方面的可见性证据的函数。因此,例如,基准标记1013和1016的可见性是表明对书的当前位置和方向而言转动页介于40至60度之间的证据,但可见性约束模型还可能包括基准标记辨识失败时的大小和角度的规则,因此也将在该位置和方向不能识别出标记1014视为表明转动的页处于角度50度或以上的证据。

因此,在此示例中,权重在范围60-50度内最高,在50度和40度之间较高,在任何预定的缓冲区域(例如,70-60和40-30度之间)内较低,超出这些范围更低。

在上面的说明中,参考标记的可见性已经假定标记完全可见(或是PS3能够确定地识别出它的可见程度)。然而,在本发明的一个实施例中,为估计转动页的角度范围,PS3不限于是否完全辨识出非字母数字图案或基准标记。

回想一下,PS3对于给定的位置和方向可以访问和/或计算出书的预期外观;因此可以在不对图案进行严格的、确定的识别的情况下估计出预期图案的什么部分是可见。

因此,现在又参照图9A和9B,在图9A中,转动的页部分遮挡了页面6(1006)上的基准标记1016。在这种情况下,可能不能足够严格或确定地辨识出标记以用作对书的尺寸和方向进行估计的基础(尽管这仍然可以使用标记1013进行),但该页面上的预期基准标记图案可以与视频图像进行比较以提供对标记在多大程度上是可见的粗略估计,从而更精确地估计转动页的边缘位置——可以根据其对转动的页可能的角度范围进行微调或结合书的位置和方向进一步加权(如前所述)。

因此,参照图9B,可以使用现有的模板匹配技术对拍摄的图像(针对当前估计的书的位置和方向校正过的)和该基准标记的参考模板进行比较,可以识别部分匹配的程度。在这种情况下,对示出的书的位置和方向,当前可见的基准标记的数量与在60和65度之间转动的页的角度是一致的。

此外,应该理解的是,这种方法也可以应用于非字母数字图案本身。系统可以假定如果已经识别出后续页面中的非字母数字图案,而还未规范地识别出基准标记,那么可以将该部分图案匹配处理应用于该基准标记。然而,如果还未规范地识别出后续页面中的非字母数字图案,那么可以将该部分图案匹配处理应用于该非字母数字图案。因此,部分图案匹配处理可以按照书页显现它们的顺序应用于书的下一个预期的、但是还未被确认的特征。

在这种情况下,为了应对同时转动一页以上的可能性(不能立即知道打开的页面),那么应该理解的是,图案匹配处理可以应用于书的连续页面上的参考非字母数字图案,直到匹配满足阈值。然而,在这任一种情况下,如果未能找到可靠的匹配,那么不在可见性约束模型中考虑(factor into)此额外证据。

因此,在本发明的一个总结性实施例中,娱乐设备(如,PS310)包括可用于接收包括书的视频图象的视频输入端(如,USB端口710或无线链路(730,740))。然后,将处理器(如,Cell处理器100)配置运行为(即,在合适的软件指令下)响应于图像中可见的书的基准标记来估计视频图像内的书的当前位置和方向,如前面所述。类似地,将处理器(如,Cell处理器)(用作整体单元或者将任务分配给若干独立核心)配置运行为估计书的一个或多个预定特征的可见性,如前面所述。将处理器(再次如,作为整体或各个核心的Cell处理器)配置运行为估计的书的当前位置和方向计算与估计的书的每个预定特征或书的预定特征的检测的可见性一致的书页转动角度的范围,如前面所述,然后将处理器(再次如,作为整体或各个核心的Cell处理器)配置运行为响应于计算的范围估计转动的书页的角度。

这种娱乐装置可以在耦接到摄像机756(如,或)时形成书页跟踪系统的一部分。

然后,该系统可以包括一个或多个书1000,书或每本书包括一个或多个可转动的、印制有基准标记(800,1011,1012,等等)的页面的页,如前面所述。

同样如前面所述,书或每本书还可以至少包括设置在基准标记和页面外侧边缘之间的非字母数字图案的第一实例。

现在还参考图10,根据上面描述,在本发明的一个实施例中,一种书页跟踪方法,包括:

在第一步骤S110中,接收包括书的视频图像;

在第二步骤S120中,响应于图像中可见的书的基准标记估计视频图像中书的当前位置和方向;

在第三步骤S130中,估计书的一个或多个预定特征的可见性;

在第四步骤S140中,对于估计的书的当前位置和方向,计算与检测到的的书的每个预定特征或书的预定特征的可见性一致的书页转动角度的范围;

在第五步骤S150中,响应于计算的范围估计书的转动页的角度。

对本领域的技术人员来说显而易见的是,如在本说明书中描述并要求保护的与装置的各种实施例的操作对应的上述方法中的变化被认为在本发明的范围之内,包括但不限于:

-估计书的转动页的角度的步骤,包括以下步骤:对于至少转动页的第一可检测边缘,假设多个可能的位置;将假设与来自部分或全部图像的一个或多个检测的边缘进行比较;以及将与所述检测边缘或每个检测边缘比较最有利的假设的角度选择作为估计的角度。

-其中响应于计算的范围,对假设的可能的位置的范围进行限制,并/或响应于计算的范围对假设与检测到的边缘的比较进行加权。

-估计书的一个或多个预定特征的可见性的步骤,包括:检测所述或每个预定特征的完全可见性,或者

-估计书的一个或多个预定特征的可见性的步骤,包括:检测是否可以以预定的置信度辨识所述或每个预定特征,或者

-估计书的一个或多个预定特征的可见性的步骤,包括:检测所述或每个预定特征可见的程度。

-其中,估计包括以下步骤:校正所述或每个预定特征的方向和尺寸;以及比较所述或每个校正后的预定特征和相应的预定特征的参考版本以估计图像中预定特征可见的程度。

-如前所述,不同的证据可以在不同的时间变为可用(例如,当基准标记可见但不再能够被可靠地辨识出时),因此可见度约束模型可以在它们变为可用时增加新的约束元素,或增加相关的约束(例如,进一步缩小可能的范围)。

-预定特征是施加到封面内页的可见末端上的一个或多个基准标记、非字母数字标记、高对比度图案或在正常使用时可以在书的图像中分辨的书的任何明显特征。

-在非字母数字标记的情形中,其尺寸和方向可以参考在不同于非字母数字标记的页面上的可见的基准标记进行估计。

最后,应该理解的是,本文所公开的方法也可以在通过软件指令或通过加入或取代专用硬件而被适当地修改为适用的传统硬件上执行。

因此,对常规等效设备的现有部件的所需进行的修改可以以非临时性的计算机程序产品或包括可以执行存储在数据载体上(如,软盘、光盘、硬盘、PROM、RAM、闪存或这些或其他存储介质的任意组合,或者以在网络上(例如,以太网、无线网络、互联网或这些或其他网络的任何组合)通过数据信号传输的形式)的指令的处理器的类似制造对象的形式实现,或者在ASIC(专用集成电路)或FPGA(现场可编程门阵列)或其他适合在对常规等效设备进行修改时使用的可配置电路硬件中实现。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1