加强型增强现实多媒体系统的制作方法

文档序号:12361878阅读:193来源:国知局
加强型增强现实多媒体系统的制作方法与工艺

本披露涉及增强现实系统领域。



背景技术:

增强现实是物理现实世界环境的生动直接观看或间接观看,其元素由计算机生成的感觉输入(如声音、视频、图形或GPS数据)增强。常规地,实时地并且在具有多个环境元素的语义上下文中使用增强。增强现实的示例是当在取景器中实时地观看对象时使用装置如智能电话或平板计算机显示对象的信息。

如果为了稍后播放而记录增强现实,其中,增强现实附加与取景器中的原始图像合并,结果无非是经编辑的视频流。当这确实将信息而不是原始取景器内容自身存在给取景器时,在播放过程中几乎不存在选项,使得增强现实附加比其可能在其他情况下更加无用。

因此,期望在增强现实领域中的进一步发展。



技术实现要素:

提供本概述以便引入以下在详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征也不旨在用作限定所要求保护的主题的范围的辅助内容。

一种用于操作增强现实系统的方法包括从照相机传感器或视频文件采集视频数据并且标识在该视频数据中的至少一个兴趣区。在没有接收到用户输入的情况下针对至少一个兴趣区生成增强现实数据,其中,增强现实数据根据上下文与该至少一个兴趣区相关。显示该视频数据,其中,在从该照相机传感器或该视频文件采集该视频数据时,该增强现实数据实时地叠加于其上。以非合并的方式存 储该视频数据和该增强现实数据。

另一个方面涉及一种电子装置,该电子装置包括照相机传感器、显示器、非易失性存储单元和处理器。该处理器被配置成用于从该照相机传感器或视频文件采集视频数据、标识在该视频数据中的至少一个兴趣区以及在没有接收到用户输入的情况下针对该至少一个兴趣区生成增强现实数据,其中,该增强现实数据根据上下文与该至少一个兴趣区相关。该处理器被进一步配置成用于:在该显示器上显示该视频数据,其中,在从该照相机传感器或该视频文件采集该视频数据时,该增强现实数据实时地叠加于其上;并且将该视频数据和该增强现实数据存储在该非易失性存储单元中。

附图说明

图1是可以在其上执行本披露的增强现实处理技术的电子装置的示意框图。

图2是根据本披露的增强现实处理技术的流程图。

图3是根据本披露的增强现实生成和显示技术的流程图。

图4是根据本披露展示了播放视频数据和可选地增强现实数据的流程图。

具体实施方式

将在下文描述一个或多个实施例。这些所描述的实施例仅是如由所附权利要求来单独限定的实现技术的示例。此外,为了提供集中的描述,可能不会在说明书中描述实际实现的不相关特征。

初始参照图1,现在描述可以用于执行增强现实技术的电子装置100。电子装置100可以是智能电话、平板计算机、增强现实头戴式耳机或者其他合适的电子装置。电子装置100包括处理器112,具有可选显示器114、可选非易失性存储单元116、可选照相机传感器118、可选收发器120、可选GPS收发器122、可选加速计124、可选罗盘126、可选气压计128、可选蓝牙收发器133以及耦接于其上 的可选音频转换器135。显示器114在一些情况下可以是触敏的,并且非易失性存储单元116可以是磁或固态存储单元,如硬盘驱动器、固态驱动器或者闪存RAM。照相机传感器118可以是CMOS照相机传感器,并且收发器120可以是蜂窝收发器、WiFi收发器或蓝牙收发器。

此外参照图2,现在描述增强现实处理技术。处理器112可选地从照相机传感器118可选地实时地收集视频数据帧(框202),并且可以可选地操作音频转换器135以获得与视频数据帧同时发生的音频记录。处理器112也可以从所记录的内容收集视频数据。当收集每个视频数据帧时,处理器112操作以便标识那个帧中的兴趣区(ROI)(框204)。示例ROI包括人脸、对象、地形部分、天空部分等。

处理器112然后在没有接收到用户输入的情况下或者在一些实例中在接收到用户输入的情况下针对ROI生成增强现实数据(框206)。通过在没有接收到用户输入的情况下针对ROI生成增强现实数据,意味着数据或者来自传感器或者来自数据库,而不是手动输入的(如由人听语音并经由键盘手动地输入适当的字幕)。尽管可以以此方式输入针对ROI的一些增强现实数据,一些增强现实数据将不会被输入。

例如,处理器112可以通过从内部传感器读取或采集数据来生成增强现实数据。因此,处理器112可以通过以下方式来生成增强现实数据:读取照相机传感器118的定向、在从GPS接收机122采集视频数据时读取电子装置100的位置的GPS坐标、在从气压计128捕获图像时读取与ROI或者电子装置100的位置相关联的天气状况、读取来自加速计124的数据或者读取来自罗盘126的数据。处理器112还可以通过经由收发器120如从提供了针对给定的GPS坐标位置的实时天气数据的源通过互联网接收以上数据来生成增强现实数据。

此外,处理器122可以通过分析视频数据自身或者通过分析与视 频数据同时捕获的音频数据来生成增强现实数据。例如,处理器112可以通过对源自视频数据的声音执行音频分析来生成增强现实数据,或者可以通过对ROI执行图像分析、对ROI执行字符识别、对ROI执行对象识别以及对ROI的图像数据执行图像搜索来生成增强现实数据。这可以通过处理器112在本地完成,或者处理器112可以为了这些目的通过互联网采用远端源。此外,为了这个分析,处理器112可以组合本地源和远端源(非易失性存储器116和远端数据源130)。

每一项增强现实数据根据上下文与其对应的ROI相关。上下文关系意味着在ROI自身中示出的图像的信息,或者与在ROI自身中示出的图像的捕获相关的信息。上下文关系不意味着如时间戳/日期戳或者针对语音或者声音的字幕的信息。

处理器112可选地实时地在显示器114上显示视频数据和增强现实数据(框208)。增强现实数据覆盖在视频数据的顶部上。例如,视频数据中的个体的名字可以漂浮于其对应的头部之上或者与其相邻地以文本显示,或者对象的信息可以漂浮于对象之上或者与其相邻地以文本显示。

当视频数据和增强现实数据被处理器112显示在显示器114上时,其被处理器112以非合并的方式存储在非易失性存储器116中(框210)。通过被以非合并的方式存储,意味着增强现实数据并非简单地被存储为替换其覆盖的视频数据的多个部分的视频数据,而是反而被存储或者为视频文件自身的元数据(框212)或者为单独的元数据文件(框214)。例如,增强现实数据可以被存储为针对使用H.264或者HEVC算法编码或压缩的视频文件的补充增强信息(SEI),或者被存储在与视频文件相关联的单独的增强现实文本文件(即,.art)中。在一些实例中,增强现实数据还可以被存储在容器用户数据中。在一些实例中,视频数据和增强现实数据的此存储不需要在播放的时候完成,并且可以或者在播放之前或者不存在播放时完成。

针对每个ROI,在增强现实数据被存储为视频文件自身的元数据或者为增强现实文本文件的情况下,元数据字段可以包括以下各项:

开始->停止时间戳

结构/数据的长度

给定ROI的数量[N]

ROI类型[N]

ROI[N]

对象ROI的缩略图(可选)

纬度(可选)

经度(可选)

用户评论(可选)

也可以包括其他字段。示例元数据可以是:

00:04:25,166-->00:04:28,625//起止PTS

52//结构/数据的长度

1//Rect数量

1//ROI字体

400 400 600 600//ROI

0.8//纬度

1.2//经度

欧巡赛是如此有趣//用户评论

00:04:29,751→00:04:31,044

<参数>

#索引

偏移0

偏移53

---

偏移12802

#CNT

98 12804//AR结构的Cout索引的偏移

#VER

V2.0

ART#

将元数据存储在单独的增强现实数据文本文件中的优点是通过或者更改或者替换数据以及增添新数据字段在稍后的时间点处对其更新容易。因此,例如,如果给定的ROI是电影中的演员,可以更新在稍后的时间点处那个电影的AR播放以包括在当前时间处的演员信息的播放,而不仅仅按照原始记录的时间播放。作为另一个示例,如果给定的ROI是著名的旅游胜地或者地标,可以更新AR播放以包括那个旅游胜地或者地标的当前信息。

在一些实例中,非易失性存储器116可能针对电子装置100不是本地的,并且可能反而针对经由局域网或互联网连接到电子装置100的服务器是本地的。在其他实例中,非易失性存储器116可能针对电子装置100不是本地的,但是可能反而是经由有线连接而连接的远端非易失性存储器134或者经由蓝牙连接而连接的非易失性存储器132。

由于视频数据和增强现实数据被存储,它们然后可以被处理器112在显示器114上非实时地播放(框216)。应当理解的是,由于增强现实数据和视频数据被以非合并的方式存储,在没有显示增强现实数据的情况下,甚至可以通过不支持播放增强现实数据的硬件和软件播放视频数据。

另外地参照图4,现在描述在一个实施例中播放增强现实数据和视频数据。视频数据和AR数据(框400)被缓冲(框402),并且然后被发送到或者支持AR的视频播放器(框404)或者不支持AR的普通视频播放器(框406)。如果利用支持AR的视频播放器(框404),那么在智能电话(框410)、平板计算机(框411)、膝上计算机(框412)或者TV(框413)上播放视频数据和AR数据。 如果利用普通视频播放器(框406),那么在智能电话(框410)、平板计算机(框411)、膝上计算机(框412)或者TV(框413)上播放视频数据。

在一些实例中,多个ROI可能与同一对象或人相关,并且可能令人期望的是元数据包括针对包含那个对象或人的连续存在的视频数据的起止时间的时间戳。因此,处理器112可以确定与同一对象或人相关的多个兴趣区,并且确定包含那个对象或人的连续存在的起止时间戳。处理器112还可以确定针对与不同对象或人相关的ROI的起止时间。因此,处理器112可以确定针对视频数据中的某个或者每个人和/或对象的起止时间。这些起止时间可以由处理器112根据增强现实数据被存储的位置被存储在或者视频文件的元数据部分中或者单独的视频文件中。

在处理器112非实时地播放视频数据和增强现实数据的过程中,根据上下文与增强现实数据相关的新增强现实数据在其被非实时地显示时可以在增强现实数据上叠加地显示。例如,增强现实数据可以包括在墙上叠加显示的广告以便广告产品A。新增强现实可以因此是针对在产品A上叠加的产品B的广告。

另外地参照图3的流程图300,现在描述由处理器112生成增强现实数据。首先,从或者照相机传感器118或者非易失性存储器116采集视频数据(框302)。将视频数据与AR数据(如来自框304的装置100的定向、GPS坐标或者用户输入)一起发送至在处理器112上执行的AR引擎(框306)。AR引擎(框306)执行图像分析、人脸识别、对象识别并且生成来自这些对象或人脸的ROI。AR引擎(框306)将从框304接收的AR数据与所生成的ROI和其他数据(图像分析、人脸识别、对象识别的结果)进行组合并且将其发送至在处理器112上执行的AR记录器(框308)。

AR记录器(框308)获得AR数据、其他数据和ROI并且将其处理成对记录有用的数据。在该过程中,AR记录器(框308)可以记录针对以上描述的ROI的开始和停止时间戳。AR记录器(框308) 将这些结果发送至在处理器112上执行的AR格式器(框310)。AR格式器(框310)使用所接收的数据并将其格式化成期望的格式,并且然后将其发送至将AR数据存储在增强现实数据文件(如,.art文件)中的AR文件写入器(框314)。另外或替代性地,AR格式器(框310)将格式化的AR数据发送至转码器/编码器(框312),该转码器/编码器也接收来自视频源(框302)的视频数据。转码器/编码器(框312)将视频数据与格式化的AR数据进行组合以创造具有嵌入式AR元数据的视频。

如所解释的,以上披露的意图是将AR ROI和来自任何合适的传感器的数据存储为元数据,从而使得在不存在附加处理时所述元数据的稍后检索是有可能的。也就是说,应当注意的是,在此所描述和使用的增强现实元数据不包括针对语音或者声音的隐藏字幕或者视觉时间戳和日期戳。

本披露已经关于有限数量的实施例来描述,得益于本披露的本领域的技术人员将理解的是,可以设想其他实施例而不脱离如本文中所披露的本披露的范围。因此,本披露的范围应仅由所附的权利要求来限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1