内插视频标签的制作方法

文档序号：9333058阅读：353来源：国知局

内插视频标签的制作方法
【专利说明】内插视频标签
【背景技术】
[0001] 诸如台式机和膝上计算机、平板计算机、移动电话和电视机之类的各种设备都可以能够播放视频数据。这样的设备可以通过各种手段获得视频数据，诸如经由互联网下载、互联网流送、或者通过可移动介质。在示例中，显示视频数据的相同设备也可以能够计算与视频相关的其它数据。

【发明内容】

[0002] 在一个示例中，一种方法包括由计算设备识别视频的多个视频帧中所包括的视频帧的序列，其中对象存在于该视频帧的序列中的至少一个视频帧中；由该计算设备确定与该对象在该视频帧的序列中的存在相关联的内插函数，其中该内插函数指定该内插函数在其中有效的视频的时域，并且由该计算设备传送该视频、该对象的指示以及该内插函数的指示。
[0003] 在另一个示例中，一种设备包括存储器、以及一个或多个可编程处理器，其被配置为识别视频的多个视频帧中所包括的视频帧的序列，其中对象存在于该视频帧的序列中的至少一个视频帧中；确定与该对象在该视频帧的序列中的存在相关联的内插函数，其中该内插函数指定该内插函数在其中有效的视频的时域。该设备进一步包括接口，其被配置为传送该视频、该对象的指示以及该内插函数的指示。
[0004] 在另一个示例中，一种计算机可读存储设备编码有指令，该指令在被执行时使得计算设备的一个或多个可编程处理器识别视频的多个视频帧中所包括的视频帧的序列，其中对象存在于该视频帧的序列中的至少一个视频帧中，确定与该对象在该视频帧的序列中的存在相关联的内插函数，其中该内插函数指定该内插函数在其中有效的视频的时域，并且传送该视频、该对象的指示以及该内插函数的指示。
[0005] 在另一个示例中，一种方法包括由计算设备接收包括多个视频帧的视频、该视频中表示的至少一个对象的指示、与该对象相关联的标签、用于该视频中的视频帧的至少一个序列的与该对象相关联的内插函数、以及与该对象相关联的知识数据，其中该内插函数指定该内插函数在其中有效的视频的时域；由该计算设备并且对于该视频的视频帧基于所接收的内插函数确定该视频帧中用于与该对象相关联的标签的位置，其中该标签与关联于该对象的知识数据相关联；以及由该计算设备输出视频帧以及根据所确定的位置定位的标签中的至少一个以显示。
[0006] 在另一个示例中，一种设备包括存储器和接口，该接口被配置为接收包括多个视频帧的视频、该视频中表示的至少一个对象的指示、用于该视频的视频帧的至少一个序列的与该对象相关联的内插函数的指示、以及与该对象相关联的知识数据，其中该内插函数指定该内插函数在其中有效的视频时域。该设备进一步包括一个或多个可编程处理器，其被配置为对于该视频的视频帧基于所接收的内插函数确定该视频帧中用于显示与该对象相关联的标签的位置，其中该标签与关联于该对象的知识数据相关联；以及输出视频帧以及根据所确定的位置定位的标签中的至少一个以显示。
[0007] 在另一个示例中，一种计算机可读设备编码有指令，该指令在被执行时使得计算设备的一个或多个可编程处理器接收包括多个视频帧的视频、该视频中表示的至少一个对象的指示、用于该视频中的视频帧的至少一个序列的与该对象相关联的内插函数的指示、以及与该对象相关联的知识数据，其中该内插函数指定该内插函数在其中有效的视频的时域；对于该视频的视频帧基于所接收的内插函数确定该视频帧中用于显示与该对象相关联的标签的位置，其中该标签与关联于该对象的知识数据相关联；以及输出视频帧以及根据所确定的位置定位的标签中的至少一个以显示。
[0008] 本公开的一个或多个示例的细节在附图和以下描述中给出。其它的特征、目标和优势将由于该描述和附图以及由于权利要求而是显而易见的。
【附图说明】
[0009] 图1是图示依据本公开的一个或多个方面的服务器设备、客户端设备以及由该客户端设备所提供的用户界面的概念图。
[0010] 图2是图示被配置为执行本公开的一种或多种服务器侧内插视频标签技术的服务器设备的细节的框图。
[0011] 图3是图示被配置为执行本公开的一种或多种客户端侧内插视频标签技术的客户端设备的细节的框图。
[0012] 图4A-4C是依据本公开的一个或多个方面的具有内插视频标签的用户界面的概念图。
[0013] 图5是图示服务器设备可以通过其来实施本公开的一种或多种服务器侧内插视频标签技术的示例过程的流程图。
[0014] 图6是图示客户端设备可以通过其来实施本公开的一种或多种客户端侧内插视频标签技术的示例过程的流程图。
[0015] 图7是图示服务器设备可以通过其来实施本公开的一种或多种服务器侧内插视频标签技术的另一种示例过程的流程图。
[0016] 图8是图示客户端设备可以通过其来实施本公开的一种或多种客户端侧内插视频标签技术的另一种示例过程的流程图。
【具体实施方式】
[0017] 计算设备或者在计算设备上执行的程序可以播放或者以其它方式输出视频数据。更具体地，计算设备可以通过显示图像（或"视频帧"）序列来播放视频。此外，计算设备可以结合播放视频而输出音频。在各种情形中，用户可能希望观看与所播放的视频中表示的对象相关联的数据。例如，用户可能希望观看与出现在所播放的视频中的画面上的演员相关联的诸如影片目录之类的数据。作为另一个示例，用户可能希望观看与视频中所表示的无生命实体相关联的数据，诸如特定建筑物的名称或位置或者歌曲的名称。
[0018] -般地，本公开的技术涉及对视频的帧中所表示的对象添加标签。该标签可以使得用户能够访问与视频的帧中所表示的各种对象相关联的信息（例如"元数据"）。例如，描述了用于计算给定视频帧中显示与对象相关联的标签的位置的技术。此外，描述了用于计算所要显示的标签的性质和/或大小的技术。
[0019] 在一个示例方面中，诸如实施该技术的服务器之类的计算设备可以检测并识别视频内诸如人脸的一个或多个对象。此外，该服务器可以确定包括该对象的连续视频帧的一个或多个序列，其被称之为分段。针对每个分段，该服务器可以确定该对象在相应序列的起始帧和结束帧内的位置。基于对象跨视频帧的序列的起始和结束位置（"端点"），该服务器可以确定表达该对象跨该视频帧的序列的移动的内插函数。表达对象跨帧的移动的精确内插函数可以是非线性的，诸如与对象的二次运动相关联的内插函数。该服务器可以利用产生在所允许的误差公差内的结果的线性内插函数对非线性内插函数进行近似。例如，该线性内插函数可以简单地指定该对象在视频分段中的起始帧和结束帧中的位置，以及该内插函数在其中有效的时域。
[0020] 该服务器还可以基于所近似的函数将标签与每个序列相关联，使得该视频帧内的标签的位置近似地跟踪该对象跨序列的移动。更具体地，该服务器可以存储该对象的表示以及有关该对象的信息。在其中该对象是与演员相关联的脸部图像的示例中，该服务器可以存储与该演员相关的信息，诸如该演员迄今为止的影片目录。作为另一个示例，如果该对象是诸如城市天际线之类的位置的表示，该服务器可以存储与该城市相关的信息，诸如旅游相关的数据以及指向旅游网站的链接。此外，该服务器可以存储标签函数，其将特定对象的标签映射至对象相关信息。此外，该服务器可以连同包括内插函数的基于一个或多个对象的存在而指示各种分段的数据一起将视频传送至一个或多个客户端设备，诸如用于访问视频的客户端设备。
[0021] 进而，从服务器接收该视频的客户端设备可以实施本公开的一种或多种技术以向用户提供针对有关该视频中的对象的信息的轻量级的基于标签的访问。例如，在从服务器下载或以其它方式接收一些或全部视频文件之后或同时，该客户端设备可以为用户准备这样的文件的一个或多个部分供其观看，其具有访问对象有关信息的选项。更具体地，客户端设备可以识别该视频的特定实例处的所有"活动"标签。如这里所使用的，术语"活动"可以描述与当前视频帧中所显示的对象相关联的标签。给定视频帧可以基于帧中所识别的对象的数量而包括多个活动标签。例如，客户端设备可以对于视频文件的每个序列识别服务器与该序列中所表示的对象相关联的标签。此外，该客户端设备可以基于对象的属性选择或计算标签性质。作为几个示例，该客户端设备可以对于脸选择圆形或椭圆形，对于建筑物或建筑物集群选择定制多边形，或者对于诸如歌曲之类的音频对象选择音符形状。
[0022] 使用服务器对于特定对象所提供的内插函数，客户端设备可以确定该对象跨序列的近似运动（例如路径）。更具体地，该客户端设备可以应用该内插函数以近似该序列的每个视频帧内的对象的位置。基于对象在帧内的近似位置，客户端设备可以与相对应视频帧同时输出适当标签，由此使得用户能够基于当前所显示的视频帧内的对象位置来访问对象的标签。
[0023] 例如，该客户端设备可以输出视频，并且可以响应于接收到暂停请求而显示视频帧，该视频帧覆盖有与该视频帧内的对象相关联的标签，其中该标签的形状和位置基于相应内插函数来计算。此外，该客户端设备可以对标签进行配置以用作指向特定于相应对象的信息的链接。例如，该客户端设备可以使得用户能够与标签进行交互（例如通过触摸输入），由此调用指向对象相关信息的链接。
[0024] 本公开的技术可以提供一种更为潜在的优势。例如，通过以所描述的方式输出标签，客户端设备可以节约该设备本来要通过识别视频的每个帧中的对象并且相应地输出标签所耗费的资源。例如，该客户端设备可以通过基于分段端点仅下载并存储对象信息和标签内插功能而不是对于视频的每个和全部帧下载并存储标签位置数据而来节约大量资源。客户端设备可以通过实施本公开的技术而节约的资源的示例包括处理资源、数据存储容量和计算时间。例如，本公开的技术在视频包括若干个计算设备对于其提供元数据的对象的情形中可以是特别有用的。
[0025] 图1是图示依据本公开的一个或多个方面的服务器设备2、客户端设备12以及由客户端设备12所提供的用于视频显示的用户界面（UI)26的概念图。服务器设备2可以与客户端设备12以及诸如各种其它客户端设备的其它计算设备通信地耦合。作为一些示例，服务器设备2可以使用一种或多种类型的通信连接与客户端设备12通信，诸如经由包括互联网、局域网（LAN)、广域网（WAN)、城域网（MAN)的系统，诸如第三代（3G)和第四代（4G) 蜂窝网络之类的无线协议，等等。
[0026] 依据本公开的一个或多个方面，服务器设备2和客户端设备12可以不被要求保持持续通信连接来执行并利用这里所描述的内插视频标签技术。相反，例如，服务器设备2可以执行本公开的一种或多种服务器侧技术，并且通过通信连接向客户端设备12传送数据 24。当接收到数据24时，客户端设备12可以执行本公开的一种或多种客户端侧技术以执行内插视频标签，而不要求与服务器设备进一步交互。以这种方式，即使在客户端设备未活动地耦合至服务器设备2的情况下，诸如在客户端设备12不访问互联网连接时，客户端设备12也可以显示带标签视频和标签相关元数据。
[0027] 服务器设备2可以实施这里所描述的内插视频标签技术的一个或多个服务器侧的部分。虽然仅出于说明的目的被图示为单个设备，但是服务器设备2在各种实施方式中可以包括设备的组合，诸如各种主机设备和/或其它互连的计算设备。如图1所示，服务器设备2可以包括各种组件，包括对象识别模块4、内插函数模块6、视频分段模块8和映射模块10。在各种实施方式中，这里关于两个或更多模块所描述的功能可以被组合为单个模块。相反地，关于任意一个模块所描述的功能可以划分在两个或更多模块之间。
[0028] 服务器设备2可以存储或者以其它方式访问各种数字数据，诸如视频文件（或者简称为"视频"）以及各种知识数据。作为一个示例，服务器设备2可以访问与视频中的各种对象相关的知识数据，诸如与出现在视频中的演员相关的信息、诸如出现在视频中的建筑物和地理位置之类的无生命对象、以及要作为视频的一部分输出的音频数据，诸如歌曲、叙述或者执行画外音的演员的身份。被服务器设备2所访问的视频可以包括视频帧，其可以包括图像和/或图片。该视频可以根据视频帧被安排以便进行呈现的特定顺序进行配置，诸如根据视频帧要被输出以供显示的顺序。
[0029] 对象识别模块4可以被配置为或者能够以其它方式进行操作以识别视频中所包括的连续视频帧的集合，每个视频帧均包括对象的表示。例如，对象识别模块4可以识别每个均包括相同对象的表示的连续帧的集合，诸如整个视频中的帧的子集。该对象可以是在这些帧中以视觉方式表示的演员或无生命对象，或者可以与关联于这些帧的音频数据相关联。如这里所使用的，术语"序列"可以定义对象识别模块4的输出。序列可以与所识别的对象相关联，并且可以包括被识别以表示对象在视频或视频的音频数据中的连续出现的帧的集合中的相关数据，诸如这些帧的时间数据（例如，毫秒和/或帧计数），以及这些帧中所识别的对象的形状、大小、位置或者简单地存在。
[0030] 基于一个或多个参数，对象识别模块4可以将序列识别为均表示对象的视频帧块，即使该序列中的某些帧不包括该对象的表示。例如，在一个示例中，对象识别模块4可以将序列识别为表示屏幕上的演员，即使该序列包括一个或多个不表示该演员的帧，假设该演员的表示并未显现的情形未以大于在该序列中的阈值数量（例如两个）的连续帧中发生。在另一个示例中，对象识别模块4可以识别与画外音相关联的序列，即使该画外音在该序列的某些帧的显示期间是听不到的，假设听不到该画外音的情形不超过该序列的阈值持续时间（例如两秒）。
[0031] 在一些实施方式中，对象识别模块4可以为在端点帧之后的有限数量的帧（诸如一个帧、两个帧等）确定对象的存在，以使得客户端设备能够在对象停止存在于视频中之后的某个时间内输出该对象的标签。以这种方式，对象识别模块4可以使得用户能够在对象停止存在于视频中之后的某个时间内访问标签和/或相关联的知识数据。例如，对象识别模块4可以确定歌曲在该歌曲实际上结束之后的数秒钟范围内的额外帧期间存在，以考虑到诸如由于淡出或者被与歌曲同时存在的其它声音所抑制而错误地认为歌曲结束时、或者在歌曲是视频的音轨中的插入片段而用户仍然期望该歌曲继续播放时的情形，并且因此其标签是可见的。通过允许对象从序列中短暂缺失，对象识别模块4可以考虑到诸如视频中的灯光闪烁或者挡住帧中的视觉对象的前景对象之类的情形，或者考虑到在画外音或歌曲播放期间发生的暂停。这样的对象缺失在这里也可以被称作"间隙"或"孔"。以这种方式，对象识别模块4可以实施本公开的技术以考虑到由于视频和相关联的音频中的常见状况所导致的对象缺失。
[0032] 在示例中，对象识别模块4可以沿视频时间将对象的连续表示分段或"切割"为覆盖该连续出现的持续时间的不同部分的多个序列。例如，对象识别模块4可以确定对象表示在某个帧出现"跳跃"，从而实质性和/或快速地与（多个）先前帧的表示相关，这样的移动将不会在逻辑上被识别为是连续的，并且因此定义在该帧之前结束的序列并且在该帧开始的新的序列。如这里所使用的，术语"移动"可以与对象的大小变化、位置变化、形状变化以及存在变化中的任意一个或多个相关联。例如，实质性移动可以与维度参数（宽度、高度、x坐标位置、y坐标位置、直径、半径等）改变超过阈值数量（例如视频帧的宽度或高度的30% (0.3))相关联。例如，跳跃可以与超过阈值误差值的误差值相关联，上述阈值误差值与对象的非连续移动相关

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡浩旋;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：Irap存取单元与位流切换及拼接的制作方法
上一篇：生成具有多个视点的视频的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。