基于视点的对象拾取系统及其方法与流程

文档序号：16503651发布日期：2019-01-05 08:54阅读：155来源：国知局

实施例涉及一种拾取视频中的对象的系统及方法，更为具体地涉及一种基于用户视点的拾取系统及方法。
背景技术：
：：最近随着各种视频设备的发展，用户对通过视频设备观赏更富真实感和立体感的视频的要求日益增大。视频设备运营商迎合这种要求，改变视频内容处理方式而提供具有立体感的视频，或者在视频提供设备上连接各种附加装置来提供用户难以区别实际和虚拟的视频。例如有如下技术等：通过在显示器上同时显示从不同角度上利用两眼的视差而拍摄的视频，从而提供具有立体感的视频；或者用整个视频覆盖用户视角，从而以全景(panorama)形式提供来提供用户好像参与实际视频环境的效果。此外，还有一种显示拍摄到的视频的同时拾取视频中的对象，以供用户能够确认及控制对象的技术。但是，以往的对象拾取技术从原始视频本身识别对象并进行拾取，因此具有对视频处理的负担较重的问题。特别是，当前已商业化的vr设备大部分采取使用智能手机(smartphone)等移动设备的形式，在vr设备中，能够通过硬件加速来解码(decoding)的最高分辨率为4k，当在播放4k视频的同时进行拾取时，具有视频中断非常严重或者需要降低视频画质的问题。专利文献1：美国专利第9576363b2号技术实现要素：为了解决上述问题，需要一种通过与原始视频相比画质低的、针对对象的蒙版图来实现对象拾取的系统、装置及方法。本发明的技术问题不限于上面提到的问题，本领域技术人员应能通过以下记载清楚理解未提到的其他技术问题。本发明的一实施例的基于视点的对象拾取系统包括：传送装置，被构造为从原始视频中提取包括对象的对象区域，并且传送提取到的对象区域的对象蒙版图及所述原始视频；及播放装置，被构造为从所述传送装置接收所述对象蒙版图及所述原始视频，并显示所述原始视频，并且基于观看所述原始视频的用户视点，拾取所显示的原始视频中的对象。在一实施例中，所述传送装置可被构造为进一步提取所述原始视频中的所述对象区域的坐标信息，所述播放装置被构造为从所述传送装置接收所述坐标信息，并且根据所述用户视点和所述坐标信息，拾取所显示的原始视频中的对象。在一实施例中，所述对象蒙版图可为对象与背景分离并且分辨率比所述原始视频低的图像。本发明的一实施例的能够基于视点拾取对象的视频传送装置包括：对象蒙版图生成部，用于从原始视频中提取包括对象的对象区域，并且生成提取到的对象区域的对象蒙版图；坐标信息提取部，被构造为提取所述原始视频中所述对象区域的坐标信息；及传送部，被构造为向播放装置提供所述原始视频、所述对象蒙版图及所述坐标信息。在一实施例中，可进一步包括：子画面图像生成部，被构造为1)当原始视频中包括多个对象蒙版图时，生成由至少两个以上对象蒙版图结合而成的子画面图像；或者2)当原始视频为连续的多个视频时，生成由针对包含在各原始视频中的同一个对象的对象蒙版图结合而成的子画面图像，所述传送部向所述播放装置提供所述子画面图像。在一实施例中，所述对象蒙版图可为对象与背景分离并且分辨率比所述原始视频低的图像。在一实施例中，可进一步包括：计算部，被构造为通过比较上一帧原始视频和当前帧原始视频来计算当前原始视频中的对象区域的变化值，所述传送部向所述播放装置传送所述变化值以取代所述坐标信息，或者将所述坐标信息和所述变化值一并传送给所述播放装置，所述变化值为与对象区域的移动、大小变化及旋转中的至少一个相关的值。本发明的一实施例的能够基于视点拾取对象的视频播放装置包括：接收部，被构造为接收原始视频、针对在所述原始视频中包括的至少一个对象区域的对象蒙版图、以及所述原始视频中的所述对象区域的坐标信息；显示部，被构造为显示接收到的原始视频；视点检测部，被构造为检测观看所显示的原始视频的用户视点；及对象拾取部，被构造为根据检测出的用户视点、所述坐标信息及所述对象蒙版图来拾取所显示的原始视频中的对象。在一实施例中，当检测出的用户视点朝向所显示的原始视频中的对象或所述对象的周边部时，所述对象拾取部可通过比较用户视点所向的对象和对象蒙版图来拾取对象。在一实施例中，所述对象拾取部可被构造为根据所述坐标信息计算所述对象区域在与所述原始视频对应的虚拟空间的坐标系上的纹理坐标信息，并根据计算出的纹理坐标信息拾取对象。在一实施例中，可进一步包括：计算部，被构造为通过比较上一帧原始视频和当前帧原始视频来计算当前原始视频中的对象区域的变化值，所述变化值为与对象区域的移动、大小变化及旋转中的至少一个相关的值，所述对象拾取部根据所述变化值来修正对象区域的坐标信息。在一实施例中，所述原始视频和所述对象蒙版图可以时间同步。在一实施例中，当检测出的用户视点位于所述对象区域内或者离所述对象区域规定范围内时，所述对象拾取部可以分割所述对象区域，并根据分割后的对象区域和接收到的对象蒙版图来检测对象。在一实施例中，1)当原始视频中包括多个对象蒙版图时，所述接收部可以接收由至少两个以上对象蒙版图结合而成的子画面图像；或者2)当原始视频为连续的多个视频时，所述接收部可以接收由针对包含在各原始视频中的同一个对象的对象蒙版图结合而成的子画面图像。本发明的一实施例的能够基于视点拾取对象的视频传送方法包括：传送装置从原始视频中提取包括对象的对象区域；传送装置生成提取到的对象区域的对象蒙版图；传送装置提取所述原始视频中的所述对象区域的坐标信息；及传送装置向播放装置提供所述原始视频、所述对象蒙版图及所述坐标信息。在一实施例中，可进一步包括：1)当原始视频中包括多个所述对象蒙版图时，传送装置生成由至少两个以上对象蒙版图结合而成的子画面图像；或者2)当原始视频为连续的多个视频时，传送装置生成由针对包含在各原始视频中的同一个对象的对象蒙版图结合而成的子画面图像；及传送装置向所述播放装置提供所述子画面图像。在一实施例中，所述对象蒙版图可为对象与背景分离并且分辨率比所述原始视频低的图像。本发明的一实施例的能够基于视点拾取对象的视频播放方法包括：视频播放装置接收原始视频、针对在所述原始视频中包括的至少一个对象区域的对象蒙版图、以及所述原始视频中的所述对象区域的坐标信息；视频播放装置显示接收到的原始视频；视频播放装置检测观看所显示的原始视频的用户视点；及视频播放装置根据检测出的用户视点、所述坐标信息及所述对象蒙版图来拾取所显示的原始视频中的对象。在一实施例中，在所述拾取的步骤中，当检测出的用户视点朝向所显示的原始视频中的对象或所述对象的周边部时，可通过比较用户视点所向的对象和对象蒙版图来拾取对象。在一实施例中，可进一步包括：视频播放装置通过比较上一帧原始视频和当前帧原始视频来计算当前原始视频中的对象区域的变化值，所述变化值为与对象区域的移动、大小变化及旋转中的至少一个相关的值，在所述拾取的步骤中，可根据所述变化值来修正对象区域的坐标信息。根据本发明的一方面，能够通过处理量比原始视频少的低画质的蒙版图，顺利播放高画质的广视角视频，并且拾取所述视频中包括的对象。本发明的效果并不限于上面提到的效果，本领域技术人员应能通过权利要求书的记载清楚理解未提到的其他效果。附图说明图1为本发明的一实施例的基于视点的对象拾取系统的方框图。图2表示本发明的一实施例的原始视频。图3a及图3b表示根据本发明的一实施例生成的对象蒙版图。图4表示根据本发明的一实施例播放装置20显示的原始视频100’和用户视点a1、a2。图5为本发明的一实施例的能够基于视点拾取对象的视频传送方法的顺序图。图6为本发明的一实施例的能够基于视点拾取对象的视频播放方法的顺序图。具体实施方式下面，参照附图详细说明本发明的实施例。图1为本发明的一实施例的基于视点的对象拾取系统的方框图。参见图1，本实施例的基于视点的对象拾取系统包括：传送装置10，被构造为从原始视频中提取包括对象的对象区域，并且传送提取到的对象区域的对象蒙版图及所述原始视频；及播放装置20，被构造为从所述传送装置接收对象蒙版图及所述原始视频，并显示所述原始视频，并且基于观看所述原始视频的用户视点，拾取所显示的原始视频中的对象。在本基于视点的对象拾取系统中，至少播放装置20可由戴在用户头部的头戴式显示装置(head-mounteddevice；hmd)的形式实现。其中，拾取(picking)不仅表示视频中的特定对象至少一部分与背景分离而被显示、或被施以发光(glow)处理、或被施以剪影(silhouette)处理等作为多种渲染效果发生视觉变化的情况，还可以表示被选取以供用户能够控制的情况。此外，在本说明书中原始视频可为广视角视频，优选可为360°视频，但并不限于此。实施例的基于视点的对象拾取系统及在该系统中包括的各装置可全部为硬件，或全部为软件，或部分为硬件、部分为软件。例如，基于视点的对象拾取系统、在该系统中包括的各装置及用于构造各装置的各部(unit)可为用于处理、存储及/或收发送特定形式及内容的数据的装置及与此相关的软件的总称。在本说明书中“部”、“服务器”、“装置”及“系统”等用语表示硬件及通过该硬件驱动的软件的组合。例如，硬件可为包括cpu或其他处理器(processor)的数据处理设备。此外，通过硬件驱动的软件可以指执行中的进程、对象(object)、执行文件(executable)、执行线程(threadofexecution)及程序(program)等。在一实施例中，传送装置10和播放装置20被构造为物理上彼此分开的独立的装置，通过有线和/或无线网络能够彼此通信地连接。此外，所述网络可为宽带网或局域网。传送装置10可通过所述网络向播放装置20传送处理原始视频后的数据，播放装置20可以接收经处理的数据后，在虚拟空间的坐标系上投影原始视频以供用户能够观看，并且基于用户视点拾取原始视频中包括的对象。在另一实施例中，传送装置10和播放装置20可以整合在一个装置中。例如，可在戴在用户头上的hmd内均内置传送装置10及播放装置20，并使用同一个或者多个处理装置(例如，微处理器)均实现传送装置10和播放装置20。因此，虽然在图1中表示的方框图中用独立的方框来表示各个装置10、20及在其中包括的各部，但这是基于在系统中执行的操作来区分该系统，并不意指必须在物理上彼此分开的独立的结构要素。在一实施例中，传送装置10包括对象蒙版图生成部11、坐标信息提取部12及传送部13。根据实施例，传送装置10可进一步包括子画面图像生成部14或计算部15。图2表示本发明的一实施例的原始视频。图2的原始视频为在二维平面上显示用360°摄影机拍摄的视频后的视频。参见图2，在原始视频100中包括多个对象211、221、231，但在图2中示出只对特定对象211、221设定对象区域210、220。对象蒙版图生成部11被构造为从原始视频100中提取包括对象的对象区域210、220。对象区域210、220的范围可由用户输入来确定。在图2中示出对象区域图像为四边形，但可为圆形、三角形或任意指定的无定形形状等多种形状。对象蒙版图生成部11可使用提取到的对象区域来生成对象与背景分离的对象蒙版图。图3a及图3b表示根据本发明的一实施例生成的对象蒙版图。对象蒙版图可为分辨率比原始视频低的图像。通过使用分辨率如此低的对象蒙版图，能够播放高分辨率原始视频，并能有效地减少在拾取原始视频中包括的对象时所需的负载。此外，在一实施例中可能也会存在对象变化不大的播放区间，因此为了减少视频处理量，对象蒙版图生成部11也可确认对象区域的变化并以关键帧单位来生成对象蒙版图。此时，在后面描述的坐标信息提取部12也可只对关键帧提取对象区域坐标。坐标信息提取部12可以提取原始视频中的所述对象区域210、220的坐标信息。这种坐标信息可在以后播放装置显示原始视频时计算对象区域位置时使用。在图2及图3a中示出提取多个对象区域的示例。如此在原始视频中的对象区域为多个时，子画面图像生成部14可被构造为生成由对至少两个以上对象区域的对象蒙版图结合而成的子画面图像200。在图3a中示出彼此不同的两个对象区域210、220结合而成的子画面图像200。在图2及图3b中示出提取了针对在不同帧原始视频中的同一个对象的对象区域的示例。当原始视频为连续的多个视频时，子画面图像生成部14可以生成由对包含在各个原始视频中的同一个对象221、221a、221b、221c的对象蒙版图220a、220b、220c结合而成的子画面图像200。在图3b中，各个对象蒙版图220a、220b、220c表示针对在连续的原始视频或关键帧单位的原始视频中包括的对象221的对象蒙版图。参见图3a和图3b，子画面图像生成部14也可以按每个帧包括多个彼此不同的对象的方式生成子画面图像(图3a)，也可按每个对象针对彼此不同的帧生成子画面图像(图3b)。进一步参见图3b的示例，例如原始视频的帧数为1024帧时，可对第一对象生成1024个第一对象蒙版图。当第一对象蒙版图的分辨率设定为64×64时，针对第一对象的第一子画面图像的分辨率可为2048×2048。即，第一子画面图像可包括1024个64×64分辨率的对象蒙版图。此外，当原始视频的帧数为4096个，并且针对第一对象的对象蒙版图的分辨率为64×64时，需要四幅2048×2048分辨率的子画面图像。同样地，若还有其他第二对象，进一步需要四幅2048×2048分辨率的子画面图像。此外，在此情况下可提取帧数数量的各对象区域的坐标信息。此外，在传送原始视频之前，也可预先向播放装置等传送子画面图像和对象区域的坐标信息。在一实施例中，计算部15可被构造为通过比较上一帧原始视频和当前帧原始视频来计算当前原始视频中的对象区域的变化值。例如，计算值可为与对象区域的移动(translation)、大小变化(scale)及旋转(rotation)中的至少一个相关的值。在播放装置播放原始视频时，这种计算值能够使得显示在原始视频中的对象区域的位置计算变得容易。传送部13可向播放装置20传送原始视频、对象蒙版图(或者子画面图像)及坐标信息，并可进一步传送计算值。此时，对象蒙版图(或者子画面图像)、坐标信息及计算值可通过元数据形式传送。当传送装置10和播放装置20被构造为彼此独立的装置时，传送部13可通过基于网络的传送方法发送所述信息。但是，当传送装置10和播放装置20集成为同一个装置时，通过传送部14进行的传送过程也可表示通过存储器等临时及/或非临时存储介质提供数据并供其他处理器使用。一实施例的播放装置20可包括接收部21、显示部22、视点检测部23及对象拾取部24。根据实施例，播放装置20可进一步包括计算部25。接收部21可从传送装置10的传送部14接收原始视频、对象蒙版图(或者子画面图像)及坐标信息，也可进一步接收计算值。图4表示根据本发明的一实施例在播放装置20中显示的原始视频100’和用户视点a1、a2。显示部22可以显示接收到的原始视频。例如，显示部22可以将接收到的原始视频以纹理(texture)形式映射到虚拟空间的坐标系(例如球形坐标系)中，从而显示原始视频。视点检测部23可被构造为检测观看所显示的原始视频的用户视点。为了确定用户视点，视点检测部23可使用从传感器获取的多种传感信息。例如，传感器可包括陀螺仪传感器、加速度传感器、imu(惯性测量装置，inertialmeasurementunit)传感器、gps(全球定位系统，globalpositioningsystem)传感器及视觉传感器中的至少一个，但并不限于此。在图4中示出观看所显示的原始视频100’的用户视点。具体来说，分别示出观看对象211的视点a1和观看对象231的视点a2。对象拾取部24可被构造为根据检测出的用户视点、所述坐标信息及对象蒙版图来拾取所显示的原始视频100’中的对象。当用户视点朝向播放的原始视频100’中的对象211或者该对象211的周边部(离对象规定距离的范围)时，对象拾取部24可通过比较用户视点所向的对象和对象蒙版图来拾取对象211。即，由于在对象蒙版图中对象与背景区别开，因此播放的视频100’中的对象211能够与背景分离而被拾取。例如，当检测出的用户视点位于所述对象区域内或者离该对象区域规定范围内时，对象拾取部24可通过分割所述对象区域，并根据分割后的对象区域和接收到的对象蒙版图来检测对象，并且拾取检测到的对象。如此通过视频分割，能够有效地减少视频处理负载。对象拾取部24可使用所述对象区域在与原始视频100对应的虚拟空间的坐标系上的坐标信息和所述对象蒙版图来拾取所显示的所述原始视频中的对象。即，对象拾取部24可通过计算用户视点指向的虚拟空间的纹理坐标系(texturecoordinates)上的坐标，并且根据计算出的纹理坐标系上的坐标的像素信息来进行拾取。参见图3和图4，由于未提取针对对象231的对象区域，因此即使用户视点a2朝向对象231，也不会引起拾取。关于已提取对象区域的对象211，可以看出用户视点a2一旦朝向对象211，就会引起拾取。在一实施例中，计算部25可被构造为通过比较上一帧原始视频和当前帧原始视频来计算当前原始视频中的对象区域的变化值。这种变化值为与对象区域的移动、大小变化及旋转中的至少一个相关的值。在此情况下，对象拾取部24可根据所述变化值来修正对象区域的坐标信息或对象区域在虚拟空间的纹理坐标系上的坐标。对于通过传送装置10或播放装置20处理的所述原始视频和所述对象蒙版图，可通过对各帧的时间码信息来进行时间同步。图5为本发明的一实施例的能够基于视点拾取对象的视频传送方法的顺序图。参见图5，能够基于视点拾取对象的视频传送方法可包括：传送装置从原始视频中提取包括对象的对象区域(s110)；传送装置生成提取到的对象区域的对象蒙版图(s120)；传送装置提取所述原始视频中的所述对象区域的坐标信息(s130)；及传送装置向播放装置提供所述原始视频、所述对象蒙版图及所述坐标信息(s140)。在另一实施例中，能够基于视点拾取对象的视频传送方法可进一步包括：当所述对象蒙版图为多个时，传送装置生成由至少两个以上对象蒙版图结合而成的子画面图像，并向所述播放装置提供所述子画面图像。在此，所述对象蒙版图可为对象与背景分离并且分辨率比所述原始视频低的图像。图6为本发明的一实施例的能够基于视点拾取对象的视频播放方法的顺序图。参见图6，能够基于视点拾取对象的视频播放方法包括：视频播放装置接收原始视频、针对在所述原始视频中包括的至少一个对象区域的对象蒙版图、以及所述原始视频中的所述对象区域的坐标信息(s210)；视频播放装置显示所述原始视频(s220)；视频播放装置检测观看所显示的原始视频的用户视点(s230)；及视频播放装置根据检测出的用户视点、所述坐标信息及所述对象蒙版图来拾取所显示的所述原始视频中的对象(s240)。在所述拾取的步骤(s240)中，当检测出的用户视点朝向所显示的原始视频中的对象或所述对象的周边部时，可通过比较用户视点所向的对象和对象蒙版图来拾取所述对象区域图像中的对象。此外，能够基于视点拾取对象的视频播放方法可进一步包括：视频播放装置通过比较上一帧原始视频和当前帧原始视频来计算当前原始视频中的对象区域的变化值。此时，在拾取的步骤(s240)中可根据所述变化值来修正对象区域的坐标信息。通过上述过程，能够克服以往设备中因解码上的局限性而导致的分辨率的限制，并且播放具有11k等超高分辨率的广视角视频的同时拾取所述视频中的对象。以上说明的实施例的广视角视频传送及播放方法至少其中一部分可由计算机程序来实现，并被存储在计算机可读存储介质中。所述计算机可读存储介质包括用于存储计算机可读数据的所有类型的存储装置。计算机可读存储介质的示例中有rom、ram、cd-rom、磁带、软盘及光学数据存储装置等。此外，计算机可读存储介质还可分散到由网络连接的计算机系统中，并以分散方式存储并运行计算机可读代码。此外，本实施例所属
技术领域：
：的技术人员应能容易理解用于实现本实施例的功能程序、代码及代码段(segment)。以上描述的本发明，虽然参照附图所示的实施例进行了说明，但这些实施例只不过是示意性的，本发明所属
技术领域：
：的技术人员应能理解基于上述内容可以进行多种变形及实施例的变形。但是，这种变形应当视为属于本发明的技术保护范围内。因此，本发明的真正的技术保护范围应当以所附的权利要求书的技术思想来界定。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗敬虔;崔光珍
技术所有人：爱父爱斯吉尔有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。