用于跨时间段识别对象的方法和相应装置与流程

文档序号：12168471阅读：301来源：国知局

本发明涉及用于传输媒体数据、并且更特别是Web访问的压缩视频的方法和装置。优选地，通过使用协议HTTP经由(如因特网那样的)IP网络来进行媒体数据的流传输。

背景技术：

媒体呈现形成通常包括一个或多个还被称为媒体项的媒体内容成分(诸如音频、视频或文本等)的媒体内容的编码且可交付版本的集合。还可以考虑媒体项或成分的组合。可以将这些媒体项或成分从服务器发送至客户端，以共同由客户端装置播放。媒体内容是由客户端从服务器下载的。

在该背景下，最近出现了被称为DASH(“Dynamic Adaptive Streaming over HTTP(经由HTTP的动态自适应流传输)”的简称)的新标准(参见“ISO/IEC 23009-1，经由HTTP的动态自适应流传输(DASH)，Part1：媒体呈现描述和片段格式”)。该标准使得能够创建媒体呈现的内容的紧凑描述和HTTP地址之间的关联。通常，在被称为清单文件或描述文件的文件中描述该关联。在DASH的上下文中，该清单文件是还被称为MPD(Media Presentation Description(媒体呈现描述)的简称)文件的文件。

在客户端装置获得MPD文件的情况下，客户端可以容易地得知媒体内容的各编码且可交付版本的描述。通过阅读清单文件，客户端获知在媒体呈现中所提出的媒体内容成分的种类并且获知用于下载关联的媒体内容成分的HTTP地址。因此，可以决定(经由HTTP请求)下载并播放(在接收到媒体数据片段之后进行解码并播放)哪个媒体内容成分。

DASH标准使得能够将整个媒体呈现描述成一段时间或多段时间(表示为“时间段(Period)”)。时间段描述具有共同时间线的媒体内容成分的集合、以及与可以如何呈现这些媒体内容成分有关的关系。这些时间段各自包含媒体内容成分的相同集合、或者媒体内容成分的完全独立集合(例如，在与电影相对应的一段时间之后是与广告相对应的另一段时间，在该另一段时间之后是与电影的继续相对应的又一段时间…)。

除该关联外，DASH标准提出了在时间段内将各媒体内容成分分割成表示较小段时间的片段。因而，DASH标准描述小段时间内HTTP地址(或URL)和各媒体内容成分的紧凑描述之间的关联。在对媒体内容成分进行复用(媒体项或成分的组合)的情况下，片段可以包含一个以上的媒体内容成分的数据。

本发明(通过以DASH MPD作为示例)关注清单文件中的视频描述。即使没有明确描述媒体表示的其它元素(例如，音频、文本、…)，也可以容易地将这些元素并入如以下将说明的更具全局性的媒体描述。

更特别地，本发明关注包括多个视频或音频内容成分的媒体呈现。这多个视频内容成分可以与多视图或多照相机媒体呈现中的多个交替视频相对应。在将高分辨率的媒体呈现分割成多个空间子部分(其中，各空间子部分形成视频内容成分)的情况下，这多个视频内容成分还可以与不同的区块(tile)(即，空间子部分)相对应。通过将视频分割成区块，如果低容量应用程序的用户想要播放或关注视频的子部分，则仅可以传输与该子部分相对应的区块。该处理允许保持质量良好的视频部分。

在DASH的上下文中，使用已知标准“ISO BMFF”(Base Media File Format(基本媒体文件格式))来将媒体内容成分封装在媒体数据片段中，以形成媒体呈现。例如，视频内容成分可以表示利用格式MPEG4、AVC、SVC、HEVC、可分级或多视图HEVC进行了编码的视频位流。

传统上，DASH定义标识符作为用于定义构成MPD的不同元素的属性(例如，适应集(AdaptationSet)或表示(Representation)“id”属性)的一部分。这些标识符是仅在DASH所用的被称为“时间段”的时间期间的范围内所定义的，因此这些标识符不允许跨时间段来跟随相同内容。DASH在时间段级定义使得能够识别出时间段是一个或多个先前时间段的时间连续的被称为“AssetIdentifier(资源标识符)”的特定标识符，但DASH并非始终允许在所有情况下在不同时间段内识别出相同媒体内容成分。

此外，可以在被称为适应集级的更精细级设置标识符。适应集级与同针对给定段时间的媒体项或媒体项的组合有关的参数相对应。文献m33112(Yasuaki Tokumo等人，“DASH:signaling the continuity of adaptation sets across periods”，108MPEG会议；瓦伦西亚；(MOTION PICTURE EXPERT GROUP(运动图片专家组)或ISO/IEC JTC1/SC29/WG11)，m33112，2014年4月)描述了在适应集级所插入的标识符。

然而，在许多情形下，特别是在对媒体内容进行分区(例如，空间分区)的情况下，现有解决方案不允许用户对MPD进行高效解析。

实际上，即使存在用于在多个时间段内跟随媒体内容及其参数的解决方案，这些解决方案也不允许以下操作：

-跟随在媒体内容的一部分内所定义的特定对象，特别是在该对象针对不同时间段不属于媒体内容的相同部分的情况下；

-表示适应集应与多个不同的媒体内容有关、或者表示多个空间子部分是跨不同时间段的空间上的时间连续。

此外，即使存在用于在不同的时间段内跟随媒体成分的解决方案，也可能需要针对给定时间段识别与另一媒体成分具有共同内容的媒体成分。

技术实现要素：

本发明是为了解决前述担心中的一个或多个而设计的。

根据本发明的第一方面，提供一种用于对与一个或多个媒体项或者媒体项的组合相对应的数据进行流传输的方法，所述媒体项或者媒体项的组合被组织成时间段，所述方法包括以下步骤：

·利用服务器将描述文件发送至客户端装置，所述描述文件被组织成每一个与时间段有关的数据框，其中至少一个框包括包含与针对给定时间段的媒体项或者媒体项的组合有关的参数的一个或多个1级子框，各1级子框被组织成针对所述给定时间段的相应媒体项或者媒体项的组合的时间片段所专用的一个或多个2级子框，各2级子框被组织成每一个与给定的媒体项或者媒体项的组合的时间片段的一部分有关的一个或多个3级子框，

其中，针对至少第一个时间段和第二个时间段，将至少一个标识符插入到至少一个第二级子框或第三级子框中。

例如，在该方法符合ISOBMFF第15部分的情况下，第一级子框是适应集，第二级子框是表示，并且第三级子框是子表示(Sub-Representation)。

标识符优选与媒体的内容有关或相对应，并且在实施例中，标识符的值跨第一个时间段和第二个时间段相同，从而表示内容的连续性。

本发明的第一方面的实施例提供了即使针对区块化视频也提供多个时间段之间的编辑连续性的优点。

在实施例中，属于相同级的至少两个主子框包括每一个用于识别一个媒体项或者媒体项的组合的至少一个标识符，并且属于相同的所述级的至少一个附加子框包括至少两个标识符，其中所述至少两个标识符中的一个标识符属于两个主子框中的一个主子框，并且所述至少两个标识符中的一个其它标识符属于两个主子框中的另一主子框。

在实施例中，所述媒体项是区块化视频。

在实施例中，针对至少两个时间段将至少一个标识符插入到至少一个第二级子框或第三级子框中，以及所述区块化视频的区块化结构在所述第一个时间段和所述第二个时间段内是不同的。

在实施例中，各第二级框至少包括第一个第三级框和第二个第三级框，并且在针对至少两个时间段将至少一个标识符插入到至少一个第三级子框中的情况下，将所述标识符针对所述第一个时间段插入第一个第三级子框并且针对所述第二个时间段插入第二个第三级子框。

在实施例中，所述第一个第三级子框与包括一个或多个区块的第一集合的区块有关，并且第二集合的区块与包括一个或多个区块的第二集合的区块有关，其中所述第一集合和所述第二集合相差了至少一个区块。

根据本发明的第二方面，提供一种用于对与一个或多个媒体项或者媒体项的组合相对应的数据进行流传输的方法，所述媒体项或者媒体项的组合被组织成时间段，所述方法包括以下步骤：

·利用服务器将描述文件发送至客户端装置，所述描述文件被组织成每一个与时间段有关的数据框，其中至少一个框包括包含与针对给定时间段的媒体项或者媒体项的组合有关的参数的多个1级子框，各1级子框被组织成针对所述给定时间段的相应媒体项或者媒体项的组合的时间片段所专用的多个2级子框，各2级子框被组织成每一个与给定的媒体项或者媒体项的组合的时间片段的一部分有关的多个3级子框，

其中，属于相同级的至少两个主子框包括每一个用于识别一个媒体项或者媒体项的组合的至少一个标识符，并且属于相同的所述级的至少一个附加子框包括至少两个标识符，其中所述至少两个标识符中的一个标识符属于两个主子框中的一个主子框，并且所述至少两个标识符中的一个其它标识符属于两个主子框中的另一主子框。

例如，在该方法符合ISOBMFF第15部分的情况下，第一级子框是适应集，第二级子框是表示，并且第三级子框是子表示。

本发明的第二方面使得能够根据所考虑的时间段来提供属于不同媒体项的空间区域的时间连续性。

在实施例中，所述媒体项是来自区块化视频的区块。

在实施例中，所述主子框和所述附加子框是第一级子框。

在实施例中，所述媒体项是区块化视频。

在实施例中，所述主子框和所述附加子框是第三级子框。

在实施例中，所述方法符合ISOBMFF第15部分。

在实施例中，所述标识符是资产(Asset)标识符(AssetIdentifier)。

根据本发明的第三方面，提供一种可编程设备所用的计算机程序产品，所述计算机程序产品包括指令，所述指令用于在利用所述可编程设备载入并执行所述程序的情况下，执行上述的方法的各步骤。

根据本发明的第四方面，提供一种存储有计算机程序的指令的计算机可读存储介质，所述指令用于实现上述的方法。

根据本发明的第五方面，提供一种用于在服务器中对多层分区定时媒体数据进行封装的装置，所述装置包括被配置为执行上述的方法的部件。

在实施例中，该装置并入服务器装置中。

附图说明

在以下说明中还出现仅通过示例的方式进行说明并且用附图例示的本发明的其它特征和优点，其中：

图1a示出与经由HTTP的媒体(Media)流传输的一般原理的示例有关的框图；

图1b是更详细地说明特别是在将帧分割成区块的情况下、根据本发明实施例的经由HTTP的媒体流传输的流程图；

图2a示意性示出针对两个不同时间段的两个帧(其中，各帧被分割成区块)、以及从某时间段到另一时间段在空间上移动的一些对象；

图2b示意性示出针对两个不同时间段的两个帧，其中各帧根据针对各时间段的不同区块化结构而被分割成区块；

图3示出根据现有技术的媒体呈现描述；

图4示出根据本发明的实施例的媒体呈现描述；

图5示出根据本发明的另一实施例的媒体呈现描述；以及

图6表示可以实现一个或多个实施例的服务器或客户端装置的框图。

具体实施方式

图1a描述特别是如DASH那样的经由HTTP的媒体流传输的一般原则。针对经由HTTP的媒体流传输的新协议和标准中的大部分协议和标准均基于该原则。

媒体服务器100包含不同的媒体呈现。例示出媒体呈现101的示例。这里，媒体呈现101包含一个音频内容成分和两个视频内容成分。构建媒体呈现的方式是本领域技术人员众所周知的。针对各媒体内容成分，该媒体呈现提出了已从时间上分割成小的独立且连续的时间片段102a、102b和102c(例如，mp4片段)的各媒体内容成分的多个版本103a和103b。这些时间片段可以独立地定址和下载。这些片段的下载地址是HTTP地址。(一个HTTP地址与各媒体内容成分的各时间片段相关联。)这些下载地址是由服务器100针对这些时间片段中的每一个时间片段所设置的。

清单文件104(或描述文件)是格式化文档(传统上为XML文档)。清单文件104描述各媒体内容成分和关联的时间媒体片段，例如媒体类型(音频、视频、音频-视频、文本…)、编码格式、片段的持续时间。此外，清单文件104使URL与所描述的各媒体内容片段相关联。

将清单文件104发送至与客户端或用户有关的客户端装置110。通过阅读所接收到的清单文件105，客户端可以得知不同版本的媒体内容成分的时间片段和指定这些时间片段的HTTP地址之间的关联。此外，清单文件105给出表现构成媒体呈现的各媒体内容成分的各版本的特征的信息。例如，该信息可以包括分辨率、编解码格式和/或位率。

因此，客户端装置110可以发出用于下载他想要的时间片段的HTTP请求106，其中这些时间片段是在所接收到的清单文件105中所描述的。

作为响应，服务器100发送所请求的时间片段107。这些时间片段可以由客户端装置110进行解码108以供显示109。

图1b更精确地示出根据本发明实施例的(通常采用DASH形式的)经由HTTP的媒体流传输。

首先，客户端装置从服务器获得描述文件(采用DASH形式的MPD)(步骤1008)。客户端装置可以仅在媒体呈现的开始时获得一次该描述文件，或者客户端可以在媒体呈现的开始时获得一次该描述文件，然后客户端可以在媒体呈现持续时间内获得该描述文件的多次更新。

如在图3中进一步所述，该描述文件包括与在一段时间或多段时间内可利用的所有媒体内容成分有关的数据。

每次客户端接收到新的或更新后的描述文件时，他或它选择(步骤1010)他想要渲染的一个或多个媒体内容成分的一个版本。该选择是根据用户的偏好或选择、网络状况(例如，可用带宽)和客户端的渲染能力(例如，显示分辨率、所支持的编解码方式、计算性能)所进行的。

利用客户端装置选择与由客户端选择的媒体内容成分的版本相对应的时间片段的URL(步骤1020)。

将针对所选择的时间片段的请求消息从客户端装置发送至服务器(步骤1030)。在相同的URL指定不同的时间片段的情况下，各请求消息包括可选地具有字节范围的一个时间片段的URL。

响应于请求消息，服务器将视频数据(这意味着如以下详述的片段)发送至客户端装置(步骤1040)。

另外，在步骤1010中，在时间段改变的情况下，客户端还可能想要根据其在先前时间段内所进行的选择来选择媒体内容成分，例如以确保媒体内容成分从一个时间段到另一时间段的编辑连续性。为了解决该问题，DASH已定义了仅在时间段级或适应集级定义的被称为“AssetIdentifier”的特定描述符。由于该标识符，因此客户端可以将例如与同一电影有关的时间段和与广告相对应的时间段区分开。

然而，在许多情形下，特别是在对媒体内容进行分区(例如，如以下参考图4所述进行空间分区)的情况下，现有解决方案不允许用户对MPD进行高效解析。

图2a和2b示出现有解决方案经由现有标识符不能正确地或高效地管理的方案。

图2a示出这里被分割成八个区块T1、T2、…、T8的视频帧200和210。

根据DASH和ISOBMFF封装，各区块可以表示不同的视频内容成分或视频内容成分的子部分。在前者情况下，通过针对各区块定义一个适应集来在MPD中表示各区块。在后者情况下，通过定义表示整个帧的单个适应集来表示各区块，其中各表示包括针对各区块存在一个子表示的多个子表示(即，表示的子部分)(如图3的304所示)。使用空间关系描述符(Spatial Relationship Descriptor)来描述区块属性，其中该空间关系描述符包括使用等于“urn:mpeg:dash:srd:2014”的@schemeIdURI的SupplementalProperty(补充特性)或EssentialProperty(基本特性)描述符(参见上述的文献m33112)。@value属性提供包括区块坐标(x,y,宽度,高度)的值的逗号分隔列表。

视频帧200表示时间段N内的视频。存在两个对象202和203。对象202被区块T6和T8覆盖，并且对象203被区块T1覆盖。另一视频帧210表示在时间上稍后的另一时间段(表示为时间段N+M)内的相同视频。在时间段N和N+M之间，对象202和203已移动，并且分别利用均被区块T3覆盖的对象212和213来表示对象202和203。

如果在子表示级(第三级子框)描述区块，则仅在时间段级和适应集级设置标识符的现有解决方案不允许利用应用程序跨多个时间段进行快速且高效的匹配。换句话说，利用现有解决方案，应用程序不能将第一个对象213识别为与另一第一个对象203相同的对象、或者将第二个对象212识别为与另一第二个对象202相同的对象。此外，现有解决方案不允许在适应集级或子表示级识别多个对象(例如，帧210中的区块T3覆盖两个对象212和213)。

图2b还示出两个不同时间段(时间段N和时间段N+M)内的两个不同视频帧。各帧包括多个区块并且表示两个不同视图(视图A和视图B)。帧2100包括四个区块(A1～A4)，并且另一帧2101包括十六个区块(B1～B16)。框2203是虚拟的，并且示意性示出时间段N和时间段N+M处的两个视图之间的空间关系。如示意图2203所示，区块B1、B2、B5和B6覆盖与时间段N内的区块A4相同的时间段N+M内的空间区域。换句话说，B1、B2、B5、B6表示被区块A4覆盖的空间区域的时间连续性。但由于帧2100和帧2101之间的不同区块化组织，因此应用程序不能看见被区块A4覆盖的时间连续性。再次地，现有解决方案不允许在子表示级表现这种关系。此外，例如需要针对各区块的多个标识符，以表示A4与B1、B2、B5和B6之间的关系、以及还识别区块A4、B2和B6中的对象2202，这利用现有解决方案不能进行。

图3示出根据现有技术的DASH清单文件或MPD的层级内容的示例。该清单文件描述在服务器处可利用的媒体呈现的媒体内容、以及各媒体成分或项(还称为媒体数据)与HTTP地址之间的关联。如以下更详细地所述，在MPD中，将媒体内容组织成多个框并且在不同级进行子框化。

例如，可以将媒体呈现从时间上分割成被称为“时间段(Period)”的粗粒时间段(任意内容的拼接)。

MPD级的“时间段”描述在一段时间(如果仅存在一个时间段，则可以是媒体呈现的完整持续时间)内可利用的所有媒体成分。在该时间段内，成分的媒体内容可以包括与前面提到的较小段时间相对应的多个数据片段，以使得能够容易地进行流传输/随机访问/切换。

XML MPD包含与各时间段有关的所有数据。通过接收该信息，客户端获知各段时间的内容。

如上所述并且如图3所示，媒体呈现描述文件300被分割成每一个与时间段相关联的多个部分3001、3002和3003。例如，第二个时间段包括在100s和294s之内。

各媒体呈现的时间段包含描述相应的一段时间内的可用媒体内容成分的数据。不同时间段内的内容(即，媒体内容成分的集合)可以针对各时间段完全独立，或者相反，媒体呈现描述的两个或更多个时间段可以包括属于同一整体内容的媒体内容成分。换句话说，可以对整体内容进行分区，并且可以在多个连续或不连续的时间段内共享整体内容。各媒体呈现描述的时间段可以包含用于识别与同一整体内容有关的内容部分的例如被称为AssetIdentifier的描述符。该描述符允许识别在不同的时间段之间共享的相同内容的部分。如果两个不同时间段包含相似的AssetIdentifier，则这两个时间段的媒体内容属于相同的整体内容(还被称为资源(asset))。

因而，如MPD所示，第一个时间段3001和第三个时间段3003包括相同的AssetIdentifier“movie”。结果，根据以上给出的定义，与这两个时间段相关联的内容是相同的整体内容的一部分。相反，第二个时间段3002包括不同的AssetIdentifier“ad”。AssetIdentifier“ad”通知了内容不是与第一个时间段3001和第三个时间段3003有关的相同内容的一部分。

为了清楚，在301中更详细地示出媒体呈现的时间段3001其中之一。

时间段可以包括多个“适应集”元素。适应集表示一个或多个媒体内容成分的可互换编码版本的集合。例如，时间段301包括与两个不同的视频内容成分相对应的两个适应集(或1级子框)。适应集还可以直接包含还被称为媒体项(例如，音频/视频)的组合的多个媒体内容成分的复用形式。换言之，如果将媒体内容成分封装成ISOBMFF，则各适应集与来自ISOBMFF的单独轨相关联。在该示例中，第一组适应集与第一视频轨相关联，并且第二个适应集与第二视频轨相关联。

适应集结构302包含被组织成属性和/或元素和/或描述符的信息，其中这些属性和/或元素和/或描述符描述在服务器处可利用的编码视频的可能的不同表示或可选表示(这些属性和/或元素被称为2级子框)(例如“表示”)3020。在该示例中，第一个表示“表示1”是以500kbit/s的位率进行编码后的空间分辨率为640×480的编码视频。第二个表示“表示2”是以250kbit/s进行编码后的相同视频。如果客户端得知与该视频有关的HTTP地址，则可以利用HTTP请求来下载该视频中的各个。通过使用附加时间子层来进行各表示的内容和HTTP地址之间的关联。

如附图标记303所示，将视频表示“表示1”分割成(在该示例中为10秒的)时间片段。

第一个表示“表示1”所得到的带宽为500kbits/s、宽度为640个像素且高度为480个像素。通过以下所述的字段“片段信息(Segment Info)”303给出更多参数。

第二个表示“表示2”所得到的带宽为250kbits/s、宽度为640个像素且高度为480个像素。例如，相比第一个表示，该第二个表示可能表示质量方面的下降。客户端将能够根据网络上的可用带宽来在这两个不同的表示之间进行切换。

各时间片段303是经由HTTP地址可访问的服务器中所存储的内容。另外，可利用初始化片段。该初始化片段包含(在通过使用ISO BMFF或扩展已对视频进行了封装的情况下)描述封装后的视频的MP4内容的MP4初始化信息。例如，该初始化片段帮助客户端实例化与视频有关的解码算法。在MPD(或描述)文件中给出了初始化片段和媒体片段的HTTP地址。

另外，如附图标记304所示，表示可以包括被称为子表示的多个子框(或3级子框)。与表示相反，子表示依赖于嵌入到媒体片段中以对这些媒体片段的子部分定址的、来自ISOBMFF的特定框(子片段索引(“ssix”)框和级分配(“leva”)框)。换句话说，子表示描述与媒体成分的内容或者嵌入相应表示中的媒体内容的组合有关的属性。例如，如果表示描述音频成分和视频成分的混合，则子表示可以描述一些嵌入的较低质量层(例如，如图所示的视频的一些较低帧频)或者嵌入的音频或视频成分。子表示还可以描述视频的空间子部分(或区块)。

如以上所定义的MPD适于在时间段内跟随或追踪媒体内容成分，但不适合针对媒体成分在不同时间段内的部分(例如，从混合音频信号中所提取的一个音频信号、或者代替整个图片而是来自分区图片中的一个空间区块(或多个区块))的更精细追踪。

因而，如果用户想要在第一个时间段内追踪区块“1”内所包含的对象(例如，人物)(参见图2a)并且在第二个时间段内追踪区块“2”内所包含的对象，则利用如图3所示的MPD，不存在用以进行该操作的高效方式。

图4示出根据本发明的DASH清单文件或MPD的层级内容的示例。MPD400包括不同的三段时间(“时间段”)。如利用时间段级的值为“ad”的标识符“AssetIdentifier”所示，第二个时间段的内容(即，媒体内容成分的集合)完全独立于利用AssetIdentifier“Movie”表示的两个其它时间段。在该示例中，第二个时间段的内容表示电影中间的广告。

在与电影相对应的各时间段401和404中，存在如前面所定义的两个视频内容成分或适应集框。在各适应集中所定义的命名为“AssetIdentifier”的描述符使得能够跨时间段从另一适应集中检索表示时间连续性的相应适应集框。在该示例中，具有值“cam1”的AssetIdentifier表示时间段404中的适应集“2”是来自时间段401的适应集“1”的编辑连续。

根据本发明的实施例，提出了扩展采用DASH的该“AssetIdentifier”的定义以在“RepresentationBaseType(表示基本类型)”级定义该“AssetIdentifier”。这样，不仅在时间段级而且还在所有其它子级(适应集(特别是针对多个AssetIdentifier)、表示和子表示)使用AssetIdentifier。

然后，如下所述修改MPD架构：

在图4中，各适应集402和405包含嵌入利用多个子表示403和406表示的多个对象或区块的视频内容成分的版本(或表示)。通过在子表示级定义AssetIdentifier，客户端得知406中的1级子表示是403中的0级子表示的编辑连续。在无该标识符的情况下，客户端无法判断必须选择哪个子表示。

另外，在时间段N内在子表示级、然后在时间段N+M内在适应集级描述区块化的情况下，表现这种关系可以是特别有用的。实际上，在子表示级描述区块化的情况下，客户端不得不下载所有区块，这是因为这些区块全部嵌入到同一媒体片段中。但在适应集级描述区块化的情况下，客户端可以仅下载其关注区域所覆盖的区块。通过在子表示级设置跨时间段的标识符，在客户端从子表示级区块化改变为适应集级区块化的情况下，客户端可以更快地跨时间段检索关联区块。

作为本发明关注的针对对象追踪的例示，参考图2a，如果客户端决定观看附图标记为202的对象，则客户端可以在时间段N内放大图像的右下部的部分201。如图2a所示，该选择部分201或关注区域(ROI)被覆盖对象202的两个区块T6和T8包围。

如果在子表示级描述区块、并且客户端想要进行对象追踪以例如跟随对象202，则由于该标识符，因此客户端得知客户端在步骤1010中需要选择时间段N内的区块T6和T8并且仅选择时间段N+M内的区块T3。

在替代实施例中，代替扩展“AssetIdentifier”，可以通过重复使用SupplementalProperty、EssentialProperty或具有特定schemeIdURI(例如，“urn:mpeg:dash:id:2014”或“urn:mpeg:dash:objId:2014”)的任何新描述符来表示根据本发明的标识符，其中@value属性将与标识符值相对应。

在替代实施例中，代替扩展“AssetIdentifier”，可以通过重复使用本领域技术人员众所周知的描述符角色(Role)来表示根据本发明的描述符。

在另一替代实施例中，在对象追踪的情况下，表示标识符的描述符还可以包括表现所识别的对象的特征的描述(例如，“该对象表示红色伞”)。该标识符还可用于使被多个区块覆盖的对象和在专用元数据内容成分中将携载的对象描述相关联。

图5示出根据本发明的DASH清单文件或MPD的层级内容的另一示例。

如图2a所示，帧200可以包含被不同集合的区块覆盖的多个对象202、203(203被T1覆盖并且202被T6和T8覆盖)。针对各时间段，可能发生这些对象在视频帧内移动，结果这些对象针对各时间段被区块的不同集合覆盖。还可能发生如视频帧210所示、多个对象被区块的相同集合覆盖。在区块T3中存在两个对象211和213。现有技术不允许在一个级中定义多个AssetIdentifier。

本发明提出了授权在“RepresentationBaseType”级定义多个AssetIdentifier。这样，可以在各子级(适应集、表示和子表示)多次定义AssetIdentifier。换句话说，对于一些应用程序，优选使类型“Representation BaseType”的一个元素与一个以上的标识符相关联。

然后，如下所述定义MPD架构：

图5示出这种方案。MPD 500包括三个时间段。参考图2a，时间段501将与帧200相对应，适应集“1”将与帧200中的区块“T6”相对应，适应集“2”将与区块“T8”相对应，并且适应集“3”将与区块“T1”相对应。标识符“ObjA”将与对象202相对应，并且另一标识符“ObjB”将与对象213相对应。时间段502将与帧210相对应，适应集“1”将与帧210中的区块“T3”相对应，并且标识符“ObjA”将与对象212相对应且标识符“ObjB”将与对象213相对应。在(图2a中未示出的)第三个时间段503中，对象可以再次移动并且被两个不同区块覆盖。但由于所设置的标识符AssetIdentifier“ObjA”和“ObjB”，根据所考虑的时间段从区块向其它区块移动的对象的识别和追踪更容易。

图6是用于实现本发明的一个或多个实施例的计算装置600的示意框图。计算装置600可以是诸如微计算机、工作站或轻型便携式装置等的装置。计算装置600包括通信总线，其中该通信总线连接有以下组件：

-诸如微处理器等的表示为CPU的中央处理单元601；

-表示为RAM的随机存取存储器602，用于存储本发明实施例的方法的可执行代码以及如下寄存器，其中这些寄存器被配置为记录实现用于读取和写入清单以及/或者对视频进行编码以及/或者读取或生成采用给定文件格式的数据的方法所需的变量和参数，其中RAM 602的存储器容量例如可以利用连接至扩展口的可选RAM来扩展；

-表示为ROM的只读存储器603，用于存储实现本发明实施例所用的计算机程序；

-网络接口604，其通常连接至进行要处理的数字数据的发送或接收所经由的通信网络。网络接口604可以是一个网络接口、或者包括不同的网络接口的集合(例如，有线接口和无线接口或者不同种类的有线接口或无线接口)。在CPU 601中所运行的软件应用程序的控制下，将数据写入网络接口以供发送或者从网络读取数据以供接收；

-用户接口605，用于从用户接收输入或向用户显示信息；

-表示为HD的硬盘606；

-I/O模块607，用于相对于诸如视频源或显示器等的外部装置进行数据的发送/接收。

可执行代码可以存储在只读存储器603中、硬盘606上或者例如盘等的可移除数字介质上。根据变形例，程序的可执行代码可以在执行之前利用通信网络经由网络接口604来接收，从而存储在通信装置600的诸如硬盘606等的存储部件其中之一内。

中央处理单元601被配置为控制和引导根据本发明实施例的程序的指令或软件代码的一部分的执行，其中这些指令存储在上述存储部件其中之一内。在通电时，CPU 601例如能够在从程序ROM 603或硬盘(HD)606下载了来自主RAM存储器602的与软件应用程序有关的指令之后，执行这些指令。这种软件应用程序在由CPU 601执行的情况下，使得进行上述附图所示的流程图的步骤。

在本实施例中，该设备是使用软件来实现本发明的可编程设备。然而，可选地，本发明可以以硬件形式(例如，以专用集成电路或ASIC的形式)来实现。

尽管以上已经参考具体实施例说明了本发明，但本发明不限于这些具体实施例，并且本领域技术人员将明白存在于本发明的范围内的变形。

例如，本发明可以嵌入用作TV的远程控制器的如照相机、智能电话或平板终端那样的装置中，以例如放大到特定关注区域上。还可以从相同装置使用本发明，以通过选择特定关注区域来获得TV程序的个性化浏览体验。用户根据这些装置和方法的另一用途是与其它所连接的装置共享他所喜好的视频中的一些选中的子部分。本发明还可用在智能电话或平板终端中以监视在处于监控下的建筑物的特定区域中发生了什么，只要监控照相机支持根据本发明的用于提供数据的方法即可。

在参考仅以示例方式给出并不意图限制本发明的范围的前述例示实施例的情况下，许多其它修改和改变对本领域普通技术人员是不言自明的，其中所述范围仅由所附权利要求书来确定。特别地，在适当情况下，可以互换来自不同实施例的不同特征。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗雷德里克·梅兹;弗兰克·德诺奥;西里尔·康克拉托;简·勒菲弗;
技术所有人：佳能株式会社;
我是此专利的发明人

上一篇：用于跨时间段识别对象的方法和相应装置与流程
上一篇：一种人造石英石板材抛光机的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。