用于处理媒体内容的方法和装置与流程

文档序号：34318084发布日期：2023-06-01 00:30阅读：44来源：国知局

本发明涉及用于处理媒体内容的方法和装置。本发明尤其涉及用于处理媒体内容的计算机实现的方法，所述媒体内容将在一组一个或更多个媒体设备(诸如电视、平板电脑、智能电话等)处被渲染为针对用户的呈现，所述媒体内容包括媒体对象，所述媒体对象中的至少一些包括被称为“基于对象的广播”的技术中的视频内容。

背景技术：

1、基于对象的广播(object-based broadcasting，obb)是用于描述允许电视(tv)节目和媒体内容的其它这种呈现变得个性化的机制的术语。在此上下文中，“对象”是可以集中在一起以组成电视节目或其它这种呈现的不同媒体组件。这些媒体组件可以包括被剪切到一起的视频内容(例如，讲述故事，显示体育赛事，或呈现关于主题的信息)、音乐、演讲和特殊效果、视频重放和慢动作重放(特别是关于体育节目)、字幕、画中画插入画面、图形、评论、为聋人提供解释的屏幕上手语者、以及演播室渲染的虚拟现实(virtual reality，vr)覆盖物。

2、在传统(即，非obb)电视中，这些媒体“对象”的呈现和定时(即，它们是否、何时、何处以及如何出现在屏幕上或被听到)由制作节目的那些人控制。通过不固定这些对象的布置并让观看者对可以访问什么对象以及如何呈现它们进行某种控制，内容提供者可以使用户对节目或其它这种呈现的体验变得个性化。

3、多年来，电视节目、电影等的制作者不得不做出一些让步来调整其内容的比例(scale)以在不同的屏幕上呈现。图1中示出了一些常见的示例。

4、图1(a)示出了在16:9屏幕中显示的4:3图像(其中x:y涉及水平与垂直尺寸或像素数的比率)。在这种情况下，4:3图像的任一侧的“柱(pillar)”(以黑色示出)填充屏幕的其余部分。这称为“左右加边框(pillarboxing)”。

5、其原因在图1(b)中更明显，图1(b)示出了在16:9屏幕中显示的由12个块(水平)乘9个块(垂直)组成的4:3图像。在每一侧上使用具有两个块宽度的柱来填充屏幕。

6、(nb为了方便起见，图1(a)中的图像内的各个块使用用“m:n”标识的“行：列”编号，其中，左上块被编号为“1:1”，右下块被编号为“9:12”-这纯粹是为了允许容易地查看每行和每列的块的数目-编号系统是任意的，并且将在后面的图3和图4中被简化以避免使这些图不必要地混乱并且避免不必要的小文本)。

7、图2(a)示出了在16:9屏幕中显示的21:9图像。在这种情况下，图像上方和下方的条填充屏幕。这被称为“上下加边框(letterboxing)”。

8、虽然广播公司已经做出了一些努力来为不同尺寸的屏幕准备图像，但是电视制造商还提供用户选项来调整图像，提供“fill(填充)”或“zoom(缩放)”功能，这些功能根据目标屏幕和源内容的纵横比，拉伸图像以填充整个屏-可能在镜头内损失适当的纵横比，使得面比它们本来更长或更宽。

9、这样的选项因此可以提供左右加边框(pillar)和上下加边框(letterbox)的另选方案。图3示出了使用涉及拉伸图像以使图像填充屏幕的选项的效果。该图的上半部分(图3(a))示出了4:3屏幕上的未拉伸的16:9图像，使用上下加边框填充顶部和底部，而下半部分(图3(b))将同一16:9图像置于同一4:3屏幕中，然而垂直地拉伸图像以填充整个屏幕，从而避免使用上下加边框(同时稍微扭曲图像)。

10、已经使用的另一另选方案涉及在原始图像上手动地“摇摄和扫描”(目标屏幕的形状的)窗口，然后使用那些裁剪后的图像来填充目标屏幕。这种摇摄和扫描方法有助于改善尴尬的镜头，其中，图像的重要部分(可能是“双人特写镜头(two-shot)”(即，在轮廓上捕获坐在桌子上并且彼此交谈的两个人的面部)被裁剪得太密实。虽然针对不同屏幕尺寸或形状调整图像的大小可能导致丢失面部中的一个面部的部分或全部，而摇摄和扫描可能允许在不同时间显示两者，但是可能使得难以同时显示由一个人物传递的字条(line)和来自另一个人物的反应。

11、屏幕现在不仅出现在电视上和电影院，而且也出现在智能电话、平板电脑、手机平板和pc上。这些屏幕并不照搬地遵守16:9的纵横比(甚至可以发现一些电视具有21:9的纵横比)。即使它们采用共同的纵横比，尤其是电话在某些情况下很可能以“竖屏”模式被观看，迫使甚至更严重的上下加边框。

12、图4示出了在16:9屏幕中显示的16:9横屏图像，其中屏幕保持在“竖屏”取向。

13、因此，使用左右加边框和上下加边框在“关闭格式“屏幕上查看图像是常见的。屏幕还可以提供允许屏幕上的所有像素被点亮的功能，但是以看到所有图像为代价。

14、为了确保图像中的重要信息是可见的，存在“安全区域”的概念-基本上是所定义的屏幕的中心区域，假定不管呈现图像的屏幕如何，中心区域将(或至少应该)总是可见的。在传统的(非-obb)内容提供中，内容制作者或提供者可以确保添加到主元素的任何图形元素(例如，叠加在体育赛事的视频图像上的排行榜或记分卡)位于显示器的一部分中，这防止任何图形元素使主元素的中心部分模糊，并且即使图像被拉伸、变窄、裁剪或以其它方式针对不同尺寸的屏幕被调节，也通常不会使中心部分模糊。

15、上述方法的特点在于，屏幕的所有图像分量(视频、图形等)在单个层上，并且所有图像分量都使用单个函数来按比例缩放或裁剪。

16、参考各种现有公开，从w3schools.com在https://www.w3schools.com/html/html_responsive.asp处可获得的标题为“html responsive web design”的网页提供了关于使用超文本标记语言(hypertext markup language，html)和层叠样式表单(cascadingstyle sheets，css)来自动调整大小、隐藏、缩小或放大网站以使其在不同类型的设备(桌面、平板电脑和电话)上看起来良好的技术的在线指南。

17、在https://www.ibc.org/manage/2-immerse-a-platform-for-production-and-more-/3316.article处可获得的根据ibc2018会议上的发言的、标题为“2-immerse:aplatform for production,delivery and orchestration of distributed mediaapplications”(日期为2018年9月27日)的论文描述了使用基于对象的广播方法开发的基于motogp体育内容评估的多屏幕体验的体系结构的概述。

18、在https://2immerse.eu/wp-content/uploads/2018/01/d2.4-distributed-media-application-platform-description-of-second-release-0.31.final_.pdf处可获得的标题为“2-immerse deliverable d2.4(distributed media applicationplatform-description of second release”(日期为2018年1月11日)(特别是第6.2节)的文献描述了2-immerse分布式媒体应用平台、针对项目的第二服务原型开发的多屏幕体验组件和生产工具，“watching motogp at home”，并讨论了项目的技术成果以及平台、组件和关键特征(feature)的当前状态的细节。

19、在https://www.youtube.com/watch？v＝fzihrngzc4i处可获得的标题为“2-immerse motogp service prototype video”(日期为2018年1月17日)的视频介绍了2-immerse motogp服务原型，并示出了其作用特征。特别地，评论(commentary)是指调整和按比例缩放屏幕上图形的布局的能力。

20、在https://ir.cwi.nl/pub/28131/28131.pdf处可获得的由jack jansen、pablocesar&dick bulterman(doceng’18,august 28-31,2018,哈利法克斯,ns,加拿大)作出的标题为“workflow support for live object-based broadcasting”的论文检查基于对象的广播的文档方面。它在运动体育应用的上下文中呈现用于支持基于对象的广播的动态系统的模型和实现。它定义了在回放期间支持动态修改的多媒体文档格式，这允许通过制作者编辑决策在内容的接收端处由代理激活。

21、现在参考现有专利文献，美国专利us9569501(“chedeau等人”)涉及媒体内容的电子布局的优化。在一个实施方式中，描述了一种方法，该方法涉及访问n个电子媒体内容项和多个媒体内容模板，其中，每个媒体内容模板包括用于预定数量的媒体内容项的预定数量的表面区域。该方法包括：基于一个或更多个特征，针对一个或更多个媒体内容模板中的每个，对x个电子媒体内容项在媒体内容模板中的放置进行评分，其中x等于n和媒体内容模板的预定表区域数量中的较小者。该方法包括选择具有最高得分的媒体内容模板之一，并且在所选择的媒体内容模板中提供x个电子媒体内容项以显示给用户。

22、虽然obb的选项在用户体验和其它方面明显地提供了潜在的优点，但是当呈现可以在不同可能形状和尺寸的用户设备上被渲染和显示时，使用obb技术向具有不同要求和偏好的用户提供媒体内容(其中，每个用户的特定节目的呈现可以包括一组不同的媒体对象，并且具有其它可能的可变因子)引入了关于如何最好地提供媒体内容的挑战。虽然一些用户可能能够和/或可能喜欢设置和/或对他们的呈现进行他们自己的调节，这可以一个节目接一个节目地通过设置一般偏好来进行，或者以其它方式来进行，但是其它用户可能不能够这样做或者可能不希望这样做，或者可能仅更喜欢以不需要设置或调节的形式来提供他们的呈现。在不知道呈现将由不同用户观看的不同上下文的情况下，以在符合不同用户的可能要求/期望的同时维持由obb提供的益处的方式，为不同用户提供obb媒体内容是具有挑战性的。

技术实现思路

1、根据本发明的第一方面，提供了一种用于处理媒体内容的计算机实现的方法，所述媒体内容将在为一时间点处的布置的一组一个或更多个媒体设备处被渲染为针对用户的呈现，该呈现是基于定义用于渲染为呈现的一部分的媒体对象的适合性和配置的布局规则的，该布置以及一个或更多个用户关联特征(characteristic)和/或属性构成该呈现的上下文，其中，所述呈现是由从一组媒体对象选择的媒体对象形成的，并且所述上下文具有相关联的一个或更多个约束，每个约束定义上下文的影响渲染所选媒体对象的至少一个子集的属性，所述方法包括以下步骤：

2、针对所述一组媒体对象中的每个媒体对象配置所述媒体对象的特征，所配置的特征符合基于所述媒体对象在所述时间点处的所述上下文中的效用度量的效用条件，所述效用度量是关于所述上下文的约束来评估的；以及

3、基于与每个所选媒体对象相关联的效用度量和布局规则识别所述一组媒体对象中的所选媒体对象。

4、所述一组媒体对象可以包括提供视频内容、音频内容、文本内容和图形内容中的一者或更多者的媒体对象。其它类型的媒体对象也是可能的。

5、提供视频内容的媒体对象可以提供诸如直播视频、重放视频(体育动作重放等)、计算机生成的视频内容(例如，特殊效果)、屏幕上手语(例如，用于聋人或听力不好的人)、画中画插入画面、广播电台渲染的虚拟现实覆盖物等内容。

6、提供音频内容的媒体对象可以提供诸如音乐、演讲(来自视频对象中所示的人物或其它)、声音效果、背景声音、评论(例如，关于体育赛事)等内容。

7、提供文本内容的媒体对象可以提供诸如字幕的内容、关于视频、音频或其它内容的信息、关于正被广播的体育赛事的信息(例如，得分、记分卡或排行榜)等。

8、提供图形内容的媒体对象可以提供诸如图形、运动队队形或战术说明等内容。

9、根据优选实施方式，定义用于渲染为呈现的一部分的媒体对象的适合性和配置的布局规则可以包括确定是否、何时、何处以及如何渲染各个媒体对象的规则。这些可以基于(例如)整个内容的提供者、制作者或导演、和/或内容的一个或更多个用户/观看者的要求/偏好。

10、根据优选实施方式，媒体对象的特征可以包括基于对象的图形的尺寸、屏幕位置、颜色方案、透明度(即，在其它对象前面的对象是否以及如何容易地允许看到后面的对象)和分层顺序(即，哪些视觉对象看起来在其它对象的前面或后面)中的一者或更多者。

11、根据优选实施方式，在为特定时间点处的布置的一组一个或更多个媒体设备可以包括为一种布置的多于一个媒体设备。所述设备可以包括诸如电视或计算机屏幕之类的大屏幕对象以及诸如平板电脑或智能电话之类的手持和/或小屏幕设备、或者诸如“双屏幕”或多屏幕布置的其它设备。在这样的实施方式中，媒体对象的特征可以包括该组一个或更多个媒体设备中的媒体对象应该出现在其上的媒体设备，从而允许用户/观看者确保某些对象(例如，承载统计的对象、或者例如直播聊天)出现在例如手持设备上。

12、根据优选实施方式，识别所述一组媒体对象中的所选媒体对象的步骤可以通过以下来执行；基于关于媒体对象评估的效用值将媒体对象添加到要渲染的媒体对象的列表中，直到确定不能遵从可应用布局规则为止。这样的技术可以用于(基于可以包括由用户提供的任何可应用的用户偏好的可应用因子的组合)确保被认为最重要的对象被优先化。

13、另选地或附加地，识别所述一组媒体对象中的所选媒体对象的步骤可以通过以下来执行：识别媒体对象，使得关于媒体对象评估的效用值的总和在不破坏可应用布局规则的情况下被最大化。这样的技术可以用于确保所确定的整体“最佳折衷”(如果选择了将是高度期望的特定媒体对象，则该折衷可能是适当的)将导致几个其它略微不期望的对象被漏掉或去强调。

14、根据优选实施方式，配置和识别的步骤可以至少部分地在将所选媒体对象传输到一个或更多个客户端媒体设备之前执行。然后，可以将完整或部分完整呈现从提供者或中间实体传输到一个或更多个用户的媒体设备。

15、根据另选实施方式，配置和识别的步骤可以至少部分地在将该组媒体对象传输到一个或更多个客户端媒体设备之后执行。这样的实施方式可以用于允许本地表达或本地可用的用户偏好和/或要求更容易地结合到决策做出过程中。

16、根据优选实施方式，所述方法还可以包括渲染所述组媒体对象中的所选媒体对象。可以在将所选媒体对象传输到一个或更多个客户端媒体设备之后执行对所选媒体对象的这种渲染。在将所选媒体对象传输到一个或更多个客户端媒体设备之前执行配置和识别的步骤的实施方式中，可以在将所选媒体对象传输到客户端媒体设备之前执行这种渲染。

17、根据优选实施方式，该方法还可以包括经由一个或更多个客户端媒体设备将该组媒体对象中的所选媒体对象提供为呈现。

18、根据本发明的第二方面，提供了一种用于处理媒体内容的装置，所述媒体内容将在为一时间点处的布置的一组一个或更多个媒体设备处被渲染为针对用户的呈现，所述呈现是基于定义用于渲染为所述呈现的一部分的媒体对象的适合性和配置的布局规则的，所述布置和一个或更多个用户关联特征和/或属性构成所述呈现的上下文，其中，所述呈现是由从一组媒体对象选择的媒体对象形成的，并且所述上下文具有相关联的一个或更多个约束，每个约束定义上下文的影响渲染所选媒体对象的至少一个子集的属性，所述装置包括计算机系统，所述计算机系统包括处理器和存储用于执行根据第一方面的方法的步骤的计算机程序代码的存储器。

19、根据本发明的第三方面，提供了一种包括计算机程序代码的计算机程序元件，当所述计算机程序代码被加载到计算机系统中并在其上执行时，所述计算机程序代码使计算机执行根据第一方面的方法的步骤。

20、以上关于第一方面提及的各种选项和优选实施方式也可以关于第二方面和第三方面应用。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M
技术所有人：英国电讯有限公司
我是此专利的发明人

上一篇：一种智能卡定位翻转机构的制作方法
上一篇：一种定量检测新能源场站局地气候效应的方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。