视频的图像概要的制作方法

文档序号：9383089阅读：214来源：国知局

视频的图像概要的制作方法
【技术领域】
[0001] 描述了涉及视频的图像概要的实现方式。各种具体实现方式涉及用可配置的、细粒度的、分层的、基于场景的分析来创建视频的图像概要。
【背景技术】
[0002] 视频可能经常很长，这使得为潜在用户确定视频所包含的东西以及确定用户是否想要观看视频变得很难。存在创建图像概要（也被称为故事书或漫画书或叙述摘要）的各种工具。图像概要提供了旨在概括或表示视频的内容的一系列静止镜头。存在改进用于创建图像概要的可用工具以及改进所创建的图像概要的持续需要。

【发明内容】

[0003] 根据总的方面，访问视频中的第一部分，并且访问视频中的第二部分。确定第一部分的权重，并且确定第二部分的权重。确定第一数量和第二数量。第一数量标识在视频的图像概要中将要使用多少来自第一部分的图像。第一数量是一个或多个，并且基于第一部分的权重来确定第一数量。第二数量标识在视频的图像概要中将要使用多少来自第二部分的图像。第二数量是一个或多个，并且基于第二部分的权重来确定第二数量。
[0004] 在附图和下面的描述中公开了一个或多个实现方式的细节。虽然采用特定的方式描述，但是应当清楚的是可以以各种方式来配置或体现实现方式。例如，可以将实现方式作为方法来执行，或者作为装置（诸如例如，被配置为执行一组操作的装置或者存储用于执行一组操作的指令的装置）来体现，或者以信号来体现。根据结合附图和权利要求来考虑的以下详细描述，其它方面和特征将变得显而易见。
【附图说明】
[0005] 图1提供了视频序列的分层结构的示例。
[0006] 图2提供了带注释的脚本或剧本的示例。
[0007] 图3提供了用于生成图像概要的过程的示例的流程图。
[0008] 图4提供了用于生成图像概要的系统的示例的框图。
[0009] 图5提供了对于用于生成图像概要的过程的用户界面的示例的屏幕截图。
[0010] 图6提供了来自图像概要的输出页面的示例的屏幕截图。
[0011] 图7提供了用于将图像概要中的图像分配给场景的过程的示例的流程图。
[0012] 图8提供了用于基于期望数量的页面生成图像概要的过程的示例的流程图。
[0013] 图9提供了用于基于来自配置指南的参数生成图像概要的过程的示例的流程图。
【具体实施方式】
[0014] 可以在例如包括快速视频浏览、媒体银行预览或媒体库预览、以及管理（搜索、取回等）用户所生成和/或非用户所生成内容的许多环境和应用中有利地使用图像概要。考虑到对于媒体消费的需求不断增加，可以使用图像概要的环境和应用有望增加。
[0015] 图像概要生成工具可以是全自动的，或者允许用于配置的用户输入。每个都有其优点和缺点。例如，来自全自动解决方案的结果被快速提供，但可能不能吸引广泛的消费者。然而，与此相反，具有用户可配置的解决方案的复杂交互允许灵活性和控制，但可能会使新手消费者感到沮丧。在本申请中提供了各种实现方式，包括尝试平衡自动操作和用户可配置操作的实现方式。一种实现方式为消费者提供了通过指定期望用于输出图像概要的页面数量的简单输入来定制图像概要的能力。
[0016] 参考图1，提供了对于视频序列110的分层结构100。视频序列110包括一系列场景，其中图1示出了开始视频序列110的场景1112、在场景1112后面的场景2114、在距视频序列110的两端的未指定距离处的场景的场景Π 16、以及视频序列110中的最后场景的场景M 118。
[0017] 场景i 116包括一系列镜头，其中分层结构100示出了开始场景i 116的镜头 1122、在距场景i 116的两端的未指定距离处的镜头的镜头j 124、以及场景i 116中的最后镜头的镜头K1 126。
[0018] 镜头j 124包括一系列图像。在形成图像概要的过程中，典型地选择这些图像中的一个或多个作为突出图像（通常被称为突出帧）。分层结构100示出了被选择作为突出图像的三个图像，包括第一突出图像132、第二突出图像134和第三突出图像136。在典型的实现方式中，对图像作为突出图像的选择还导致图像被包含在图像概要中。
[0019] 参考图2,提供了带注释的脚本或剧本200。脚本200示出了典型脚本的各种组件，以及组件之间的关系。可以采用例如包括文字处理文档的各种形式来提供脚本。
[0020] 脚本或剧本经常被定义为电影或电视节目的编剧的书面工作。在脚本中，典型地描述每个场景来定义例如"何人"（一个或多个角色）、"何事"（情形）、"何时"（一天中的时间）、"何处"（动作的地点）、以及"为何"（动作的目的）。脚本200用于单一场景，并且包括以下组件，连同对这些组件的典型定义和解释：
[0021] 1.场景以一些词语缩写以及所有词语大写在一行中键入的场景标题被写来指示新的场景开始。具体地，将场景的位置列在场景发生的一天中的时间之前。内部被简称为INT，并且例如是指结构的里面。外部被简称为EXT，并且例如是指户外。
[0022] 脚本200包括将场景的位置标识为外部，即琼斯牧场处的小木屋的前面的场景标题210。场景标题210还将一天中的时间标识为日落。
[0023] 2.场景描述：从左边距朝右边距跨页面键入的场景的描述是场景描述。在描述中第一次使用角色的名字时，全部用大写字母来显示它们。场景描述典型描述在屏幕上出现的东西，并且这可以以词语"在视频上"作为序言（preface)来指示。
[0024] 脚本200包括描述在视频上出现的东西的场景描述220,正如由词语"在视频上" 所指示的。场景描述220包括三个部分。场景描述220的第一部分介绍汤姆?琼斯，给出他的年龄（"22"）、外貌（"饱经风霜的脸"）、背景（"在户外生活"）、位置（"在蓠笆上"）以及当前活动（"望着地平线"）。
[0025] 场景描述220的第二部分描述在单一时间点上汤姆的思想状态（"像一些小鸟飞过头顶那样思想漫游")。场景描述220的第三部分描述响应于杰克提供的帮助的动作（"看着我们并且站了起来"）。
[0026] 3.说话角色：使用所有大写字母来指示正在说话的角色的名字。
[0027] 脚本200包括三个说话角色指示符230。第一个和第三个说话角色指示符230指示汤姆正在说话。第二个说话角色指示符230指示杰克正在说话，并且还有杰克在屏幕之外（"O.S. "），即在屏幕中不可见。
[0028] 4.独白：角色正在说话的文本集中在如上所述采用所有大写字母的角色名字的下面的页面的中央。
[0029] 脚本200包括四个部分独白，由独白指示符240指示。第一和第二部分是汤姆的第一次说话，描述了汤姆的狗的问题以及对于这些问题的汤姆的反应。独白的第三部分是杰克提供的帮助（"想要我为你训练它吗？ "）。独白的第四部分是汤姆的回答（"是啊，你会吗？ "）。
[0030] 5.对话指示：对话指示描述了在角色的独白开始前或者当它开始时，角色看起来或者说话的样子。在角色的名字下面或者在独白内的单独的行上在括号中键入这种对话指不。
[0031] 脚本200包括两个对话指示250。第一个对话指示250指示汤姆"发出哼声"。第二个对话指示250指示汤姆"一脸感激的吃惊表情"。
[0032] 6.视频过渡：视频过渡是不言自明的，指示视频中的过渡。
[0033] 脚本200包括所显示的场景的结尾处的视频过渡260。视频过渡260包括淡出为黑色，并且然后淡入为下一个场景（未示出）。
[0034] 图3提供了用于生成图像概要的过程300的示例的流程图。过程300包括接收用户输入（310)。由于例如参数可以是固定的并且不要求由用户所进行的选择，因此接收用户输入是可选操作。然而，在各种实现方式中，用户输入包括以下的一个或多个：
[0035] ⑴标识图像概要被期望的视频的信息，例如包括视频文件名称、视频分辨率和视频模式，
[0036] (ii)标识与视频对应的脚本的信息，例如包括脚本文件名称，
[0037] (iii)描述期望的图像概要输出的信息，例如包括图像概要所期望的最大页面数量、图像概要中的页面的大小、和/或图像概要的页面的格式化信息（例如，图像概要中的图像之间的间隙的大小），
[0038] (iv)在生成图像概要时将要使用的视频的范围，
[0039] (V)在场景加权时使用的参数，诸如例如，⑴在本申请中讨论的关于加权的任一参数，（ii)要在加权中强调的首要角色的名字（例如，詹姆斯邦德），（iii)要在加权中强调的主要角色的数量的值，（iv)要在加权中强调的突出动作或对象的列表（例如，用户可能主要对电影中的汽车追逐感兴趣），
[0040] (Vi)在对视频的各个部分（例如，场景）进行图像概要中可用页面的预算时使用的参数，诸如例如描述图像概要所期望的最大页面数量的信息，
[0041] (Vii)在评价视频中的图像时使用的参数，诸如例如，选择图像质量的量度的参数，和/或
[0042] (Viii)在从场景中选择用于包含在图像概要中的图像时使用的参数，诸如例如，每一个镜头将要选择的图像的数量。
[0043] 过程300包括将彼此对应的脚本和视频同步（320)。例如，在典型实现方式中，视频和脚本均用于单一电影。同步操作320的至少一个实现方式将脚本与已经与视频同步的字幕同步。各种实现方式通过将脚本的文本与字幕进行相关来执行同步。因此，通过字幕将脚本与包括视频定时信息的视频同步。一个或多个这样的实现方式使用已知的技术，诸如例如在2006年英国机器视觉会议记录中的M. Everingham、J. Sivic和A. Zisserman的 "'Hello ! My name is…Buffy. ' Automatic Naming of Characters in TV Video"（以下简称"Everingham"参考文献）中描述的动态时间规整方法来执行脚本字幕同步。为了包含但不限于对动态时间规整的讨论的所有目的，通过引用将Everingham参考文献的内容全部并入本文。
[0044] 同步操作320提供同步的视频作为输出。同步的视频包括原始视频，以及以某种方式指示与脚本的同步的附加信息。各种实现方式通过例如为与脚本的各个部分对应的图像确定视频时间戳，然后将这些视频时间戳插入到脚本的对应部分来使用视频时间戳。
[0045] 在各种实现方式中，来自同步操作320的输出是未经改变（例如，注释）的原始视频以及例如如上所述的带注释的脚本。其它实现方式不是改变脚本而是改变视频，或者除了改变脚本之外还改变视频。还有其它实现方式既不改变视频也不改变脚本，但分别提供同步信息。然而，另外的实现方式甚至不执行同步。
[0046] 过程300包括将视频中的一个或多个场景进行加权（330)。其它实现方式将诸如例如镜头或场景的分组之类的视频的不同部分进行加权。各种实现方式在确定场景的权重时使用以下因素的一个或多个：
[0047] 1.视频中的开始场景和/或视频中的结束场景：在各种实现方式中，使用时间指示符、图像数量指示符或场景数量指示符来指示开始和/或结束场景。
[0048] a. Sstart指示视频中的开始场景。
[0049] b. Send指示视频中的结束场景。
[0050]

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Z.陈;D.刘;X.古;F.张;
技术所有人：汤姆逊许可公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。