视频的图示概要的制作方法

文档序号：9355703阅读：526来源：国知局

视频的图示概要的制作方法
【技术领域】
[0001] 描述涉及视频的图示概要（pictorial smiimary)的实现方式。各种具体的实现方式涉及使用可配置的、精细粒度的、分级的、基于场景的分析以生成视频的图示概要。
【背景技术】
[0002] 视频往往可能很长，使潜在用户难以确定视频包含什么以及难以确定用户是否想要观看该视频。存在多种工具来生成图示概要，图示概要也称为故事书（story book)或漫画书（comic book)或叙述抽象（narrative abstraction)。图示概要提供一系列的静止的镜头（shot)，旨在概述或表示视频的内容。继续需要改进用于创建图示概要的可用工具以及改进所生成的图示概要。

【发明内容】

[0003] 根据一般方面，访问来自配置指南的一个或多个参数。配置指南包括用于配置视频的图示概要的一个或多个参数。访问视频。生成视频的图示概要。图示概要符合来自配置指南的一个或多个所访问的参数。
[0004] 下面在附图和描述中阐述一个或多种实现方式的细节。即使以一种具体方式进行描述，也应当清楚，实现方式可以以各种方式来配置和实施。例如，实现方式可以作为方法来执行，或者作为装置（诸如被配置为执行一组操作的装置或者存储用于执行一组操作的指令的装置）来实施，或者以信号来实施。根据下面的详细描述，并结合附图和权利要求书一起考虑，其他方面和特征将变得显而易见。
【附图说明】
[0005] 图1提供视频序列的分级结构的示例；
[0006] 图2提供带注释的脚本或电影剧本的示例；
[0007] 图3提供生成图示概要的处理的示例的流程图；
[0008] 图4提供生成图示概要的系统的示例的框图；
[0009] 图5提供生成图示概要的处理的用户界面的示例的屏幕截图；
[0010] 图6提供来自图示概要的输出页的示例的屏幕截图；
[0011] 图7提供将图示概要中的图片分配给场景的处理的示例的流程图；
[0012] 图8提供基于所期望页数来生成图示概要的处理的示例的流程图；
[0013] 图9提供基于来自配置指南的参数来生成图示概要的处理的示例的流程图。
【具体实施方式】
[0014] 图示概要能够有利地用于许多环境和应用中，包括例如快速视频浏览、媒体存储库（media bank)预览或媒体库预览以及管理（搜索、检索等）用户生成的和/或非用户生成的内容。已知媒体消费的需求正在增加，能够使用图示概要的环境和应用预期会增加。
[0015] 图示概要生成工具能够是全自动的，或者允许用户输入进行配置。每一种都有其优点和缺点。例如，来自全自动解决方案的结果被快速地提供，但是可能对范围广泛的消费者没有吸引力。然而，相反地，在用户可配置的解决方案的情况下的复杂的交互允许灵活性和控制，但是可能使消费者新手受挫。在本申请中提供多种实现方式，包括尝试平衡自动操作和用户可配置的操作的实现方式。一种实现方式向消费者提供通过指定输出图示概要的所期望的页数的简单输入来定制图示概要的能力。
[0016] 参照图1，提供视频序列110的分级结构100。视频序列110包括一系列的场景，其中图1例示开始视频序列110的场景1112、跟随场景1112的场景2114、作为处于离开视频序列的两个末端未指定的距离处的场景的场景i 116以及作为视频序列110中的最后的场景的场景M 118。
[0017] 场景i 116包括一系列的镜头，其中分级结构100例示开始场景i 116的镜头 1122、作为处于离开场景i 116的两个末端未指定的距离处的镜头的镜头j 124以及作为场景i 116中的最后的镜头的镜头K1 126。
[0018] 镜头j 124包括一系列的图片。典型地，在形成图示概要的处理中，选择这些图片中的一个或多个作为突出（highlight)图片（往往被称为突出帧）。分级结构100例示被选择为突出图片的三个图片，包括第一突出图片132、第二突出图片134和第三突出图片 136。在典型的实现方式中，选择图片作为突出图片还导致在图示概要中包括该图片。
[0019] 参照图2,提供带注释的脚本或电影剧本200。脚本200例示典型脚本的多种组件以及组件之间的关系。能够以各种形式来提供脚本，包括例如字处理文档。
[0020] 脚本或电影剧本经常被作为书面作业由电影剧本作者针对电影或电视节目来定义。在脚本中，通常描述每个场景以定义例如"谁"（人物或多个人物）、"什么"（情形）、 "何时"（时刻）、"何地"（动作的场所）以及"为何"（动作的目的）。脚本200用于单一场景，并且包括以下组件（连同用于那些组件的典型的定义和解释）：
[0021] 1.场景标题（Scene Heading):写出场景标题以指示新场景开始，打字在一行上，其中一些单词缩写并且全部单词大写。特别地，场景的地点列在场景出现时的时刻之前。内部（Interior)缩写为INT.，并且指例如建筑物内部。外部（Exterior)缩写为EXT.，并且指例如户外。
[0022] 脚本200包括场景标题210,其将场景的地点标识为在外部，在琼斯农场的小屋的前面。场景标题210还将时刻标识为傍晚。
[0023] 2.场景描述：场景描述是对该场景的描述，从左页边空白朝向右页边空白跨越页地打字。人物的名称在描述中第一次使用时，以全部大写字母来显示它们。场景描述通常描述在屏幕上出现什么，并且能够以词语"在视频上（On VIDEO)"开始来指示这一点。
[0024] 脚本200包括描述在视频上出现什么的场景描述220,如通过词语"在视频上"所指示的那样。场景描述220包括三个部分。场景描述220的第一部分介绍汤姆?琼斯，给出其年龄（"22岁"）、外貌（"饱经风霜的脸"）、背景（"户外生活"）、地点（"在栅栏上"）以及当前活动（"看着地平线"）。
[0025] 场景描述220的第二部分描述在单一时间点时的汤姆的心理状态（"在一些鸟飞过头顶时心不在焉"）。场景描述220的第三部分描述响应杰克提供帮助的动作（"看着我们并且站起来"）。
[0026] 3.说话的人物：使用全部大写字母来指示正在说话的人物的名称。
[0027] 脚本200包括三个说话的人物指示230。第一和第三说话的人物指示230指示汤姆正在说话。第二说话的人物指示230指示杰克正在说话，并且还指示杰克在幕外（"0. S.")，即在屏幕中不可见。
[0028] 4.独白：人物正在说话的文本被置于页的中央、在如上所述那样地以全部大写字母的人物的名称的下面。
[0029] 脚本200包括四个部分的独白，由独白指示符（monologue indicator) 240指示。第一部分和第二部分用于汤姆的第一次讲话，描述关于汤姆的狗的问题以及汤姆对这些问题的反应。第三部分的独白是杰克提供帮助（"想让我为你训练它吗？ "）。第四部分的独白是汤姆的回答（"是的，可以吗？"）。
[0030] 5.对话指示：对话指示描述在人物独白开始之前或在其开始时，人物看或讲话的方式。将该对话指示打字在人物的名称之下，或者打字在独白内的单独的行上，在括号中。
[0031] 脚本200包括两个对话指示250。第一个对话指示250指示汤姆"喷鼻息"。第二个对话指示250指示汤姆具有"感激的惊讶的表情"。
[0032] 6.视频过渡：视频过渡是无需解释的，其指示视频中的过渡。
[0033] 脚本200包括在所显示的场景的末端处的视频过渡。视频过渡260包括到黑色的渐变以及然后针对接下来的场景（未示出）的渐显。
[0034] 图3提供生成图示概要的处理300的示例的流程图。处理300包括接收用户输入 (310)。接收用户输入是可选的操作，因为例如参数能够是固定的并且不需要由用户选择。然而，在多种实施方式中，用户输入包括以下一个或多个：
[0035] ⑴标识被期望图示概要的视频的信息，例如包括视频文件名称、视频分辨率和视频模式；
[0036] (ii)标识对应于视频的脚本的信息，例如包括脚本文件名称；
[0037] (iii)描述所期望的图示概要输出的信息，例如包括图示概要的所期望的最大页数、图示概要中的页的大小和/或图示概要的页的格式化信息（formatting information) (例如，图示概要中的图片之间的间隙的大小）；
[0038] (iv)将在生成图示概要中被使用的视频的范围；
[0039] (V)在场景加权（scene weighting)中所使用的参数，例如，诸如⑴在本申请中关于加权所讨论的任何参数、（ii)要在加权中强调的首要人物的名称（例如詹姆斯?邦德）、（iii)要在加权中强调的主要人物的数量的值、（vi)要在加权中强调的突出动作或对象的列表（例如，用户可能主要对电影中的追车感兴趣）；
[0040] (vi)在针对视频的各个部分（例如场景）的图示概要中的可用页做预算 (budget)时所使用的参数，例如，诸如描述图示概要的所期望的最大页数的信息；
[0041] (vii)在评估视频中的图片时所使用的参数，例如，诸如选择图片质量的度量的参数；和/或
[0042] (Viii)在从场景中选择用于包括在图示概要中的图片时所使用的参数，例如，诸如要针对每个镜头来选择的图片的数量。
[0043] 处理300包括对彼此对应的脚本和视频进行同步（320)。例如，在典型的实现方式中，视频和脚本都用于单一电影。同步操作320的至少一种实现方式使脚本与已经和视频同步的字幕同步。多种实现方式通过使脚本的文本与字幕相关来执行同步。从而，脚本通过字幕与视频同步，包括视频定时信息。一个或多个这样的实现方式使用已知的技术来执行脚本-字幕同步，例如，诸如在M. Everingham、J. Sivic和A. Zisserman的 "'Hello! My name is…Buffy. 'Automatic Naming of Characters in TV Video" (Proc. British Machine Vision Conf·，2006 年（"Everingham" 参考））中所描述的动态时间扭曲（warping)方法。出于所有目的（包括但是不限于对动态时间扭曲的讨论），通过引用将 Everingham参考的全部内容并入本文。
[0044] 同步操作320提供同步的视频作为输出。同步的视频包括原始视频以及以某种方式指示与脚本的同步的附加信息。多种实现方式例如通过确定对应于脚本不同部分的图片的视频时间戳，然后将这些视频时间戳插入到脚本的对应部分中，来使用视频时间戳。
[0045] 在各种实现方式中，来自同步操作320的输出是没有改变（例如注释）的原始视频和带注释的脚本，例如，如上所述的那样。其他实现方式确实改变视频，而不是改变脚本或者也改变脚本。还有其他实现方式既不改变视频也不改变脚本，而是单独地提供同步信息。还有另外的实现方式甚至不执行同步。
[0046] 处理处理300包括对视频中的一个或多个场景进行加权（330)。其他实现方式对视频的不同部分（例如，诸如镜头或者场景的分组等）进行加权。多种实现方式在确定场景的权重时使用以下因素中的一个或多个：
[0047

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈志波;刘德兵;顾晓东;张帆;
技术所有人：汤姆逊许可公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。