视频的图示概要的制作方法

文档序号:9355703阅读:526来源:国知局
视频的图示概要的制作方法
【技术领域】
[0001] 描述涉及视频的图示概要(pictorial smiimary)的实现方式。各种具体的实现方 式涉及使用可配置的、精细粒度的、分级的、基于场景的分析以生成视频的图示概要。
【背景技术】
[0002] 视频往往可能很长,使潜在用户难以确定视频包含什么以及难以确定用户是否想 要观看该视频。存在多种工具来生成图示概要,图示概要也称为故事书(story book)或漫 画书(comic book)或叙述抽象(narrative abstraction)。图示概要提供一系列的静止的 镜头(shot),旨在概述或表示视频的内容。继续需要改进用于创建图示概要的可用工具以 及改进所生成的图示概要。

【发明内容】

[0003] 根据一般方面,访问来自配置指南的一个或多个参数。配置指南包括用于配置视 频的图示概要的一个或多个参数。访问视频。生成视频的图示概要。图示概要符合来自配 置指南的一个或多个所访问的参数。
[0004] 下面在附图和描述中阐述一个或多种实现方式的细节。即使以一种具体方式进行 描述,也应当清楚,实现方式可以以各种方式来配置和实施。例如,实现方式可以作为方法 来执行,或者作为装置(诸如被配置为执行一组操作的装置或者存储用于执行一组操作的 指令的装置)来实施,或者以信号来实施。根据下面的详细描述,并结合附图和权利要求书 一起考虑,其他方面和特征将变得显而易见。
【附图说明】
[0005] 图1提供视频序列的分级结构的示例;
[0006] 图2提供带注释的脚本或电影剧本的示例;
[0007] 图3提供生成图示概要的处理的示例的流程图;
[0008] 图4提供生成图示概要的系统的示例的框图;
[0009] 图5提供生成图示概要的处理的用户界面的示例的屏幕截图;
[0010] 图6提供来自图示概要的输出页的示例的屏幕截图;
[0011] 图7提供将图示概要中的图片分配给场景的处理的示例的流程图;
[0012] 图8提供基于所期望页数来生成图示概要的处理的示例的流程图;
[0013] 图9提供基于来自配置指南的参数来生成图示概要的处理的示例的流程图。
【具体实施方式】
[0014] 图示概要能够有利地用于许多环境和应用中,包括例如快速视频浏览、媒体存储 库(media bank)预览或媒体库预览以及管理(搜索、检索等)用户生成的和/或非用户生 成的内容。已知媒体消费的需求正在增加,能够使用图示概要的环境和应用预期会增加。
[0015] 图示概要生成工具能够是全自动的,或者允许用户输入进行配置。每一种都有其 优点和缺点。例如,来自全自动解决方案的结果被快速地提供,但是可能对范围广泛的消费 者没有吸引力。然而,相反地,在用户可配置的解决方案的情况下的复杂的交互允许灵活性 和控制,但是可能使消费者新手受挫。在本申请中提供多种实现方式,包括尝试平衡自动操 作和用户可配置的操作的实现方式。一种实现方式向消费者提供通过指定输出图示概要的 所期望的页数的简单输入来定制图示概要的能力。
[0016] 参照图1,提供视频序列110的分级结构100。视频序列110包括一系列的场景, 其中图1例示开始视频序列110的场景1112、跟随场景1112的场景2114、作为处于离开视 频序列的两个末端未指定的距离处的场景的场景i 116以及作为视频序列110中的最后的 场景的场景M 118。
[0017] 场景i 116包括一系列的镜头,其中分级结构100例示开始场景i 116的镜头 1122、作为处于离开场景i 116的两个末端未指定的距离处的镜头的镜头j 124以及作为 场景i 116中的最后的镜头的镜头K1 126。
[0018] 镜头j 124包括一系列的图片。典型地,在形成图示概要的处理中,选择这些图 片中的一个或多个作为突出(highlight)图片(往往被称为突出帧)。分级结构100例示 被选择为突出图片的三个图片,包括第一突出图片132、第二突出图片134和第三突出图片 136。在典型的实现方式中,选择图片作为突出图片还导致在图示概要中包括该图片。
[0019] 参照图2,提供带注释的脚本或电影剧本200。脚本200例示典型脚本的多种组件 以及组件之间的关系。能够以各种形式来提供脚本,包括例如字处理文档。
[0020] 脚本或电影剧本经常被作为书面作业由电影剧本作者针对电影或电视节目来定 义。在脚本中,通常描述每个场景以定义例如"谁"(人物或多个人物)、"什么"(情形)、 "何时"(时刻)、"何地"(动作的场所)以及"为何"(动作的目的)。脚本200用于单一场 景,并且包括以下组件(连同用于那些组件的典型的定义和解释):
[0021] 1.场景标题(Scene Heading):写出场景标题以指示新场景开始,打字在一行上, 其中一些单词缩写并且全部单词大写。特别地,场景的地点列在场景出现时的时刻之前。内 部(Interior)缩写为INT.,并且指例如建筑物内部。外部(Exterior)缩写为EXT.,并且 指例如户外。
[0022] 脚本200包括场景标题210,其将场景的地点标识为在外部,在琼斯农场的小屋的 前面。场景标题210还将时刻标识为傍晚。
[0023] 2.场景描述:场景描述是对该场景的描述,从左页边空白朝向右页边空白跨越页 地打字。人物的名称在描述中第一次使用时,以全部大写字母来显示它们。场景描述通常 描述在屏幕上出现什么,并且能够以词语"在视频上(On VIDEO)"开始来指示这一点。
[0024] 脚本200包括描述在视频上出现什么的场景描述220,如通过词语"在视频上"所 指示的那样。场景描述220包括三个部分。场景描述220的第一部分介绍汤姆?琼斯,给 出其年龄("22岁")、外貌("饱经风霜的脸")、背景("户外生活")、地点("在栅栏上") 以及当前活动("看着地平线")。
[0025] 场景描述220的第二部分描述在单一时间点时的汤姆的心理状态("在一些鸟飞 过头顶时心不在焉")。场景描述220的第三部分描述响应杰克提供帮助的动作("看着我 们并且站起来")。
[0026] 3.说话的人物:使用全部大写字母来指示正在说话的人物的名称。
[0027] 脚本200包括三个说话的人物指示230。第一和第三说话的人物指示230指示汤 姆正在说话。第二说话的人物指示230指示杰克正在说话,并且还指示杰克在幕外("0. S."),即在屏幕中不可见。
[0028] 4.独白:人物正在说话的文本被置于页的中央、在如上所述那样地以全部大写字 母的人物的名称的下面。
[0029] 脚本200包括四个部分的独白,由独白指示符(monologue indicator) 240指示。 第一部分和第二部分用于汤姆的第一次讲话,描述关于汤姆的狗的问题以及汤姆对这些问 题的反应。第三部分的独白是杰克提供帮助("想让我为你训练它吗? ")。第四部分的独 白是汤姆的回答("是的,可以吗?")。
[0030] 5.对话指示:对话指示描述在人物独白开始之前或在其开始时,人物看或讲话的 方式。将该对话指示打字在人物的名称之下,或者打字在独白内的单独的行上,在括号中。
[0031] 脚本200包括两个对话指示250。第一个对话指示250指示汤姆"喷鼻息"。第二 个对话指示250指示汤姆具有"感激的惊讶的表情"。
[0032] 6.视频过渡:视频过渡是无需解释的,其指示视频中的过渡。
[0033] 脚本200包括在所显示的场景的末端处的视频过渡。视频过渡260包括到黑色的 渐变以及然后针对接下来的场景(未示出)的渐显。
[0034] 图3提供生成图示概要的处理300的示例的流程图。处理300包括接收用户输入 (310)。接收用户输入是可选的操作,因为例如参数能够是固定的并且不需要由用户选择。 然而,在多种实施方式中,用户输入包括以下一个或多个:
[0035] ⑴标识被期望图示概要的视频的信息,例如包括视频文件名称、视频分辨率和视 频模式;
[0036] (ii)标识对应于视频的脚本的信息,例如包括脚本文件名称;
[0037] (iii)描述所期望的图示概要输出的信息,例如包括图示概要的所期望的最大页 数、图示概要中的页的大小和/或图示概要的页的格式化信息(formatting information) (例如,图示概要中的图片之间的间隙的大小);
[0038] (iv)将在生成图示概要中被使用的视频的范围;
[0039] (V)在场景加权(scene weighting)中所使用的参数,例如,诸如⑴在本申请中 关于加权所讨论的任何参数、(ii)要在加权中强调的首要人物的名称(例如詹姆斯?邦 德)、(iii)要在加权中强调的主要人物的数量的值、(vi)要在加权中强调的突出动作或对 象的列表(例如,用户可能主要对电影中的追车感兴趣);
[0040] (vi)在针对视频的各个部分(例如场景)的图示概要中的可用页做预算 (budget)时所使用的参数,例如,诸如描述图示概要的所期望的最大页数的信息;
[0041] (vii)在评估视频中的图片时所使用的参数,例如,诸如选择图片质量的度量的参 数;和/或
[0042] (Viii)在从场景中选择用于包括在图示概要中的图片时所使用的参数,例如,诸 如要针对每个镜头来选择的图片的数量。
[0043] 处理300包括对彼此对应的脚本和视频进行同步(320)。例如,在典型的实现 方式中,视频和脚本都用于单一电影。同步操作320的至少一种实现方式使脚本与已经 和视频同步的字幕同步。多种实现方式通过使脚本的文本与字幕相关来执行同步。从 而,脚本通过字幕与视频同步,包括视频定时信息。一个或多个这样的实现方式使用已知 的技术来执行脚本-字幕同步,例如,诸如在M. Everingham、J. Sivic和A. Zisserman的 "'Hello! My name is…Buffy. 'Automatic Naming of Characters in TV Video" (Proc. British Machine Vision Conf·,2006 年("Everingham" 参考))中所描述的动态时间扭 曲(warping)方法。出于所有目的(包括但是不限于对动态时间扭曲的讨论),通过引用将 Everingham参考的全部内容并入本文。
[0044] 同步操作320提供同步的视频作为输出。同步的视频包括原始视频以及以某种方 式指示与脚本的同步的附加信息。多种实现方式例如通过确定对应于脚本不同部分的图片 的视频时间戳,然后将这些视频时间戳插入到脚本的对应部分中,来使用视频时间戳。
[0045] 在各种实现方式中,来自同步操作320的输出是没有改变(例如注释)的原始视 频和带注释的脚本,例如,如上所述的那样。其他实现方式确实改变视频,而不是改变脚本 或者也改变脚本。还有其他实现方式既不改变视频也不改变脚本,而是单独地提供同步信 息。还有另外的实现方式甚至不执行同步。
[0046] 处理处理300包括对视频中的一个或多个场景进行加权(330)。其他实现方式对 视频的不同部分(例如,诸如镜头或者场景的分组等)进行加权。多种实现方式在确定场 景的权重时使用以下因素中的一个或多个:
[0047
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1