视觉上代表性的视频缩略图的生成的制作方法

文档序号：6396147阅读：140来源：国知局

专利名称：视觉上代表性的视频缩略图的生成的制作方法
技术领域：
当前公开的申请一般涉及视频显示技术，尤其涉及产生表示视频序列的静止内容的视频缩略图。
背景技术：
多媒体计算技术和联网通信的快速发展大大增加了数字库中存储的数字多媒体(如视频、音频、静止图像)的数目。然而，存取这种多媒体数据、尤其是视频的方法尚未跟上这种多媒体数量增加的步伐。用于文本文档的传统检索系统允许浏览文档代用品(如关键字、摘要)来快速总览文档信息，这帮助滤出无关的文档并进一步检查所关心的文档。
然而，由于视频的独特特性，传统的代用品和面向文本的浏览机制对于存取视频数据比较没用。视频数据传递视频和音频信息，其空间和时间表示以及极薄的体积使其不能仅用语言来充分描述。因此，视频“摘要”(即从视频序列提取的代表性静止图片)的使用受到关注，其被作为便于基于内容的浏览以及存取视频数据的一种方式。
当前用于浏览/存取视频内容的方法包括检测连续镜头边界并且从视频序列提取关键帧用作视频摘要或概述。视频连续镜头是从单个照相机记录的视频帧的连续序列。视频连续镜头形成视频序列的组成块。连续镜头边界检测的目的是把视频序列分段成多个视频连续镜头，从视频连续镜头中可以提取关键帧。关键帧是为连续镜头的静止内容提供缩略图表示的视频帧。关键帧的使用减少了视频索引中所需的数据量，并且提供了一种组织和浏览视频内容的方法。
关键帧提取继续成为重要主题，并为之作出了重大努力。关键帧提取所用的一种简单技术是把每个视频连续镜头的第一个帧选择作为该连续镜头的关键帧。该技术在计算上代价不高，但一般不能有效地捕获视频连续镜头的静止视觉内容。其他关键帧提取技术包括各种视觉标准的使用和分析，这些标准包括色彩特征和视频帧间的运动。这种技术可以改进静止视觉内容的捕获，但它们会是计算上昂贵的。因此，尽管改进了关键帧提取技术，但它们仍有缺点包括它们静止的计算代价以及它们不能有效地从视频数据中捕获静止视觉内容。
此外，这些关键帧提取的现有技术没有确定用于表示整个视频序列的关键帧。而这些技术只是确定用于表示视频序列内特定视频连续镜头的关键帧。
因而，需要一种表示整个视频序列的方式，它能以便于各种视频数据的基于内容的浏览的方式准确地描绘视频序列的静止内容。

发明内容
公开了一种系统和方法，用于通过标识一个视觉上表示视频序列的静止图像的视频帧为该视频序列产生视频缩略图。视频缩略图算法用视频帧的直方图熵和直方图标准差的加权组合的函数来计算帧品质度量。根据视频序列内各个帧的帧品质度量比较，选择特定的帧作为视频缩略图。
在一个实施例中，为视频序列内的每个视频帧计算帧品质度量。计算帧品质度量包括计算帧的直方图。然后计算该直方图的熵和标准差。接着用熵和标准差的加权组合来计算帧品质度量。各个视频帧的帧品质度量彼此相比较，以确定哪个视频帧最突出。选择具有最高帧品质度量值的帧作为视频缩略图。
在另一个实施例中，视频序列在时间上被分段，并且为该视频序列的特定分段(如视频序列的开始、中间或结尾)内的帧计算帧品质度量。为该特定的视频分段确定局部最大帧品质度量。接着，选择与该局部最大帧品质度量相关的视频帧作为该视频序列的视频缩略图。
在另一个实施例中，视频序列被分段成多个视频连续镜头，并且为每个连续镜头内的帧计算帧品质度量。为每个视频连续镜头确定最大帧品质度量。选择该视频序列的视频缩略图作为与该最高值的局部最大帧品质度量相关的视频帧。

附图中的相同数字是指相同的组件和特征。
图1和2说明了适用于标识视频文件的视频缩略图的示例性环境。
图3是可能在图1的环境中实现的计算机和视频输入源的框图表示。
图4是视频序列的高级表示。
图5说明了在应用帧品质度量前对视频序列进行时间上分段的视频缩略图算法的实施例。
图6说明了各包含来自视频序列的多个视频帧的代表性视频连续镜头。
图7说明了被分裂成多个分组的视频帧。
图8是可能在图2的环境中实现的单机记录设备的框图表示。
图9、10、11和12是说明用于标识突出的、内容丰富的缩略图的示例性方法的流程图，所述缩略图代表视频序列。
图13说明了可以用于实现计算机的适当计算环境的示例。
具体实施例方式
概述下面的讨论针对用于从视频文件或序列内的视频帧中标识突出的、内容丰富的视频缩略图的系统和方法。主题用特性来描述以符合法定要求。然而，描述自身不限制所公开主题的范围。而结合其他现有的或将来的技术，本说明书是考虑到也可以以其他方式包含所要求保护的主题而撰写的，从而包括了与该文档中描述的元件所不同的元件、或类似元件的组合。
这里描述的系统和方法实现了一种缩略图标识算法，用于从视频序列中标识突出视频帧用作视频缩略图。视频缩略图的标识基于帧品质度量。该算法计算了帧的色彩直方图，然后计算该色彩直方图的熵和标准差。帧品质度量是熵和标准差的加权组合。把视频序列的具有最高品质度量值的视频帧确定为视频序列的视频缩略图。所公开的系统和方法的好处包括生成了能准确表示视频文件内容的视频缩略图。
示例性环境图1和2说明了适用于标识视频文件的视频缩略图的示例性实施例。图1的示例性环境100包括计算机102以及一个或多个视频输入源104。
视频输入源104可以是能把视频内容传递至计算机102的任何类型的设备或通信网，包括如便携式存储媒质104(1)(如磁盘、媒质卡、光盘)、视频记录设备104(2)或者像因特网、企业网或本地网络这样的网络104(3)。
视频记录设备104(2)可以是各种数字记录设备的任一种，该种数字记录设备能够记录实况运动的视频和音频，用于稍后通过如VCR、TV以及像计算机102这样的个人计算机进行播放。视频记录设备104(2)一般能使用i.LINK(IEEE 1394)或FireWire数字接口而被直接连到计算机102，使得可以在计算机102上直接编辑视频内容。
计算机102可以用各种计算设备来实现，该种计算设备能够从各个源104接收视频内容，并且管理视频内容用于通过如媒体播放器进行回放。计算机102另外一般能执行常见的计算功能，比如电子邮件、日历、任务组织、字处理、Web浏览等等。在该实施例中，计算机102运行开放平台操作系统，比如微软公司(Microsoft)的视窗(Windows)操作系统。计算机102可以用如台式机、服务器计算机、便携式计算机或者其他个人计算机(PC)形式来实现。下面参照图13更详细地描述了计算机102的一种示例性实现。
如下面参照图3的实施例所详细讨论的，计算机102一般配置用于从视频内容源104接收视频序列或文件(即视频内容)，并且标识视频序列内的一个视频帧，该视频帧适合用作视频缩略图，其视觉内容基本表示了整个视频序列。
图2的示例性环境200包括单机视频记录设备202。视频记录设备202可以以与图1的视频记录设备104(2)基本相同的方式配置。因此，视频记录设备202一般能够使用i.Link(IEEE 1394)或FireWire数字接口被直接连到计算机。然而，图2的单机视频记录设备意图说明这种设备可以一般被配置(类似计算机102)成从捕获到的视频序列中标识一个视频帧，该视频帧适合用作视频缩略图，其视觉内容基本表示了整个视频序列。
示例性实施例图3是可能在图1的环境中实现的计算机102和视频输入源104的框图表示。计算机102用PC(个人计算机)来实现，比如台式机或便携式PC。视频输入源104用光盘104(1)来实现。
PC 102包括处理器300、易失性存储器302(即RAM)和非易失性存储器304(如ROM、硬盘、软盘、CD-ROM等等)。非易失性存储器一般存储PC 102的计算机/处理器可读指令、数据结构、程序模块及其他数据。PC 102一般实现存储在存储器304中并且在处理器300上执行的各种应用程序306。这种应用程序306可以包括软件程序，它们实现例如字处理器、扩展表、浏览器、多媒体播放器、说明程序、计算机辅助设计工具等等。下面参照图13更详细地描述了PC 102的一种示例性实现。
除了应用程序306以外，PC 102还实现视频缩略图算法308。尽管图3所述的视频缩略图算法是可在处理器300上执行的分开的、单机软件应用程序，然而视频缩略图算法308也可以用较高级应用程序306的函数来实现。这种应用程序306一般会包括、但不限于浏览器、视频软件编辑产品、VCR控制系统、MPEG分裂应用程序等等。
在一个实施例中，视频缩略图算法308配置用于分析从视频输入源104(如光盘104(1))接收到的视频内容310，比如图4所示的视频序列400，并且从该视频序列400中标识(即提取)一个视频帧402作为突出的视频缩略图，该缩略图基本表示出整个视频序列400的内容。在执行计算来标识视频缩略图的过程中，视频缩略图算法308产生并使用缩略图算法信息312。注意到尽管视频内容310和缩略图算法信息312被说明为驻留在非易失性存储器304中，然而它们也可以全部或部分地驻留在易失性存储器302中。
图4是示出视频序列400的高级表示。视频序列400表示任何数量的帧402(N)(1到N)，这表示视频内容310的全部长度。下面示出视频帧序列400是一个特定的视频帧402(N-R)，它表示已经被视频缩略图算法308(图3)选择作为表示整个视频序列400的突出内容的视频缩略图。
再次参照图3的实施例，视频缩略图算法308通过为视频序列400内的每个帧计算帧品质度量而确定视频缩略图。帧品质度量表示给定的视频帧视觉上表示整个视频序列400的突出内容的程度度量。这样，帧品质度量表示出提取最具代表性且视觉上令人满意的帧402作为表示整个视频序列400的缩略图的方式。
为了计算视频帧402的帧品质度量，视频缩略图算法308首先对视频帧的色彩直方图作出两次计算(即熵和标准差)。色彩直方图是为图像像素提供统计表示的重要且公知的图像分析工具。统计表示示出哪些色彩像素在图像中，以及每个色彩有多少像素在该图像中。色彩直方图可以被表示为一个条图，其中横轴上的每一项都是像素可能具有的可能色彩之一。
在没有要求的顺序中，视频缩略图算法308对视频帧的色彩直方图执行的第一计算是熵计算。熵是对随机变量不确定性的度量。令X是一个离散的随机变量，而x是X的可能结果的集合。随机变量X的概率质量函数为p(x)。因此，X的熵由下列表达式所定义p(xj)=h(xj)Σi(xi)---(1)]]> 当色彩数据点(像素)的概率不均匀分布时，结果是不确定的，且熵处在最大值。更具体地说，如果色彩图像(即色彩视频帧402)中有最大数量的色彩值并且那些色彩是不均匀分布的，那么该图像的熵最大。这种图像被视为最具色彩的图像。此外，这种图像通常比其他具有较少色彩的图像包含更好的视觉效果。
然而，当图像中的色彩数据点(像素)具有高度偏斜的概率质量函数时，结果可能落在结果的小集合内，因此结果更确定(即不确定性很低)，且熵为低。因此，如果图像(即视频帧402)中有最少数量的色彩值(例如仅有一个色彩)，则图像的熵最小。对于仅有一个色彩值的色彩图像而言，图像直方图的熵为零。这种图像通常比其他具有较多色彩的图像包含更差的视觉效果。因此，视频帧402的色彩直方图的熵有助于作为帧品质度量的第一部分。
同样，在无要求的顺序中，视频缩略图算法308对视频帧的直方图所执行的第二计算是标准差计算。色彩直方图的标准差是对图像直方图中色彩扩展的度量，定义如下SD=Σi=1N(h(xj)-M)2N------(3)]]>M=Σi=1Nh(xi)N----(4)]]>图像直方图的标准差表示图像的色彩范围。图像中色彩值的范围越大，图像的对比度越大。具有较大对比度的图像会比具有较小对比度的图像在视觉上更吸引人类的视觉系统。因此，视频帧402的色彩直方图的标准差有助于作为帧品质度量的第二部分。
通常，较多色的视频帧(即色彩直方图的较大熵)以及较高对比度的视频帧(即色彩直方图的较高标准差)是视觉上优选的帧。因此，帧品质度量可以被定义为视频帧的色彩直方图的熵和标准差的组合，如下 ω′1+ω′2=1-------(6)]]>此外，注意到在用公式(5)计算帧品质之前，用公式(6)把“熵”和“SD”两者都标准化到
范围内。因此，帧品质度量是色彩直方图的熵和标准差的加权组合，使得可以根据需要加重任一者。
G的值越大，视频帧的视觉品质越好。因此，再次参照图4，除了为视频序列400内的每个帧计算帧品质度量以外，视频缩略图算法308还把帧品质度量彼此相比较，并且确定哪个值最大。然后，视频缩略图算法308选择具有最大计算出的帧品质度量的视频帧(如402(N-R))作为显著视觉上表示视频序列400的内容的视频缩略图。
可以在各种方式中用上述帧品质度量来确定一个视频帧作为视频序列的代表性视频缩略图。如上参照图4所述，例如，视频缩略图算法308的一个实施例通过为视频序列400内的每个帧计算帧品质度量，然后比较所有的帧品质度量从而定位具有最高计算出的帧品质值的帧，从而确定视频缩略图。下面参照图5-7讨论了向视频序列应用帧品质度量的附加示例。
在另一实施例中，视频缩略图算法308在向单个视频帧应用帧品质度量之前把视频序列500(图5)分段。图5说明了视频缩略图算法308的一个实施例，它在向视频序列500的特定分段内的视频帧应用帧品质度量之前在时间上把视频序列分段。视频序列500已经在时间上被分成视频帧的开始分段502、视频帧的中间分段504以及视频帧的结尾分段506。每个分段一般有对应于分段时间长度的帧数目。例如，具有每秒30帧的视频序列的10秒分段在该分段内会有300个帧。注意到图5所示的时间分段只是示例，而不是限制。因此，视频序列的任何分段方式都是可能的，并且有助于便于向分段内的单个视频帧应用帧品质度量。
尽管可以向任何时间分段(如，开始分段502、中间分段504、结尾分段506)内的视频帧应用帧品质度量，然而图5说明了视频缩略图算法308向来自视频帧的开始集合502的视频帧应用帧品质度量。然后，视频缩略图算法308把来自开始视频帧502的帧品质度量彼此相比较，并且确定与开始分段502相关的局部最大帧品质度量。所述的视频帧508具有开始帧分段502内最高的帧品质度量(即局部最大)。因此，选择视频帧508作为最好地表示视频序列500的视频缩略图。在大多数情况下，通过计算和比较时间分段内视频帧的帧品质度量而把对一个视频缩略图的搜索限制到该特定的时间分段(如502、504、506)不会大大降低所产生的视频缩略图508的视觉质量，原来的视频缩略图的质量会通过在整个视频序列500上计算和比较所有帧而得到。
在还有一个实施例中，视频缩略图算法308在向单个视频帧应用帧品质度量之前把视频序列600(图6)分段成多个视频连续镜头。一个视频连续镜头是一个完整序列或是视频序列内的帧分段，它通常定义了一个视频的构成块。例如，图6说明了代表性视频连续镜头602、604、606和608，各包含来自视频序列600的多个视频帧。视频连续镜头602、604、606和608构成视频序列600。视频连续镜头可以表示任何特定的视频内容。大多数视频连续镜头定义了可由视频内容内的阈值偏差所分辨的边界。目前存在的各种有效的连续镜头边界检测技术可由视频缩略图算法308来实现。然而，这种检测技术对于本领域的技术人员来说一般是公知的，因此下面不再详细讨论。
在图6的实施例中，视频缩略图算法308一般确定每个视频连续镜头(如602、604、606、608)的局部最大帧品质度量，然后把来自各个视频连续镜头的局部最大品质度量相比较，以确定整个视频序列600的全局最大品质度量。全局最大品质度量表示视频序列600中的哪个视频帧最能在视觉上代表整个视频序列600，以及视频缩略图算法308选择(即提取)哪个视频帧作为整个序列600的视频缩略图。
图7说明了还有一个实施例，其中视频缩略图算法308把视频帧700分成多个块702并且计算视频帧700内每个块702的品质度量。视频帧700的总品质度量被确定为最小值的块品质度量。因此，如果块702(1)在帧700中具有最高的块品质度量，而块702(2)具有最低的块品质度量，则把帧700的品质度量确定为最低值的块702(2)计算的品质度量。这个技术确保了单个视频帧700的品质度量总是至少相当于视频帧700内任一块702的最小品质度量。这个技术可应用于上述各个实施例。也就是，每次在上述实施例中确定帧品质度量时，它可以根据从视频帧内的多个块中选择最小块品质度量而确定。
分组品质度量的计算一般与上述帧品质度量的计算相同。如上所述，为给定的帧计算帧品质度量如下首先通过计算帧的色彩直方图的熵以及帧的色彩直方图的标准差，然后把所述熵和标准差组合。图7说明了视频缩略图算法308怎样把给定的帧700分成多个块702然后对帧的每个块702执行熵、标准差和品质度量计算。然后，视频缩略图算法308选择具有最小值的块品质度量作为帧700的总的帧品质度量。
图8是可以在图2的环境200中实现的单机视频记录设备202的框图表示。视频设备202可以以与图1的视频记录设备104(2)大致相同的方式被配置。图8的框图意图说明图2的视频记录设备一般被配置成(像计算机102)从视频序列标识一个视频缩略图，使得该视频缩略图的视觉内容以上述关于计算机102所述的方式基本表示出整个视频序列。这样，视频设备202是其中可以实现所公开的系统和方法的还有一个示例性环境。
参照图8，视频设备202一般包括处理器800、易失性存储器802(即RAM)以及非易失性存储器804(如ROM)。视频设备202一般还包括便携式的存储媒质能力(未示出)以及/或者像i.LINK(IEEE 1394)或FireWire数字接口这样的数字接口(未示出)，以允许所记录视频内容的传输。操作系统软件806被存储在存储器804中，并且可以在处理器800上执行，以控制像视频捕获组件808这样的各种功能和视频组件。视频捕获组件808包括典型的视频组件，比如聚焦透镜、电荷耦合的设备(CCD)以及模数转换器。操作软件806一般对通过用户控制界面810输入的用户输入响应，以执行以下功能比如接收视觉信息、把该信息转换成电信号并且把它作为视频内容310存储。取景器812一般允许用户像通过界面810控制的那样观察视频内容310及其他信息。视频记录设备202的一般操作和功能是公知的。
视频设备202上的视频缩略图算法308被配置成以类似于上面关于计算机102所讨论的方式起作用。因此，上面关于图4-7的描述可等价地应用于视频设备202。因而，当通过视频设备202的一般操作记录视频内容310时，视频缩略图算法308用于确定视觉上表示所记录的视频序列(即视频文件)的视频缩略图。计算及其他算法信息临时被存储作为缩略图算法信息312。由视频缩略图算法308所产生的视频缩略图可以通过取景器812被观察/浏览，并且通过用户控制界面810而被操纵。
示例性方法现在将参照图9、10、11和12的流程图描述用于标识能代表视频序列的突出、内容丰富的视频缩略图的示例性方法。这些方法一般用于上面参照图3-8讨论的示例性实施例。上述方法的元件可以由任何适当的装置来执行，包括例如通过执行在处理器可读媒质上定义的处理器可读指令。
这里所使用的“处理器可读媒质”可以是包含、存储、传递、传播或传输由处理器使用或执行的指令的任何装置。不加限制，处理器可读媒质可以是电、磁、光、电磁、红外或半导体系统、装置、设备或传播媒质。处理器可读媒质的更具体示例包括具有一根或多个电线的电连接、便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤以及便携式的光盘只读存储器(CDROM)。
图9示出用于标识视频缩略图的示例性方法900，该视频缩略图表示整个视频序列的突出内容。在方框902处，对来自视频序列的视频帧计算色彩直方图。视频序列可以是由计算机从各个视频源(如便携式存储媒质、网络连接、摄像机)接收到的视频内容，或者它可以是由视频记录设备所记录的视频内容。因此，方法900中所讨论的计算可以在计算机、视频记录设备或任何类似设备上执行。在方框904处，按照上述公式(1)和(2)计算色彩直方图的熵。在方框906处，按照上述公式(3)和(4)计算色彩直方图的标准差。在方框908处，计算帧品质度量。帧的帧品质度量按照上述公式(5)和(6)被计算为熵和标准差的加权组合。
在方框910处，以对于视频序列内的附加视频帧的类似方式计算附加的帧品质度量。在方框912处，从所有计算出的帧品质度量中标识出最大帧品质度量。在方框914处，选择与最大值的帧品质度量相对应的视频帧作为视频缩略图，该视频缩略图在视觉上代表整个视频序列的突出内容。
图10示出为视频序列内的视频帧计算品质度量的另一种方法1000。在方框1002处，把视频帧细分成多个块。块数目可以是任何适当的数，包括例如构成视频帧的块的一个16乘16组。在方框1004处，为多个块内的每个块计算品质度量。以上述关于帧品质度量类似的方式(即使用相同公式)计算块品质度量，除了仅对视频帧的一部分而不是对整个视频帧应用计算以外。一旦为每个块计算了品质度量，就确定了最小块品质度量，如方框1006所示。在方框1008处，选择最小的块品质度量作为视频帧的总品质度量。
图11示出用于标识视频缩略图的另一示例性方法1100，该视频缩略图视觉上代表了整个视频序列的突出内容。在方框1102处，视频序列被时间上分段。视频序列可以以任何基础被时间上分段，比如把序列分段成开始、中间和结尾分段。在方框1104处，为视频序列的特定分段内的帧计算帧品质度量。如上所述，根据帧直方图熵和直方图标准差来计算品质度量。在方框1106处，为该特定分段确定局部最大品质度量。在方框1108处，选择视频缩略图作为与该局部最大品质度量相关的帧。
图12示出用于标识视频缩略图的另一示例性方法1200，该视频缩略图视觉上代表了整个视频序列的突出内容。在方框1202处，把视频序列分段成多个视频连续镜头。在方框1204处，对第一视频连续镜头内的视频帧计算色彩直方图。在方框1206处，按照上述公式(1)和(2)计算色彩直方图的熵。在方框1208处，按照上述公式(3)和(4)计算色彩直方图的标准差。在方框1210处，计算帧品质度量。帧的帧品质度量按照上述公式(5)和(6)被计算为熵和标准差的加权组合。
在方法1200的方框1212处，为第一视频连续镜头内的附加视频帧计算附加的帧品质度量。然后在方框1214中为第一视频连续镜头确定局部最大的品质度量。在方框1216处，以对于第一视频连续镜头相似的方式为其他的视频连续镜头计算附加的局部最大帧品质度量。在方框1218处，选择具有最高值的局部最大帧品质度量的视频帧作为视觉上代表整个视频序列的突出内容的视频缩略图帧。
虽然已经用流程图以及与流程图方框相关的文本公开了一种或多种方法，然而应该理解，这些方框无须以给出的顺序来执行，其他的顺序可能得到相似的优点。而且，这些方法不是专门的，并且可以单独或者彼此结合而执行。
示例性计算机图13说明了用于实现计算机102的适当计算环境1300的示例。从下面的讨论中显而易见，计算机102意图表示任何通用或专用计算平台类别，在赋予它们视频缩略图算法308时实现了按照上面参照图3介绍的第一示例性实施例所公开的原理。应该理解，尽管在图3的环境中把视频缩略图算法308描述为软件应用程序，然而计算机102也可以支持视频缩略图算法308的硬件实现。在这一点上，对于视频缩略图算法308的描述，计算机102的下面描述仅仅是说明性的，因此具有较多或较少能力的计算机也可以被代替。
例如，计算机102可以用能观察视频的任何视频观察设备来实现，比如计算机、个人计算机、服务器计算机、手提或便携式设备、便携式通信设备、多处理器系统、微处理器系统、基于微处理器的系统、用户电子设备、VCR、视频媒体播放器、视频即插即用设备及其他相关设备。
计算环境1300包括形式为计算机1302的通用计算系统。计算机1302的组件可以包括、但不限于一个或多个处理器或处理单元1304、系统存储器1306以及把包括处理器1304在内的各种系统组件耦合到系统存储器1306的系统总线1308。
系统总线1308表示多种总线结构类型的一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口以及使用多种总线结构的任一种的处理器或本地总线。例如，这种结构可以包括工业标准结构(ISA)总线、微通道结构(MCA)总线、高级ISA(EISA)总线、视频电子标准联盟(VESA)本地总线以及也称为Mezzanine总线的外围组件互连(PCI)总线。
计算机1302一般包括多种计算机可读媒质。这种媒质可以是可由计算机1302存取的任何可用数据媒质，包括易失性和非易失性的媒质、可移动和不可移动的媒质。系统存储器1306包括形式为易失性存储器的计算机可读媒质，比如随机存取存储器(RAM)1310，以及/或者包括非易失性存储器，比如只读存储器(ROM)1312。基本输入/输出系统(BIOS)1314包含帮助在计算机1302内的元件间传输信息的基本例程，比如在启动期间，BIOS被存储在ROM 1312中。RAM 1310一般包含可立即存取的以及/或者当前由处理单元1304操作的数据和/或程序模块。
计算机1302也可以包括其他可移动/不可移动的、易失性/非易失性的计算机存储媒质。例如，图13说明了用于向不可移动、非易失性磁性媒质读写的硬盘驱动器1316(未示出)、用于向可移动、非易失性磁性媒质1320(如“软盘”)读写的磁盘驱动器1318以及用于CD-ROM、DVD-ROM或其他光学媒质这样的可移动、非易失性光盘1324读写的光盘驱动器1322。硬盘驱动器1316、磁盘驱动器1318和光盘驱动器1322各通过一个或多个数据媒质接口1326连接到系统总线1308。或者，硬盘驱动器1316、磁盘驱动器1318和光盘驱动器1322可以通过SCSI接口(未示出)连接到系统总线1308。
磁盘驱动器和它们相关的计算机可读媒质为计算机1302的计算机可读指令、数据结构、程序模块及其他数据提供非易失性存储。尽管该例说明了硬盘1316、可移动磁盘1320和可移动光盘1324，应该理解，为了实现示例性的计算系统和环境也可以使用可由计算机存取的其它类型的计算机可读媒质，比如磁带或其他磁性存储设备、闪存卡、CD-ROM、数字化视频光盘(DVD)或其他光学存储器、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)等等。
任何数量的程序模块可以被存储在硬盘1316、磁盘1320、光盘1324、ROM 1312和/或RAM 1310上，包括例如操作系统1326、一个或多个应用程序1328、其他程序模块1330和程序数据1332。这些操作系统1326、一个或多个应用程序1328、其他程序模块1330和程序数据1332中的每一个(或者其中某些的组合)都可以包括用户网络存取信息的高速缓存方案的一个实施例。
计算机1302可以包括被标识为通信媒质的多种计算机/处理器可读媒质。通信媒质在像载波或其他传输机制这样的已调数据信号中一般包括计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递媒质。术语“已调数据信号”是指其中的一个或多个特征以对信号内信息编码的方式被设定或变化的信号。例如但不限于，通信媒质包括像有线网络或直线连接这样的有线媒质以及像声音、RF、红外及其他无线媒质这样的无线媒质。上述的任意组合还可被包括在计算机可读媒质的范围内。
用户可以通过像键盘1334和指示设备1336(如“鼠标”)这样的输入设备把命令和信息输入到计算机系统1302中。其他输入设备1338(未具体示出)可以包括麦克风、游戏杆、游戏板、圆盘式卫星天线、串行端口、扫描仪等等。这些及其他输入设备通过与系统总线108耦合的输入/输出接口1340连接到处理单元1304，但可以通过像并行端口、游戏端口或通用串行总线(USB)等其他接口和总线结构而连接。
监视器1342或其他类型的显示设备也通过像视频适配器1344这样的接口连到系统总线1308。除了监视器1342以外，其他输入外围设备可以包括像扬声器(未示出)和打印机1346这样的组件，它们通过输入/输出接口1340连到计算机1302。
计算机1302可以工作在使用到一个或多个远程计算机的逻辑连接的联网环境中，比如到远程计算设备1348。例如，远程计算设备1348可以是个人计算机、便携式计算机、服务器、路由器、网络计算机、对等设备或其他公共网络节点等等。所述的远程计算设备1348是可以包括上述相对计算机系统1302描述的许多或全部的元件和特征的便携式计算机。
计算机1302和远程计算机1348间的逻辑连接被描述为局域网(LAN)1350和通用广域网(WAN)1352。这种联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。当在局域网联网环境中实现时，计算机1302通过网络接口或适配器1354连到本地网络1350。当在广域网联网环境中实现时，计算机1302一般包括用于在广域网1352上建立通信的调制解调器1356或其他装置。内置或外置于计算机1302的调制解调器可以通过输入/输出接口1340或其他适当机制连到系统总线1308。应该理解，所述的网络连接是示例性的，可以采用其他在计算机1308和1348间建立通信连接的装置。
在联网环境中，比如用计算环境1300来说明，相对于计算机1302描述的程序模块或它们的部分可以被存储在远程存储设备中。例如，远程应用程序1358驻留在远程计算机1348的存储器设备上。为了说明目的，这里把像操作系统这样的应用程序和其他可执行程序组件说明为离散块，然而可以认识到，这种程序和组件在各个时刻驻留在计算机系统1302的不同存储组件中，并且可由计算机的数据处理器来执行。
结论尽管已经用对于结构特征和/或方法行为特定的语言描述了本发明，然而可以理解，在所附权利要求中定义的发明不必要限于所述的特定特征或行为。而所公开的特定特征和行为是用于实现要求保护的发明的示例性形式。
权利要求
1.一种包括处理器可执行指令的处理器可读媒质，被配置成用于接收视频序列；以及从直方图熵和直方图标准差中为视频序列内的帧计算帧品质度量。
2.如权利要求1所述的处理器可读媒质，还包括配置用于从帧品质度量中确定最大品质度量的处理器可执行指令。
3.如权利要求2所述的处理器可读媒质，还包括配置用于从与最大品质度量相对应的帧产生视频缩略图的处理器可执行指令。
4.如权利要求1所述的处理器可读媒质，其特征在于，每个帧品质度量都是直方图熵和标准差熵的加权组合。
5.如权利要求1所述的处理器可读媒质，还包括计算各个直方图熵。
6.如权利要求5所述的处理器可读媒质，其特征在于，计算各个直方图熵包括计算色彩直方图。
7.如权利要求1所述的处理器可读媒质，还包括计算各个直方图标准差。
8.如权利要求7所述的处理器可读媒质，其特征在于，计算各个直方图标准差包括计算色彩直方图。
9.如权利要求1所述的处理器可读媒质，其中计算帧品质度量包括把帧细分成多个块；计算每个块的块品质度量；确定最小的块品质度量；以及选择所述最小的块品质度量作为所述帧的帧品质度量。
10.如权利要求1所述的处理器可读媒质，其中计算帧品质度量包括计算色彩直方图；计算所述色彩直方图的熵；计算所述色彩直方图的标准差；以及用熵和标准差的加权组合计算品质度量。
11.一种包括处理器可执行指令的处理器可读媒质，被配置成用于时间上分段一个视频序列；使用直方图熵和直方图标准差计算特定的时间分段内的帧品质度量；以及从帧品质度量中确定所述特定时间分段的局部最大品质度量。
12.如权利要求11所述的处理器可读媒质，还包括配置用于从与所述局部最大品质度量相关的帧产生视频缩略图的处理器可执行指令。
13.如权利要求11所述的处理器可读媒质，其中为所述特定时间分段内每n个帧计算一个帧品质度量，n等于或大于1。
14.如权利要求11所述的处理器可读媒质，其特征在于，每个品质度量都是直方图熵和标准差熵的加权组合。
15.如权利要求11所述的处理器可读媒质，其中从包括以下的组中选择所述特定的时间分段视频序列的开始时间分段；视频序列的中间时间分段；以及视频序列的结尾时间分段。
16.如权利要求11所述的处理器可读媒质，其中计算帧品质度量包括把帧细分成多个块；计算各个块的块品质度量；确定最小的块品质度量；以及选择所述最小的块品质度量作为所述帧的帧品质度量。
17.一种包括处理器可执行指令的处理器可读媒质，被配置成用于把视频序列分段成多个视频连续镜头；计算第一视频连续镜头内的视频帧的色彩直方图；计算所述色彩直方图的熵；计算所述色彩直方图的标准差；以及用所述熵和标准差的加权组合计算帧品质度量。
18.如权利要求17所述的处理器可读媒质，还包括处理器可执行指令，用于为第一视频连续镜头内的附加视频帧计算附加的帧品质度量；以及通过比较这些帧品质度量而确定第一视频连续镜头的局部最大帧品质度量。
19.如权利要求18所述的处理器可读媒质，还包括处理器可执行指令，配置用于为视频序列内的附加视频照片计算附加的局部最大帧品质度量；以及通过比较局部最大帧品质度量而确定视频序列的缩略图视频帧。
20.如权利要求19所述的处理器可读媒质，其中所述确定还包括标识出最高值的局部最大帧品质度量；以及选择与最高值的局部最大帧品质度量相对应的视频帧作为所述缩略图视频帧。
21.一种包括处理器可执行指令的处理器可读媒质，被配置成用于把视频序列分段成多个连续镜头；从多个连续镜头的每一个选择一个帧；对于每个所选的帧而言，用直方图熵和直方图标准差的函数计算帧品质度量；以及用帧品质度量的函数从所选的帧中确定一缩略图帧。
22.如权利要求21所述的处理器可读媒质，其中所述确定还包括从帧品质度量标识出最大帧品质度量；以及确定缩略图帧作为与所述最大帧品质度量相关的帧。
23.如权利要求21所述的处理器可读媒质，其中所述计算品质度量还包括计算色彩直方图；计算所述色彩直方图的熵；计算所述色彩直方图的标准差；以及用熵和标准差的加权组合计算品质度量。
24.如权利要求21所述的处理器可读媒质，其中所述分段还包括执行连续镜头边界检测。
25.一种方法，包括计算视频序列内视频帧的色彩直方图；计算所述色彩直方图的熵；计算所述色彩直方图的标准差；以及用所述熵和标准差的加权组合计算帧品质度量。
26.如权利要求25所述的方法，还包括为视频序列内的附加视频帧计算附加的帧品质度量；以及通过比较帧品质度量来确定视频序列的缩略图视频帧。
27.如权利要求26所述的方法，其中所述确定还包括标识一个最大帧品质度量；以及选择与所述最大帧品质度量相对应的视频帧作为缩略图视频帧。
28.一种方法，包括在时间上分段视频序列；使用直方图熵和直方图标准差计算特定时间分段内的帧品质度量；以及从所述帧品质度量中确定所述特定时间分段的局部最大品质度量。
29.如权利要求28所述的方法，还包括从与所述局部最大品质度量相关的帧中产生一个视频缩略图。
30.一种方法，包括把视频序列分段成多个连续镜头；从所述多个连续镜头的每一个选择一个帧；对于每个所选的帧而言，用直方图熵和直方图标准差的函数计算帧品质度量；以及用帧品质度量的函数从所选的帧中确定缩略图帧。
31.如权利要求30所述的方法，其中所述确定还包括从所述帧品质度量中标识出最大帧品质度量；以及确定所述缩略图帧作为与所述最大帧品质度量相关的帧。
32.一种计算机，包括视频内容；以及视频缩略图算法，用于通过为所述视频内容内多个视频帧的每一个计算帧品质度量从而确定视觉上代表性的视频缩略图帧，每个帧品质度量都包括帧直方图熵和帧直方图标准差的加权组合。
33.一种视频设备，包括用于记录视频内容的视频捕获组件；以及视频缩略图算法，用于通过为所述视频内容内多个视频帧的每一个计算帧品质度量从而确定视频缩略图，每个帧品质度量都包括帧直方图熵和帧直方图标准差的加权组合。
34.如权利要求33所述的视频设备，还包括配置用于实现所述视频缩略图算法的硬件电路块。
35.如权利要求33所述的视频设备，还包括处理器；存储器；以及存储在存储器内的并且可以在处理器上执行的软件指令，用于实现所述视频缩略图算法。
36.一种视频记录设备，包括用于计算视频序列内视频帧的色彩直方图的装置；用于计算所述色彩直方图的熵的装置；用于计算所述色彩直方图的标准差的装置；以及用所述熵和标准差的加权组合计算帧品质度量的装置。
37.一种计算机，包括用于接收视频序列的装置；以及用于从直方图熵和直方图标准差中为视频序列内的帧计算帧品质度量的装置。
38.一种计算机，包括用于计算视频序列内视频帧的色彩直方图的装置；用于计算所述色彩直方图的熵的装置；用于计算所述色彩直方图的标准差的装置；用所述熵和标准差的加权组合计算帧品质度量的装置。
39.一种计算机，包括用于时间上分段视频序列的装置；使用直方图熵和直方图标准差计算特定时间分段内的帧品质度量的装置；以及用于从所述帧品质度量中确定所述特定时间分段的局部最大品质度量的装置。
40.一种计算机，包括用于把视频序列分段成多个连续镜头的装置；用于从多个连续镜头中的每一个选择一个帧的装置；用每个所选帧的直方图熵和直方图标准差的函数计算帧品质度量的装置；以及用所述帧品质度量的函数从所选的帧中确定缩略图帧的装置。
全文摘要
一种算法，从视频序列中标识一个突出视频帧用作视频缩略图。视频缩略图的标识是基于帧品质度量。所述算法计算帧的色彩直方图，然后计算所述色彩直方图的熵和标准差。帧品质度量是熵和标准差的加权组合。把视频序列中具有最高值帧品质度量的帧确定为视频序列的视频缩略图。
文档编号G06F17/30GK1538351SQ200410032359
公开日2004年10月20日申请日期2004年3月30日优先权日2003年4月1日
发明者张栋, 王益进, 张宏江, 栋张申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张栋;王益进;张宏江
技术所有人：微软公司
我是此专利的发明人

上一篇：打印控制设备与打印控制程序的制作方法
上一篇：网络带的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。