媒体流从先前变化位置的重放的制作方法

文档序号：7633630阅读：145来源：国知局

专利名称：媒体流从先前变化位置的重放的制作方法
技术领域：
本发明总地来说涉及视频内容的搜索。更加具体地讲，本发明涉及视频流的先前部分的搜索和重放。
背景技术：
有多种公知的视频重放方法。不过，这些重放技术是有限的。对于某些系统，用户可以输入专门的时间标记，从这个时间标记开始视频流的重放。如果用户不知道视频流中他或她有兴趣重播的具体时间点，那么最好输入近似值。这可以将用户带到视频流中处于感兴趣位置之前或之后的位置上，这样会使用户感到迷茫和失望。也可能使重放在一句话中间开始，同样会使用户感到迷茫或失望。对于那些在向在前位置返回的时候不倒退着呈现视频流的系统，用户的迷茫感会加重，因为这样的倒退呈现能够为用户提供重新开始位置看得见的前后关系。
另一种视频重放特性使得用户能够例如通过遥控器启动倒退功能。播放位置沿着视频流按时间向后移动，直到用户解除倒退功能(例如通过按下遥控器上的“停止”键)。通常这样的倒退特性将视频内容倒退着呈现给用户，倒退着呈现视频内容为用户给出了他或她沿着视频内容向后移动了多远的总体感觉。(这样的倒退功能是VCR用户熟知的，他们可以倒卷录像带并且倒退着观看它，直到到达他们感兴趣的大概在前位置。)不过，倒退功能是粗糙控制并且通常用户不能明确视频流中感兴趣的位置或者在感兴趣的位置停止倒退功能。此外，在倒退功能期间，没有声音呈现出来以帮助用户。例如，如果用户想要重放刚刚说过的一句话，用户必须从倒退呈现的视频影片中确定大概的在前感兴趣位置(例如，通过观察演员)。在用户停止倒退功能的时候，在视频流中通常会出现明显过量的向后移动。还有可能在说出的一句话中间开始播放录像带，同样对用户造成迷茫和失望。此外，如果在倒退功能期间不倒退着呈现内容，则用户必须猜测何时停止并且完全不知道重新开始视频流的位置。
在使用录像带、硬盘驱动器或光盘产生视频流的视频系统中可以找到上述视频播放特性(以及它们附带的缺点)。某些系统还使得用户能够通过按下“跳回”、“重复”之类的按钮来重放刚刚放过的视频流部分。这典型地会停止当前的视频流播放并且从视频流中此前的固定时间重新开始播放。例如，当用户选择跳回按钮(例如遥控器上的)时，视频流提供播放、沿着视频流向回移动30秒并且重新开始播放。这样，对于VCR应用，按下跳回按钮导致录像带倒卷30秒的播放时间，并且从那个位置重新开始播放功能。在硬盘驱动器和基于光学的视频系统中也可以发现类似的特性。
不过，从用户的角度出发，这样的固定时间量具有很多缺点。固定时间量一般会将视频流放回到视频流中用户感兴趣的具体时刻之前或之后的位置上。这一无常的位置可能会使用户感到烦乱、迷惑或失望。例如，用户可能错过了刚才对话中的一个词，并且又不想重放30秒长的视频影片。此外，对于某些系统来说，跳回特性离散地跳回到之前的位置，而不将跨越跳回时间间隔的视频影片倒退着呈现给用户。这样，用户可能根本不知道他或她处于相对于他或她感兴趣的视频流位置的什么位置。用户仅能够让视频播放从那个位置开始，或者再次跳回30秒，这样可能只是会加重问题。此外，按下跳回按钮可能会给出来自在前镜头的一部分视频画面、给出前面对话不完整的一部分等等。同样，这也会使用户感到迷茫。
此外，某些系统，比如硬盘驱动器和光学视频系统，可以使得用户能够访问提供视频流的章节的菜单。DVD是这种类型的可选方案的一种公知实例。用户因此可以访问该菜单并且从在前章节的起点开始重放视频流。不过，章节是为了为用户给出可视的注释(或内容列表)而创建的镜头编组。因此，它们是另一方的主观镜头编组。且不论其它缺点，移动回到章节的起点并不能允许用户选择他或她想要开始重放的位置。例如，如果用户仅仅对较短的重放量感兴趣，比如从当前讲话者开始讲话的时间开始，而选择当前章节的起始点可能会将用户置于视频流中在感兴趣的位置很久之前的位置上。
在另一个感兴趣的领域中，视频浏览技术是感兴趣的和研发的主题。浏览通常关注于帮助用户确定视频内容对用户来说是否感兴趣，这典型地是通过呈现给用户某种类型的视频内容的概要来实现的。例如，在Li等人所著的《Browsing Digital Video》(Proceedings of ACM CHI’00(海牙，荷兰，2000年4月)，ACM Press 169-176页)中，别的且不论，给用户呈现了包括镜头边界帧的视频影片的索引。按照Li的文章，镜头边界帧可以通过将它们的位置记录在索引中的检测算法来产生。当播放视频流时，将对应于当前镜头的镜头边界帧加亮，并且用户可以通过点击索引中另一个镜头边界帧可以选择视频影片的另一个部分。因为镜头边界索引对于整个视频影片是完整的，所以用户可以从当前位置向前或向后移动。
同样地，Van Houten等人所著的《Video Browsing & Summarisation》(2000版，Telematica Instituut(TI refTI/RS/2000/163))提到了使用镜头作为节目撮要(2.3节)并且再次引用了Li的公开内容(2.4.3节)。Van Houten也提到了在编制索引过程中使用对话的语音识别(2.4.1节)。

发明内容
本发明包括检测或运用识别在视频流的当前播放位置之前出现的视频流的内容变化点的数据的方法。内容变化点包括视频中讲话的插入点(下面统称为“讲话插入点(speak break)”)。在视频中的讲话插入点可以是相对寂静时段之后的讲话开始的位置。内容变化点可以包括视频流中其它有意义的内容变化，例如视频中的镜头切换。用户可以启用的再现或重放选项使得视频流按照顺序向回移动到视频流中的先前内容变化点，并且然后从用户选择的先前内容变化点的位置正向播放视频流。
因此，按照本发明的一个方面，由视频显示系统接收视频流并且为用户进行显示。还要对视频流进行基本上实时的处理，以在视频流播放的时候检测视频流中的讲话插入点。保存在视频流的当前播放位置之前的视频流中的讲话插入点的位置。在视频流播放的时候，检测额外的讲话插入点并且将它们在视频流中的位置添加到存储器中。如果用户启用再现选项，则视频流的输出停止并且在最接近的先前讲话插入点位置开始。因此，与现有技术中的重放系统不同，视频是从视频中对用户来说一个连贯位置开始重放的。
用户可以启用再现选项多次，每次使得视频流向回移动到一个视频流中的附加讲话插入点。从而，用户可以以重放的形式向回移动到他或她所感兴趣的视频流中某一的讲话插入点的开始处。当用户停止启用再现选项时，视频流从所选的先前讲话插入点的位置重新开始播放。同样，用户可以在视频中向回移动，以使再现从视频中的连贯位置开始，例如，从人开始讲话的讲话插入点位置开始。
也可以在视频流中检测其它类型的先前内容变化点，比如镜头切换。可以将它们的位置与所检测到的讲话插入点存储在一起，从而引入了先前变化位置的综合列表。重放可以从这些先前变化位置中的任何一个开始。
按照本发明的另一个方面，变化位置是预先识别出的并且在由用户播放期间作为视频流的一部分而引入。和上面提到的情况一样，用户可以启用再现选项，按照在视频流数据中所识别的，从先前变化位置重新开始视频流的播放。
按照本发明的另外的变形方案，除了先前讲话插入点和镜头切换之外，使视频流中的其它先前变化可用于回放。例如，可以检测物体和人移动的变化并且用作视频流中开始重放的先前位置。
因此，总地来说，本发明包括从媒体流中的先前位置重放媒体流的方法，该方法包括从媒体流中的多个之前识别出的内容变化点中选定的一个开始重放媒体流，其中内容变化点包括媒体流中的先前讲话插入点。本发明还包括从在媒体流的当前播放位置T之前的媒体流中的一个位置开始重放数字媒体流的方法。该方法包括在媒体流播放的时候实时检测内容变化点位置。存储至少一定数量的在播放位置T之前检测到的最接近的变化位置。接收包括数字m的一个或多个输入信号，并且检索媒体流中在位置T之前的第m个最接近的变化位置。从媒体流中的第m个最接近的变化位置到T重放媒体流。
此外，本发明包括从媒体流中的先前位置重放媒体流的系统。该系统包括处理器和存储器，该处理器接收一个或多个输入信号，选择媒体流中的多个之前识别出的内容变化点之一。处理器比外还从存储器中检索与选定的内容变化点相应的位置并且从选定的变化位置启动媒体流的重放，其中所识别出的内容变化点包括媒体流中的先前讲话插入点。
同样还提供包含在计算机可读介质里的计算机程序产品，其从媒体流中所选的先前位置重放媒体流，该计算机程序产品执行本发明的方法。

图1是支持本发明的设备和系统的示例框图；图2是在播放点T处视频流中先前变化位置的表示图；和图3是本发明的实施方式的流程图。
具体实施例方式
图1表示按照本发明进行操作的系统10。视频设备20产生并提供经由显示设备40显示给用户的视频流30。视频设备20可以是多种典型设备中的任何一种，比如播放磁带的盒式磁带录像机或播放盘的DVD播放器。视频设备20可以通过播放插入其中的预先录制的盒式录像磁带或DVD产生视频流30。视频设备20也可以具有用于存储视频流的硬盘驱动器存储装置，在这种情况下，可以通过播放存储在硬盘上的视频节目来产生视频流。在视频设备20具有磁带、硬盘、或类似的记录能力的情况下，设备也可以具有接收和记录输入视频流30a的能力，该视频流30a然后作为显示视频流30回放。输入流可以例如通过有线接口(例如有线电视广播、来自服务器的网络播放等)或者无线地(例如，经由传统的无线电电视广播、卫星电视广播、或者其它经由空中接取的广播)。在这样的设备中，显示的视频流30可以最初为输入视频流30a(即不是已存储的流)。一旦开始重放，所显示的流30就会落后于输入流30a并且从存储器中的存储流中提供。尽管将设备20表示为与显示器40分离，但是它们可以位于同一设备中，比如具有内部硬盘驱动器的TV。
视频流30还要经历由处理器50进行的实时内部处理。(虽然将处理器50表示为在设备20的内部，但是按照另外一种可选方案，处理器50也可以位于设备20外部)。处理器50被编程用于检测视频流内的讲话插入点。有很多的已知技术可以在本发明中用来检测讲话插入点。例如，附图1的接收视频流30可以在处理器50的音频特性模块中加以处理，以将它的音频部分分段为诸如谈话和无声这样的类别。视频流中的各个帧一般是由一组音频特征来表征的，比如Mel频倒频谱系数(MFCCmel-frequency cepstrum coefficient)、傅里叶系数、基频、带宽等。(取决于视频流的格式，可能需要特定的预处理来提取音频特征。)音频特征分析是针对与相关无声时段之后的人的讲话参数相应的那些音频特征进行的。识别出音频流中相关无声时段之后讲话开始的位置，并且由处理器50将其存储为包括讲话开始点的讲话插入点。
图2表示如上所述的由处理器50识别到的视频流30中讲话插入点的位置(例如，讲话开始点位置)。T代表视频流30中当前的播放位置，而到T左侧的点代表视频流中先前的播放位置。点O代表视频流的起点。点LN，……，L1代表在时间T期间由处理器50识别并存储的视频流中的N个先前讲话插入点的位置。(图2中的位置点L仅仅是视频流中讲话插入点位置的表示；实际上存储在存储器中的讲话插入点的位置数据一般来说是时标、帧数、或视频流中插入位置等的类似标记)。为方便起见，相对于当前播放时间T，按照递减的顺序从最旧的(LN)到最近的(L1)为附图2中的代表性的先前讲话插入点位置L加上标签。当然，随着播放的进行，会检测到位置L1之后的新的讲话插入点，并且将它们的位置存储在存储器里。不过，图2一般性地表示在视频流的任意给定时间T内检测并存储的总共N个先前变化位置。
因此，在播放时间T内，LN代表视频流中第一个讲话插入点位置，而L1代表视频流30中最近的讲话插入点位置。从而，如果一个人在时间T说话，则位置L1代表视频流中相对于当前播放位置T而言的最接近(或最新近的)先前讲话插入点位置。先前位置L2是视频流中一个人开始说话时所处的第二最接近先前位置，等等。
视频设备20包括再现或重放特性。当在时间T启用重放特性时，设备20访问由处理器50存储的先前讲话插入点位置并且检索到最接近的先前讲话插入点位置L1。再现设备20停止视频流的当前输出，并且从位置L1开始重放。通过从位置L1开始重放，使得重放是从视频流中最新近的连贯点开始的，就是说，当视频流中最新近的讲话者开始讲话时。通过两次启用重放特性，使得重放从第二个先前讲话插入点位置L2开始。通过接连多次(“m”次)启用重放特性，设备20检索到视频流中到T的第m个最接近的先前讲话插入Lm，并且从这个位置开始视频流的重放。
因此，例如，如果设备20是VCR，则所存储的识别到的先前讲话插入点的位置可以是视频流中帧的时标。设备20将磁带倒回到所选择的先前讲话插入点的时标。如果设备20例如是DVD，并且所识别到的先前讲话插入点是通过跟踪数据来存储的，则设备20将激光移动到所选择的先前讲话插入点的轨迹位置并且继续进行播放。如果设备20是基于硬盘的系统，那么先前讲话插入点可以是通过所存储的视频流的相应帧所对应存储器地址来识别的。当接收到重放命令时，在所选择的先前讲话插入点所对应的存储器地址处开始输出视频流30。
可以手动地启用重放特性，例如，通过按下视频设备20上的按钮，或按照另外一种可选方案，通过按下遥控器(未示出)上的按钮，该遥控器向设备20发送适当的IR信号。按照另一种可选方案，重放特性可以通过语音启动或手势识别或者其它适当的命令输入来启用。例如，对于语音识别的情况，每次用户说出词“重放”的时候，可以启用重放特性并且向回移动一个讲话插入点。用户的手势识别可以使用外部摄像机采集用户的运动来由设备20检测；可以在子例程中由处理器50使用公知的图像检测算法检测所输入的手势来处理所采集的图像。(例如，手势识别可以利用下面介绍的用来检测视频流中的运动的径向基函数技术。)类似地，语音启动可以使用连接在设备20上的外接扬声器，该外扬声器采集用户的声音并且将它提供给处理器50，处理器50使用公知的语音识别处理针对命令字对所采集到的声音进行分析。(例如，语音识别可以分析音频特征(比如上面介绍的用于检测视频流30中的讲话插入点的那些音频特征)，以识别与命令相对应的特定口语单词。)在视频流的内容从视频流中的当前位置移动到所选择的先前讲话插入点的位置时，设备20最好在显示器40上反向地呈现所述视频流的内容。(这是VCR和DVD手动反向功能的标准特性。)这为用户提供了关于用户已经在视频流中向后移动了多远的可见参照系。此外，当启用重放特性，并且使视频流返回到所选择的先前讲话插入点时，可能不会立即重新启用播放特性。相反，显示器上输出的视频可以“冻结”在讲话插入点的第一帧上，从而使得用户能够可视地判断这是否是期望的重放位置。如果是，则用户可以按下播放按钮，并且视频流输出重新开始。如果不是，用户可以再次按下重放按钮。此外，一旦用户向后移动到了至少一个先前变化位置(在这种情况下是讲话插入点)，设备20可以具有“向前移动”特性，当按压时，“向前移动”特性移动到视频流中前面的下一个讲话插入点。从而，如果用户使用重放按钮向后移动太远，他或她可以向前移动到期望的位置。
此外，处理器50不需要保存所有先于当前播放点的讲话插入点的位置(或其它内容变化点位置)。用户通常不会从在时间上比当前播放位置早很多的变化位置开始重放。因此，处理器50可以仅仅存储例如相对于视频流的当前播放点的最后10个变化位置(图2中L10-L1)。当在视频流中检测到新的变化位置时并且将其添加到存储器位置时，删去最老的变化位置(即在上述例子中的第10个最接近的变化位置)。
在如上所述的特定实施方式中，讲话插入点是与视频流的播放同时地检测和汇集的。按照另外一种可选方案，可以对视频流进行预处理，以使由设备20输入或产生的流标识出讲话插入点位置。这样，例如，在设备20是VCR的情况下，录像带可以包括在视频流播放的时候识别出视颜流中的讲话插入点的数据字段。从而设备20可以在视频流中识别出讲话插入点的时候，将讲话插入点的位置存储在缓冲存储器中，并且如上所述那样在重放功能中利用这些位置。按照另外一种可选方案，当启用重放特性时，设备20可在磁带倒带的同时从数据字段中检测出先前讲话插入点的位置。因此，可以将磁带倒卷选定数量的讲话插入点。按照另一个变形方案，可以将讲话插入点位置作为一组数据包括在磁带的开始处。在输出视频流之前将该组数据从磁带上下载到设备20，并且在重放特性期间使用该组数据来识别视频流中当前位置之前的讲话插入点位置。虽然这里将重点放在了VCR的实施方式上，但是类似的变形方案可应用于其它类型的视频设备。
图3提供了在本发明的实施方式中采取的步骤和处理的流程图。在步骤100中，接收或产生视频流。在步骤110中，判断所接收或产生的视频流是否包括预先识别出讲话插入点的数据。如果不包括，则实时地(即，在播放视频流的同时)对视频流进行处理并且检测讲话插入点且对视频流中的讲话插入点的位置进行存储(步骤.120)。在输出视频流的时候，该处理过程监测是否启用重放特性(步骤130)。如果是，则从最接近的先前讲话插入点的位置(L1)重放视频流，或者，如果启用重放特性m次，则从第m个最接近的先前讲话插入点的位置(Lm)重放视频流(步骤140)。(重放特性可以启用的次数m是小于或等于所存储的讲话插入点位置的个数的任意整数1、2、……。)处理过程返回到步骤120，在这个步骤中，视频流输出和讲话插入点检测继续进行。(在这种情况下，可以将讲话插入点检测延迟，直到视频流经过了之前重放开始处的点，因为已经对这些讲话插入点进行了检测及存储。)如果在步骤130中没有启用重放特性，则在步骤150中判断视频流是否已经结束。如果是，则处理过程结束(步骤160)。如果不是，处理过程仍返回到步骤120。
在步骤110中，如果预先识别出了视频数据流中的讲话插入点数据，那么在步骤120a中输出该视频流。在输出视频流的时候，处理过程监测是否启用了重放特性(步骤130a)。如果是，则从最接近的先前讲话插入点位置重放视频流，或者，如果启用了重放特性m次，则从第m个最接近的先前讲话插入点的位置开始重放(步骤140a)。这利用了包含在步骤120a中的视频流中的讲话插入点位置。处理过程然后返回到步骤120a，在这个步骤中，视频流输出继续进行。如果在步骤130a中没有启用重放特性，则在步骤150a中判断视频流是否结束。如果是，则处理过程结束(步骤160)。如果不是，处理过程仍返回到步骤120a。
上面介绍的设备、系统和方法都关注于把讲话插入点作为重放点。通过从相对于视频流的当前播放位置(T)的先前讲话插入点开始重放，视频流从自然的音频内容变化点位置开始重放，这样就为用户提供了连贯的先前音频或视频段。其它的重放位置可以为用户提供这样的连贯性并且也可以引入这样的重放位置作为本发明的处理过程中的重放位置。视频流中可以提供连贯重放位置的其它一些这样的有意义内容变化点包括场景变化或镜头切换。例如，用户可能受到了暂时打扰并且想要返回到当前场景的开始。这样，图1中设备20的处理器50也可以检测并且存储视频流中镜头切换的位置。虽然在许多情况下，讲话插入点之一与镜头切换近似一致，但是同时具有两种类型的可用作重放点的变化位置给用户增加了灵活性。
例如，可以由处理器50进一步处理图1的视频流30，以检测视频流中的镜头切换。术语“场景切换”和“镜头切换”指的是相似的概念并且在下文中是可互换地使用的。场景切换或镜头切换典型地是指连贯帧之间视频内容的实质变化。(更加一般地讲，它指的是在少量帧期间使得视频流看起来像是经历了不连续的视频内容变化的视频内容实质变化。)换句话说，高度不相关的连贯帧代表场景或镜头切换。下面将使用术语“镜头切换”，但是不是用来进行限制的。
典型的镜头切换包括从一个背景(摄影景地)到另一个背景的变化。镜头切换也可以包括时间上的变化，即使摄影景地保持不变。例如，户外镜头切换可以包括没有摄影景地变化的从白昼到夜间的突然变化，因为在连贯的视频帧中有内容的实质变化。另一个镜头切换的相关例子使用相同的外景地，但是包括摄影景地视野的变化。公知的镜头切换的的例子出现在音乐电视中，在音乐电视中，可以快速连续地从多个不同的视角展现表演者。
因此，视频流30还要经过由处理器50进行的实时内部处理，以检测视频流内的镜头切换。有许多公知的技术可用来分析视频流和检测可用在本发明中的镜头切换。可用在本发明中的各种不同的技术为在视频实时播放的时候进行镜头切换的检测做好了准备。例如，一些技术通常依赖通过分析连续帧间的离散余弦变换(DCT)系数识别视频流中的镜头切换。在视频流按照MPEG标准进行了压缩的情况下，例如，可以在对视频流进行解码的时候(即实时地)提取DCT系数。一般来说，确定帧中多个像素宏块的DCT值并且按照多种可用的比较算法之一针对连续帧进行比较。当按照特定的算法，帧间的DCT值的差异超过阈值时，指示一个镜头切换。如果视频流不是MPEG编码的，则可以对所接收的帧的宏块应用快速DCT变换，从而能够实现这种用于镜头切换检测的实时处理。在N.Dimitrova、T.McGee和H.Elenbaas所著的《VideoKeyframe Extraction and FilteringA Keyframe Is Not A Keyframe To Everyone》(Proc.Of The Sixth Int’1 Conference On Information And KnowledgeManagement(ACM CIKM’97)，Las Vegas，NV(Nov，10-14，1997)，ACM 1997，113-120页)中介绍了这种技术的一个例子，该篇文献的内容以引用的方式并入本文。(参见例如第2.1节《Video Cut Detection》)这样，处理器50使用至步一种这种技术来实时地识别视频流30中的镜头切换。如前面所述的，将所识别到的视频流中的镜头切换位置与讲话插入点位置一起按照顺序存储起来。视频流中的位置可以按照帧号、时标等来加以标识。这样，回过头来参考图2，在这种情况下，所画出的LN-L1表示直到当前播放点T为止的视频流的N个先前“内容变化点”(讲话插入点或镜头切换)的位置。例如，最近一个的变化点L1可以代表在时刻T正在讲话的表演者开始说话时在视频流中的位置，L2-L5可以代表在视频流中类似的先前讲话插入点位置，L6可以表示最近一个镜头切换位置等等。当用户启用重放功能时，视频流从最近一个变化位置开始重放，在这中情况下是从L1开始重放。这样，如果用户错过了当前谈话者的一个词，例如，则按下重放特性一次可以使视频流在当前谈话者开始说话的点处开始。
类似地，启用重放功能两次会使视频流从下一个先前讲话插入点L2开始重放。(下一个先前讲话插入点可以是不同说话者的讲话开始。也可以是在时间T的当前说话者的另一次讲话开始，如果该讲话者在讲话开始位置L1和L2间有明显暂停的话。)按下重放功能m次会使视频流从第m个先前变化位置开始重放。优选的，在启用重放特性的时候，反向地呈现视频流。这使得用户能够识别出某一感兴趣的变化(比如最近一个镜头切换，例如可以是点L6)并且使正向播放重新开始。
注意，也可以在数据流中预先识别出所有变化位置，包括镜头切换位置和讲话插入点位置(比如在相对无声之后开始讲话的位置)。这样，如上所述，在重放功能期间，处理器50可以按照视频流中预先识别出的来利用这些变化的位置。此外，图3可以表示在由处理器50检测镜头切换和讲话插入点二者并且将它们以综合的方式存储在存储器中的情况下所使用的处理步骤。这样，对于图3中示出的各个步骤，对“讲话插入点”的关注可以一般化为“内容变化点”，包括，例如，讲话插入点和镜头切换。
如上所指出的，可以以很多方式检测镜头切换，例如，通过监测连续帧中宏块的DCT系数的变化来检测帧间的实质变化。不过，在同一镜头内也可能出现某些不是很实质性的变化，但是可能对用户来说，仍然是重要的变化点。例如，在镜头内开始移动的表演者(或物体)可能是用户感兴趣的变化。类似地，加入到镜头中(例如，穿过门走入镜头中的)的另一个表演者也可能是感兴趣的变化。这样的变化类似于上面讨论的相对的无声时段之后表演者开始说话。它们可能是用户关心的变化，但是在一个镜头内出现。因此，对于本发明来说，场景内的表演者(或物体)运动的变化可以构成有意义的内容变化点。
因此，从这样的运动变化的开始位置进行重放可以为用户提供重放连贯性并且也可以作为本发明处理中的重放位置来加以引入。这样，例如，用户可能想要返回到视频流中场景中的表演者开始走向门口的最新近点。因此，图1中设备20的处理器50也可以识别场景中的人或物体并且存储在视频流中人或物体在静止之后开始移动时的位置。
例如，可以在处理器50中对图1的视频流30进行进一步处理，以识别镜头内人的轮廓和/或人的面部并且检测他们在帧间的移动。在现有技术中有许多可用的实时图像识别和运动检测的方法和技术，可以将这些方法和技术编程在处理器50中来实现这个目的。例如，在共同拥有的并且共同待决的由Gutta，等人于2001年2月27日提交的、名称为《Classification OfObjects Through ModelEnsembles》的序号为09/794443的美国专利申请中介绍了可以用于识别视频流中人的移动的技术，该专利申请的内容以引用的方式并入本文。(还要注意，美国专利申请09/794443对应于国际公开号为WO02/069267A2的WIPO公开的PCT申请。)从而由处理器50识别并存储视频流中人在静止后开始移动的位置。
以与前面介绍的相同的方式，将视频流中与这样的人的运动的开始相对应的位置与存储器中的检测到的镜头切换和讲话插入点的位置综合起来。这样，图2中表示的各个所存储的变化位置将是对应于视频流中的讲话开始、移动开始或者镜头切换的先前位置。例如，L1可以代表在当前镜头中开始伸手取一个物体的表演者的位置，L2可以代表在该镜头内当前正在说话的表演者开始讲话的位置，L3可以代表最近一个的镜头切换，等。当用户启用重放功能时，视频流从相对于当前播放位置T的最接近的先前变化位置L1开始重放。这使得视频流在表演者开始伸手取物体的点处开始。再次按下重放会使视频流从当前表演者开始讲话的位置L2开始重放，等等。
不同的用户可能具有特定的重放偏好，本发明的系统和设备可以利用这些重放偏好来定制重放功能。例如，如果一个或多个用户的特定家庭一般会使用重放功能向回移动到视频流中的最近一个的镜头切换位置，则设备20可以将最新近的先前镜头切换设置为默认重放位置。设备20可以包括随时监测重放输入并且调整重放功能来反映出系统的一个或多个用户的共同的偏好的学习算法。这些偏好可以随着时间改变。按照同样的方式，该系统和设备可以为使用该系统和设备的不同的个人用户定制重放功能。在这种情况下，设备20将具有针对各个用户的身份验证处理(例如登录程序)并且监测和存储不同用户的偏好。此外，针对视频流存储的变化位置可以还包括变化类型(镜头切换、讲话、移动，等等)，从而使得重放可以跳过那些不符合当前用户的偏好的介于中间的变化位置。在维持原始的重放特性以使得用户能够经过所有的位置按顺序向回移动的同时，可以通过不同的输入(例如，“重复-2”输入)启动这些基于偏好的重放。
而且，在LN-Ll位置是由不同的内容变化点(镜头切换、讲话插入点，等等)组成的情况下，可以启用不同的重放功能来从各个变化类型进行再现。在这种情况下，处理器50将变化类型与变化位置存储在一起。
此外，回过头来参照图1，按照另外一种可选方案，设备20可以位于通过有线或空气界面向用户的显示设备40提供视频流30的服务提供商处。设备20按照与上述相同的方式处理视频流，以确定或检测视频流中的变化位置。当用户启用重放特性时，将其传送给服务提供商，服务提供商也是象上述那样从先前变化点位置开始重放视频流。
此外，在上述示范性的实施方式中，回到视频流中的先前变化点的一次运动是通过单独一次启用重放特性来完成的。这样，例如，为了向回移动视频流中的“m”个变化点，将重放选项描述为启用“m”次。其它的启用重放特性的方式也是可行的并且是由本发明所涵盖的。例如，一次控制输入可以造成重放特性向回移动“m”个变化位置。例如，在输入是经由遥控器进行的情况下，可以在遥控器上按下频道号“5”来使得重放特性向回移动视频流中的5个变化位置。按照另外一种可选方案，在输入是经由姿势识别进行的情况下，举起3个手指可以造成重放特性向回移动视频流中的3个变化位置。
此外，上面举例说明的内容变化不是用来进行限定的。本发明涵盖了可以检测到(或预先识别出)并且可用作重放位置的任何类型的有意义的内容变化点。例如，在上述实施方式中，举例说明了包括讲话开始的讲话插入点和包括运动开始的运动变化。另外(或此外)，可以使用讲话和运动终结作为内容变化点。也可以使用其它内容变化，例如彩色平衡、音频声量、音乐开始和终结，等等。
此外，虽然本发明的上述示范性的实施方式将重点放在视频流(具有音频组分)上，但是本发明不限于包含视频组分的媒体流。因此，本发明涵盖了其它媒体流。例如，本发明也包括类似的音频流自身的处理。就此而言，音频流可以由磁带播放器、CD播放器或基于硬盘驱动器的设备产生。(起初，在用户启动重放功能之前，可以由设备实时地接收和输出外部音频流，同时进行记录。一旦启动重放特性，音频流就落在所接收的流之后并且因此从存储介质产生。)检测和存储包含在音频流中的先前讲话插入点的音频流处理是按照与上面介绍的视频流处理中的方式类似的方式进行的。当用户启用重放特性时，例如，使音频流停止并且从按照重放特性从用户那里接收到的输入而确定的先前讲话插入点开始重放。
虽然参照几种实施方式对本发明进行了说明，但是本领域技术人员将会理解，本发明并不局限于所给出和所介绍的特定形式。因此，在不脱离由所附的权利要求所定义的本发明的精神和范围的前提下，可以在其中作出形式和细节上的各种改变。例如，如上所指出的，有很多的可以用在本发明中的用来检测讲话插入点、检测镜头切换、图像识别以及运动检测的技术。因此，上面介绍的与检测讲话插入点、检测镜头切换、图像识别以及运动检测相关的特定技术仅仅作为例子，而不是为了限制本发明的范围。
权利要求
1.一种从媒体流(30)中的先前位置(LN-L1)开始重放媒体流(30)的方法，该方法包括从媒体流(30)内多个之前识别出的内容变化点(120，120a)中选定的一个内容变化点开始重放媒体流(140，140a)，该内容变化点包括媒体流(30)中的先前讲话插入点。
2.根据权利要求1的方法，其中媒体流(30)是视频流(30)，并且之前识别出的内容变化点(120，120a)此外还包括镜头切换和运动的变化中的至少一种。
3.根据权利要求1的方法，其中先前讲话插入点包括媒体流(30)中相对的无声时段之后的讲话开始。
4.根据权利要求1的方法，此外还包括接收用于选择媒体流(30)中开始进行重放(140，140a)处的一个先前内容变化点的控制命令(130，130a)。
5.根据权利要求4的方法，其中控制命令(130，130a)包括m个输入信号，这m个输入信号用于选择媒体流中开始进行重放(140，140a)处的第m个先前内容变化点。
6.根据权利要求4的方法，其中用于选择开始进行重放(140，140a)处的一个内容变化点的控制命令(130，130a)是基于所接收到的先前控制命令来加以处理的。
7.根据权利要求4的方法，其中所接收到的控制命令(130，130a)是通过手工输入、语音输入和手势识别中的至少一种来产生的。
8.根据权利要求1的方法，此外还包括在媒体流(30)正在播放的同时实时识别和存储先前内容变化点的位置(120)，媒体流从选定的先前内容变化点开始进行的重放(140)利用了与选定的内容变化点相应的所存储的位置。
9.根据权利要求1的方法，此外还包括从包括在媒体流中的数据(120a)中识别媒体流中的先前内容变化点的位置，媒体流从选定的先前内容变化点开始进行的重放(140a)利用了包含在媒体流(30)中的选定内容变化点的位置。
10.根据权利要求1的方法，此外还包括从磁带、光盘、服务器以及硬盘中的至少一个产生该媒体流(100)。
11.根据权利要求1的方法，此外还包括从外部源接收该媒体流(100)。
12.根据权利要求11的方法，此外还包括记录已接收到的媒体流并且从已记录的媒体流中重放。
13.根据权利要求1的方法，其中从媒体流(30)中的多个之前识别出的内容变化点(120，120a)中选定的一个内容变化点开始重放媒体流(140，140a)是内容变化点的类型的功能。
14.一种从在媒体流(30)的当前播放位置T之前的媒体流中的位置开始重放数字媒体流(30)的方法，该方法包括步骤a)在媒体流播放的时候实时检测内容变化点位置(LN-L1)(120)；b)存储至少一定数量的在播放位置T之前检测到的最接近的变化位置(120)；c)接收包括数字m的一个或多个输入信号(130)；d)从存储器中检索媒体流中在位置T之前的第m个最接近的变化位置；和e)从媒体流中的第m个最接近的变化位置到T对媒体流进行重放(140)。
15.根据权利要求14的方法，其中媒体流(30)是音频流和视频流中的至少一种。
16.根据权利要求15的方法，其中变化位置包括媒体流中的讲话插入点位置。
17.根据权利要求16的方法，其中媒体流(30)是视频流并且变化位置此外还包括镜头切换位置和运动变化位置中的至少一种。
18.一种从媒体流(30)中的先前位置(LN-L1)开始重放媒体流(30)的系统(10)，该系统(10)具有处理器(50)和存储器，该处理器(50)接收一个或多个输入信号，选择媒体流(30)中多个之前识别出的内容变化点中的一个内容变化点，该处理器(50)此外还从存储器检索与选定的内容变化点相应的位置(LN-L1)并且从选定的变化位置(LN-L1)启动媒体流(30)的重放，其中所识别出的内容变化点包括媒体流(30)中的先前讲话插入点。
19.根据权利要求18的系统(10)，其中该处理器(50)此外还在媒体流(30)播放的时候识别媒体流(30)中的内容变化点并且存储它们的位置(LN-L1)。
20.根据权利要求18的系统(10)，其中该系统(10)此外还产生该媒体流(30)。
21.根据权利要求18的系统(10)，其中该系统(10)此外还接收该媒体流(30)并且记录该媒体流(30)。
22.根据权利要求18的系统(10)，其中该系统(10)由单个设备(20)组成，该设备装有处理器(50)和存储器，接收输入信号并启动重放。
23.根据权利要求22的系统(10)，其中该设备(20)是VCR、CD播放器、DVD播放器以及PC之一。
24.一种具体实现在计算机可读介质中的计算机程序产品，用于从媒体流(30)中的选定先前位置(LN-L1)开始重放媒体流(30)，该计算机程序产品包括a)在媒体流播放的时候实时地检测内容变化点的计算机可读程度代码(120)；b)将在播放位置T之前检测到的媒体流中的至少一定数量的最接近的内容变化点的位置(LN-L1)存储在存储器中的计算机可读程度代码(120)；c)接收包括数字m的一个或多个输入信号的计算机可读程度代码(130)；d)从存储器中检索媒体流中在位置T之前的第m个最接近变化位置的计算机可读程序代码；和e)产生从在T之前的第m个最接近变化位置开始重放媒体流的输出信号的计算机可读程序代码(140)。
全文摘要
一种用户可以启用的再现选项促使视频流(30)按照次序后退移动到视频流(30)的先前变化点(L
文档编号H04N5/915GK1922690SQ200580003114
公开日2007年2月28日申请日期2005年1月24日优先权日2004年1月26日
发明者G·霍勒曼斯申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：G.霍勒曼斯
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：运动图片编码方法和运动图片解码方法
上一篇：提供个人化广播服务的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。