内容处理设备、处理内容的方法及计算机程序的制作方法

文档序号：7635429阅读：90来源：国知局

专利名称：内容处理设备、处理内容的方法及计算机程序的制作方法
技术领域：
本发明涉及被配置为对通过例如记录电视节目而获得的视频内容执行诸如索引编制(indexing)之类的处理的内容处理设备，并涉及处理内容的方法和计算机程序。具体地，本发明涉及被配置为在电视节目的标题(即，主题)的基础上确定所记录的电视节目的场景变化、并执行场景的分段或分类的内容处理设备，并涉及处理内容的方法和计算机程序。
更具体地，本发明涉及被配置为在视频内容中包括的字幕(telop)的基础上检测主题变化、在所检测的主题的基础上执行视频内容的分段、并执行索引编制的内容处理设备，并涉及处理内容的方法和计算机程序。具体地，本发明涉及被配置为通过使用在视频内容中包括的字幕而在相对小的数据量的基础上检测主题变化的内容处理设备，并涉及处理内容的方法和计算机程序。
背景技术：
在今天的信息科学中，广播的重要性是不可估量的。具体地，因为直接将声音和图像传送给观众，所以电视广播对观众有很大的影响。广播技术包括广泛的技术，如处理、传送和接收信号、以及处理音频和视频信息。
电视机的家庭普及率非常高，并且，由一般公众观看从各个电视台广播的电视节目。作为观看广播内容的另一种方式，观众可记录下内容，并在任意选定的时间回放所记录的内容。
近来，数字技术的进步已使得能够存储大量的音频视频数据。例如，可相对便宜地购买到具有数十到数百吉字节的容量的硬盘驱动器(HDD)，并且可在市场上获得能够记录和播放电视节目的基于HDD的记录设备以及个人计算机(PC)。HDD是一种可随机存取的装置。因此，当播放在HDD上记录的节目时，不必如已知的视频带那样按照记录顺序来播放节目，而是可以直接播放任何记录的节目(或节目中的任何场景或片段)。诸如电视机、或视频记录和播放设备之类的接收设备接收并在大存储装置(如硬盘装置)中临时存储广播内容、然后播放所存储的内容的观看模式被称为“服务器广播”。通过使用与常规电视系统不同的服务器广播系统，观众不必在对节目进行广播时观看所广播的节目，而是可以在任何选定的时间观看节目。
服务器广播系统的硬盘容量的增加已允许观众记录多达数十小时的电视节目。然而，观众基本上不可能观看在硬盘上记录的全部电视内容。如果观众可以检索仅仅感兴趣的场景，并进行摘要观看(digest viewing)，则观众可以能够高效且有效地使用所记录的内容。
为对所记录的内容进行场景检索和摘要观看，必须对图像进行索引编制。作为视频索引编制的方法，公知一种方法，其中，检测对应于视频信号较大变化的帧的场景变化点，并执行索引编制。
例如，已知一种场景变化检测方法，用于当对应于两个连续图像场或图像帧的、代表构成图像的分量的直方图的差的总和大于预定阈值时，检测图像的场景已变化(例如，参考专利文献1)。当形成直方图时，向预定层及其相邻层分配常量，并将所述常量相加；通过正规化而计算新的直方图；通过使用新计算的直方图，在每两个连续图像场或图像帧中检测场景的变化。这样，即使在衰减图像中，也能精确地检测出场景变化。
在电视节目中包括许多场景变化点。通常，处理(treat)对应于特定标题(即，主题)的时间周期、并对视频内容进行分段和分类被考虑为适合于摘要观看。然而，即使当同一标题继续进行时，场景也会频繁地变化。因此，仅依赖于场景变化点的视频索引编制方法将不一定提供用户想要的索引编制。
已提出了一种视频声音内容汇编(compiling)设备，其被配置为通过使用视频数据来检测视频切换(cut)位置、使用声音数据来执行声音群集(clustering)、以及通过整合视频数据和声音数据来执行索引编制，而根据索引信息来汇编、检索和选择视频内容(例如，参考专利文献2)。根据该视频声音内容汇编设备，将从音频信息获得的索引信息(用于区分有声、无声、以及音乐)与场景变化点相链接。这样，可将有意义的图像和声音的片段检测为场景，并且可忽略不太有意义的场景变化点。然而，因为在一个电视节目中存在许多场景变化点，所以不能在不同主题的基础上对视频内容进行分段。
通常，作为产生和编辑诸如新闻节目和综艺节目(variety program)的电视广播的方法，采用了一种在图像帧的角落中显示明确地或隐含地表示节目的标题的字幕的方法。可使用在图像帧中显示的字幕，作为在字幕的显示周期中指定或评估广播节目的主题的重要线索。因此，从视频内容提取字幕，并执行视频索引编制，其中将所显示的字幕的内容定义为一个索引。
例如，已提出了一种广播节目内容菜单产生设备，其被配置为检测图像帧中包括的字幕作为图像帧的特征图像片段，并且通过提取对应于仅仅字幕的图像数据而自动地产生表示广播节目的内容的菜单(例如，参考专利文献3)。通常，为在帧中检测字幕，必须执行边缘检测。然而，边缘计算加入了高处理负担。对于用来对每个图像帧执行边缘检测的设备，需要大的计算量。另外，该设备的主要目的在于使用从视频数据提取的字幕来自动产生新闻节目的节目菜单，而不在于在所检测到的字幕的基础上指定新闻节目中的主题的变化、或使用主题来添加图像索引。换言之，未对基于与在图像帧中检测到的字幕有关的信息来执行图像索引编制的问题提供解决方法。
日本未审查专利申请公开第2004-282318号[专利文献2]日本未审查专利申请公开第2002-271741号[专利文献3]日本未审查专利申请公开第2004-364234号发明内容本发明的一个目的在于提供优异的内容处理设备，其能够通过基于节目的标题(即主题)而确定场景变化而适当地执行对所记录视频内容的视频索引编制、以及将视频内容分段为场景；以及提供处理内容的方法和计算机程序。
本发明的另一个目的在于提供优异的内容处理设备，其被配置为通过使用图像中包括的字幕来检测视频内容中的主题变化、通过每个主题而对内容进行分段、以及执行索引编制；以及提供处理内容的方法和计算机程序。
本发明的另一个目的在于提供优异的内容处理设备，其被配置为通过使用视频内容中包括的字幕来在相对小的数据量的基础上检测标题变化；以及提供处理内容的方法和计算机程序。
通过考虑上述问题，本发明的第一方面提供一种内容处理设备，其被配置为处理包括时序顺序的图像帧的视频内容数据，该设备包括场景变化检测单元，其被配置为在要处理的视频内容中检测场景变化点，该场景变化点是其中一个图像帧的场景与另一图像帧的场景显著不同的两个图像帧之间的点；主题检测单元，其被配置为在要处理的视频内容中检测与主题以及在其字幕区域中显示了同一固定字幕的多个连续图像帧相对应的片段；以及索引存储单元，其被配置为存储指示与由所述主题检测单元检测到的片段相对应的时间周期的索引信息。
已经变得普通的是，在接收设备中接收和临时存储诸如电视节目之类的广播内容，然后播放该内容。硬盘容量的增长已使得能够记录对应于数十小时的电视节目。因此，有效的是，从所记录的内容中检索仅仅观众感兴趣的场景，并且允许观众执行摘要观看。为使得所记录内容的场景检索和摘要观看成为可能，必须对图像进行索引编制。
传统地，已公知通过从视频内容检测场景变化点而编制索引的方法。然而，由于在电视节目中包括许多场景变化点，所以，所述索引编制对于观众来说不一定是最优的。
对于诸如新闻节目和综艺节目的广播电视节目，经常在图像帧的四个角落中显示代表节目的主题的字幕。因此，可从视频内容提取字幕，并且可使用字幕的显示内容作为索引。然而，为从视频内容提取字幕，必须对每个图像帧执行边缘检测处理。由于必须执行大量的计算，所以这是个问题。
因此，根据本发明的内容处理设备首先检测在要处理的视频内容中包括的场景变化点，然后，检测在紧接着场景变化点之前和之后的图像帧中是否显示了字幕。如果检测到字幕，则检测其中显示了同一固定字幕的片段。这样，减少了为提取字幕而执行边缘检测处理的量，从而降低了为检测主题而施加的处理负担。
例如，主题检测单元产生与场景变化点之前和之后一秒的周期相对应的图像帧的平均图像，并检测在该平均图像中包括的字幕。如果在场景变化点之前和之后连续显示字幕，则字幕部分将在平均图像中保持清晰，而其他部分将模糊。这样，可改善字幕检测的精度。通过执行例如边缘检测，可以进行字幕检测。
主题检测单元将在平均图像中检测到的字幕与在其中显示同一固定字幕的片段中的场景变化点之前的图像帧的字幕区域中显示的字幕进行比较，并将字幕消失的点定义为主题的起始点。类似地，主题检测单元将在平均图像中检测到的字幕与在其中显示同一固定字幕的片段中的场景变化点之后的图像帧的字幕区域中显示的字幕进行比较，并将字幕消失的点定义为主题的结束点。可通过计算在被与在平均图像中检测到的图像进行比较的每个图像帧的字幕区域中的每个颜色分量的平均颜色、以便确定图像帧之间的平均颜色之间的欧几里得距离是否超过预定阈值，通过较小的处理负担而确定字幕是否已从字幕区域消失。当然，通过已知的采用检测场景变化的方法，可更加精确地检测字幕消失的点。
然而，存在一个问题，其中，当在字幕区域内计算平均颜色时，除了字幕区域中包括的字幕之外的背景颜色的影响较大。由此，作为替换方法，提出了一种使用边缘信息而确定是否存在字幕的方法。换言之，确定要比较的帧的字幕区域中的边缘图像，并且在帧的字幕区域中的边缘图像的比较结果的基础上确定字幕区域中的字幕的存在。更具体地，确定要比较的帧的字幕区域中的边缘图像，并且，当在字幕区域中检测到的边缘图像中的像素数目显著减少时，确定字幕已消失，而当像素数目的变化较小时，确定字幕被连续显示。另外，当边缘图像的像素数目显著增加时，这可被确定为新的字幕出现。
当字幕变化时，边缘图像的像素数目可能不发生非常大的变化。即使在帧之间的字幕区域中的边缘图像的像素数目的变化较小时，当对应于每个边缘图像的每个边缘像素的逻辑“与”、以及作为结果的图像中的边缘像素的数目显著减小(例如，三分之一或更少)时，也可评估字幕的变化，即字幕的起始和结束位置。
主题检测单元在起始点和结束点的基础上确定片段的长度，并且，如果片段的长度比预定的时间量长时，将该片段确定为对应于预定主题。这样，可防止错误检测。
主题检测单元可在其中在帧中检测到字幕的字幕区域的大小、以及位置信息的基础上确定该字幕是否是必要的字幕。根据广播公司的通常制定的惯例来确定图像帧中的字幕出现的位置、以及字幕的大小。通过在这种制定的惯例的基础上参考图像帧中的字幕出现的位置以及字幕的大小来检测字幕，可减少错误检测。
本发明的第二方面提供一种以计算机可读的格式写入的计算机程序，用以在计算机系统上执行对包括时序顺序的图像帧的视频内容的处理，该处理包括步骤在要处理的视频内容中检测场景变化点，该场景变化点是其中一个图像帧的场景与另一图像帧的场景显著不同的两个图像帧之间的点；在紧接着在检测场景变化点的步骤中检测到的场景变化点之前和之后的图像帧的基础上，在要处理的视频内容中检测与在其字幕区域中显示同一固定字幕的多个连续图像帧相对应的片段，以检测在图像帧的字幕区域中是否显示了字幕；存储指示与在检测片段的步骤中检测到的片段相对应的时间周期的索引信息；以及当从在存储步骤中存储的索引信息中选择了主题时，播放与由索引信息代表的起始时间和结束时间相对应的视频内容的片段。
根据本发明的第二方面的计算机程序定义了一种以计算机可读的格式写入的计算机程序，以在计算机系统中执行预定处理。换言之，通过向计算机系统安装根据本发明的第二方面的计算机程序，在计算机系统上执行协作操作，以便可实现与根据本发明的第一方面的内容处理设备相同的操作。
本发明提供了优异的内容处理设备，其被配置为在视频内容中包括的字幕的基础上检测视频内容的主题变化，以在所检测的主题的基础上执行视频内容的分段，并执行索引编制；以及处理内容的方法和计算机程序。
本发明提供了优异的内容处理设备，其被配置为通过使用在视频内容中包括的字幕，而在相对小的数据量的基础上检测标题变化；以及处理内容的方法和计算机程序。
例如，根据本发明，可在主题的基础上对所记录的电视节目分段。通过利用主题对电视节目分段并添加索引，用户可以以诸如摘要观看之类的高效方式来观看电视节目。例如，用户可在重放所记录的内容时检查主题的开始处，并且，如果该主题不使他们产生兴趣，则用户可跳到下一主题。另外，当在DVD上存储所记录的视频内容时，诸如存储仅仅所选择的主题之类的编辑操作是容易的。
下面将参考附图详细说明本发明的其他目的和优点。

图1图解了根据本发明的实施例的视频内容处理设备的功能结构的示意图；图2图解了在电视节目的示例场景中包括的字幕区域的示意图；
图3图解了用于检测其中显示同一固定字幕的视频内容的片段的、主题检测过程的流程图；图4图解了检测从紧接着场景变化点之后和之前的图像获取的平均图像中的字幕的方法；图5图解了检测从紧接着场景变化点之后和之前的图像获取的平均图像中的字幕的方法；图6图解了检测从紧接着场景变化点之后和之前的图像获取的平均图像中的字幕的方法；图7图解了检测从紧接着场景变化点之后和之前的图像获取的平均图像中的字幕的方法；图8图解了在具有720×480像素的宽高比的图像帧中的字幕检测区域的结构的示例；图9图解了从帧序列检测主题的起始位置的情形；图10图解了示出从帧序列检测主题的起始位置的过程的流程图；图11图解了从帧序列检测主题的结束位置的情形；图12图解了示出从帧序列检测主题的结束位置的过程的流程图。
附图标记10 视频内容处理设备11 图像存储单元12 场景变化检测单元13 主题检测单元14 索引存储单元15 播放单元具体实施方式
将参考附图详细说明本发明的实施例。
图1图解了根据本发明的实施例的视频内容处理设备10的功能结构的示意图。该图中示出的视频内容处理设备10包括图像存储单元11、场景变化检测单元12、主题检测单元13、索引存储单元14、以及播放单元15。
图像存储单元11解调并存储广播电波，并存储经由因特网而从信息源下载的视频内容。例如，图像存储单元11可以由硬盘记录器构成。
场景变化单元12从图像存储单元11检索经受主题检测的视频内容，跟踪在连续图像中包括的场景(场景或布景)，并检测其中场景由于图像的切换而显著变化的场景变化点。
例如，图像存储单元11可采用在已转让给受让人的日本未审查专利申请公开号2004-282318中公开的检测场景变化的方法。更具体地，通过产生两个连续场或帧的代表图像分量的直方图，并检测在所计算的直方图的差的总和大于预定阈值时的场景的变化，而确定场景变化点。当产生直方图时，向对应层及其相邻层分配常数，并将所述常数相加。然后，通过正规化，计算另一直方图的结果。通过使用这些新产生的直方图，可在屏幕上的每两个图像中检测场景变化。因而，即使在衰减图像中，也能精确地检测场景变化。
主题检测单元13在经受主题检测的视频内容中检测其中显示了同一固定字幕的片段，并输出所检测到的片段，作为电视节目中对应于特定主题的片段。
在诸如新闻节目和综艺节目的电视节目中，可使用在图像帧中显示的字幕作为指定或评估其中显示了字幕的电视节目中的片段的主题的重要线索。然而，检测和提取字幕所需的计算量非常大。因此，根据该实施例，按照尽可能多地降低必须在其上执行边缘检测的图像帧的数目的方式，在视频内容中检测到的场景变化点的基础上，检测其中显示同一固定字幕的片段。可将其中显示了同一固定字幕的片段看作电视节目中对应于特定主题的片段。当执行视频内容的分段、索引编制、以及摘要观看时，可将该片段作为单个块而适当地处理。下面将说明主题检测处理的细节。
索引存储单元14存储与由图像存储单元11检测到的、其中显示了同一固定字幕的每个片段有关的时间信息。下表显示了在索引存储单元14中存储的时间信息的示例结构。在该表中，提供了用于每个检测到的片段的记录。在每条记录中，记录了对应于片段的主题的题目、片段的起始时间、以及片段的结束时间。例如，可以以标准结构的描述语言，如可扩展标记语言(XML)，写入索引信息。主题的题目可以是视频内容(或电视节目)的题目、或者所显示的字幕的字符信息。
表1

播放单元15从图像存储单元11检索被指使为要播放的视频内容，并且对所检索到的视频内容进行解码和解调，以便作为图像和声音输出该视频内容。根据该实施例，播放单元15在内容名称的基础上而从索引存储单元14检索适当的索引信息，以便播放视频内容、并将索引信息链接到该视频内容。例如，当从由索引存储单元14管理的索引信息中选择了主题时，从图像存储单元11检索相应的视频内容，并且播放从由索引信息指示的起始时间到结束时间的片段。
接着，将详细说明由主题检测单元13执行的、用来在视频内容中检测其中显示了同一固定字幕的片段的主题检测处理。
根据该实施例，使用紧接着由场景变化检测单元12检测到的场景变化点之后和之间的帧，以检测在图像帧中是否显示了字幕。当检测到显示的字幕时，由于检测到其中显示了同一固定字幕的片段，所以，能减少用于提取字幕的边缘检测处理。因此，可降低在检测主题时施加的处理负担。
例如，在具有多种体裁的电视节目(如新闻节目和综艺节目)中，显示字幕以获得理解和支持、并引起兴趣、或吸引观众的注意。在许多情况下，如图2所示，在屏幕上的四个区域之一中显示固定字幕。通常，固定字幕具有下面的特点1)用作广播电视节目的标题的代表(题目等)；2)当电视节目关于相同标题时，被连续显示。
例如，在新闻节目中，当广播特定的新闻项时，可能连续地显示该新闻项的题目。主题检测单元13检测其中显示了固定字幕的节目的这样的片段，并将索引添加到所检测到的对应于特定主题的片段。主题检测单元13还能够产生所检测的固定字幕的缩略图(thumbnail)，或识别所显示的字幕的字符以获得对应于特定主题的题目的字符信息。
图3图解了示出由主题检测单元13执行的、用来检测其中显示了同一固定字幕的视频内容的片段的主题检测处理的流程图。
首先，从要处理的视频内容中检索第一场景变化点处的视频帧(步骤S1)。从对应于场景变化点之前一秒和之后一秒的图像帧产生平均图像(步骤S2)。然后，对平均图像执行字幕检测(步骤S3)。如果该字幕在场景变化点之后和之间继续显示，则平均图像的字幕部分将保持清晰，而其他部分将会模糊。因此，可改善字幕的检测精度。用于生成平均图像的图像帧不限于场景变化点之前和之后一秒的图像帧。只要从场景变化点之前和之后的点得到用于获得平均图像的图像帧即可，可使用多于两个的图像帧。
图4到6图解了从根据场景变化点之前和之后的图像帧而生成的平均图像中检测字幕的过程。由于一个图像帧的场景对于其他图像帧的场景有显著的变化，所以，通过对两个图像帧取平均而获得的帧是模糊的，好像图像帧被阿尔发交融(alpha blend)了。如果如图5所示、在场景变化点之前和之后连续显示同一固定字幕，则平均图像的字幕部分保持清晰，并且从模糊的背景突显出来。因此，可通过执行边缘检测处理而以高精度的方式提取字幕。如果如图6所示、仅仅在场景变化点之前和之后的图像帧的一个中显示了字幕(或者，如果在一个图像帧中显示的字幕与在其他帧中显示的字幕不同)，则平均图像的字幕部分将按照与背景一样的方式而变模糊。这样，不会错误地检测到字幕。
通常，字幕的亮度比背景的亮度更高。因此，可采用使用边缘信息检测字幕的方法。例如，对输入图像执行YUV转换，并且，然后，对Y分量执行边缘计算。为执行边缘计算，可采用在已转让给受让人的日本未审查专利申请公开号2004-343352中描述的字幕信息处理方法、或在日本未审查专利申请号2004-318256中描述的人工(artificial)图像提取方法。
如果从平均图像中检测到字幕(步骤S4)，则将满足以下条件的矩形区域确定为实际字幕。
1)大于预定面积的区域(例如，大于80×30像素)2)不会覆盖多于一个字幕区域的区域(参考图2)根据广播公司通常制定的惯例，而确定字幕出现的位置、以及图像帧中的字幕的大小。通过在这种制定的惯例的基础之上、参考图像帧中的字幕出现的位置和字幕的大小而检测字幕，可减少错误检测。图8图解了具有720×480像素的宽高比的图像帧中的字幕检测区域的结构的示例。
当检测到字幕时，按顺序逐一地将检测到的字幕的字幕区域与场景变化点之前的图像帧中的字幕区域进行比较。将紧接着其中字幕从字幕区域消失的图像帧之后的图像帧确定为对应于特定主题的片段的起始点(步骤S5)。
图9图解了在步骤S5中从帧序列检测主题的起始位置的情形。如该图所示，从在步骤S3中检测到字幕的场景变化点开始，向前按顺序对每个帧执行字幕区域的比较。然后，当检测到其中字幕从字幕区域消失的帧时，将紧接着之后的帧检测为主题的起始位置。
在图10中，以流程图的方式示出了从帧序列检测主题的起始位置的过程。首先，当在当前帧位置之前存在帧(步骤S21)时，获得该帧(步骤S22)，并且比较这些帧的字幕区域(步骤S23)。然后，如果字幕区域中没有变化(步骤S24中的“否”)，则字幕是连续显示的。由此，该过程返回到步骤S21，以重复上述过程。如果字幕区域中有变化(步骤S24中的“是”)，则字幕已消失。由此，输出紧接着该帧之后的帧，作为主题的起始位置，并且完成该处理例程。
类似地，按顺序逐一地将检测到的字幕的字幕区域与场景变化点之后的图像帧中的字幕区域进行比较。将紧接着其中字幕从字幕区域消失的图像帧之前的图像帧确定为对应于特定主题的片段的结束点(步骤S6)。
图11图解了从帧序列检测主题的结束位置的情形。如该图所示，从在步骤S3中检测到字幕的场景变化点开始，向后按顺序对每个帧执行字幕区域的比较。然后，当检测到其中字幕从字幕区域消失的帧时，将紧接着之后的帧检测为主题的结束位置。
图12图解了示出从帧序列检测主题的结束位置的过程的流程图。首先，当在当前帧位置之后存在帧(步骤S31)时，获得该帧(步骤S32)，并且比较这些帧的字幕区域(步骤S33)。然后，如果字幕区域中没有变化(步骤S34中的“否”)，则字幕是连续显示的。由此，该过程返回到步骤S31，以重复上述过程。如果字幕区域中有变化(步骤S34中的“是”)，则字幕已消失。由此，输出紧接着该帧之前的帧，作为主题的结束位置，并且完成该处理例程。
当如图9和11所示地检测字幕消失位置时，通过按顺序逐一比较从作为起始位置的场景变化点向前和向后的帧的字幕区域，可精确地检测到字幕已消失的位置。为降低处理负担，可通过以下步骤检测字幕消失的近似位置。
1)比较在包括交替排列的I画面(帧内编码图像)和多个P画面(帧间前向预测编码图像)的编码图像(如MPEG)中的I画面2)按照每秒而比较图像帧例如，可通过计算被比较的图像帧的字幕区域的RGB分量的平均颜色、并确定图像帧之间的平均颜色的欧几里得距离(Euclidean distance)是否超过预定阈值，而确定字幕是否已从字幕区域消失。这样，可确定字幕是否消失，同时仅需要较小的处理负担。换言之，确定字幕已在满足下面的方程式(1)的场景变化点之前或之后的第n个图像帧处消失，其中，ROavg、GOavg、和BOavg代表场景变化点处的图像帧中的字幕区域的平均颜色(即，RGB分量的平均)，Rnavg、Gnavg、和Bnavg代表距场景变化点的第n图像帧中的字幕区域的平均颜色。例如，该阈值是60。
当固定字幕在未发生场景变化的片段中消失时，平均图像将包括清晰的背景，而字幕将模糊，如图7所示。换言之，该结果与图5中所示的相反。在固定字幕在未发生场景变化的片段中出现时也是这样。为更精确地检测字幕消失的点，可对字幕区域采用在日本未审查专利申请公开号2004-282318中公开的检测场景变化的方法。
这里，存在一个问题，其中，当在字幕区域内计算平均颜色时，除了字幕区域中包括的字幕之外的背景颜色的影响较大，这降低了检测精度。由此，作为替换方法，提出了一种使用边缘信息而确定是否存在字幕的方法。换言之，确定要比较的帧的字幕区域中的边缘图像，并且在帧的字幕区域中的边缘图像的比较结果的基础上确定字幕区域中字幕的存在。更具体地，确定要比较的帧的字幕区域中的边缘图像，并且，当在字幕区域中检测到的边缘图像中的像素数目显著减少时，可确定字幕已消失。相反，像素数目的变化较小时，可确定字幕被连续显示。
例如，SC代表场景变化点，Rect代表SC处的字幕区域，EdgeImgl代表SC处的Rect的边缘图像。EdgeImgN代表从SC开始计算(向着时间轴的开始或结束)的第n帧的字幕区域Rect中的边缘图像。通过预定阈值(例如，128)将边缘图像二进制化。在图10所示的流程图中的步骤S23、以及图12所示的流程图中的步骤S33中，比较EdgeImg1与EdgeImgN的边缘点的数目(像素数目)。当边缘点的数目显著减少(例如，三分之一或更少)时，可评估为字幕已消失(然而，当边缘点的数目显著增大时，可评估为字幕已出现)。
当边缘点的数目在EdgeImg1和EdgeImgN上并没有太大的不同时，可评估为字幕被连续显示。然而，存在这样的可能性，即，即使边缘点的数目还未发生较大变化，字幕却已改变。由此，当获得对EdgeImg1和EdgeImgN中的每个像素的逻辑“与”、并且结果图像中的边缘点的数目显著减少(例如，三分之一或更少)时，评估为字幕已变化，即，这是字幕的起始或结束点。这样，可改善检测精度。
接着，从在步骤S6中确定的字幕结束点减去在步骤S5中确定的字幕起始点，以确定字幕显示时间。然后，通过仅当字幕被显示了预定的时间量时才将字幕显示时间确定为对应于特定主题的片段(步骤S7)，可降低错误检测的可能性。还可以从电子节目向导(EPG)获得关于电视节目的体裁信息，并且根据体裁而改变字幕显示时间的阈值。例如，因为对于新闻节目，字幕显示时间相对长，所以可将阈值设置为30秒，然而，对于综艺节目，可将阈值设置为10秒。
将在步骤S7中被识别为对应于特定主题的片段的字幕起始点和结束点存储在索引存储单元14中(步骤S8)。
主题检测单元13联系场景变化检测单元12，以确认在步骤S6中检测到的字幕结束点之后、视频内容是否包括场景变化点(步骤S9)。当在字幕结束点之后未发现场景变化点时，完成整个处理例程。当在字幕结束点之后发现场景变化点时，检索下一场景变化点的帧(步骤S10)，该过程返回到步骤S2，并且重复上述主题检测过程。
在步骤S4中，当在要处理的场景检测点处未检测到字幕时，主题检测单元13联系场景变化检测单元12，以确认在视频内容中是否包括后续的场景变化点(步骤S11)。当不包括后续场景变化点时，完成整个处理例程。相反，当包括了后续场景变化点时，检索下一场景变化点的帧(步骤S10)，该过程返回到步骤S2，并且重复上述主题检测过程。
根据本实施例，基于在电视屏幕的四个角落处提供字幕区域的假设而执行字幕检测过程，如图2所示。然而，在许多电视节目中，在这些区域之一中持续地显示当前时间。为防止错误检测，可获得所检测的字幕的字符信息，并且，如果将所述特征识别为数字时，可将所检测到的字幕确定为不是实际字幕。
在某些情况下，字幕可能从屏幕消失，而在数秒之后，同一字幕可能再次出现。在这样的情况下，当满足以下条件时，通过将字幕显示看作是连续的字幕显示(即，继续同一主题)，即使在字幕显示不连续、即字幕显示被中断时，也可以防止生成额外的索引。
1)在字幕消失之前、以及在字幕再次出现之后的字幕区域中满足方程式12)在字幕消失之前、以及在字幕再次出现之后的字幕区域中，边缘图像的像素数目基本相同，并且，当获得对边缘图像中的相应每个像素的逻辑“与”时，边缘图像的像素数目基本相同，3)字幕消失的时间量等于或小于阈值(例如，5秒)例如，可从EPG获得电视节目的体裁信息，使得可根据电视节目的体裁(如新闻节目或综艺节目)而改变中断时间的阈值。
工业实用性在上文中，已参考特定实施例详细说明了本发明。然而，显然，本领域技术人员可在本发明的范围内修改或改变这些实施例。
在本说明书中，描述了对主要通过记录电视节目而获得的视频内容执行索引编制的情况，但本发明的要旨不受限制。根据本发明的内容处理设备能适当地执行对被产生和汇编来用于除电视广播以外的用途、且包括代表主题的字幕区域的各种视频内容的索引编制。
本质上，已经以示例的形式公开了本发明，并且在此说明书中说明的内容不应被解释为具有限制性。应该从权利要求的范围推断出本发明的本质。
权利要求
1.一种内容处理设备，用于处理包括按时间顺序的图像帧的视频内容，该设备包括场景变化检测单元，用于在要处理的视频内容中检测场景变化点，该场景变化点是其中场景由于帧的切换而显著变化的点；主题检测单元，用于检测要处理的视频内容中的片段，该片段是其中出现同一固定字幕的多个连续的图像帧；以及索引存储单元，用于存储与由所述主题检测单元检测到的、其中出现同一固定字幕的片段的时间有关的索引信息。
2.如权利要求1所述的内容处理设备，还包括播放单元，用于在播放视频内容时，将在索引存储单元处管理的索引信息与视频内容相链接。
3.如权利要求2所述的内容处理设备，其中，当从在索引存储单元处管理的索引信息中选择了主题时，播放单元播放并输出视频内容中的、从由索引信息代表的起始时间到结束时间的相应视频内容的片段。
4.如权利要求1所述的内容处理设备，其中，所述主题检测单元使用紧接着由场景变化检测单元检测到的场景变化点之前和之后的帧，以便检测字幕是否在相应位置处出现。
5.如权利要求1所述的内容处理设备，其中，所述主题检测单元产生在场景变化点之前和之后的预定时间周期中的帧的平均图像，并对该平均图像执行字幕检测。
6.如权利要求5所述的内容处理设备，其中，所述主题检测单元比较场景变化点向前的帧的字幕区域，并将在紧接着其中字幕从字幕区域消失的帧之后的帧检测为主题的起始位置，以及比较场景变化点向后的帧的字幕区域，并将在紧接着其中字幕从字幕区域消失的帧之前的帧检测为主题的结束位置。
7.如权利要求6所述的内容处理设备，其中，所述主题检测单元对要比较的每个帧的字幕区域中的每个颜色分量计算平均颜色，并通过确定图像帧之间的平均颜色的欧几里得距离是否超过预定阈值，而确定字幕是否已从字幕区域消失。
8.如权利要求6所述的内容处理设备，其中，所述主题检测单元确定要比较的每个帧中的字幕区域中的边缘图像，并在帧的字幕区域中的边缘图像的比较结果的基础上确定字幕区域中字幕的存在。
9.如权利要求8所述的内容处理设备，其中，所述主题检测单元确定要比较的每个帧中的字幕区域中的边缘图像，当在字幕区域中检测到的边缘图像的像素数目显著减小时，确定字幕已消失，而在像素数目的变化较小时，确定同一字幕连续出现。
10.如权利要求9所述的内容处理设备，其中，当在字幕区域中检测到的边缘图像的像素数目的变化较小时，所述主题检测单元获得对与每个边缘图像相对应的每个边缘像素的逻辑“与”，并在结果图像中的边缘像素的数目已显著减小时，确定字幕已变化。
11.如权利要求6所述的内容处理设备，其中，所述主题检测单元确定从所检测到的字幕起始位置到结束位置的字幕出现时间，并且仅当该字幕的出现时间比预定的时间量长时才确定主题。
12.如权利要求6所述的内容处理设备，其中，所述主题检测单元在其中在帧中检测到字幕的字幕区域的大小或位置信息的基础上，确定字幕是否是必要的。
13.一种内容处理方法，用于在被配置在计算机中的内容处理系统中处理包括按时间顺序的图像帧的视频内容，该方法包括场景变化检测步骤，其中，在计算机中包括的场景变化检测部件在要处理的视频内容中检测其中场景由于帧的切换而显著变化的场景变化点；主题检测步骤，其中，在计算机中包括的主题检测部件使用在场景变化检测步骤中检测到的场景变化点之前和之后的帧，来检测在场景变化点处是否出现字幕，并且检测其中在检测到字幕的场景变化点之前和之后的多个连续图像帧中出现同一固定字幕的片段；以及索引存储步骤，其中，在计算机中包括的索引存储部件存储与其中出现在所述主题检测步骤中检测到的同一固定字幕的片段的时间有关的索引信息。
14.如权利要求13所述的处理视频内容的方法，还包括播放步骤，当从在索引存储步骤中存储的索引信息中选择了主题时，播放并输出从由相应视频内容的索引信息代表的起始时间到结束时间的片段。
15.如权利要求13所述的内容处理方法，其中，在主题检测步骤中，产生在场景变化点之前和之后的预定周期的帧的平均图像，并对该平均图像执行字幕检测。
16.如权利要求15所述的内容处理方法，其中，在主题检测步骤中，比较场景变化点向前的帧的字幕区域，并且将紧接着其中字幕从字幕区域消失的帧之后的帧检测为主题的起始位置，以及比较场景变化点向后的帧的字幕区域，并且将紧接着其中字幕从字幕区域消失的帧之前的帧检测为主题的结束位置。
17.如权利要求16所述的内容处理方法，其中，在主题检测步骤中，计算要比较的每个帧的字幕区域中的每个颜色分量的平均颜色，并且通过确定图像帧之间的平均颜色的欧几里得距离是否超过预定阈值，而确定字幕是否已从字幕区域消失。
18.如权利要求16所述的内容处理方法，其中，在主题检测步骤中，确定要比较的每个帧中的字幕区域中的边缘图像，并且在帧的字幕区域中的边缘图像的比较结果的基础上，确定字幕区域中的字幕的存在。
19.如权利要求18所述的内容处理方法，其中，在主题检测步骤中，确定要比较的每个帧中的字幕区域中的边缘图像，并且当在字幕区域中检测到的边缘图像中的像素数目显著减小时确定字幕的消失，而当像素数目的变化较小时确定相同字幕的连续出现。
20.如权利要求19所述的内容处理方法，其中，在主题检测步骤中，当在字幕区域中检测到的边缘图像中的像素数目的变化较小时，获得对与每个边缘图像相对应的每个边缘像素的逻辑“与”，并且当结果图像的边缘像素的数目已显著减小时确定字幕的变化。
21.如权利要求16所述的内容处理方法，其中，在主题检测步骤中，从所检测到的字幕起始位置和结束位置确定字幕出现时间，并且仅当该字幕的出现时间比预定的时间量长时才确定主题。
22.如权利要求16所述的内容处理方法，其中，在主题检测步骤中，在其中在帧中检测到字幕的字幕区域的大小或位置信息的基础上确定字幕是否是必要的。
23.一种以计算机可读的格式写入的计算机程序，用以在计算机系统上执行包括时序顺序的图像帧的视频内容的处理，该处理包括场景变化检测步骤，在要处理的视频内容中检测其中场景由于帧的切换而显著变化的场景变化点；主题检测步骤，使用在场景变化检测步骤中检测到的场景变化点之前和之后的帧，来检测在场景变化点处是否出现字幕，并且检测其中在检测到字幕的场景变化点之前和之后的多个连续图像帧中出现同一固定字幕的片段；索引存储步骤，存储与其中出现在所述主题检测步骤中检测到的同一固定字幕的片段的时间有关的索引信息；以及播放步骤，当从在索引存储步骤中存储的索引信息中选择了主题时，播放并输出从由相应视频内容的索引信息代表的起始时间到结束时间的片段。
全文摘要
通过利用在图像中包含的字幕来检测图像内容中的主题的变化，并且基于每一个主题来对内容分段。首先，在图像内容中检测通过图像切换而显著改变场景的场景变化点。接下来，形成在场景变化点之前和之后一秒的帧的平均图像，并且，以高精度的方式，使用该平均图像来检测在场景变化点上是否出现了字幕。检测其中出现同等静态字幕的片段，以创建关于其中显示了同等静态字幕的每个片段的时间周期的索引信息。
文档编号H04N5/76GK1993989SQ20068000055
公开日2007年7月4日申请日期2006年5月10日优先权日2005年5月26日
发明者奥田尚生申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：奥田尚生
技术所有人：索尼株式会社
我是此专利的发明人

上一篇：用于在通信网络中缓解拒绝服务的方法和系统的制作方法
上一篇：管理对等网络内的通信量的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。