用于自动生成多媒体文件概要的方法和设备的制作方法

文档序号：6746590阅读：184来源：国知局

专利名称：用于自动生成多媒体文件概要的方法和设备的制作方法
技术领域：
本发明涉及一种用于自动生成多媒体文件的多个概要的方法和设备。特别地，但
并不排他地，本发明涉及的是产生捕获到的视频的概要。
背景技术：
对于例如经常捕获视频的人来说，概要生成是非常有用的。现今有越来越多的人经常捕获视频。这是因为专用设备(例如摄录像机)的摄影机或蜂窝电话中内置的摄影机具有廉价、简单和轻松的可用性。由此，用户的视频记录集合有可能过大，致使回顾和浏览越发困难。但是，在捕获事件视频的过程中，原始视频素材有可能很长，并且观看过程有可能会相当令人厌烦。而较为理想的则是编辑原始素材来显示主要事件的发生。由于视频是很大的数据流，因此，在"场景"级、也就是在本来就合在一起的一组快照中很难执行访问、分割、改变、部分提取以及整合处理、也就是编辑处理来创建场景。为了以一种省钱又方便的方式来帮助用户，有好几种商业软件包可以用于允许用户编辑其记录。此类已知软件包的一个示例是一种全面强大的工具，它被称为非线性视频编辑工具，并且为用户提供了全面的帧级控制。但是，用户必须熟悉用原始素材组成预期视频电影胶片的技术和审美层面。关于此类软件包的具体示例是"Adobe Premiere"以及可以在 www. ulead. com/vs找至lj的"Ulead Video Studio 9"。在使用此类软件包的过程中，用户完全控制了最终结果。用户能够在帧级别上精确选择将要包含在概要中的视频文件分段。而这些已知软件包的问题则在于需要高端的个人计算机以及基于鼠标的完善用户界面来执行编辑操作，由此导致帧级编辑极为艰巨、麻烦和耗时。此外，这些程序需要漫长和陡峭的学习曲线，并且用户有必要成为高级的业余爱好者或者专家，以便使用所述程序来工作，此外，用户还需要熟悉概要编辑处理的技术和审美层面。已知软件包的另一个示例包括全自动程序。这些程序自动产生原始素材的概要，包含并且编辑素材的一些部分并且丢弃其他部分。用户可以控制编辑算法的某些参数，例如整体风格和音乐。但是，这些软件包也存在着问题，那就是用户只能规定整体设置。这意味着用户对于要将素材的哪些部分包含在概要中的影响是非常有限的。关于此类软件包的具体不例是"Pinnacle Studio"的"smart movie"功會g (其可以在www. pi皿aclesys. com J戈至ll )以及"Muvee autoProducer"(其可以在www. muvee. com J戈至lJ )。
在一些软件解决方案中，我们可以素材中选择一些确定最终出现在概要中的部分，并且可以在素材中选择确定最终不出现在摘要中的部分。但是，自动编辑器仍旧可以根据它认为是最为便利的部分来自由选择剩余部分。因此，在显示概要之前，用户是不知道素材中的哪些部分会被包含在概要中的。最为重要的是，如果用户希望发现那些从概要中删掉的视频部分，那么用户需要查看整个记录，并且将其与自动生成的概要相比较，此过程是非常耗时的。
4
另一种用于概括视频记录的已知系统是由US2004/0052505公开的。在该公开中，从单个视频记录中生成了多个视频概要，由此，视频记录第一概要中的分段并未包含在从同一视频记录创建的其他概要中。这些概要是根据自动技术创建的，并且多个概要可被保存，以便选择或创建最终概要。但是，这些概要是使用相同的选择技术创建的，并且包含的是相似的内容。在考虑已被排除在外的内容时，用户必须查看所有概要，这是很耗时和麻烦的。此外，由于使用同一选择技术来创建概要，因此，概要内容将会非常相似，并且不太可能包含用户希望包含在最终概要中的部分，因为这些部分将会改变原始产生的概要的总体内容。概括地说，上述已知系统的问题在于它们没有为用户提供对于不包含在自动生成的概要的分段的便利访问、控制或概观。这对于较大的概要压縮(也就是只包含原始多媒体文件中的很小一部分的概要)来说尤其是一个问题，因为用户为了确定被排除的分段必需观看所有的多媒体文件，并且将其与自动生成的概要进行比较。这对用户来说构成了一个困难和麻烦的问题。虽然上述文件是针对视频捕获提及的，但是很容易了解的是，这些问题在生成任何多媒体文件概要的处理中都是存在的，所述多媒体文件例如为照片和音乐集合。

发明内容
本发明寻求提供一种用于自动生成多媒体文件的多个概要的方法，该方法克服了
与已知方法相关的缺陷。特别地，本发明试图通过不仅自动生成第一概要而且还生成第一概要中未包含的多媒体文件分段的概要来提扩展已知系统。因此，本发明通过为用户提供更多控制和概观而扩展了早先论述的第二组软件包，而无需进入复杂的非线性编辑领域。根据本发明的一个方面，这个目标是通过一种用于自动生成多媒体文件的多个概
要的方法来实现的，该方法包括以下步骤产生多媒体文件的第一概要；产生多媒体文件
的至少一个第二概要，所述至少一个第二概要包含被排除在第一概要之外的内容，其中所
述至少一个第二概要的内容被选择成使其在语义上不同于第一概要的内容。根据本发明的另一个方面，这个目标是通过一种用于自动生成多媒体文件的多个
概要的设备来实现的，该设备包括用于产生多媒体文件的第一概要的装置；以及用于产
生多媒体文件的至少一个第二概要的装置，所述至少一个第二概要包含被排除在第一概要
之外的内容，其中，所述至少一个第二概要的内容被选择成使其在语义上不同于第一概要
的内容。这样一来，为用户提供了第一概要以及至少一个包含了从第一概要中省略的多媒体文件分段的第二概要。用于生成多媒体文件概要的方法不仅仅是一种常规的内容概要算法，而且还允许产生多媒体文件中的缺失分段的概要。这些缺失分段被选择成使它们在语义上不同于为第一概要选择的分段，由此为用户给出关于文件整体内容的清楚指示，并且为用户提供关于文件内容概要的不同概观。根据本发明，至少一个第二概要的内容可被选择成使得其在语义上与第一概要的
内容最不相同。这样一来，缺失分段的概要将会集中在与第一概要包含的分段最为不同的
多媒体文件分段上，由此为用户提供范围更完整的文件内容的概要概观。根据本发明的一个实施例，多媒体文件被分成了多个分段，并且产生至少一个第二概要的步骤包括以下步骤确定第一概要包含的分段与排除在第一概要之外的分段之间的语义距离的量度(measure);将语义距离量度高出阈值的分段包含在至少一个第二概要中。根据本发明的一个替换实施例，多媒体文件被分成了多个分段，并且产生至少一
个第二概要的步骤包括以下步骤确定第一概要包含的分段与排除在第一概要之外的分段
之间的语义距离量度；将语义距离量度最高的分段包含在至少一个第二概要中。这样一来，至少一个第二概要有效包含了从第一概要中排除的内容，而不会用过
多的细节致使用户负担过重。这一点在多媒体文件远远大于第一概要的情况下非常重要，
因为这意味着未包含在第一概要中的分段数量要远远大于第一概要中的分段。此外，通过
将具有最高语义距离量度的分段包含在至少一个第二概要中，所述至少一个第二概要将会
更为简洁，以便允许用户有效和高效地浏览和选择，而这顾及了用户的注意力和时间能力。该语义距离可以从多媒体文件多个分段的音频和/或视频内容中确定。作为替换，该语义距离可以从多媒体文件多个分段的颜色直方图距离和/或时间
距离中确定。该语义差别可以从位置数据、和/或个人数据、和/或焦点对象数据中确定。这样一来，可以通过寻找未出现在已包含的分段中的人、位置以及焦点对象(也就是占据了多个帧中的很大一部分的对象)来发现缺失的分段。根据本发明，该方法还可以包括以下步骤选择至少一个第二概要的至少一个分
段；以及将所选择的至少一个分段合并到第一概要中。这样一来，用户能够轻易选择将要包
含在第一概要中的第二概要的分段，从而创建更为个性化的概要。包含在至少一个第二概要中的分段可以分组，以使分段内容相似。多个第二概要可以根据其与第一概要内容的相似度而被组织，以便浏览所述多个
第二概要。这样一来，所述多个第二概要将被有效和高效地显示给用户。应该指出的是，本发明可以应用于硬盘记录器、摄录像机、视频编辑软件。由于其
非常简单，因此，用户界面很容易在硬盘记录器之类的消费类产品中实施。

为了更完整地理解本发明，在这里将会结合附图来参考以下描述，其中
图1是根据现有技术来自动生成多媒体文件的多个概要的已知方法的流程图；
图2是根据本发明实施例的设备的简化示意图；以及图3是根据本发明实施例来自动生成多媒体文件的多个概要的方法的流程图。
具体实施例方式
现在将参考图1来描述用于自动生成多媒体文件概要的典型已知系统。
参考图l，在步骤102，首先将会引入多媒体文件。然后，在步骤104，将会根据从多媒体文件中提取的特征(例如低级视听特征)而对多媒体文件进行分段，在步骤106，用户可以设置分段参数(例如面部和摄像机运动的存在)，并且还可以手动指示哪些分段应该确定地最终出现在所述概要中。
在步骤108，系统根据内部和/或用户定义的设置来自动生成多媒体文件内容的包含在多媒体文件概要中的分段。然后，在步骤110，生成的概要被显示给用户。通过观看概要，用户能够看出在该概要中包含了哪些分段。但是，除非用户观看整个多媒体文件并且将其与生成的概要相比较，否则用户无从知晓在该概要中排除了哪些分段。在步骤112，用户被要求给出反馈。如果用户提供了反馈，那么所提供的反馈将别传送到自动编辑器(步骤114)，并且，相应地，在生成多媒体文件的新概要的处理中将会考虑所述反馈(步骤108)。这种已知系统的问题在于，其没有为用户提供针对排除在自动生成的概要之外的分段的简单访问、控制和概观。如果用户希望发现从自动生成的概要中排除了哪些分段，那么用户有必要观看整个多媒体文件，并且将其与自动生成的概要进行比较，这个处理有可能会很耗时。现在将参考图2来描述根据本发明实施例来自动生成多媒体文件的多个概要的设备。参考图2，本发明实施例的设备200包括用于输入多媒体文件的输入终端202。多媒体文件经由输入终端202而被输入到分段装置204中。分段装置204的输出与第一生成装置206相连。第一生成装置206的输出是在输出终端208上输出的。第一生成装置206 的输出还与测量装置210相连。测量装置210的输出与第二生成装置212相连。第二生成装置212的输出则是在输出终端214上输出的。该设备200还包括用于输入到测量装置 210的另一个输入终端216。现在参考图2和3来描述图2的设备200的操作。参考图2和3，在步骤302，在输入终端202上引入和输入多媒体文件。分段装置 204经由输入终端202接收多媒体文件。在步骤304，该分段装置204将多媒体文件分成多个分段。在步骤306，举例来说，用户可以设置用于分段的参数，其中该参数指示的是其希望包含在概要中的分段。该分段装置204将多个分段输入到第一生成装置206。
第一生成装置206生成多媒体文件的第一概要(步骤308)，并且在第一输出终端 208上输出所生成的概要(步骤310)。第一生成装置206将所生成的概要中包含的分段以及被排除在所生成的概要之外的分段输入到测量装置210。在本发明的一个实施例中，测量装置210确定第一概要中包含的分段与被排除在第一概要中之外的分段之间的语义距离。然后，基于那些被确定为在语义上与第一概要中包含的分段不同的分段，由第二生成装置212产生第二概要。由此，在这里可以确定是否两个视频分段包含了相关或不相关的语义。如果确定第一概要包含的分段与被排除在第一概要之外的分段之间的语义距离很低，则所述分段具有相似的语义内容。
举例来说，测量装置210可以根据多媒体文件的多个分段的音频和/或视频内容来确定语义距离。更进一步，语义距离既可以基于位置数据，所述独立数据可以是独立生成的，例如GPS数据，也可以源于对多媒体文件图像获取的对象的识别。该语义距离可以基于个人数据，所述个人数据是通过对于该多媒体文件的图像所捕捉的人的面部识别而自动获取的。该语义距离可以基于焦点对象数据，也就是占据了多个帧中的很大一部分的对象。如果第一概要中未包含的两个或多个分段包含了某个位置、和/或某个人和/或某个焦点对象的图像，并且第一概要并未包含其他那些包含了所述某个位置、和/或某个人和/或某个
7焦点对象的图像的分段，那么在第二概要中优选包含一个或多个分段中的至少一个。作为替换，测量装置210可以根据多媒体文件的多个分段的颜色直方图距离和/
或时间距离来确定语义距离。在这种情况下，分段i与j之间的语义距离是如下给出的 D(i， j) = f[Dc(i， j)，DT(i， j)] (1) 其中D(i， j)是分段i与j之间的语义距离，Dc(i， j)是分段i与j之间的颜色直
方图距离，DT(i， j)是分段i与j之间的时间距离，并且f[]是用于组合这两个距离的恰当函数。函数f[]可以如下给出 f = w Dc+(l_w) DT (2)
其中w是一个加权参数。测量装置210的输出被输入到第二生成装置212中。在步骤314，第二生成装置 212产生多媒体文件的至少一个第二概要。所述第二生成装置212产生至少一个第二概要，以使其包含被排除在第一概要之外并被测量装置210确定为与第一概要的内容存在语义不同的内容(步骤312)。在一个实施例中，第二生成装置212产生至少一个第二概要，该概要包含了语义距离量度高出阈值的分段。这意味着在第二概要中只包含了具有与第一概要不相关的语义内容的分段。在一个备选实施例中，第二生成装置212产生至少一个第二概要，其中该概要包含了具有最高语义距离量度的分段。例如，第二生成装置212可以将那些被排除在第一概要之外的分段分组为群集。然后，群集C与第一概要S之间的距离S (C，S)是如下给出的
S (C， S) = miniES(D(c， i)) (3) 其中i是第一概要S中包含的每一个分段，c是群组C中的代表性分段。距离S (C， S)也可以通过其他函数给出，例如^C，^)-!)D"0或是S (C，S) =f[D(c，i)]，i G S，其
中f []是一个恰当的函数。根据被排除在第一概要之外的分段群集与第一概要s的语义距
离，第二生成装置212使用距离S (C，S)来对这些分段群集进行分级。然后，第二生成装置 212产生至少一个包含了具有最高语义距离度量的分段(也就是与第一概要的分段差别最大的分段)的第二概要。根据另一个实施例，第二生成装置212产生至少一个包含了具有相似内容的分段的第二概要。例如，第二生成装置212可以使用相关性大小来产生至少一个第二概要。在这种情况下，第二生成装置212根据分段与第一概要中包含的分段之间的相关性而在一个相关性标度上定位分段。然后，第二生成装置212可以确定这些分段与第一概要中包含的分段非常相似、有点相似或者完全不同，由此根据用户选择的相似度来产生至少一个第二概要。
在步骤316，第二生成装置212依照第二概要与第一概要内容的相似度来组织第二概要，以便浏览多个第二概要。例如，第二生成装置212可以聚集那些被排除在第一概要之外的分段，并且依照分段之间的语义距离D(i，j)来组织这些分段(如在等式(1)中定义的那样)。第二生成装
8置212可以根据语义距离来聚集那些彼此接近的分段，以使每一个群集都包含语义距离相同的分段。然后，在步骤318，第二生成装置212在第二输出终端214上输出在用户规定的相似度方面最为相关的群集。这样一来，用户不需要麻烦和耗时地浏览大量第二概要。关于群集技术的示例可以在T.Kohonen于1982年发表于Biological Cybernetics 43(1)第 59 69页的"Self-organizing formation of topologically correct feature m即s，，以及在J. T. Tou和R. C. Gonzalez于1974年通过Addison-WesleyPublishing公司发表的 "Pattern Recognition Principles"中发现。作为替换，第二生成装置212可以采用分层方式来群集和组织分段，以使主要群集包含其他群集。然后，第二生成装置212在第二输出终端214上输出主要群集(步骤 318)。这样一来，用户只需要浏览少量的主要群集。然后，如果用户希望，那么他们通过很少的交互即可越来越详细地考察每一个其他群集。这样做会使浏览多个第二概要的处理非常简单。用户能够查看在第一输出终端208上输出的第一概要(步骤310)以及在第二输出终端214上输出的至少一个第二概要(步骤318)。在步骤320，根据在第一输出终端208上输出的第一概要以及在第二输出终端214 上输出的第二概要，用户可以经由输入终端216来提供反馈。例如，用户可以回顾第二概要，并且选择将要包含在第一概要中的分段。该用户反馈则经由输入终端216而被输入到测量装置210中。然后，在步骤322，测量装置210选择至少一个第二概要中的至少一个分段，以便对用户反馈加以考虑。测量装置210则将所选择的至少一个分段输入第一生成装置206。
然后，第一生成装置206将所选择的至少一个分段合并到第一概要(步骤308)，并且输出第一输出终端208的第一概要(步骤310)。虽然本发明是结合优选实施例而被描述的，但是应该理解，对本领域技术人员来说，在在上述原理以内对其进行的修改是显而易见的，由此，本发明并不局限于这些优选实施例，而是应该包含此类修改。本发明存在于每一个新颖的特性特征以及特性特征的每一种组合中。权利要求中的参考数字并未限制其保护范围。动词"包含"及其动词变化形式的使用并未排除除了权利要求所述的部件之外的其他部件的存在。部件之前的冠词"一"的运用并未排除多个此类部件的存在。对本领域技术人员来说，"装置"旨在包含任何执行操作或者被设计成执行指定功能的硬件(例如独立或集成电路或电子元件)或软件(例如程序或程序部分)，所述功能既可以是单独的也可以结合其他功能，所述部件既可以是孤立的也可以与其他部件协作。本发明可以借助包含若干不同部件的硬件来实施，并且可以借助经过适当编程的计算机来实施。在列举了若干装置的设备权利要求中，这其中的若干装置可以由同一个硬件项来实现。 "计算机程序产品"应该被理解成是指保存在软盘之类的计算机可读介质中、可以经由因特网之类的网络下载或是可以采用其他任何方式而在市场上买到的任何软件产品。
权利要求
一种用于自动生成多媒体文件的多个概要的方法，该方法包括以下步骤生成多媒体文件的第一概要；生成所述多媒体文件的至少一个第二概要，所述至少一个第二概要包含被排除在所述第一概要之外的内容，其中所述至少一个第二概要的内容被选择成使其在语义上不同于所述第一概要的内容。
2. 根据权利要求l的方法，其中所述至少一个第二概要的内容被选择成使其在语义上与所述第一概要的内容最不相同。
3. 根据权利要求1或2的方法，其中所述多媒体文件被分成多个分段，并且生成至少一个第二概要的步骤包括以下步骤确定包含在所述第一概要中的分段与被排除在所述第一概要之外的分段之间的语义距离量度；将语义距离量度超出阈值的分段包含在所述至少一个第二概要中。
4. 根据权利要求1或2的方法，其中所述多媒体文件被分成多个分段，并且生成至少一个第二概要的步骤包括以下步骤确定所述第一概要包含的分段与被排除在所述第一概要之外的分段之间的语义距离将具有最高语义距离量度的分段包含在所述至少一个第二概要中。
5. 根据权利要求l的方法，其中生成所述第一和第二概要的步骤是以所述多媒体文件的所述多个分段的音频和/或视频内容为基础的。
6. 根据权利要求3或4的方法，其中语义距离是从所述多媒体文件的所述多个分段的颜色直方图距离和/或时间距离中确定的。
7. 根据权利要求3或4的方法，其中语义距离是从位置数据、和/或个人数据、和/或焦点对象数据中确定的。
8. 根据前述任一权利要求的方法，其中该方法还包括以下步骤选择所述至少一个第二概要中的至少一个分段；以及将所述所选择的至少一个分段合并到所述第一概要中。
9. 根据权利要求3-8中任一权利要求的方法，其中包含在所述至少一个第二概要中的分段具有相似的内容。
10. 根据前述任一权利要求的方法，其中多个第二概要依照其与所述第一概要的内容的相似度而被组织，以便浏览所述多个第二概要。
11. 一种计算机程序产品，其中包含了用于执行根据前述任一权利要求的方法的多个程序代码部分。
12. —种用于自动生成多媒体文件的多个概要的设备，该设备包括用于生成多媒体文件的第一概要的装置；用于生成所述多媒体文件的至少一个第二概要的装置，所述至少一个第二概要包含了被排除在所述第一概要之外的内容，其中所述至少一个第二概要的内容被选择成使其在语义上不同于所述第一概要的内容。
13. 根据权利要求12的设备，其中该设备还包括用于将所述多媒体文件分成多个分段的分段装置；确定包含在所述第一概要中的分段与被排除在所述第一概要之外的分段之间的语义距离量度；将语义距离量度超出阈值的分段包含在所述至少一个第二概要中。
全文摘要
多媒体文件的多个概要是自动生成的。产生多媒体文件的第一概要(步骤308)。然后，产生多媒体文件的至少一个第二概要(步骤314)。所述至少一个第二概要包含了被排除在第一概要之外的内容。所述至少一个第二概要的内容被选择成使其在语义上不同于第一概要的内容(步骤312)。
文档编号G11B27/10GK101743596SQ200880020306
公开日2010年6月16日申请日期2008年6月9日优先权日2007年6月15日
发明者J·韦达, M·E·坎帕尼拉, M·巴比里, P·施雷斯塔申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｊ.韦达;Ｍ.Ｅ.坎帕尼拉;Ｍ.巴比里;Ｐ.施雷斯塔
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：包含数字滤波器和存储器的△σ读出放大器的制作方法
上一篇：编辑装置和编辑方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。