利用常识知识来表征多媒体内容的制作方法

文档序号：7608114阅读：153来源：国知局

专利名称：利用常识知识来表征多媒体内容的制作方法
技术领域：
本发明涉及一种处理诸如音频或视频内容之类的多媒体内容的方法。本发明还涉及一种用于处理诸如音频或视频内容之类的多媒体内容的设备。而且，本发明涉及一种描述多媒体内容的数据信号，其中该数据信号还包括元数据。本发明还涉及一种包括描述多媒体内容的数据信号的存储介质，其中该数据信号还包括元数据。
随着电视观众可收到的频道数不断增加，同时可在这些频道上得到的节目内容的多样性不断提高，对于电视观众而言，识别感兴趣的电视节目变得越来越具有挑战性。
在历史上，电视观众通过分析印刷的电视节目指南来识别感兴趣的电视节目。典型地，这种印刷的电视节目指南包含了按时间和日期、频道和标题列出的可收到的电视节目的表格(grid)。随着电视节目数量的增多，利用这种印刷的指南来有效地识别想看的电视节目变得越来越难。
更近一些，电视节目指南变得可以以电子格式得到，其被通常称作电子节目指南(EPG)。像印刷的电视节目指南一样，EPG包含按时间和日期、频道和标题列出的可收到的电视节目的表格。然而，一些EPG允许观众根据个人喜好对可收到的电视节目进行分类或搜索。此外，EPG允许在屏幕上呈现可收到的电视节目。
虽然EPG允许观众比传统的印刷指南更有效地识别出想看的节目，但是它们受到许多限制，如果克服掉这些限制，则可以进一步提高观众识别想看的节目的能力。
一般而言，存在下述的推荐器和内容管理系统，即它们基于多媒体信号(例如视频和/或音频信号)中的元数据来定义内容的特性，并从而为观众或听众提供识别特定内容的更多可能性。推荐器和内容管理系统只有在可获得合适的元数据时才提供增值。元数据的类型很多，但是当前缺乏的一种类型是内容或部分内容(例如场景或音乐的部分)的情感或情绪描述的元数据。尽管MPEG 7标准通过提供应该包含这种情感信息的元数据标记而预见到这种元数据的重要性，但是还没有提出如何确定该标记的信息。缺少这种类型的信息的原因之一是，标准化的分类不存在，并且手工标记是费时的工作。而且，传统的特征提取(或信号分析)并不提供这种信息，因为它本身并不明确地存在于内容当中。
本发明的目的是提供一种解决上述问题的办法并找到一种确定多媒体内容的情感和情绪描述的方法。
这通过一种处理诸如音频或视频内容之类的多媒体内容的方法来获得，其中所述方法包括以下步骤-接收包括所述多媒体内容的数据信号；-识别所接收到的多媒体内容中的预定义要素(feature)；-根据一个或多个所述识别出的预定义要素与一个或多个特征之间的预定义联系，确定所接收到的多媒体内容的特征，其中所述要素与所述特征之间的联系是基于真实世界的知识建立的。
可以产生参数，其基于所述特征并可被用于许多用途，例如内容中的关键字搜索、基于特征和语言检测的内容再现。在一个实施例中，在呈现内容过程中可实时确定特征；可替换地，特征可被预添加到内容中。基于真实世界知识的特征可以是内容的氛围(ambience)，例如悲伤、快乐、生气等。真实世界知识包括常识推理以及一般知识。因此，基于在多媒体内容中检测到的内容，包括常识或一般知识的真实世界知识可以用于将内容联系到特征。特征和内容的关系可作为规则库或者作为关系标示图来进行存储。以前已经描述了可以如何使用真实世界的知识来检测文本的特征。这可以在H.Liu，H.Lieberman，T.Selker(2003)的文章A Model of Textual Affect Sensing using Real-World Knowledge，IUI 2003，January 2003，Miami，Florida，USA中找到。
在一个特定实施例中，多媒体内容中的预定义要素是视频信号中的预定义颜色。预定义颜色可以是预定义范围的颜色，或者它们可以是特定的预定义颜色。用于场景中的颜色通常用于与观众交流；这例如可以是氛围或文化。
在另一个特定实施例中，多媒体内容中的预定义要素是音频信号中的预定义声音元素。在例如场景中使用的声音或音乐通常被用于与观众交流，并可以表示例如悲伤、恐惧、动作、爱；除了这些氛围特征以外，它还可以是文化。
在一个特定实施例中，所述方法还包括根据确定的特征来呈现多媒体信号的内容的步骤。多媒体内容的呈现在呈现过程中可被进一步优化；例如，通过在快乐场景中使光线变暗或者增强特定的文化环境中的颜色。
在一个实施例中，将所确定的特征作为元数据添加到多媒体信号上。包括元数据的信号例如可以被存储或广播，并且接收机或阅读器不必为了使用它们而确定该数据。
在一个特定实施例中，所确定的特征是所接收到的多媒体内容的氛围。氛围可以是例如环境的气氛，以及多媒体内容的氛围相对简单地基于多媒体内容中的预定义要素来确定。特定的颜色或声音通常被用于为观众或听众增强多媒体内容的氛围；如上所述，这种氛围例如可以是悲伤、恐惧、动作、爱。
本发明还涉及一种用于处理诸如音频或视频内容之类的多媒体内容的设备，其中所述设备包括-接收机，适于接收描述所述多媒体内容的数据信号；-处理器，适于识别所接收到的多媒体内容中的预定义要素；-数据库，包括一个或多个所述识别出的预定义要素与一个或多个特征之间的联系，其中所述要素和所述特征之间的联系是基于真实世界的知识建立的；-处理器，适于根据所述数据库中的内容来确定所接收到的多媒体内容的特征。
在一个特定实施例中，该设备适于读取包括多媒体内容的存储介质的内容，其中接收机适于接收描述所述多媒体内容的数据信号，其中所述数据信号是从所述存储介质中读出的。
本发明也涉及一种描述多媒体内容的数据信号，其中该数据信号还包括元数据，所述元数据定义了所述多媒体内容的特征，以及其中这些特征是通过识别所述多媒体内容中的预定义要素并且通过基于一个或多个所述识别出的预定义要素与一个或多个特征之间的预定义联系来确定所接收到的多媒体内容的特征而得以确定的，其中所述要素和所述特征之间的联系是基于真实世界的知识建立的。
本发明还涉及一种用于处理如上文定义的数据信号的设备，其中所述设备包括-用于接收包括识别多媒体内容的特征的用户请求的装置，-用于通过搜索定义了与所述用户请求中识别的特征相似的特征的元数据来处理所述数据信号的装置，-用于如果所述数据信号中的元数据定义了与由所述用户请求识别的特征相似的特征，则为用户呈现数据信号中的多媒体内容的装置。
该设备也可被称作内容推荐器，并且通过使用用于推荐内容的元数据，有可能根据由元数据定义的基于真实世界知识的特征来进行推荐。通过使根据例如多媒体内容的氛围来进行推荐成为可能，这增加了推荐器系统的质量。
本发明还涉及一种包括描述多媒体内容的数据的存储介质，其中该数据还包括元数据，所述元数据定义了所述多媒体内容的特征，以及其中这些特征是通过识别所述多媒体内容中的预定义要素并且通过基于一个或多个所述识别出的预定义要素与一个或多个特征之间的预定义联系来确定所接收到的多媒体内容的特征而得以确定的，其中所述要素和所述特征之间的联系是基于真实世界的知识建立的。
下文将参考附图来描述本发明的优选实施例，其中

图1说明一种依据本发明的系统；图2说明一种包括预定义要素和特征之间的联系的数据库；图3说明一种依据本发明的确定多媒体内容中的特征的方法；图4说明依据本发明的处理和使用包括了元标记的多媒体信号的不同类型。
在图1中说明了按照本发明的系统101，该系统包括中央处理器(CPU)103、接收机105和数据库107，该数据库107通过通信总线108进行通信。接收机105能够接收包括诸如音频和/或视频数据之类的多媒体内容数据的多媒体信号(MS)109。这种多媒体数据例如可以从一种适于从包括多媒体数据的存储介质(比如DVD或VCR)中读取多媒体内容的设备中接收。而且，该信号也可以从一种适于接收例如数字电视信号中的广播多媒体内容的接收机中接收。数据库107包括多媒体内容中的预定义要素和相应特征之间的联系，其中所述要素和所述特征之间的联系基于真实世界的知识111。运行检测算法的CPU 103然后使用数据库107的内容来确定多媒体内容的特征。检测算法可以包括例如通过使用音频或视频检测器来检测多媒体内容中的颜色元素和/或音频元素的步骤。可以得到多种检测多媒体内容中的颜色或音频元素的方法，并且为了从多媒体内容中获得更高层次的信息，可以将这些方法结合起来。检测颜色元素的一种方法是通过从像素信息中提取平均颜色，这可以在RGB颜色空间中通过使用各个像素的RGB值以及然后计算整个屏幕或屏幕中的区域或物体的平均RGB值而得以完成。例如通过检测音频波形中的过零可以检测音频元素，这可以用于确定音频的力度变化或速度。在检测出多媒体内容中的要素后，该算法在数据库107中搜索所检测到的要素，并基于从要素到特征的联系，该算法产生新的信号113，该信号包括多媒体信号(MS)和能够被产生的识别特征的元标记(MTAG)。
在图2中说明了数据库111的内容，其中将不同的预定义要素(F1，F2，F3，F4)或要素的组合与不同的特征(C1，C2，C3，C4)联系起来。多媒体内容中的预定义要素可以是特定的颜色、特定的颜色类型或特定的颜色组合。而且，这些要素可以是特定的声音或者声音和颜色的组合。更一般地，所述要素可以是关于涉及一个或多个视频场景、视频帧和/或声音或声音的组合的多媒体内容的任何类型的信息。然后定义这些预定义的特征，并将它们与数据库中的特征联系起来。按照本发明的总体思想，这种联系基于真实世界的知识。
多媒体内容要素和特征可以这样按照真实世界的知识联系起来将诸如欢乐和假日之类的特征与多媒体内容中的预定义要素暖色、蓝天和拉丁音乐联系起来。另一个基于真实世界的知识将内容的要素与特征联系起来的例子可以是下面的情形。在一些国家(取决于文化)中，服丧的人们可能穿黑衣，这与悲伤联系起来。因此，当多媒体内容包括以穿着黑衣的人们为要素的场景时，可确定例如悲伤的特征；例如在某一国家或地区，这一判断可能必须要结合另一个基于真实世界知识进行的要素与特定文化或文化类型之间的联系的判断来进行。在音频中，可以基于例如曲调中不同音调的速度来进行类似的操作，其中缓慢的曲调是一种可能暗示着人们关系亲密的场景或者至少非动作的场景的要素，而非常快的曲调可能意味着它是牵涉到很多动作的场景或者至少不安静的场景。
图3说明如何在多媒体内容中检测到特征。首先，在301中，由系统接收包括多媒体内容的多媒体信号；这例如可以从内部多媒体内容阅读器/接收机或者从外接的多媒体内容阅读器/接收机中接收。在303中，基于数据库107的内容在多媒体内容中搜索并识别预定义要素，例如通过搜索数据库107中识别的内容中的特定颜色和/或特定声音。
接下来，在305中，根据所识别出的要素和它们在数据库107中的相应联系来确定内容的特征。最后，在307中，使用附加的确定信息来确定多媒体内容的特征并可以对该内容进行处理。
图4示出处理或使用包括附加的确定信息的多媒体内容的不同方法的例子。在图中，将包括元标记的多媒体信号401说明为处理设备403的输入。在例子405中，用户可以基于内容的特征来搜索特定的多媒体内容，例如他可以搜索悲伤内容或动作内容、或者这些特征的组合。在407中，使用这些特征来确定文化和国家，并从而确定语言，例如当将语音转换为文本或者当给视频内容加字幕时，可以使用该信息。在409中，当呈现该内容时使用了该信息，其中当再现内容时可以使用元数据，例如根据特征通过减弱场景中的光线或者通过增强音频中特定的音调。
在内容推荐器系统中可以执行该处理，该系统能够基于多媒体内容的特征来推荐特定的多媒体内容。在一个例子中，多媒体内容可以是例如来自诸如DVD之类的源的视频内容，在该DVD上存储着包括多媒体内容和元数据的数据。可替换地，可以仅将多媒体内容存储在DVD上，并且在内容推荐器系统处理该内容之前进行如上所述的元数据的产生。内容推荐器系统包括用于读取DVD上的数据的设备，然后就可以使用元数据以根据元数据中识别的特征来呈现多媒体内容的特定部分。更具体而言，使用诸如键盘或遥控器之类的输入设备的用户可以规定他只想看内容中欢乐的部分。然后推荐器系统在元数据中搜索欢乐的特征，并且呈现具有识别欢乐特征的元数据的内容。可替换地，推荐器也可以一开始就对DVD上的数据进行扫描，并且基于检测的元数据对内容进行评定，例如，如果预定百分比的内容涉及诸如悲伤、暴力或色情场景之类的特征，则应当将该多媒体内容列为儿童不宜。
应该注意，上述实施例是说明而不是限制本发明，并且本领域技术人员将能设计出许多可替换实施例而不偏离所附权利要求书的范围。在权利要求书中，置于括号中的任何附图标记皆不应被理解为限制权利要求。使用动词“包括”及其变形并不排除存在未在权利要求中列出的元件或步骤。本发明可以借助于包括若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举若干装置的设备权利要求中，这些装置中的若干可以通过同一项硬件来实现。仅仅在相互不同的从属权利要求中陈述特定措施的事实并不表明这些措施的组合不能被有利地使用。
权利要求
1.一种处理多媒体内容的方法，其中该方法包括以下步骤-接收(301)包括所述多媒体内容的数据信号(109)；-识别(303)所接收到的多媒体内容中的预定义要素(F1，F1+F4，F3，F1+F6)；-根据一个或多个所述识别出的预定义要素(F1，F1+F4，F3，F1+F6)与一个或多个特征(C1，C2，C3，C4)之间的预定义联系，确定(305)所接收到的多媒体内容的特征，其中所述要素与所述特征之间的联系是基于真实世界的知识(111)建立的。
2.如权利要求1所述的方法，其中多媒体内容中的预定义要素是视频信号中的预定义颜色。
3.如权利要求1所述的方法，其中多媒体内容中的预定义要素是音频信号中的预定义声音元素。
4.如权利要求1到3所述的方法，其中该方法还包括按照所确定的特征来呈现多媒体信号的内容的步骤。
5.如权利要求1到4所述的方法，其中将所确定的特征作为元数据添加到多媒体信号上。
6.如权利要求1到5所述的方法，其中所确定的特征是所接收到的多媒体内容的氛围。
7.一种用于处理诸如音频或视频内容之类的多媒体内容的设备，其中该设备包括-接收机(105)，适于接收描述所述多媒体内容的数据信号(109)；-处理器(103)，适于识别所接收到的多媒体内容中的预定义要素(F1，F1+F4，F3，F1+F6)；-数据库(11)，包括一个或多个所述识别出的预定义要素(F1，F1+F4，F3，F1+F6)与一个或多个特征(C1，C2，C3，C4)之间的联系，其中所述要素和所述特征之间的联系是基于真实世界的知识(111)建立的；-处理器(103)，适于根据所述数据库中的内容来确定所接收到的多媒体内容的特征。
8.如权利要求7所述的设备，其中该设备适于读取包括多媒体内容的存储介质的内容，以及其中接收机适于接收描述所述多媒体内容的数据信号，其中所述数据信号是从所述存储介质中读取的。
9.一种描述多媒体内容的数据信号，其中该数据信号还包括元数据，所述元数据定义了所述多媒体内容的特征，以及其中这些特征是通过识别所述多媒体内容中的预定义要素并且通过基于一个或多个所述识别出的预定义要素与一个或多个特征之间的预定义联系来确定所接收到的多媒体内容的特征而得以确定的，其中所述要素和所述特征之间的联系是基于真实世界的知识建立的。
10.一种用于处理如权利要求9所述的数据信号的设备，其中该设备包括-用于接收包括识别多媒体内容的特征的用户请求的装置，-用于通过搜索定义了与所述用户请求中识别的特征相似的特征的元数据来处理所述数据信号的装置，-用于如果所述数据信号中的元数据定义了与由所述用户请求所识别的特征相似的特征，则为用户呈现数据信号中的多媒体内容的装置。
11.一种包括描述多媒体内容的数据的存储介质，其中该数据还包括元数据，所述元数据定义了所述多媒体内容的特征，以及其中这些特征是通过识别所述多媒体内容中的预定义要素并且通过基于一个或多个所述识别出的预定义要素与一个或多个特征之间的预定义联系来确定所接收到的多媒体内容的特征而得以确定的，其中所述要素和所述特征之间的联系是基于真实世界的知识建立的。
全文摘要
本发明涉及一种处理诸如音频或视频内容之类的多媒体内容的方法，其中该方法包括以下步骤接收包括所述多媒体内容的数据信号；识别所接收到的多媒体内容中的预定义要素；根据一个或多个所述识别出的预定义要素与一个或多个特征之间的预定义联系，确定所接收到的多媒体内容的特征，其中所述要素与所述特征之间的联系是基于真实世界的知识建立的。可以产生参数，该参数基于所述特征，并且可以用于许多用途，例如内容中的关键字搜索、或者基于特征和语言检测的内容再现。
文档编号H04N7/16GK1853415SQ200480026651
公开日2006年10月25日申请日期2004年8月30日优先权日2003年9月16日
发明者E·M·A·迪德里克斯申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：E.M.A.迪德里克斯
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。