变换技术在语义描述构造中的应用的制作方法

文档序号：6495014阅读：148来源：国知局

专利名称：变换技术在语义描述构造中的应用的制作方法
技术领域：
本发明通常涉及多媒体内容的描述，具体涉及利用变换技术来构造语义描述。
著作权公告/许可本专利文件的公开部分包含受著作权保护的材料。当专利文件在专利商标局的专利文件或记录中公布时，著作权的所有者不反对任何人对专利文件或专利公开内容的精确复制，然而在其他方面将保留其所有权利。如下的告示适用于如下所述的以及本说明书附图涉及的软件和数据Copyright2001，Sony Electronics，Inc.，A11Rights Reserved。
背景技术：
数字多媒体信息在广播传输(如数字电视信号)和交互式传输(如互联网)中日益得以广泛应用。信息可以是静止图像、音频输送或视频数据流。然而，这类大容量信息的存在导致了难以识别哪些是用户特别关心的内容。各种机构曾试图通过提供可用来搜索、过滤和/或浏览来定位特定内容的信息描述以解决这个问题。移动图像专家组(MPEG)曾经发布了通常称为MPEG-7的多媒体内容描述接口标准，以使多媒体信息的内容描述标准化。与以前的、定义视听内容编码表示的MPEG标准(如MPEG-1和MPEG-2)形成对比，MPEG-7内容描述不是对内容本身进行描述，而是对其结构和语义进行描述。
以电影为例，对应的MPEG-7内容描述将包含“描述符”，该“描述符”是描述电影特征如场景、场景的标题、场景中的镜头以及这些镜头的时间、颜色、形状、移动和音频信息的部件。内容描述还将包含一个或多个“描述方案(description scheme)”，该“描述方案”是描述两个或多个描述符之间关系的部件，例如涉及镜头特征的镜头描述方案。描述方案还可描述其它描述方案之间、以及描述方案和描述符之间的关系，例如涉及场景中不同镜头的以及将场景的标题特征与镜头相联系的场景描述方案。
MPEG-7用数据定义语言(DDL)来定义描述符和描述方案，并设置了一个核心组的描述符和描述方案。一组描述符和描述方案的DDL定义被组织成不同内容类别的“模式(schema)”。模式中每个描述符的DDL定义规定了相应特征的句法和语义。模式中每个描述方案的DDL定义规定了其子部件、描述符以及描述方案之间的关系的结构和语义。DDL可用来修改并扩展现有的描述方案并产生新的描述方案和描述符。
MPEG-7 DDL基于XML(可扩展标注语言)和XML模式标准。描述符、描述方案、语义、句法和结构由XML元素和XLM属性表示。某些XML元素和属性是可选的。
特定内容片段的MPEG-7内容描述是MPEG-7模式的一例；也就是说，它包含了遵守模式中所定义的句法和语义的数据。该内容描述被编码成一个参照适当模式的“实例文档”。该实例文档包含一组“描述符值”，用于在该模式中定义的所需元素和属性并用于任何必要的可选元素和/或属性。例如，某些用于特定电影的描述符值可规定电影具有三个场景，其中场景一具有六个镜头，场景二具有五个镜头，场景三具有十个镜头。可利用XML以文本格式或以二进制格式(如为MPEG-7数据规定的二进制格式，称为“BiM”)或以这两种格式的混合对实例文档进行编码。
实例文档通过通信信道(如计算机网络)传输至另一个用包含在实例文档内的内容描述数据来搜索、过滤和/或浏览相应内容数据流的系统。一般来说，为了快速传输，将实例文档压缩。编码器部件可编码并压缩实例文档或者通过不同的部件实施这些功能。此外，可通过一个系统生成实例文档，然后再通过另一个系统传输。接收系统中的相应的解码器部件用被参照的模式将实例文档解码。模式可作为同一传输的一部分而与实例文档分开传输至解码器，或者从另一来源由接收系统获得。另外，某些模式还可被结合进解码器。
目的在于描述内容的描述方案通常不是涉及内容的结构就是涉及其语义。通常用表示内容的物理、空间和/或时间特征(如区域、场景、镜头)以及它们之间关系的段来定义基于结构的描述方案。段的细节通常用信号(如颜色、纹理、形状、移动等)来描述。
内容的语义描述由基于语义的描述方案来实现。这些描述方案用它所描绘的方面(如物体、人、事件及其关系)来描述内容。根据用户范畴和应用，可利用不同类型的特征来描述内容，可调整应用范围。例如，可利用如物体的形状、大小、纹理、颜色、移动和位置这样的内容特征的描述，以较低的抽象水平对内容进行描述。在更高的抽象水平上，描述方案可提供关于由内容所记录的现实的概念信息，例如有关物体和事件以及物体间相互作用的信息。例如，高抽象水平描述可设置下列语义信息“这是一个场景，其中深棕色的狗在左边，落下来的蓝色的球在右边，以经过的小汽车的声音为背景”。
目前用于构造语义描述的方法便于自动生成简单的、低水平的描述。然而，人类的描述常常是指示性和隐喻性的。因此，上述方法不能用于模仿更为复杂的人类描述的语义描述。

发明内容
将现有描述混合以创建一个新描述，将残余物从多个现有描述的每一个中抽取出来。另外，利用从现有描述中抽取的残余物为新描述创建一组图式锥形(image style pyramids)。

图1说明多媒体内容描述系统的一个实施例。
图2和3说明现有技术的、用于创建心智空间的实施例。
图4和5说明本发明某些实施例的、由服务器执行的过程。
图6A-6C说明本发明一实施例的、用于将描述混合的过程的操作；图7是示范性计算机系统的框图。
本发明的详细说明在下面对本发明实施例的详细说明中，参考了附图，其中相同的附图标记表示相同的部分，并且其中所示的特定实施例只是为了说明本发明可被实现。这些实施例被足够详细地描述，以使本领域技术人员可实施本发明，并且他们会理解，在不背离本发明范围的条件下，可利用其他的实施例并且可进行逻辑的、机械的、电学的、功能性的以及其他的改变。因此，下面的详细描述不应被认为具有限制意义，本发明的范围仅由所附的权利要求书规定。
首先，概述本发明的操作，图1说明多媒体内容描述系统100的一个实施例。一个新内容描述101由服务器107上的描述构造函数127创建。描述构造函数127根据存储在内容描述资料档案库103中的一个或多个现有描述来创建新内容描述101。利用服务器107上的编码器109将内容描述101编码成实例文档111。实例文档111通过服务器107被传输至客户系统113。
客户系统113包括内容存取模块115，内容存取模块115利用内容描述101来搜索、过滤和/或浏览相应的内容数据流。内容存取模块115可利用解码器119来获得有关使用实例文档111的内容的结构和语义信息。
在一个实施例中，描述构造函数127为新内容描述101创建一组图式锥形。该组图式锥形可包括比如高斯锥形、拉普拉斯锥形和小波锥形。编码器109接着将新描述的图式锥形传输至客户系统113。在一个实施例中，资料档案库103存储语义描述的图式锥形，以有效地构造新描述。另外，图式锥形可用于语义描述的分析或语义描述的任何其他处理。在控制数据丢失的限制条件下，图式锥形可被解码来恢复原始描述。
在一个实施例中，新描述是与内容的语义方面有关的MPEG-7描述方案(DS)。各语义描述可被表示为图形，其中的节点从SemanticBase DS导出，且其中的边表示语义关，从符合语义对象关系的列表中选择。特别是，可利用图形分类方案(GCS)来存储可被再用的描述的模板以及可被再用的图形变换步骤。图形变换可包括比如推出(如被称为粘贴操作的单推出或被称为剪切和粘贴操作的双推出)和拉回(如被称为节点替换的单拉回或被称为用于复杂部分的替换操作的双拉回)。描述可属于某一相对于GCS中的模板和变换来表示语法的应用范畴，这取决于内容的区域。语法可用来分割一个描述。也就是说，在GCS中可利用通过模板或若干不同的语法对描述进行因式分解(factoring)来将描述分解。
在一个实施例中，描述构造函数127利用模仿心智空间模型的过程构造新的语义描述。心智空间通过输入大量的、言语中不包括的信息来提供用于通信的语境，从而提供了语言中解释语义内容的机制。用映像输入所述信息。这些映像的功能在于，使用(即“补充”)代表预定的解释构造的框架、将结构从一个心智空间投射到另一个心智空间、以及整合或抽取来自不止一个其他心智空间的输入材料。因此，各心智空间可代表一个包含实体、关系和框架的扩展描述。为了适当地定义描述中的所有实体，若干心智空间可同时起作用。这些心智空间可彼此关联。因为心智空间彼此之间借用结构和实体，因此在这些心智空间之间建立映像是必要的。整个复合(composite)形成了所表述的描述的背景并完成了将语义加到所涉及实体上的过程。
图2和3说明了现有技术的、用于创建心智空间的实施例。参见图2，通过补充某些框架210并借用现有的心智空间220和230的结构来创建新的心智空间250。这些结构可包括元素(如物体、事件、地点等)和子空间，子空间可通过根据预定规则压缩现有空间形成，或者作为以语境依赖方式共同激活的聚合(aggregates)创建。
参见图3，通过混合或整合两个现有的心智空间362和364创建新的心智空间370。接着，通过抽取所有三个心智空间新的心智空间370和现有的心智空间362和364可创建类属空间366。类属空间366包含心智空间362、364和370共有的结构。
MPEG-7模型提供这样的心智空间，它们包含例如为当前描述创建的基本描述、便于确认和补充的模板元素、用于提供(“运行空间(run the space)”)过程的制作步骤、用于解释和补充的制作步骤和本体(ontology)链接、以及图形和制作等基本元素。另外，MPEG-7模型便于进行混合。混合的结果可表达为选择性投射(可通过限制输入集合的子集实现的对推出映像的限制)、组合(在反覆步骤中融合)、完成(来自已被用来进行描述的GCS的补充)、精制(对由完成发现的过程进行试运行)以及突现结构(被记录，以将新实体加入GCS或完成该描述)。
图4和5说明本发明某些实施例的、由服务器107执行的过程。这些过程可通过可包含硬件(如电路、专用逻辑电路等)、软件(如在通用计算机系统或专用计算机上运行的软件)或两者组合的处理逻辑电路加以执行。对于由软件实现的过程，流程图的描述使本领域技术人员可开发出这样的包含可在适当配置的计算机(计算机的处理器执行取自计算机可读介质(包括存储器)的指令)上执行的指令的程序。可用计算机编程语言编写计算机可执行指令或者将计算机可执行指令嵌入固件逻辑电路中。如果以编程语言编写的计算机可执行指令与公认的标准一致，则这样的指令可在各种硬件平台上执行并且可接入各种操作系统。另外，对本发明实施例的描述没有涉及任何特定的编程语言。将会了解，可利用各种编程语言实现这里所描述的内容。此外，在本领域中，在进行操作或取得结果时，以一种形式或另外一种形式(如程序(program)、程序(procedure)、过序(process)、应用(application)、模块(module)、逻辑电路(logic)等)提及软件是很常见的事。这样的表述仅仅是表示由计算机执行软件以使计算机的处理器实施操作或产生结果的一种简化方式。将会了解，在不背离本发明范围的条件下，到图4和5中说明的过程可涉及更多或更少的操作，并且这里描述及示出的步骤并不意味着存在特定的顺序。
图4是说明一个用于构造描述的过程400的实施例的流程图。
参见图4，过程400从识别可用作一个新内容描述之源的两个或多个内容描述的处理逻辑开始(处理步骤402)。当接收到与新内容描述关联的一个或多个元素(如形容被描述实体特性的词、该实体和另一实体之间关系、实体的结构等)时可执行识别过程。根据收到的元素，处理逻辑可识别现有内容描述，现有内容描述与新内容描述具有共同的元素。在一个实施例中，内容描述是与内容的语义方面有关的MPEG-7描述方案(DS)。
接着，处理逻辑将已识别内容描述混合在一起。尤其是，处理逻辑为每对已识别描述创建混合(处理步骤404)、为每对已识别描述创建类属空间(处理步骤406)以及从每个输入描述中抽取残余物(处理步骤408)。然后，处理步骤混合各对在先结果(处理步骤410)、为每对在先结果创建下一类属空间(处理步骤412)、并从各在先结果中抽取残余物(处理步骤414)。处理步骤410至414的操作被反覆执行直至处理步骤410产生单个输出为止(处理步骤416)。
另外，通过利用残余物、导致类属空间和/或导致混合，处理逻辑为新内容描述创建一组图式锥形(处理步骤418)。图式锥形组合可包括比如小波锥形、拉普拉斯锥形和高斯锥形。
图式锥形的创建便于对描述的分析、描述的有效传输和存储以及新描述的有效构造。
在一个实施例中，根据运行混合的规则以及保存在小波锥形内的信息，集合中的所有锥形可被用来重构原始描述。如果通过从经混合的空间减去(切掉)类属空间而导致了两个空间，则小波变换可被恢复。否则，可能需要保存一些额外空间，这一点将在下面连同图6C一起详细讨论。
在一个实施例中，多重图像描述以包括一组新图像描述的小波变换被编码。随后，原始图像描述可无损耗或有损耗地(取决于控制数据丢失的限制条件)从小波变换中解码。
图5是说明一个用于混合源描述的过程500的实施例的流程图。
参见图5，过程500从处理逻辑为第一对源描述形成不相交并集并搜索规则以融合这些源描述的元素开始(处理步骤502)。
在处理步骤504处，根据这些源描述的匹配元素，处理逻辑创建这些源描述的混合。该混合可通过执行推出来创建，然后运行混合。
在处理步骤506处，处理逻辑通过将得到的映像拉回到类属空间为源描述创建类属空间。
在处理步骤508处，处理逻辑从各输入源描述中抽取残余物。
如果源描述包含多于两个的描述，则为每一对额外的源描述重复过程500，然后这些结果在后面的反覆步骤中被混合，直至产生单个输出为止。
图6A-6C说明过程500的操作。
参见图6，为两个输入描述602和604形成一个不相交并集606。然后，执行推出并运行混合以创建一个混合空间610。另外，执行拉回以到达类属空间608。如果使用了四个源描述且混合未被示出，则类属空间序列导致图6C中说明的高斯锥形620。
类属空间608可被用来从输入描述602和604中抽取残余物。图6B说明用残余物612和614表达的混合610。如果使用四个源描述，则类属空间序列可导致图6C中说明的拉普拉斯锥形622。
残余物也可由混合导出。接着，类属空间序列可导致图6C示出的小波锥形624或626。如果从经混合的空间(B)减去(切掉)类属空间(G)而导致两个空间，则小波变换626是可恢复的。否则，额外空间(R)需要被保存，如小波锥形624中那样。小波锥形626可用来例如创建新描述和因式分解层次结构。因为各组合同时产生类属空间和混合，锥形的创建可从在锥形内任意处开始(这与信号处理设置中的小波不同)。
图式锥形620至624具有常见的图像分析、多媒体名称和特性，以便于描述的分析及有效的存储、传输和构造。
图7是说明可用来执行这里所述的、一个或多个操作的、示范性计算机系统700的框图。在可选实施例中，机器可包括网络路由器、网络交换机、网桥、个人数字助理(PDA)、移动电话、网络用具(web appliance)或任何能够执行规定该机器行动的指令序列的机器。计算机系统700包含处理器720、主存储器704和静态存储器706，它们彼此通过总线708进行通信。计算机系统700还可包括视频显示单元710(如液晶显示器(LCD)或阴极射线管(CRT))。计算机系统700还包括字符输入装置712(如键盘)、光标控制装置714(如鼠标)、磁盘驱动单元716、信号生成装置720(如扬声器)和网络接口装置722。磁盘驱动单元716包含计算机可读介质724，其上存有一组实现上述任何一种或全部方法的指令(即软件)726。所述软件726完全或者至少部分地位于主存储器704和/或处理器702内。软件726还可通过网络接口装置722传输或接收。本说明书中采用的术语“计算机可读介质”，应当包括能够存储或编码由计算机执行的指令序列的以及使计算机执行本发明任意一种方法的任何介质。因此，所采用的术语“计算机可读介质”应当包括(但不限于)固态存储器、光盘和磁盘以及载波信号。
以上，说明了利用变换技术来构造语义描述的方法和装置。尽管这里已经对特定的实施例作了说明和描述，但是本领域技术人员当会了解，可用任何打算达到相同目的之配置替代所说明的特定实施例。本申请涵盖对本发明的任何修改编或变形。
在本申请中使用的涉及MPEG-7的术语包括所有提供内容描述的环境。显然，本发明仅受限于后附的权利要求书及其等效物。
权利要求
1.一种计算机化的方法，包含混合多个现有描述以创建一个新描述；从所述多个现有描述中的各描述抽取残余物；以及利用从所述多个现有描述中抽取的残余物为所述新描述创建一组图式锥形。
2.如权利要求1所述的计算机化的方法，其中所述多个现有描述中的各描述为语义描述方案。
3.如权利要求1所述的计算机化的方法，其中所述多个现有描述中的各描述被表示为图形。
4.如权利要求3所述的计算机化的方法，其中所述多个现有描述利用图形变换操作加以混合。
5.如权利要求4所述的计算机化的方法，其中所述图形变换操作为推出操作。
6.如权利要求4所述的计算机化的方法，其中混合所述多个现有描述的步骤包含创建所述多个现有描述中的每一对描述的混合；以及混合每一对所创建的混合。
7.如权利要求6所述的计算机化的方法，还包含为所述多个现有描述中的每一对描述创建类属空间。
8.如权利要求7所述的计算机化的方法，其中所述锥形集合利用残余物、混合以及为所述多个现有描述创建的类属空间而创建。
9.如权利要求7所述的计算机化的方法，其中所述图形变换操作为拉回操作。
10.如权利要求7所述的计算机化的方法，其中为所述多个现有描述中的各描述抽取残余物的步骤包含确定所述多个现有描述中的各描述和一个对应的类属空间之间的差别。
11.如权利要求1所述的计算机化的方法，其中所述图式锥形集合包含小波锥形、拉普拉斯锥形和高斯锥形。
12.如权利要求1所述的方法，还包含将所述新描述的图式锥形集合传输至客户系统。
13.如权利要求1所述的计算机化的方法，还包含将所述图式锥形集合存进数据库。
14.如权利要求1所述的计算机化的方法，还包含利用所述图式锥形集合分析所述新描述。
15.一种提供指令的计算机可读介质，当在处理器上执行所述指令时可令该处理器执行包含如下步骤的方法混合多个现有描述以创建一个新描述；从所述多个现有描述中的各描述抽取残余物；以及利用从所述多个现有描述中抽取的残余物为所述新描述创建一组图式锥形。
16.如权利要求15所述的计算机可读介质，其中所述多个现有描述中的各描述为语义描述方案。
17.如权利要求15所述的计算机可读介质，其中所述多个现有描述中的各描述被表示为图形。
18.如权利要求17所述的计算机可读介质，其中所述多个现有描述利用图形变换操作加以混合。
19.一种计算机系统，包含存储器；以及至少一个连接到所述存储器的处理器，所述处理器执行一组指令，该组指令可使该处理器混合多个现有描述以创建一个新描述、从所述多个现有描述中的各描述抽取残余物以及利用从所述多个现有描述中抽取的残余物为所述新描述创建一组图式锥形。
20.如权利要求19所述的计算机系统，其中所述多个现有描述中的各描述为语义描述方案。
21.如权利要求19所述的计算机系统，其中所述多个现有描述中的各描述被表示为图形。
22.如权利要求21所述的计算机系统，其中所述多个现有描述利用图形变换操作加以混合。
23.一种计算机系统，包含存储器；以及至少一个连接到所述存储器的处理器，所述处理器执行一组可使该处理器将多个现有图像描述编码成包含一组新图像描述的小波变换，所述小波变换随后被用来为所述多个现有图像描述解码。
24.如权利要求23所述的计算机系统，其中所述多个现有图像描述以无损耗的方式从小波变换中解码。
25.如权利要求23所述的计算机系统，其中所述多个现有图像描述以有损耗的方式从小波变换中解码。
26.一种装置，包含混合多个现有描述以创建一个新描述的部件；从所述多个现有描述中的各描述抽取残余物的部件；以及利用从所述多个现有描述中抽取的残余物为所述新描述创建一组图式锥形的部件。
全文摘要
现有描述被混合以创建一个新描述，并从多个现有描述中的各描述抽取残余物。另外，利用从所述现有描述中抽取的残余物为所述新描述创建一组图式锥形。
文档编号G06F17/00GK101084510SQ200480028070
公开日2007年12月5日申请日期2004年9月29日优先权日2003年9月29日
发明者H·K·赖辛三世申请人:索尼电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｈ.Ｋ.赖辛三世
技术所有人：索尼电子有限公司
我是此专利的发明人

上一篇：信息处理装置、无线通信系统及无线通信方法
上一篇：具有改良的抗原结合亲和力的改变的抗体的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。