多媒体内容再利用的方法

文档序号：6432568阅读：451来源：国知局

专利名称：多媒体内容再利用的方法
本申请作为在2001年12月4日提交的，题目为“多媒体信息的分布式处理、存储和传输”的美国专利申请序列号No.10/011,883的部分后续申请要求优先权，上述申请的内容通过参考在这里引入。
本发明通常集中于多媒体内容的代码转换，尤其是在移动设备的资源限制下使用的模态内(intra-modality)和模态间(inter-modality)多媒体内容代码转换。
多媒体内容可以采用音频、视觉和文本这三种明显的模态之一的形式，或者采用三种模态的任意组合的形式。内容“再利用(repurposing)”通常在理论上指重新格式化，改变尺度(re-scaling)，和/或通过在给定域内改变内容表示来对内容进行代码转换，例如在视觉域中从视频到视频，视频到静态图形图像，或者原始图像到动画片；在音频域中从原始图像到合成声音；在文本域中从全文到摘要。此外，可以通过从一个域到另一个域的改变来再利用(re-purpose)内容，例如从视频到文本或者从音频到文本。
内容再利用的一种主要的应用使得能够对移动(例如无线)设备中的多媒体信息进行处理、存储、传输和显示。这种设备典型地对处理、存储、发送/接收和显示能力具有严格的限制。通过内容再利用，通过使用可用的最佳多媒体模态，移动设备用户可以根据环境稳定地访问具有可变质量的多媒体信息。
目前的内容再利用实现主要包括语音到电文，例如在应答或响应(拨入)系统中，其中讲述的声音被分析，从而将它转换为元音和谐和音以便翻译成要利用的文本的，。几乎是排他地处理文本信息的摘要也得以利用。
因此，本领域需要一种集中于更一般应用的内容再利用的改进技术。
为了处理现有技术中的上述缺陷，本发明的主要目的是提供综合多媒体内容再利用以便在无线通信系统中使用，该综合多媒体内容再利用采用了作为内容信息的紧缩表示的内容结构。对于视频内容来说，该结构是表示序列中对象的2D图像区域和/或3D体积区域的内容算子(operator)，并由各种视觉属性来表征，利用视频处理技术通过分段从视频序列中抽取该结构。在模态内和模态之间的变换中采用这些结构以便适应移动设备的资源限制。
上述内容已经非常广泛地概述了本发明的特征和技术优势，使得本领域的技术人员能够更好地理解随后对本发明的详细描述。形成本发明权利要求主题的其它的特征和优势将在下文中进行描述。本领域的技术人员将意识到，他们很容易使用所公开的概念和特定实施例作为修改或者设计其他实现与本发明相同目的结构的基础。本领域的那些技术人员还将认识到，这种等价结构并不偏离本发明最宽形式的精神和范围。
在以下着手详细描述本发明之前，陈述在本专利文件中自始至终使用的某些字或者短语的定义是有益的术语“包括”和“包含”以及其派生词表示没有限制的包含；术语“或”是包含在内的，含意是和/或；短语“与……相关联”和“与之相关联”以及其派生词表示包括、被包括在内、相互连接、包含、被包含在内、连接到或者与……连接、耦合到或者与……耦合、可与……通信、与……合作、交织、并列、接近、被束缚到或者与……束缚在一起、具有……的性质，等等；术语“控制器”表示控制至少一个操作的任何设备、系统或者其中一部分，无论这种设备是以硬件、固件、软件还是以至少两种上述相同对象的结合来实现。应当注意，与任何特殊控制器相关联的功能可以是集中式或者分布式，无论是本地的还是远程的。为某个字和短语提供的定义贯穿本专利文件始终，本领域的普通技术人员将会理解，这种定义应用在许多(如果不是大部分)现有的实例中，以及这样定义的字和短语将来的使用。
为了更完整地理解本发明及其优点，现在参考以下结合附图的描述，其中相同的数字标明相同的对象，其中

图1描写了根据本发明一个实施例采用内容再利用的数据处理系统网络；图2A至图2C举例说明了根据本发明一个实施例的模态内视觉内容再利用；
图3举例说明了根据本发明一个实施例利用紧缩信息的模态间内容再利用。
下面讨论的图1至3以及各种用于在本专利文件描述本发明原理的实施例仅仅是举例说明，不应该以任何方式解释为对本发明范围的限制。本领域哪些技术人员将会理解，本发明的原理可以在任何适当安排的设备中实现。
图1描写了根据本发明一个实施例采用内容再利用的数据处理系统网络。数据处理系统网络100包括服务器系统101和客户系统102。在所示实例中，服务器101和客户102被无线地连接并能共同操作。服务器101可以是任何系统，例如桌上个人电脑(PC)、膝上型电脑、“超级计算机”或者任何其它包括中央处理单元(CPU)、本地存储器系统和一组执行诸如卷积之类的特定信号处理操作的专用芯片的系统。数据处理系统100可以包含任何类型的无线通信网络，包括视频、数据、语音/音频，或者它们的一些结合。移动(或者固定的无线连接)设备102可以是例如电话、个人数字助理(PDA)、计算机、卫星或者地面电视和/或无线电接收系统、或者机顶盒。
本领域的那些技术人员将认识到，数据处理系统网络的完整结构和操作并没有在图中描绘或者在此描述。反之，为了简单和清楚起见，仅仅显示和描述了数据处理系统对本发明是唯一的或者对理解本发明是必需的这么多结构和操作的细节。该系统剩余的部分可以按照惯例构造和操作。
图2A至2C举例说明了根据本发明一个实施例的模态内视觉内容再利用。在示范性实施例中，服务器101能够对递送到到客户102的内容进行视频序列和/或静态图像再利用。
对于图2A中举例说明的视频再利用，视频序列201通过结构发生器202转换为结构。该结构描述紧缩视频序列表示的元素，允许(a)访问视频序列内容信息203，合成原始输入视频序列204(或者创建新的视频序列)，(c)压缩视频序列205。该结构每一个都是视频内容信息的紧缩表示，能够以少量结构表示长视频序列。
结构的使用远远超过视频压缩等等。当将视频序列转换为一组结构时，视频结构实际上被再设计为一组新的构件块。例如在视频编码中，视频序列通过非压缩形式的帧或者场或者压缩形式的视频流来表示。在这种表示中，原子单位是非压缩形式的象素或者场(帧)和压缩形式的包，对于视频内容信息来说，表示是开放自由的(unstructured)。
视频内容信息是由“对象”给定的中级视觉内容信息，“对象”例如是由各种视觉属性(例如，色彩、运动、形状)来表征的二维(2D)图像区域或者三维(3D)体积区域。为了产生视频内容信息，信息必须从视频序列中进行分段，这需要使用各种图像处理和/或计算机图像技术。例如，对于分段处理，可以采用边缘/形状分割、运动分析(2D或3D)，或者彩色分段。此外，被分段的视频内容信息的紧缩表示同样是重要的。图2B举例说明了分段和紧缩，其中，输入视频序列201被分段和紧缩单元206和207处理，从而产生紧缩视频内容算子208。内容算子208形成视频内容结构组的一部分。
另一种视频内容结构分层镶嵌209，通过以下步骤产生(i)确定在不同镶嵌之间的相对深度信息；(ii)递增地将相对深度信息与图2C所示的输入源的个别帧、部分镶嵌和内容算子结合。
图2C中的紧缩视频内容算子208和分层镶嵌209构成了视频结构，该视频结构与视频内容分段和紧缩单元206和207一起表示图2A中的结构发生器202。
在下面提供结构产生的实例中，视觉条件被假设为3D世界(景物)由刚性物体组成；那些物体被分布在形成景物背景的不同深度级中，背景是静态的(或者至少很慢地变化)，而前景包括独立运动(刚性)物体的集合；该物体具有被近似为平面的局部表面；并且整个景物的照明度是均匀的。
假设分别在瞬间k-1和k从视频序列中取得两个连续的帧Ik-1和Ik，紧缩视频内容算子产生如下首先，通过比较每个象素的图像强度来记录图像Ik-1和Ik。如果Ik-1＝Ik-1(xk-1，yk-1)并且Ik＝Ik(xk，yk)，其中(xk-1，yk-1)和(xk，yk)分别表示在瞬间k-1和k的x和y坐标图像象素，然后，通过计算3×3矩阵R(·，·)中的9个元素来记录Ik-1和Ikxk-1=R(0,0)×xk+R(0,1)×yk+R(0,2)R(2,0)×xk+R(2,1)×yk+R(2,2)--(1)]]>yk-1=R(1,0)×xk+R(1,1)×yk+R(1,2)R(2,0)×xk+R(2,1)×yk+R(2,2)--(2)]]>
矩阵R(·，·)可以用不同的方式来计算，例如通过使用R(2，0)＝R(2，1)＝0，R(2，2)＝1，R(0，0)＝sx，R(0，1)＝rx，R(1，0)＝ry，和R(1，1)＝sy的(6参数)仿射模型(affine model)，其中sx、sy、rx、ry分别表示(2D)图像缩放和旋转矢量和的x和y分量。其它适合的模型包括8参数透视模型(perspective model)。无论如何，记录图像Ik-1到图像Ik的结果是图像IRk-1。
接下来，利用包括基于能量和基于斜度的多种技术中的一种，估计已记录图像Ik-1和Ik的图像速度。所得到的图像速度确定与以一致方式运动的3D刚性物体相关的区域中的象素速度，并且对应于前景3D物体和相应的2D图像区域。
基于图像速度估计的结果以及其它的视觉属性，图像区域然后被分段以便确定与前景物体相关的部分。这导致可以适当地进行后处理的图像区域用相关的Alpha映射来填充间隙。
可以通过计算几何学技术从该图像区域产生形状模板(shapetemplate)的紧缩组。一种简单的表示是按照矩形形状近似。例如，镶嵌是平面延伸的图像编码非冗余信息，根据全部区域(worldregion)中相关的相对深度而在分层中出现，并且通过递归算法递增地产生。在这种算法的每一步中，最近一个预先产生的镶嵌与当前视频序列图像进行比较从而产生了新的镶嵌实例。概括地，分层镶嵌的产生开始于由N个连续帧组成的视频序列{I1，...，IN}，每个帧都具有一个相应的在{α1，...，αN}中的紧缩的Alpha映射α。通过填充镶嵌区域的内部来从紧缩视频内容算子中得到每个Alpha映射，该Alpha映射是一个在内部区域为1而在其它地方为0的二进制图像。
假设已经采用了关于相对深度的信息(即相对于背景图像的每个前景物体的相对顺序和所有前景物体的相对顺序)并且在L级内辨别每个镶嵌平面是可能的，一组L镶嵌{Φ1，...，ΦL}，其中第i个镶嵌Φri在最初的步骤r＝1通过Φ1i＝α1iI1来计算，在随后的步骤r＝2，...，N中通过递归地结合Alpha映射组{α2i，...，αNi}和{I1，...，IN}来计算，从而为每一步r产生Φri。
最后，确定任何补充图像区和形状模板以及描述全面表示视频内容信息所需的图像速度和其它视觉属性的辅助信息。视频结构产生的结果是一组紧缩视频内容算子、一组分层镶嵌、和辅助信息。图像再利用集中于降低图像的复杂度。例如，图像可以被转换到色彩、亮度、纹理、运动等等的平滑数值区域中。一种用于该任务的可能的普通技术是最小化价值函数(cost function)E(I,Γ)=&Integral;&Integral;R(I(x,y)-IM(x,y))2dxdy+&Integral;&Integral;R-T||&dtri;I(x,y)||2dxdy+v|Γ|--(3)]]>其中I(·，·)表示要被估计的图像区域R，IM(·，·)表示实际的(原始)图像，以及&dtri;I(x,y)=(&PartialD;I(x,y)&PartialD;x,&PartialD;I(x,y)&PartialD;y)---(4)]]>实际上，图像区域R＝∪iRi+Γ，而且全部的边界Γ环绕整个区域R。在方程式(3)中的第一项确定实际图像和平滑图像之间的“误差”，第二项确定“平滑度”项，以及第三项与边界长度|Γ|成比例，其中v是一个常量。对于动作(actuation)实现，方程式(3)应该被适当地离散，也就是，通过各项之和来近似。
在分析方程式(3)时，应该注意到，I(·，·)和IM(·，·)表示被平滑的视觉属性。例如，如果平滑图像速度V(·，·)，那么I(·，·)＝V(·，·)，等等。
可替换地，可以通过利用方程式(3)的简化版本将图像转换成动画图像IC，其中I(·，·)被限定于片段常量值I(·，·)→K。更精确地，对于每个区域Ri来说，I(·，·)的数值被近似为Ii(·，·)＝Ki，Ki具有区域Ri内的常数实数值。如果μ是一个常数，那么方程式(3)可以被近似μ-2E(I,Γ)=Σi&Integral;&Integral;Ri(I-IM)2dxdy+v0|T|--(5)]]>其中v=vμ2]]>。可以看出Ki=meanRi(IM)=&Integral;&Integral;RiIM(x,y)dxdyarea(Ri)--(6)]]>I(·，·)的动画为给定的属性创建一个常量区域。当区域边界以黑色标记时，一个完整的动画被完成。动画图像IC是原始图像非常简化的版本，它保持着原始图像I的主要特征。
从原始到合成的视觉信息转换是内容再利用的一个重要应用。可以使用3D网格将原始的3D物体转换成合成的3D物体；可以使用具有2D网格的透视和投影转换的组合将原始的3D物体转换成合成的2D物体；可以使用2D网格和计算几何学工具将原始的2D物体转换成合成2D物体。
音频再利用包括依照已知技术进行的语音到电文转换，通过声音识别产生音素，然后从音素转换为文本。在本发明中，音素应该被看作是基本元素的紧缩集，通过它们并利用字典来产生文本信息，这将在下面更详细地描述。
模态间内容再利用与不同模态之间再利用多媒体信息一致。通常，模态间内容再利用的框架包括(i)多媒体内容分段，(ii)模板/模型匹配；(iii)交叉模态翻译词典的使用。当处理多媒体信息时，关于复杂度的总体层次存在于三种组成元素(视觉、音频和文本)中，依下列各项视觉(视频)→视觉(图画)→音频→文本 (7)因此，跨越这些不同模态的转换应该按照方程式(7)中定义的流程。虽然不必如内容层次那样规定，但这个模式对于表示各种模态内的内容所需要的比特来说是必需的。
对于依照方程式(7)中定义的流程的内容再利用的一种普通技术是将所有的视觉和音频信息转换为文本描述。视频到静态图像的转换通常通过视频序列中的子采样帧来执行，关于观察点(或透视)的内容信息的转换较不常见。
在本发明中，当将视频转换成文本时，在文本域中给出紧缩视频内容(视频结构)的描述。类似地，紧缩图像内容被转换成为文本描述。在视频到图像的转换中，通过向那些区域应用紧缩图像内容算子访问视频结构的特定区域(信息)。
图3举例说明了根据本发明一个实施例利用紧缩信息的模态间内容再利用。通常，在本发明中通过使用紧缩信息(例如，视频结构，图像动画)来执行跨越多媒体模态的内容再利用。表示给定模态的紧缩元素之间的转换使用一种紧缩信息格式，它在从视频帧/场到静态帧或者文本的转换中是重要的。
在系统300中，采用单独的视频、音频和文本输入301-303，对于来自独立输入或者视频输入301子采样的静态图像采用附加输入304。如上所述，通过采用一组词典(不个别描述)的模态间内容再利用产生紧缩结构305-308，该词典翻译不同模态的紧缩内容元素组之间的信息。跨模态的词典定义如何在给定模态中描述紧缩内容信息，它可以是文本的和/或基于专用形式或采用统一标准(例如，MPEG-7，TV-Anytime和/或SIMPTE)的元数据。应该使用这些特别适合从视频到图像转换的描述来执行不同模态元素之间的翻译。当从视频、图像或音频转换成文本时，该描述表示在不同细节级别可以实现的解释。这种类型的词典的结构和功能在上述在此引入作为参考的交叉引用申请中更详细地描述了。
本发明可以在一个在数据库内包含内容的连续访问内容服务器上实现，以便为了移动访问这种内容而再利用内容。该内容可以在移动设备对这些内容进行的任何请求之前(例如，当内容被加载以便从服务器访问时)或者在响应特殊设备对移动设备内的可用资源定制内容的特定请求时被再利用。特别地，本发明可以有利地在利用传输收敛协议(TCP)或无线传输协议(RTP)的无线通信中使用以便向定制的PDA、迷你膝上型电脑等提供因特网访问。
特别要注意的是，虽然本发明已经在一个完整功能系统的上下文中进行了描述，本领域的那些技术人员将会理解，本发明机制的至少一部分能够以包含多种形式指令的机器可用介质的形式分布，并且本发明不管实际用来执行分发的承载信号的介质的特殊类型，本发明同样适用。机器可用介质的实例包括非易失性的、硬件编码类型的介质，例如只读存储器(ROM)或电可擦除可编程只读存储器(EEPROM)；可记录类型的介质，例如软盘、硬盘驱动器和光盘只读存储器(CD-ROM)或者数字通用光盘(DVD)；以及传输类型介质，例如数字和模拟通信链接。
虽然本发明已经进行详细的描述，但是本领域的那些技术人员将会理解，这里所公开的本发明的各种变化、替换、变更、增强、细微差别、等级、更少形式、改变、修订、改善和除去可以在不偏离本发明其最宽形式的精神和范围的情况下进行。
权利要求
1.一种用于多媒体内容再利用的系统100，该系统包括产生内容结构208的控制器200，300，该内容结构是内容信息的紧缩表示并且包括视频内容的内容算子，其中，该内容结构208适合于在模态内或者模态之间的内容转换。
2.如权利要求1所述的系统100，其中，通过记录序列中的连续图像来形成视频内容的视觉内容算子306，估计已记录图像的图像速度，对图像区域分段以识别前景物体，并且产生形状模板。
3.如权利要求1所述的系统100，其中，内容结构208包括视频内容的分层镶嵌209，它是从通过剪贴操作递归地结合的连续图像的Alpha映射中导出的。
4.如权利要求1所述的系统100，其中，视频内容的内容结构208被用来将该视频内容中的图像转换到一种或者多种色彩、亮度、纹理和运动的平滑数值区域。
5.如权利要求1所述的系统100，其中，视频内容的内容结构208被用来将该视频内容中的图像转换为类似动画的图像。
6.一种用于多媒体内容再利用的系统100，包括-能够有选择地访问多媒体内容的移动设备102；以及-包含传送到移动设备的多媒体内容的服务器101，该服务器101包括产生内容结构208的控制器200，该内容结构是内容信息的紧缩表示并且包括视频内容的内容算子，其中，该内容结构208适合于在模态内或者模态之间转换内容。
7.一种多媒体内容再利用方法，包括产生内容结构208，该内容结构是内容信息的紧缩表示并且包括视频内容的内容算子，其中，该内容结构208适合于在模态内或者模态之间转换内容。
8.如权利要求7所述的方法，其中，产生视频内容的内容算子的步骤还包括-记录序列中的连续图像；-估计已记录图像的图像速度；-对图像区域分段以便识别前景物体以及产生形状模板。
9.如权利要求7所述的方法，其中，产生视频内容的内容结构208的步骤还包括通过剪贴操作递归地结合连续图像的Alpha映射，以便形成分层镶嵌209。
10.如权利要求7所述的方法，还包括采用视频内容的内容结构208将该视频内容中的图像转换到一种或者多种色彩、亮度、纹理和运动的平滑数值区域。
11.如权利要求7所述的方法，还包括采用视频内容的内容结构208将该视频内容中的图像转换为类似动画的图像。
12.一种包括从内容结构208产生的多媒体信息的信号，该内容结构是内容信息的紧缩表示并且包括视频内容的内容算子，其中，该内容结构208适合于在模态内或者模态之间转换内容。
13.如权利要求12所述的信号，其中，通过记录序列中的连续图像来形成视频内容的视觉内容算子，估计已记录图像的图像速度，对图像区域分段以便识别前景物体以及产生形状模板。
14.如权利要求12所述的信号，其中，该内容结构208包括视频内容的分层镶嵌209，它是从通过剪贴操作递归地结合的连续图像的Alpha映射中导出的。
15.如权利要求12所述的信号，其中，视频内容的内容结构208被用来将该视频内容中的图像转换到一种或者多种色彩、亮度、纹理和运动的平滑数值区域。
16.如权利要求12所述的信号，其中，视频内容的内容结构208被用来将该视频内容中的图像转换为动画图像。
全文摘要
与无线通信相关的综合性多媒体内容再利用采用了作为内容信息的紧缩表示的内容结构。对于视频内容来说，该结构是为序列中的物体表示2D图像区域和/或3D体积区域的内容算子，并且由多种视觉属性来表征，该结构通过利用视频处理技术的分段从视频序列中抽取出来。该结构被用在模态内和模态间变换中以便适应移动设备的资源限制。
文档编号G06T1/00GK1600032SQ02824033
公开日2005年3月23日申请日期2002年12月2日优先权日2001年12月4日
发明者R·S·贾辛斯奇申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R.S.贾辛斯奇
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：多媒体信息的分布处理、存储和传送的制作方法
上一篇：使用Kernel Fisherfaces的面部识别的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。