数据传输的制作方法

文档序号：7599346阅读：143来源：国知局

专利名称：数据传输的制作方法
技术领域：
本发明涉及数据传输，特别是但不是唯一涉及表示如视频的图像序列的数据的传输。其尤其适合于对错误和数据丢失敏感的线路上的传输。
在过去的几年中，通过互联网可获得的多媒体内容的数量有了显著增长。因对移动终端的数据发送速率已高到足以使这些终端能够检索多媒体内容，现在需要移动终端能够从互联网检索视频和其他多媒体内容。高速数据分发系统的一个例子是即将到来的GSM阶段2+。
这里用到的术语多媒体用于声音和图像，或仅用于声音以及仅用于图像。声音可包括语音和音乐。
互联网上的网络通信量基于一种称为互联网协议(IP)的传输协议。IP涉及从一个地点到另一个地点传输数据包。其通过中间网关实现包的路由，也就是，其能够使数据发送到没有直接连接到同一物理网络的机器上。由IP层传输的数据单元称为IP数据报。由IP提供的分发服务是无连接的，也就是IP数据报彼此独立地在互联网中路由。因为对于任何特定连接在网关中没有永久约定资源，网关可能因缺少缓存空间或其他资源偶尔丢弃数据报。因此，由IP提供的分发服务是一种最佳努力服务，而不是保证服务。
互联网多媒体典型地是用户数据报协议(UDP)、传输控制协议(TCP)或超文本传输协议(HTTP)上的流。UDP是一个无连接的轻量传输协议。其在IP提供的服务之上几乎不提供什么。其最重要的功能是在特定传输端点之间分发数据报。因此，传输应用必须关心如何将数据分组成数据报。UDP用到的头部包括一个校验和，使得接收端的UDP层能够校验数据的有效性，否则，IP数据报的降级会进而影响UDP数据报。UDP不检测数据报已经接收，不重新发送丢失的数据报，也不保证数据报按与发送相同的顺序被接收。
UDP因不重发数据而得到一种较小延迟的相对稳定的吞吐量。因此其用于检索应用中来应付网络拥塞的影响并在接收端减少延迟(和抖动)。但是，客户端必须能够从包丢失和可能隐蔽的丢失内容中恢复。即使有重新构建和隐藏，重新构建Clip的质量也受一定影响。另一方面，Clip的播放可能没有讨厌暂停的实时发生。无论在公司或是其他地方的防火墙因UDP是无连接的可能阻止其使用。
TCP是面向连接的传输协议，并且使用它的应用可以传送或接收一系列字节而没有UDP中明显的边界。TCP层将字节流划分成分组，在IP网上发送分组并且保证分组是没有错误的并按正确顺序接收。TCP如何工作的基本思想如下。每次TCP发送一个数据分组时，其启动一个计时器。当接收端接收到一个分组时，其立即发送一个确认返回到发送端。当发送端接收到确认时，其知道一切正常并取消计时器。但是，如果IP层丢失发出的段或返回的确认信息，则发送端的计时器期满。在这一时刻，发送端将重新发送数据段。现在，如果发送端在发送下一数据分组前等待每个分组的确认信息，则整体传输时间将比较长并且依赖于发送端和接收端之间的往返行程延迟。为解决这个问题，TCP采用滑动窗口协议使得网络中可以出现几个未确认分组。在这个协议中，确认分组包括填有客户端愿意接收字节数(当前确认的除外)的域。这一窗口大小域指示客户端可用的存储输入数据的缓存空间的数量。发送端在最新接收窗口大小域指示的限制内传输数据。滑动窗口协议意味着TCP有效地有一个慢启动机制。在连接开始时，发送端能够发送下一个分组之前第一个分组必须被确认。典型地，客户端则按指数规律增加窗口大小。但是，如果网络拥塞，窗口大小就减小(以避免拥塞并避免接收缓存溢出)。窗口大小如何改变的细节依赖于使用的特定TCP实现。

图1显示了一个多媒体内容创建和检索系统。该系统有一个或多个媒体源，如摄象机和麦克风。替代地，多媒体内容也可以无须自然媒体源合成地创建，如动画计算机图形和数字生成音乐。为了组成一个由不同媒体类型，如视频、音频、文本、图像、图形和动画组成的多媒体片，从源捕获的初始数据在编辑器中编辑。典型地原始(未压缩的)多媒体数据占用的存储空间是巨大的。对于包括不同媒体混合的视频序列，如动画，可达数兆字节。为了在如28.8kbps和56kbps的低比特率信道上提供有吸引力的多媒体检索服务，多媒体片在编辑阶段进行了压缩。这典型地发生在离线时。然后这些片传送到多媒体服务器。典型地，多个客户端可通过一个或多个网络访问该服务器。该服务器能响应客户端提出的请求。该服务器的主要任务是将想要的多媒体片传送到客户端由其解压缩并播放。在播放期间，客户端利用一个或多个输出设备，如屏幕和扬声器。在有些情况下，在数据仍在下载时客户端就能够开始播放。
利用为整个数据片提供类似服务质量的单一信道可以方便地发送一个数据片。替代地可以利用不同的信道发送数据片的不同部分，例如一个信道上发送声音，而另一个信道上发送图像。不同信道可提供不同的服务质量。在这一上下文中，服务质量包括比特率、丢失或误码率以及传输延迟变化。
为确保发送足够质量的多媒体内容，其在可靠网络连接上提供，如TCP，其确保接收的数据是无错误的并按正确的顺序。丢失或被破坏的协议数据单元重新发送。因此，信道吞吐量差别很大。当丢失或被破坏的协议数据单元重新发送时甚至引起多媒体流重放的暂停。多媒体流重放的暂停是令人烦恼的。
有时丢失数据的重传不由传输协议处理而是由一些更高级的协议处理。这种协议能够选择多媒体流中最关键的丢失部分并请求这些部分重传。最关键的部分例如可以用于预测流中其他部分。
为更好地理解本发明，下面对检索系统元件，也就是编辑器、服务器和客户端进行描述。
图2显示了多媒体片编辑器执行的操作的典型顺序。从一个或多个数据源捕获初始数据。捕获通过使用硬件、硬件专用的设备驱动器以及控制设备驱动器使用硬件的捕获应用而完成。捕获硬件由如连接到PC视频捕获卡的视频摄象机组成。捕获阶段的输出通常是未压缩数据或与未压缩数据相比具有不相关质量下降的稍微压缩的数据。例如，视频捕获卡的输出可以是未压缩YUV 4∶2∶0格式或运动JPEG格式。
在建议ITU-R BT.601-5“Studio Encoding Parameters of DigitalTelevision for Standard 4∶3 and Wide-Screen 16∶9 Aspect Ratios(标准4∶3和宽屏16∶9纵横比数字电视的演播室编码参数)中定义了YUV彩色模式和可能二次采样方案。在建议ITUT H.261“Video Codec forAudiovisual Services at p x 64kbits(p x 64kbits视听服务的视频编解码)”(第3.1节“Source Formats(源格式)”)中定义了相关数字图像格式，如CIF、QCIF以及SQCIF。
在编辑期间，分离媒体轨道在单一时间线上捆绑在一起。还可以用各种方式编辑媒体轨道，例如降低视频帧速率。每个媒体轨道可以压缩。例如，未压缩YUV 4∶2∶0视频轨道可利用低比特速率视频编码的ITU-T建议H.263进行压缩。如果压缩的媒体轨道是复用的，其隔行扫描以形成单一比特流。然后该片传送给多媒体服务器。为提供比特流多路复用并不是必须的。例如，不同媒体组件，如声音和图像可通过传输层中分组头信息识别。不同UDP端口号可用于不同媒体组件。
图3显示了多媒体服务器执行的操作的典型顺序。典型地，多媒体服务器有两种操作模式；其发送预存的多媒体片或实况播送(实时)多媒体流。在第一种模式中，片存储在服务器数据库中，然后由服务器按需访问。在第二种模式中，多媒体片以立即传送给客户端的连续媒体流传送给服务器。客户端通过一种至少能选择需要媒体片的合适的控制协议控制服务器的运行。除此之外，服务器可以支持更高级的控制。例如，客户端可以停止片的传输，暂停和恢复片的传输以及在传输信道吞吐量变化服务器必须动态调整比特流以适合可用带宽的情况下控制媒体流。
图4显示了多媒体检索客户端执行的操作的典型顺序。客户端从多媒体服务器获得压缩的并多路复用的媒体片。客户端多路分解媒体片以获得单独的媒体轨道。然后对这些媒体轨道解压缩以提供重新构建的媒体轨道由输出装置播放。除了这些操作，还提供与终端用户交互的控制器单元，用于按照终端用户的输入控制播放以及处理客户服务器控制流量。应当指出多路分解-解压缩-播放链可以在片的第一部分完成同时继续下载片的后续部分。这通常称为流。流的替代方式是将整个片下载到客户端然后对其多路分解、解压缩和播放。
对信道变化吞吐量问题的一种典型解决方法是，在开始播放和/或按信道吞吐统计数字实时调整传输比特率之前，在客户端缓存多媒体数据。
解决暂停问题的一种方式是在多媒体服务器上使用动态比特率调整。但是，服务器对网络拥塞的反应不足以快到可以避免客户端的暂停。除此之外，服务器不能控制TCP(或其他基本协议如IP)的重传机制。
即使使用动态比特率调整，客户端无论如何还必须做一些初始缓存以避免由重传引起的发送延迟。如果假设有固定信道比特率，就可以计算一个数据单元假定被完全接收的时间点。除此之外，还可以计算出一个数据单元假定被播放的时间点。这两个时间点之间的时间差称为安全时间。定义安全时间的另一种方式是规定为在播放中不引起暂停的两个连续接收数据单元之间的最大时间。
当为片计算安全时间时，每个数据单元必须单独考虑。计算假定在当前被处理的数据单元之前没有出现吞吐量下降。如果信道的最大吞吐量等于多媒体片的平均比特速率，客户端在吞吐量下降后不能从接收比特数量的下降中恢复。确保对吞吐量下降的一些保护的唯一方式是在开始播放前缓存一些数据。如果信道停止提供数据，当缓存中有数据时客户端仍可以播放流。因此，平均安全时间大致等于初始缓存时间。因为片的比特率不同，安全时间也不同并且最小安全时间等于或小于初始缓存延迟。
HTTP，超文本传输协议是万维网(WWW)的基础。它是一个简单协议。客户端建立一个到服务器的TCP连接，发出一个请求并且读取服务器的响应。服务器通过关闭连接指示其响应的结束。协议层的协议典型地是IP上的TCP上的HTTP。
最常用的HTTP请求称为GET。GET请求与唯一指定被请求项的通用资源标识符(URI)相关。服务器通过返回对应特定URI的文件来响应GET请求。服务器返回的文件通常包括到位于其他服务器上的其他文件的指针(超文本链接)。因此用户可以方便地沿链路从文件到文件。
互联网多媒体检索使用的服务器是专用多媒体服务器或一般WWW服务器。
专用多媒体服务器典型地能够在HTTP、TCP和UDP协议上传输。其能够动态重新调整多媒体片的内容以满足可用网络带宽并且避免网络拥塞。其还可以支持快速前进和快速倒带操作以及实时多媒体流。其可以同时提供许多流。
基于一般WWW服务器的多媒体服务器也称为无服务器或HTTP多媒体解决方案。多媒体片在HTTP上流动。因为这种类型的服务器对流的内容没有控制，所以不能使用流(带宽)控制，并且不能响应网络拥塞。因此，播放时会出现突然的暂停。因此在开始播放之前客户端必须有相当长的初始缓存延迟以避免这种突然暂停。从标准WWW服务器上进行多媒体流快进是不可能的。实时多媒体流必须采用特殊技巧如Java编程来实现。
当接收到流多媒体片时，可以采用合适的独立媒体播放器应用或浏览器插件来播放。这种多媒体播放器在不同浏览器之间差别很大。较新的浏览器可能有一些用于最流行流视频播放器的集成插件。
在移动终端及其网络间传输数据有许多不同的数据传输方法可用。最有名的方法是GSM(全球移动通信系统)。
称为电路交换数据(CSD)的当前GSM数据业务提供9.6kbps电路交换信道。GSM打算提供具有前向纠错(FEC)和状态信息的14.4kbps数据信道。高速电路交换数据(HSCSD)提供在同一时间为单一用户提供多个9.6kbps或14.4kbps时隙。有对称和非对称连接。在对称连接中，对称分配空中接口资源，并且在两个方向提供相同的数据传输速率。在非对称连接中，上行链路和下行链路支持不同的数据速率。但是，非对称空中接口连接只在非透明模式(见下文)中应用。
电路交换GSM数据系统，CSD和HSCSD，提供两种基本的连接类型，也就是透明(T)和非透明(NT)。两者通过纠正传输错误的方式进行辨别。在透明连接中，纠错只由射频接口传输方案提供的前向纠错机制完成。连接被看作是同步电路。可用吞吐量是恒定的，并且传输延迟是固定的。传输的数据可能包括比特反转错误。在非透明连接中，虽然端到端的服务是电路交换的，但GSM电路连接被看作是分组(或帧)数据流。每一个帧包括冗余比特以便使接收机检测剩余错误。因无线频率通道中的干扰，有两种错误源，掉包和错包。后者可通过冗余检测恢复。对帧中剩余错误采用无线连接协议(RLP)提供重新传输。如果发现帧是正确的，接收机确认这一事实。如果发现是不正确的，就发送否定确认并重传指定帧。因此非透明连接是没有错误的，但是吞吐量和传输延迟有变化。
还存在其他网络类型，如GPRS(通用分组无线系统)。在GPRS中，传输是真正基于分组的。
视频序列由一系列静止图像组成。视频压缩方法是基于减少冗余和视频序列的知觉地不相关部分。视频序列的冗余可分为空间、时间和频谱冗余。空间冗余指相邻像素之间的相关性。时间冗余指相同对象出现在连续图像中。减少空间冗余减少表示一个特定图像序列所需的数据的数量并且因此压缩数据。这可以通过生成描述当前和前一个(参照)图像之间运动的运动补偿数据实现。实际上，当前图像从前一图像推算出来。频谱冗余指相同图像的不同颜色成分之间的相关性。
简单减少序列的冗余通常不能将其充分压缩。因此，一些视频编码器试图降低视频序列中主观上最不重要部分的质量。除此之外，通过压缩参数和系数的有效无损失编码减少已编码比特流的冗余。主要技术是采用变长编码。
视频压缩方法典型地在能够采用时间冗余缩减的图像和不能采用时间冗余缩减的图像之间不同。不使用时间冗余缩减方法的压缩图像通常称为INTRA或I-帧，而时间预测图像称为INTER或P-帧。在INTER帧情况下，预测(运动补偿)图像很少足够精确，因此空间压缩预测错误图像也与每个INTER帧相关。
时间伸缩性通过增加图像显示速率提供了一种增强知觉质量的机制。这通过采用一对连续参照图像和从其中之一或两个中得到的双向预测B-图像获得。然后B-图像可以按在两个定位图像之间顺序显示。这一点在图5中进行了说明。双向时间预测比单向预测生成了一个更准确的预测图像。因此，在相同的量化级别与前向预测的P图像相比，提高了压缩率。B-图像不用作参照图像，也就是永不从中预测其他图像。因为其可以被丢弃而不影响将来图像的图像质量，所以其提供了时间伸缩性。应当指出，虽然B-图像比P-图像提供更好的压缩性能，但其构建也更复杂并且需要更多存储器。而且因双向内插需要接收两个参考图像并且需要额外的计算，会引入额外的延迟。除此之外，B-图像需要比特流中更多的附带信息。
术语可伸缩性指压缩序列以不同数据速率解码的能力。换句话说，可伸缩多媒体片在压缩时可以相对容易的编辑，因此可以在不同带宽的信道上流动并且实时地解码和播放。
可伸缩多媒体典型地是有序的因此有数据的分级层次。基础层包括多媒体片的基本表示，而增强层包括基础层之上的精细数据。因此，增强层改善了片的质量。
可伸缩性对于异构和易出错的环境来说是一个想要的属性。需要该属性来反限制如比特率、显示分辨率、网络吞吐量以及编解码器复杂程度上的限制。
可伸缩性可用于改善分层编码与传输优先次序相结合的传输系统中的错误复原能力。术语传输优先级别这里指在包括不对称错误保护的传输中提供不同质量的服务，及提供不同错误/丢包率的不同信道的各种机制。根据其特性不同，数据分配也不同，例如，基础层可通过有高级错误保护的信道发送，而增强层可通过更容易出错的信道传输。
通常，可伸缩多媒体编码比不可伸缩编码有更差的压缩效率。换句话说，以带有所有增强层的可伸缩多媒体片编码的多媒体片比以相同质量的非压缩单层片编码需要更大的带宽。但是，这一普遍规则也存在例外，例如视频压缩中的时间可伸缩B-帧。
下面，将参照ITU-T H.263视频压缩标准论述可伸缩性。H.263是在通常指数据速率低于64kbps的低比特速率通信中用于视频编码的ITU-T建议。该建议规定了比特流语法和比特流解码。目前，H.263有两个版本。版本1由核心算法和四个可选编码模式构成。H.263版本2是版本1的扩展，提供12种新的可协商编码模式。
图像以亮度和两个颜色差别(色度)成分(Y、CB和CR)编码。与亮度图像相比，色度图像沿两个坐标轴按一半像素采样。
H.263的可伸缩性模式(附件0)规定了支持时间、信噪比(SNR)以及空间可伸缩性性能的语法。
空间可伸缩性和SNR可伸缩性密切相关，唯一的区别是由空间可伸缩性提供的增强的空间分辨率。图6显示了SNR可伸缩图像的一个例子。SNR可伸缩性指多速率比特流的创建。其考虑编码错误的恢复，或初始图像及其重建图像之间的差别。这一点通过采用更好的均衡器在增强层对差别图像编码来实现。这一附加信息增加了整个重生成图像的SNR。
空间可伸缩性考虑多分辨率比特流的创建以满足变化显示需求和/或限制。图7显示了一种空间可伸缩结构。除了空间增强层试图恢复重建参考层图像的上采样版本和初始图像的更高分辨率版本之间的编码损失之外，其基本上与SNR可伸缩性相同。例如，如果参照层有四等分通用中间格式(QCIF)分辨率，并且增强层有通用中间格式(CIF)分辨率，则参考层图像必须相应地缩放，以便从中可以预测增强层图像。对于单一增强层，QCIF标准允许在垂直方向、水平方向、或垂直和水平两个方向按2的系数增加分辨率。可以有多个增强层，每个在前一个上增加图像分辨率。在H.263标准中明确定义了用于对参考层图像上采样的内插滤波器。除对增强层参考的上采样处理，空间伸缩图像的处理和语法与SNR伸缩图像的相同。
在SNR或空间可伸缩中，增强层图像称作EI-或EP-图像。如果从参考层图像向上预测了增强层图像，则增强层图像称作增强-I(EI)图像。在这种类型的可伸缩性中，参考层指当前增强层“之下”的层。在有些情况下，当参考层图像预测的很差，增强层中出现图像静止部分的过编码，引起不必要的过高的比特率。为避免这个问题，在增强层允许前向预测。从前一个增强层图像的前向预测，或替代的，从参照层图像向上预测的图像称作增强-P(EP)图像。注意计算向上和向前预测图像可以提供EP-图像的双向预测。对于EI-和EP-图像，从参照层图像向上预测暗示不需要运动矢量。在EP-图像的前向预测情况下，需要运动矢量。
在多点和广播多媒体应用中，网络吞吐量上的限制在编码时不能预测。因此，应采用可伸缩比特流。图8显示了IP多信道广播方案，其中每个路由器根据其能力去除比特流。其显示服务器S为多个客户端C提供比特流。比特流通过路由器R路由到客户端。在这个例子中，服务器提供了一个数据片，其可以伸缩到至少三个比特速率，120kbit/s、60kbit/s和28kbit/s。
如果客户端和服务器通过通常的单播连接相连接，服务器试图按照临时信道吞吐量调整传输多媒体片的比特率。一个解决方案是采用分层比特流并且通过改变传输增强层的数量适应带宽变化。
根据本发明的第一个方面，提供了一种按预定顺序在数据信源和数据信宿之间的传输链路上传输具有一系列数据单元的数据信号的方法，包括按相对重要性，而不是预定顺序确定的顺序发送数据单元的步骤。
根据本发明的第二个方面，提供了一种按预定顺序在数据信源和数据信宿之间的传输链路上传输具有一系列数据单元的数据信号的数据传输系统，数据单元按相对重要性，而不是预定顺序确定的顺序发送。
根据本发明的第三个方面，提供了一种按预定顺序在传输链路上传输具有一系列数据单元的数据信号的服务器，数据单元按相对重要性，而不是预定顺序确定的顺序发送。
该服务器优选地包括重排序装置。该服务器优选地包括用于提供可伸缩数据信号的编辑器。
根据本发明的第四个方面，提供了一个存储在计算机用媒介中的计算机程序产品，包括引起具有一系列数据单元的数据信号按预定顺序在传输链路上传输的计算机可读程序装置，数据单元按相对重要性，而不是预定顺序确定的顺序发送。
计算机程序产品优选地包括一个服务器。在这种意义上来说，当计算机程序加载到硬件上时，其使得硬件作为服务器设备运行。计算机程序产品优选地包括用于提供可伸缩数据信号的编辑器。计算机程序产品优选地包括用于对数据单元重新排序的重排序装置。
根据本发明的第五个方面，提供了在数据信源和数据信宿之间的传输链路上传输具有一系列数据单元的数据信号，数据单元按相对重要性，而不是预定顺序确定的顺序发送。
优选地，数据单元或数据单元层排成一个序列而不是其初始的序列，本发明还包括将数据单元或数据单元层返回到其初始序列的装置或步骤。
传输链路简单地可能是拥塞发生的瓶颈，并且本发明用于解决这一瓶颈。
本发明的一个优点是比相同初始缓存的现有技术装置可以提供更大的安全时间。除此之外，其对降低的传输吞吐量提供一定程度的保护。因此有助于减少暂停的发生而不牺牲压缩效率。
本发明还有助于利用不自动重传而仅对如响应反馈的更高级功能选择的那些丢失部分重传的传输协议在不可靠网络连接上进行传输。在这种情况下，其比现有技术装置提供更多时间用于重传数据信号的关键部分。因此，流的关键部分更可能发送成功而数据信号的最终终端用户可能感觉到更好的输出质量。
数据信号可用的传输链路的优选带宽最好是可变的。这可能是因为如重传丢失或破坏数据使得使用链路的数据通信量数量是变化的。
本发明提供了一种改变数据信号使其能够在否则带宽不够或允许传输链路的某些带宽用于其他数据(如控制信息)的传输链路上传输的方式。
本发明优选的作用是相对其他数据单元，或在牺牲其他数据单元安全时间的情况下增加了一些数据单元的安全时间。
数据信号优选地以具有一个基础层和至少一个增强层的层次结构安排。术语基础层指最基本的层。基础层表示数据信号最不精细的版本。在每个单元，当(每个)增强层与基础层结合时，对基础层进行精制使其更象数据单元。每个增强层为基础层增加更多精细信息。基础层优选的安全时间相对增强层的安全时间有所增加。
数据信号优选的是可伸缩的。基础层和/或每个增强层彼此互相有可伸缩关系。信号可在时间、空间或SNR域伸缩。
最好是，依靠序列的重新排序，各层的安全时间依赖于其在层次结构中的位置。例如，特定数据单元的基础层比增强层有更多的安全时间。有利地，由一层表示的精细水平越好，其安全时间越短。
优选的信源是服务器。替代的其是一个编辑器。
优选的信宿是客户机。其可以是数据信号的目的地如象移动电话这样的移动终端。
优选的数据单元是帧。在一种实施方案中，数据单元表示图像序列。方便地，其是视频序列。最优选地，其包括多媒体数据。
需要理解的是术语“层”和“多层”象征性地使用并指可以应用于彼此中的数据块，而不是严格的位置关系。
现在将参考相应附图通过例子描述本发明，其中图1显示了多媒体内容创建和检索系统；图2显示了多媒体片编辑器的操作；图3显示了多媒体服务器的操作；图4显示了多媒体检索客户端的操作；图5显示了B图像预测的图解说明；图6显示了SNR可伸缩性的图解说明；图7显示了空间可伸缩性的图解说明；图8显示了IP多信道广播系统中使用的可伸缩多媒体；图9显示了根据本发明的移动多媒体检索系统；图10显示了根据本发明的编辑器的操作；图11显示了根据本发明的客户端的操作；图12显示了重排序序列和初始序列的安全时间；图13显示了重排序序列的接收和播放；
图14也显示了重排序序列的接收和播放；以及图15显示了另一个多媒体内容创建和检索系统。
图1-8在上面已经论述过。
图9显示了根据本发明的移动多媒体检索系统10。虽然只显示了一个单一客户端22，但应当理解在优选实施方案中，可以有许多这样的客户端。还应当理解，连接服务器18和客户端22的传输链路端口的至少一部分是无线的。
系统10包括生成压缩片的编辑器12、用于存储压缩片的服务器数据库14、用于对压缩片序列重排序的重排序装置16、用于发送重排序压缩片的服务器18以及包括用于恢复压缩片初始顺序的排序恢复装置20。客户端22控制服务器的操作，例如通过规定发送哪些数据以及如何发送。很清楚，重排序装置16和顺序恢复装置20需要兼容，以便后者可以恢复初始顺序。重排序装置16可以设置为不象图9所示的实施方案，而是在数据到达服务器数据库14之前对其进行操作。特定类型的数据，如实况流可能绕过数据库14由编辑器12直接发送到重排序装置16。虽然在图9中分别显示，但编辑器12、服务器数据库14、重排序装置16以及服务器18可以配置在一个也可称作服务器的单一单元或实体中。
图10显示了根据本发明的编辑器的操作。以一个或多个未压缩流形式捕获的初始数据经编辑生成一个或多个未压缩轨道。这些轨道在压缩步骤中压缩生成压缩轨道。压缩轨道多路复用在一起生成压缩多媒体片。多媒体片可伸缩地编码。结果比特流由如视频压缩中的帧的基本单元组成。这些基本单元并不是所有都一样重要；一些是对比特流解码很关键的主要基本单元，而一些是改善比特流质量的次基本单元。次基本单元的消除只引起解码多媒体片的质量损失。事实上，主要基本单元是比特流的基础层而次单元是增强层。
代替将基本单元按初始传输顺序组织，这是通过编辑和初始数据压缩生成基本单元的顺序，发明的方法按主要基本单元优先的顺序对其序列重新排序，以使其在传输顺序中先于次基本单元。根据系统和数据的特性，重排序可以在多路复用处理之前或之后进行。图10显示的是在多路复用之后进行。
采用重排序算法对序列进行重新排序。在优选实施方案中，该算法进行流分析以辨别主要和次要基本单元并收集比特速率统计数据。这些包括每帧的比特数。然后采用迭代重排序步骤对比特流重排序，以最小化由全信道吞吐量完全质量播放及由降低信道吞吐量降低质量播放所需的初始缓存时间。下面给出这种重排序算法的一个例子。应当指出，期望的降低信道吞吐量因为是该算法的一个参数而必须预先估计。可基于如从信道行为获得的统计数据进行估计。
基本单元的重排序意味着即使信道吞吐量出现一些下降，主要基本单元的接收也可能早于播放时间中所指示的。但是，次基本单元易受传输延迟变化的影响，因为该方法安排其恰好在指定播放时间之前接收。因此，即使信道吞吐量下降很多，客户端仍可能不暂停播放的情况下播放主要基本单元。另一方面，次基本单元可以比预定播放时间到达的晚一些并且在播放中用不到。
图11显示了根据本发明的客户端的操作。客户端接收到比特流，重新排序以生成初始压缩片，多路分解以生成压缩轨道，然后解压缩以重新构建轨道。客户端的基本单元顺序恢复步骤可在多路分解之前或之后(依赖于其在内容编辑器中何时发生)使用。图11所示为对应图10所述顺序在多路分解之前进行。在这种方式下，重排序和顺序恢复都用于多路复用比特流。顺序恢复将基本单元重新组织到其自然顺序以解压缩并丢弃所有迟到的次基本单元。
在客户端接收基本单元时，其给出用其应当播放的时间给予该基本单元时间戳。这一时间戳与当前播放时间进行比较。如果时间戳大于当前播放时间，则基本单元不解压缩并且被丢弃。如果时间戳小于当前播放时间，则基本单元解压缩并且在解压缩之后比较两个时间。如果时间戳小于当前播放时间，就播放基本单元。否则，就将其丢弃。
在重排序在多路复用之后进行的特殊情况下，采用的多路复用/多路分解格式必须允许基本单元的重排序和初始顺序的恢复。
图15显示了根据本发明的一个多媒体内容创建和检索系统的另一个视图。系统50包括编辑器52、服务器54和客户端56。
编辑器包括用于将典型图像序列形式的初始数据流压缩成适合传输形式的压缩器58，用于将压缩的初始数据流与其他压缩数据流多路复用在一起生成压缩比特流的多路复用器60，以及用于生成对比特流解码关键的主要基本帧和改善比特流质量的次基本帧的层生成装置62。
服务器54包括用于根据其在客户端56帮助重建初始数据流方面的重要性顺序，而不是自然序列顺序排列帧的重排序装置64。
服务器54和客户端56都包括传输/接收装置66和70，各自用于在服务器54和客户端56之间的传输链路68上进行数据传输。
客户端56包括用于将帧放回其自然序列顺序的顺序恢复装置72，用于将比特流多路分解的多路分解器74，以及用于将压缩数据流解压缩以重新生成初始数据流的解压缩器76。客户端包括用于播放或输出初始数据流的播放/输出装置78。客户端还包括对服务器54应用控制信号以响应客户端56中接收的帧来控制重排序装置的控制器80。
举例采用H.263兼容编码器和帧重排序工具的本发明的一个实施方案经过了测试。编码器能够生成B-帧。重排序工具包括重排序算法并且能够调整以便对不同下降的信道数据速率进行帧排序。
采用了称为Glasgow的视频帧标准ITU-T测试序列。该序列具有QCIF分辨率，也就是176×144像素的亮度图像大小和88×72像素的色度图像大小。
Glasgow序列的最初297帧经压缩生成包括INTRA(I)帧、INTER(P)帧和双向预测(B)帧的临时可伸缩比特流。I和P帧称作主要帧，而B帧称作次要帧。初始(缺省)序列的帧速率是每秒12.5帧(fps)，这样压缩序列对应于23.68秒。每个帧是压缩的。第一帧是INTRA帧，而第二帧是INTER帧。然后，是替代INTER帧和B帧。采用一个恒定的均衡器生成由主要帧平均比特率28984bps和次要帧平均比特率12089bps组成的平均比特率41073bps的比特流。
为简单起见，该例子没包括比特流与其它比特流的多路复用。
对应主要帧比特率(A)和次要帧比特率(B)的(i)25％；(ii)50％；以及(iii)75％之和的比特率单独优选帧序列的重新排序。应当指出，100％次比特率(B)对应于获得完全质量播放需要的平均比特率。求和的比特率分别是32007、35029和38051bps。为方便起见，在下面的描述中，这些比特率称作25％(A+0.25B)、50％(A+0.5B)和75％(A+0.75B)，并且相应的重排序序列称作25排序、50排序和75排序。希望信道的全速率是序列的平均比特率。
重排序算法采用两个值FQFR(全质量全速率)，是假设全速率信道时确保全质量播放的最小初始缓存时间；以及RQRR(降低质量降低速率)，是播放主帧而不播放部分或全部次帧(假设降低次比特率为25％、50％或75％)以确保降低质量播放的最小初始缓存时间。
在为特定信道计算FQFR和RQRR时，该算法假设有恒定比特率。采用比特率统计数字计算每帧可能的比特数。从时间戳可以知道播放特定帧的时刻。通过帧准备好作为图像显示(当然考虑接收帧比特和准备的时间)来确定时间，并且这个时间与该帧的时间戳进行比较。如果帧在将被显示之后接收，就增加缓存时间，如果其及时接收则可以处理下一帧。一旦算法将所有帧接收的可能时间与其播放时间进行了比较，并且相应地调节了缓存时间以便能及时接收所有帧，则最小缓存时间就计算出来了。
该算法用于有初始顺序的序列。在这种情况下，FQFR小于RQRR，因为为获得全质量播放，如果有降低速率信道，就必须等更长的时间再开始播放。该算法寻找以最小化全信道吞吐量的全质量播放以及同时降低信道的降低质量播放所需要的初始缓存时间。换句话说，该算法试图找到FQFR和RQRR大致相等的一个值。应当指出该算法并不是最佳的，也就是说该算法不是必须对序列重排序以便找到最小初始缓存延迟。该算法由以下步骤组成1、计算FQFR和RQRR。
2、如果FQFR大于或等于RQRR，则停止重排序。最小初始缓存延迟是FQFR和RQRR中的较大的一个。否则，继续下一步。
3、按一帧的步幅将所有主帧向序列开始处移位。例如，如果初始序列是I0，P1，P2，B3，P4，B5，P6，B7，P8，B9，P10，...，移位将序列改变为I0，P1，P2，P4，B3，P6，B5，P8，B7，P10，B9，...，其中I0是第一帧。可以看出，在次帧的顺序位于相邻主帧前的地方，主帧和次帧的位置交换。
4、从步骤1继续。
在降低比特率信道中确保无暂停播放需要的缓存时间对于初始序列比重排序序列大。希望有短的初始缓存时间。重排序处理使得全速率信道需要的最小缓存时间和期望降低速率信道需要的最小缓存时间之间有一个折衷。没有重排序，在全速率信道中提供全质量播放需要更少的初始缓存时间。但是，没有重排序，在降低速率信道中提供降低质量播放需要更多的初始缓存时间。
在这个例子中，还研究了安全时间。初始缓存时间在25％次比特率对于重排序序列的降低质量播放设置为最小值。图12显示了安全时间是如何随着25排序序列和初始顺序序列变化的。其显示出在播放期间，25排序序列(由上面的线表示)比初始排序序列有更长的安全时间。
对50％和75％次比特率也得到了结果。在下表中显示了对于所有三个降低比特率序列中所有主帧的平均安全时间(以秒为单位)。安全时间以最小安全时间和平均安全时间为特征。
25％ 50％ 75％最小重排序4.79 2.51 1.06缺省 3.46 1.63 0.64不同 1.33 0.88 0.42平均重排序5.90 3.51 2.12缺省 4.66 2.83 1.84不同 1.24 0.67 0.28可以看出重排序序列的最小和平均安全时间都比初始序列的长。
相反的，下面的表格显示了对于不同平均比特率全质量播放以秒为单位需要的缓存延迟。这是为了最小化播放中的暂停。
25％ 50％ 75％重排序10.04 6.03 3.53缺省 7.02 4.64 3.02可以看出，对于全质量播放，因为次帧不是按自然顺序传输并且需要将所有帧放回自然顺序的时间，所以重排序序列需要更长的缓存延迟。但是，因为本发明提出提供最小初始缓存延迟的降低质量播放，所以这一点并不重要。为说明这一点，下表显示了为确保无暂停降低质量播放需要的缓存延迟25％50％75％重排序 5.283.492.47缺省 6.914.462.84这些结果显示在传输信道比特率降低的地方，发明的方法在播放能够开始之前需要更短的缓存延迟。
图13说明了本发明的效果，显示了25％比特率(也就是上述的A+0.25B)的25排序序列的播放。播放时间(也就是帧想要或假设播放给观众的时间)以直线表示。为了按顺序播放，不需要暂停，每一帧必须在其播放时间之前被接收。位于播放时间线下面的任何符号表示在预计播放时间之前接收的帧，而位于播放时间线上面的任何符号表示在预计播放时间之后接收的帧。在图13的例子中，主帧都及时接收以便播放，而次帧都接收得太迟了。因此次帧全部丢弃没有播放。
需要理解的是，如果序列没有重新排序，可能一些主帧会在其播放时间之后到达，并且因此需要暂停播放(因为没有丢弃从主帧预测的所有帧，主帧不能丢弃)。
图14显示了当信道吞吐量没有降低时如何接收和播放25排序序列。可以看出所有帧都及时接收以供播放。再次，上面的线表示次帧接收的时间，而下面的线表示主帧接收的时间。
当然，图13和14的确切外观依赖于初始序列的特性，以及比特率和执行的重排序。在以不同方式对数据重排序的其他系统中可有不同。
在使用中，本发明可以在线应用以便为一些将来的点准备传输比特流。例如，假定给定传输信道的可用带宽有显著变化，可对比特流应用该算法并且为一些替代带宽，如25％、50和75％计算重排序序列。在传输中，如果遇到问题，例如出现暂停，当前使用的重排序序列可以改变为更适合较低可用带宽。同样的，如果传输进行得比预期的好，则可以使用更适合于较高带宽的序列。本发明检测传输的进展和/或在传输期间播放许多次并相应地调整序列。如果在传输进行中能够对这一调整动态编程会很有利。在这种方式下，可以解决间断的问题。
本发明对比特流重排序的部分位于编辑器或服务器中。本发明恢复排序的部分位于客户端。
如果通过用B-帧替换主帧的一部分来降低属于主帧的比特比例，则可以提供进一步的改进。这稍微降低了压缩效率，因为B-帧从时间上离得更远的参考帧(P-帧)中预测，这样B-帧和P-帧相似性更少。这使得B-帧预测的较差并且因此必须使用更多比特对相应的预测错误图像编码。因为在这一方案中有更多比特属于可以丢弃的次帧，对帧重排序可以提供针对传输延迟和暂停的更好的保护。
看待本发明的一种方式是可以说其是牺牲次帧的安全时间以维持主帧的最大安全时间。
本发明尤其适合于流类型多媒体检索。
虽然显示和描述了本发明的优选实施方案，但应当理解，这些实施方案只是通过例子说明。例如，虽然本发明已经描述应用于临时可伸缩比特流，但其也可以用于包括空间、频谱和SNR的其它类型的可伸缩性。在不违背本发明范围的情况下，本领域的技术人员可以对其做出各种变化、修改和替代。因此，下面的权利要求覆盖在本发明的精神和范围内的所有这些变化。
权利要求
1.一种用于按预定顺序在传输链路上传输具有一系列数据单元的数据信号的服务器，数据单元按相对重要性而不是其预定顺序确定的顺序发送。
2.根据权利要求1的服务器，其中数据单元代表基础层和至少一个增强层。
3.根据权利要求2的服务器包括改变数据单元顺序的重排序装置。
4.根据上述任何一个权利要求的服务器，其中数据信号是可伸缩的。
5.根据权利要求4的服务器，其中信号在从由时间、空间、频谱和SNR域组成的组中选定的域中可伸缩。
6.根据上述任何一个权利要求的服务器包括用于提供数据信号的编辑器。
7.根据上述任何一个权利要求的服务器，其中数据信号代表一序列图片以生成移动图像。
8.根据权利要求7的服务器，其中数据信号表示视频序列。
9.根据上述任何一个权利要求的服务器，其中数据信号包括多媒体数据。
10.一种用于按预定顺序在数据信源和数据信宿之间的传输链路上传输具有一系列数据单元的数据信号的数据传输系统，数据单元按其相对重要性而不是预定顺序确定的顺序发送。
11.根据权利要求10的传输系统，其中每个数据单元包括基础层和至少一个增强层，并且当重排序时，特定数据单元的基础层比特定数据单元的一个或多个增强层有更长的安全时间。
12.根据权利要求10或11的传输系统，其中信源是服务器。
13.根据权利要求10到12任何一个的传输系统，其中信源是编辑器。
14.根据权利要求10到13任何一个的传输系统，其中信宿是客户端。
15.根据权利要求10到14任何一个的传输系统，其中信宿是移动终端。
16.根据权利要求10到15任何一个的传输系统，其中信宿是移动电话。
17.根据权利要求10到16任何一个的传输系统，其中提供了检测传输过程以及将所使用的顺序改变成更适合于可用带宽的顺序的装置。
18.一种按预定顺序在数据信源和数据信宿之间的传输链路上传输具有一系列数据单元的数据信号的方法，包括按数据单元按其相对重要性而不是预定顺序确定的顺序发送数据单元的步骤。
19.根据权利要求18的方法，其中数据单元一旦在传输链路上传输，就返回到其初始序列。
20.根据权利要求18或19的方法，其中检测传输过程，并且将使用的顺序改变为更适合可用带宽的顺序。
21.一个存储在计算机可用媒介中的计算机程序产品，包括用于引起具有一系列数据单元的数据信号按预定顺序在传输链路上传输的计算机可读程序装置，数据单元按其相对重要性而不是预定顺序确定的顺序发送。
22.根据权利要求21的计算机程序产品包括服务器。
23.根据权利要求21或22的计算机程序产品，包括用于提供可伸缩数据信号的编辑器。
24.根据权利要求22到23的任何一个的计算机程序产品，包括用于为每个数据单元层或每个数据单元提供不同安全时间的重排序装置。
25.一种在数据信源和数据信宿之间的传输链路上传输的具有一系列数据单元的数据信号，数据单元按相对重要性，而不是预定顺序确定的顺序。
全文摘要
提供了一种用于在服务器(12、14、16、18)和通信终端(20、22)之间在具有可变带宽的传输链路上传输数据信号的数据传输系统(10)。数据信号是包括一序列图像的可伸缩压缩多媒体片。每个图像有一个基础层和多个增强层。为解决带宽的变化性,该序列重新排序,这样基础层比增强层有更大的安全时间。这使得在牺牲增强层的情况下,所有基础层及时到达以供播放。
文档编号H04N7/24GK1358388SQ00809557
公开日2002年7月10日申请日期2000年4月26日优先权日1999年4月29日
发明者M·汉努克赛拉申请人:诺基亚有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.汉努克赛拉
技术所有人：诺基亚有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。