用于数字音频信号和数字音频/视频信号的时标修改方法和通过使用该方法的数字电视...的制作方法

文档序号:7609892阅读:210来源:国知局
专利名称:用于数字音频信号和数字音频/视频信号的时标修改方法和通过使用该方法的数字电视 ...的制作方法
技术领域
本发明涉及数字音频信号的时标(time-scale)修改(“TSM”)。特别地,本发明涉及时标修改方法,其中在TSM处理之后,可以几乎与预定的时标(或可变速度比率)成精确比例地修改数字音频信号的再现时间,由此在再现时几乎完全保持多媒体信号的时标再现中的视频和音频信号之间的同步。
背景技术
由于引进了叠加-添加(overlap-add)(“OLA”)方法,用于在时域中修改数字音频信号的再现速度的方法已经被发展为同步的叠加和添加(“SOLA”)方法和基于波形相似性的叠加和添加(“WSOLA”)方法,它们都基于OLA。这些技术的基本原理在于通过分析并同步输入音频数据流来修改原始数字音频信号的时标。
根据TSM方法的基本概念,当将输入音频信号的数据流分段为连续的预定大小的多个窗口(帧)时,相邻窗口(帧)相互重叠所分配的长度(分析步骤)。然后,如果给定了时标α的值(用户分配的正常再现速度与所修改的再现速度的比率),则取决于α的值重新计算并添加在分析步骤期间获得的多个窗口中的相邻窗口的重叠区域。换句话说,根据时标α的值,在压缩或扩展相邻窗口的重叠区域后连接窗口。当合成窗口时,加权系数被应用到重叠区域来合成相邻窗口(合成步骤)。按原样添加没有重叠的区域。由于应该增加音频数据量以便使音频数据流的再现速度慢放,所以压缩经TSM处理的输出音频信号的相邻窗口的重叠长度,使其短于原始的重叠长度。相反,为了加速再现速度,扩展经TSM处理的输出音频信号的相邻窗口的重叠长度,使其长于原始的重叠长度。
在TSM方法的音频信号处理中,由合成间隔Ss和分析间隔Sa的比率定义时标α,它理论上表示为如下α=Ss/Sa (1)其中当在合成步骤中重新排列多个连续的窗口时,合成间隔Ss意味着相邻窗口Wi和Wi+1(或帧)的起始点间隔,并且当在分析步骤中将原始音频流分段为多个连续的窗口时,分析间隔Sa意味着相邻窗口Wi和Wi+1(或帧)的起始点间隔。由于由许多音频采样表示相邻窗口Wi和Wi+1的起始点间隔,合成间隔Ss和分析间隔Sa总是具有自然数。
在TSM处理中,由用户确定时标α并给定合成间隔Ss。所以通过方程(1)计算分析间隔Sa的值。根据Ss和α,分析间隔Sa的计算出的值可能是小数而不是自然数。然而,由于分析间隔Sa不能具有小数值,因此不可避免地采用最接近自然数。例如,假设由方程(1)计算出的Sa值为31.7,则定义最接近的较低(或较高)自然数31(或32)作为实际应用的分析间隔,其中实际应用的分析间隔被称为‘修改后的分析间隔’并标为Sa’。
然而,如果通过应用修改后的分析间隔Sa’来由TSM方法处理数字音频数据,则累积由分析间隔Sa和修改后的分析间隔Sa’的差所引起的再现时间误差,即,通过采用修改后的分析间隔Sa’而不是分析间隔Sa的TSM处理意味着所应用的时标α’与用户给定的时标α不同,并且产生与数值之间的差相同的时间误差。
可以连续地累积再现时间误差。在仅再现音频信号的情况下,没有与给定的时标α成比例地精确修改TSM处理的音频信号的再现时间的事实可能还不是严重的问题,换句话说,当用户指令正常速度的2倍的时标修改时,即使通过1.8或2.2倍时标再现,用户也不会识别出很大的差别,并且如果不存在要求恰巧2倍精度的情形,则这不是大问题。
然而,在包含视频和音频信号的多媒体信号的时标修改的情况下,如果音频信号的时标不与所分配时标α精确成比例,在再现处理中,音频信号和视频信号将不同步。在再现时间中累积误差的增加将导致‘嘴唇同步’问题,其中声音不与嘴唇一致。所以需要一种方法来精确地保持TSM处理的再现时间以便不发生嘴唇同步问题。为了提供用于接收的数字广播信号的不同的有用时标修改功能,绝对需要保证时标的音频和视频信号的同步。

发明内容
做出本发明来解决本领域中的上述问题,并且本发明的目的是提供用于数字音频信号的TSM方法,其中TSM处理的数字音频信号的实际时标与所分配的时标一致,它们在可忽略的容限(tolerance)的分钟范围内。
本发明的另一目的是提供一种用于数字音频信号的TSM方法,其中当在数字AV信号的时标修改时,可以很好地保持食品信号和音频信号的再现同步。
本发明的又一目的是通过将本发明的TSM方法应用到数字广播信号来提供各种附加的功能。
为了实现以上目的,根据本发明的一个方面,提供一种用于数字音频信号的时标修改方法,其中将输入信号的音频采样流分段为多个重叠分析窗口,将重叠区域的长度改变为对应于所分配的时标α的长度,加权合成重叠区域,由此被转换为时标输出信号。本发明的方法包括步骤a)定义从输入音频采样的第mSa采样(m周期索引)开始的N+Kmax个采样作为当前周期m的分析窗口Wm,其中如果期望的合成间隔Ss除以时标α所得的值是自然数,则分配该值作为分析间隔Sa,而如果是小数,则分别分配最接近该小数的两个自然数作为修改后的分析间隔Sa’和补偿后的分析间隔Sa”,每次当满足特定的期望条件时,交替地应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”来代替分析间隔Sa;b)当在来自输出音频采样的末尾的OV个采样和与之重叠的当前周期分析窗口的OV个采样之间显示出最高的波形相似性时,计算当前周期分析窗口Wm的移位值Km,同时将当前周期分析窗口Wm的起始点移位特定预定数量个采样,该预定数量在被定义为从前一周期m-1的输出信号的末尾开始计算的第OV+1采样开始的Kmax个采样的搜索范围内;c)定义从当前周期分析窗口第Km+1采样开始的N个采样作为要添加到当前周期的附加帧,其中通过将从附加帧的前端开始的OV个采样叠加到从前一周期帧的末尾开始的OV个采样来合成当前周期m的输出信号;和d)累积当前周期m的输出信号的实际再现时间和由时标α计算出的推算再现时间之间的误差,其中当累积误差偏离允许误差范围的上限或下限时,认为满足特定的期望条件。
时标α的值包括由用户输入装置分配的时标。另外,可以提供通过与音频信号的时标修改一起执行的视频信号的时标处理提供的视频信号的实际时标作为时标α的值。
最好,本发明的时标修改方法还可以包括步骤当时标α改变时,基于改变后的时标重新计算分析间隔Sa,其中使用改变后的时标和重新计算出的分析间隔Sa处理时标修改。
为了降低用于搜索最大交叉相关点Km的计算量,当在每个周期在搜索范围Kmax中移位分析窗口Wm时最好跳过多个采样。
在以上时标修改方法中,可以通过由从前一周期帧的末尾开始的特定数量个采样组成的重叠区域与当前周期的当前周期分析窗口Wm的、与前一周期帧重叠的特定数量个采样之间的交叉相关性来确定波形相似性。在这种情况下,最好在前一周期帧的采样和当前分析窗口中,可以选择其索引为k(k大于2的自然数)的倍数的采样并将其参与到交叉相关性的计算中。
根据本发明的另一方面,提供一种用于数字音频/视频信号的时标修改方法,其中输入数字音频/视频信号被分离为音频信号和视频信号,使用相同的时标α时标每个信号。本发明的方法包括步骤a)周期地计算通过基于时标α时标视频信号所获得的时标的视频信号的实际时标;b)确定时标的视频信号的当前周期的实际时标是否与前一周期的时标不同,其中如果不同,则提供当前周期的实际时标作为目标时标α’,目标时标α’成为用于音频信号的时标修改的参考;和c)将输入音频信号的采样流分段为多个重叠分析窗口,将重叠区域的长度改变为对应于目标时标α’的长度,加权合成重叠区域,由此修改为时标的输出音频信号。
这里,在以上用于数字音频/视频信号的时标修改方法中,可以通过前一描述的用于音频信号的TSM方法来执行输入音频信号的时标修改。
在以上用于数字音频/视频信号的时标修改方法中,视频信号的实际时标是从过去的某个点T1到当前时间T2的流逝时间T2-T1与过去的某个点T1中的时标视频帧的时间标签TS1到当前时间T2中的时标的视频帧的当前时间标签TS2的流逝时间TS2-TS1之间的比率。
根据本发明的一个方面,提供一种使用设备再现广播信号的方法,该设备接收以MPEG模式压缩并编码的数字电视广播信号的传输流,并且实时再现视频和音频信号。本发明的该方法包括a)在用户输入电话中断(phonebreak)键之后在存储装置中顺序地存储正在接收的数字电视广播信号;b)在用户按下返回键之后,以FIFO模式读取所存储的广播信号,并且使用预定的时标来时标相应检索到的视频和音频信号,其中,特别地,基于再现的视频信号的实际时标α来执行音频信号的时标,通过时标通过应用预定的时标计算出的视频信号获得的视频信号的实际时标,输入信号的音频采样流被分段为多个重叠的分析窗口,重叠区域的长度被改变为对应于视频信号的实际时标α的长度,加权合成重叠区域,由此转换为时标的输出信号;和c)输出时标的视频和音频信号来代替当前正在接收的广播信号。
最好,再现数字广播信号的以上方法还可以包括步骤如果通过应用作为高速再现模式的值的时标α再现的广播信号与正在接收的广播信号之间的时间误差落入特定的期望误差范围内,则输出正在接收的广播信号来代替所存储的广播信号。
此外,还可以包括步骤当电话中断键输入和返回键输入之间的电话中断时段超出存储装置的最大存储时间时,以从较早存储的信号开始的顺序将正在接收的广播信号替代所存储的广播信号,并且将从当前时间算起的电话中断时段的起始地址改变为在最大存储时间之前的广播信号的地址。
根据本发明另一方面,提供一种使用设备再现广播信号的方法,该设备接收以MPEG模式压缩并编码的数字电视广播信号的传输流,并且实时再现视频和音频信号。本发明的方法包括步骤a)在存储装置中顺序存储广播信号;b)当检测到用户的返回并慢放(back-slow)键输入时,从该时间点的特定时间周期之前接收的广播信号开始以FIFO模式读取所存储的广播信号,并且使用预定的时标来时标相应检索到的视频和音频信号以便能够实现低速再现,其中,特别地,基于再现的视频信号的实际时标α执行音频信号的时标,通过时标通过应用预定的时标计算出的视频信号获得的视频信号的实际时标,输入信号的音频采样流被分段为多个重叠的分析窗口,重叠区域的长度被改变为对应于视频信号的实际时标α的长度,加权合成重叠区域,由此转换为时标的输出信号;和c)输出时标的视频和音频信号来代替当前正在接收的广播信号。
最好,再现数字广播信号的以上方法还可以包括步骤a)当用户输入返回键时,通过将时标修改为用于高速再现模式的值来时标所存储的广播信号,从而进行高速再现,和b)如果以高速模式正在再现的广播信号和正在接收的广播信号之间的时间误差落入特定的期望误差范围内,则输出正在接收的广播信号来代替所存储的广播信号。
根据本发明的另一方面,提供一种使用设备再现广播信号的方法,该设备接收以MPEG模式压缩并编码的数字电视广播信号的传输流,并且实时再现视频和音频信号。本发明的方法包括步骤a)至少在输入立即慢放键之后在存储装置中顺序存储广播信号;b)从输入立即慢放键的点开始以FIFO模式读取所存储的广播信号,并且使用预定的时标来时标相应获取视频和音频信号,以便能够实现低速再现,其中,特别地,基于再现的视频信号的实际时标α执行音频信号的时标,通过时标通过应用预定的时标计算出的视频信号获得的视频信号的实际时标,输入信号的音频采样流被分段为多个重叠的分析窗口,重叠区域的长度被改变为对应于视频信号的实际时标α的长度,加权合成重叠区域,由此转换为时标的输出信号;和c)输出时标的视频和音频信号来代替当前正在接收的广播信号。
最好,以上方法还包括步骤a)当用户输入返回键时,通过将时标修改为用于高速再现模式的值来时标所存储的广播信号,从而进行高速再现,和b)如果以高速模式正在再现的广播信号和正在接收的广播信号之间的时间误差落入特定的期望误差范围内,则输出正在接收的广播信号来代替所存储的广播信号。
在用于数字广播信号的以上3种TSM方法中,可以通过先前在本节开始处描述的TSM方法来执行音频数据的时标修改。
此外,最好,以上用于数字广播信号的TSM方法还可以包括步骤在时标存储装置中存储的广播信号之前分别通过MPEG解码器解压缩并解码视频和音频信号。
此外,在以上3种TSM方法中,可以通过调节视频帧的输出时间间隔来执行视频信号的时标,以便与时标一样快,或者减少输出帧的数量,以便和时标一样慢,或者将二者组合。可以通过调节视频帧的呈现时间标签的值来执行视频帧的输出时间间隔的调节。
已经了解各种数字时标技术。然而,因为当应用到多媒体信号时那些常规技术不能获得视频和音频信号的同步,因此它们在商业化中不成功。
通过本发明可以完全地解决以上问题。根据本发明的音频信号的TSM处理,一旦分配了特定的时标,可以控制对应于所分配的时标的推算再现时间和时标的信号的实际再现时间之间的误差,以保持在预先建立的微小误差范围内。此外,如果时标改变,使用改变后的时标立即TSM处理音频信号。结果,与使用用户指定的时标计算的再现时间相比,通过本发明的TSM处理获得的音频信号总被维持在能够忽略的狭窄误差范围内。因此,当应用到多媒体信号时,本发明可以完成视频和音频的同步。特别地,即使时标的视频信号的实际时标的值可能偏离用户分配的值,基于时标的偏离值自适应地执行音频信号的TSM处理,使得时标处理中的AV同步需要更少的负担。此外,该AV信号同步导致有用和实际的功能,诸如“电话中断观看功能”、“返回并慢放观看功能”和“立即慢放观看功能”。
可以编程本发明,以便它可以被包含在用于个人计算机的多媒体播放器中,例如,可以嵌入在诸如DVD播放器、数字VTR、TV电视、PVR(个人视频录像机)、MP3播放器、机顶盒之类的数字多媒体或数字广播信号处理器的芯片中。


通过结合附图参照下面的详细描述可以更加全面地理解本发明的目的盒有点,其中图1是显示根据本发明的时标修改(“TSM”)概念的图;图2是说明用于发现当前周期帧和前一周期帧之间的最大波形相似点的方法的图;图3是显示根据本发明实施例的用于将累积的再现时间误差抑制在预先分配的界限之内的控制方法的具体执行过程的流程图;图4是显示用于执行根据本发明的控制方法的设备的基本配置的方框图;图5是显示电话中断时段观看功能的执行过程的流程图;图6是显示返回并慢放观看功能的执行过程的流程图;图7是显示立即慢放观看功能的执行过程的流程图;图8是显示系统的配置的方框图,该系统可以通过时标数字电视广播信号来提供以上附加的功能。
图9是显示与图8中的系统不同的另一实施例的配置的方框图;图10a和10b是显示当使用采用图8或图9的系统的数字TV或TV电话(通常称为“数字TV”)执行电话中断时段观看功能时的信号处理的图;图11是显示当执行返回并慢放观看功能时的信号处理的图;和图12是显示当执行立即慢放观看功能时的信号处理的图。
具体实施例方式
下面将参照附图详细说明本发明的优选实施例。
在描述本发明之前,将在下面说明音频信号的TSM处理,以便清楚地理解本发明。图1是说明用于数字音频信号的TSM方法的原理的图。本发明采用的TSM方法将输入信号的音频采样流分段为多个重叠的分析窗口,将重叠区域的长度转换为对应于所请求的时标的长度,并且通过应用加权系数合成重叠区域。TSM处理通常包括分析步骤和合成步骤。
在分析步骤中,图1(a)所示的数字音频信号采样流被分段为图1(b)所示的多个连续的分析窗口Wm。这里m是从一(1)开始的自然数,表示分析窗口的周期和索引。一个分析窗口Wm包含N+Kmax个采样,它包含N个采样的一帧和添加到其上的Kmax个采样。在分析步骤中,每个分析窗口Wm的起始点是从输入信号的第一采样开始的第mSa采样。这里,Sa被称为分析间隔,它是多个重叠分析窗口的相邻窗口的起始点之间的距离。
图1(a)和(b)分别图解低速模式和高速模式的、经TSM处理的输出信号。可以通过合成步骤获得这些信号。在合成步骤中,使用分析窗口Wm搜索最大波形相似点。用于合成的采样不是分析窗口中的所有采样,而是除了搜索范围中的Kmax个采样之外的N个采样,即仅是一帧中的采样。丢弃其余的Kmax个采样。因此,在每个周期中N个采样用于合成输出信号。如图1(b)所示,在实际的合成处理中,将分析窗口从原始的重叠长度OVm重新校准为期望的重叠长度。如图1(c)所示,在低速模式的TSM处理中,由于必须增加数据量,所以在重新校准后的重叠长度OVm’变得比重新校准前的重叠长度OVm更短,因此合成间隔Ss’变得比分析间隔Sa更长。如图1(d)所示,在高速模式的TSM处理中,由于必须降低数据量,在重新校准后的重叠长度OVm”变得比重新校准前的重叠长度OVm更长,因此合成间隔Ss’变得比分析间隔Sa更短。与数据量的变化成比例地改变再现信号所需要的时间。通过应用加权系数来合成重新定位的相邻帧(帧是分析窗口的一部分)具有重叠长度OVm’或OVm”的采样。分析间隔Ss’或Ss”与合成间隔Sa的比率必须等于时标α的值。方程(1)表示该关系。
如果修改相邻帧的重叠长度,则发生不连续性。因此,由于相邻帧的不连续性在输出信号中可能包含噪声。需要尽力降低由不连续性引起的噪声。很难简单地通过将分析窗口Wm的分析间隔Sa修改为根据时标α的值计算的合成间隔Ss来降低噪声。在修改并重新校准相邻帧的重叠区域时,如果发现添加了重叠的当前周期帧和前一周期帧的最大波形相似点并从那个点向帧添加了重叠,则使不连续性及因此产生的噪声达到最小。
图2是说明用于发现当前周期帧和前一周期帧之间的最大波形相似点的方法的图。通过计算在当前周期分析窗口Wm和前一周期帧Fm-1之间的确定区域中的采样的交叉相关性来确定最大波形相似。即,通过计算通过将当前周期分析窗口Wm和前一周期帧Fm-1重叠产生的重叠区域OVm’(或OVm”)中的采样10a、10b之间的交叉相关性,然后将分析窗口Wm的起始点移过搜索范围Kmax,以搜索最大波形相似。计算交叉相关性的方法对于本领域技术人员来说是公知的,他们可以选择并应用恰当的方法。如图2所示,在从已经成为输出信号的前一周期帧Fm-1的末端期的OVm’(或OVm”)中的采样组成重叠区域,而在与该重叠区域相邻的Kmax中的采样组成搜索范围。然后,在搜索范围内,当将输入信号的第m分析窗口(即当前周期分析窗口Wm)移位预定采样间隙时,搜索分析窗口Wm和前一帧Fm-1的重叠区域中的采样10a、10b之间的最大交叉相关点。一旦搜索到最大交叉相关点,则作为分析窗口Wm的一部分的当前帧Fm被叠加到前一帧Fm-1的末尾。除了分析窗口Wm的开始处的Km个采样之外的N个采样和在其末尾的Kmax-Km个采样成为帧Fm,它被作为当前周期输出信号添加。然后,通过应用加权系数合成属于重叠区域OVm’或OVm”的采样10a和10b,并且按原样添加当前周期帧Fm中的其它采样。忽略那些不参与合成的采样。以这种方式,获得当前周期的输出信号。在最大交叉相关点Km,如果将当前周期帧Fm与前一帧Fm-1合成,则可以获得最低不连续的连接,由此降低由帧重新校准(realignment)引起的噪声。逐帧地顺序执行以上TSM处理。
当在分析窗口Wm的两个侧边和输出信号之间的重叠区域中合成采样时,对合成应用加权函数的原因是通过自然地将输出信号的末尾部分与分析窗口的起始部分连接来降低重叠区域中的信号的不连续性。作为加权函数的典型实例,可以使用下面的斜坡函数,但是可以另外选择指数函数或任意其它恰当的函数。
g(j)=0 j<0; (2-1)g(j)=j/Nm 0≤j≤Nm(2-2)g(j)=1 j>Nm (2-3)需要大量的计算来找出最大交叉相关点Km。在许多情况下,由于过量的计算,因此很难在嵌入式系统处理器上执行不采用措施来降低计算量的TSM方法。用于降低计算量的第一方案是扩展分析窗口Wm的移位间隔。即,即使可以通过一个采样来进行分析窗口的移位,为了减少计算量,也可以一次移位几个采样。如果它移位太多采样,则最大交叉相关点将不精确。需要考虑到减少计算量和最大交叉相关点的精确度来确定移位量。用于降低计算量的第二种方式是将参与到最大交叉相关点的计算的采样的数量限制到全部采样的一部分,而不是重叠区域10a、10b中的所有采样。例如,从分析窗口Wm的重叠区域10a和前一帧Fm-1的重叠区域中,仅选择那些采样索引是k(k是大于2的自然数)的倍数的采样来计算交叉相关性。如果一起应用这两个方法,将会更多增加计算量降低的效果。
在合成步骤中,可以以固定长度将重叠区域10a、10b应用到任何帧周期。另外,重叠区域10a、10b的不同长度可以被应用到不同的帧周期。当叠加周期10c的数据包括最小噪声时的重叠区域10a、10b的长度被确定为最佳重叠长度。相关系数可以用于发现最佳重叠区域。使用下面的方程来获得相关系数Rxy。
Rxy=[(∑xy)/(nσxσy)]×100% (3)其中x和y表示两个重叠区域10a和10b中的参加相关系数的计算的采样,n表示参与相关系数的计算的每个参数x和y的采样的数量,而σx和σy分别表示参数x和y的离差(dispersion)。相关系数可以在-100[%]到+100[%]的范围内变化,并且值越大,则相关性越高。如果相关系数处于70%~100%的范围内北,则评估为具有高相关性。因此,最好应用分析窗口和输出信号之间的具有多于70%的相关系数Rxy的重叠间隔的值。在该方法中,增加计算量来发现最佳重叠长度,但是提高了输出信号的质量。当非常需要高质量的声音时,应用该方法可能是有利的。
已经由本申请人提出并提交了如上所述的降低计算量并改变重叠区域的方法,该申请具有PCT申请号PCT/KR02/01499,名称为“Audio signaltime-scale modification method using variable length synthesis and reducecross-correlation computations”。在以上PCT申请中声明的TSM方法可以很好地与本发明组合。可以通过参照其说明书和附图来理解在PCT申请中公开的技术,并且其内容援引于此以供参考。因此,在这里不重复更详细的内容。能够与本发明组合的TSM方法不限于以上PCT申请的发明。只要是用于在时域中修改音频信号的再现速度的SOLA或WSOLA类的算法,就可以应用所有的TSM方法,这些方法包括在未来新开发的任何TSM方法。如果TSM算法可以与时标α的预定值精确成比例地合成输出信号,则它可以更加有利地与本发明组合。
接下来,说明经TSM处理的输出信号与预定的时标精确成比例,误差范围可以被忽略的方法。
在数字音频信号的TSM处理中,由于分析间隔Sa的单位(即采样的数量)必须是自然数,所以如果从方程(1)计算出的分析间隔Sa具有小数值,则不可避免地采用最接近的自然数。应用修改后的分析间隔Sa’代替所计算出的分析间隔Sa导致实际再现时间和由预定时标计算出的推算再现时间之间的误差。这里,推算再现时间指的是通过假设应用分析Sa的小数值的计算获得的输出信号的再现时间。如果由方程(1)计算出的分析间隔Sa不是自然数而是小数,则丢弃小数部分(或上舍入(round up)),并且剩余的整数部分被分配为要实际使用的、修改后的分析间隔Sa’的值。修改后的分析间隔Sa’的应用与通过使用不精确的时标α’(即,修改的时标)而不是用户分配的时标进行的TSM处理相同。因此,经TSM处理的输出音频信号的实际再现时间与通过应用用户分配的时标获得的虚拟输出音频信号的再现时间(“推算再现时间”)不同。通过TSM处理不断地累积该误差。
在本发明中,控制再现时间的以上累积误差以便不偏离预定界限。即,如果预定合成间隔Ss被除以时标α的值是自然数,则按原样应用该值。然而,如果该值是小数,则最接近的两个自然数被分别分配为修改后的分析间隔Sa’和补偿后的分析间隔Sa”。只要满足预定条件,就交替地使用修改后的分析间隔Sa’和补偿后的分析间隔Sa”,而不用计算出的分析间隔Sa。累积当前周期中的输出信号的实际再现时间和由时标α计算出的推算再现时间之间的差,如果累积误差偏离所允许的上限或下限,则认为是满足预定条件的情况。最好在观看者没有识别出嘴唇同步(即音频和视频的不同步)的范围内确定所允许的误差界限。例如,可以将所允许误差范围的上限确定为数十毫秒内。
图3是图解以上控制方法的详细执行过程的流程图。在使用上面说明的用于输入信号的音频采样流的TSM方法执行音频采样的TSM的处理(S20)中,当TSM处理每个单独帧时累积‘实际再现时间’和‘推算再现时间’之间的差(S22)。只要累积误差超过所允许误差范围的上限或下限,就执行误差补偿(S24、S26、S28、S30)。补偿后的分析间隔Sa”是引入来补偿由修改后的分析间隔产生的误差的参数。当执行TSM程序时(S20),如果计算出的分析间隔Sa不是自然数,则通过恰当地应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”来控制再现时间的累积误差以便不偏离预定的误差界限。
用于计算修改后的分析间隔Sa’的处理如下。首先,初始化TSM处理(S10)。在初始化步骤中,向需要来执行TSM程序的各种参数,诸如帧大小N、重叠长度OV、分析间隔Ss、当前分析窗口(帧)对前一窗口的搜索范围Kmax和时标α分配恰当的值。此外,还初始化修改后的分析间隔Sa’、补偿后的分析间隔Sa”、再现时间和其它用于累积误差的参数。在初始化步骤后,按原样将输入信号的第一帧F0复制到输出信号而不进行处理(S11),并且从第二帧F1开始执行TSM程序并修改时标。为该处里读取由用户分配的时标α的值(S12)。如果用户不具体分配时标α的值,则时标α的值将是在初始化步骤分配的1。一旦确定了时标α的值,就根据方程(1)计算分析间隔Sa(S14)。然后,测试所计算出的分析间隔Sa是否是自然数。如果是自然数,则当执行步骤S20的TSM程序时按原样应用该数(S16)。如果该值是小数,则丢弃小数部分,而把整数部分分配为修改后的分析间隔Sa’。在TSM程序步骤(S20)应用的分析间隔Sa的值是修改后的分析间隔Sa’(S18)。此后,将修改后的分析间隔Sa’而不是计算出的分析间隔Sa应用到TSM处理中的分析间隔。根据上述过程,准备用于计算出的分析间隔不是自然数的情况的处理条件。
在步骤S20中,如上所述执行用于当前周期的分析窗口Wm的TSM处理。即,每次当执行一个TSM程序(S20)时,完成用于一个分析窗口的TSM处理。因此,帧(或分析窗口)索引的值m从1开始,并且只要完成步骤S20就加1(步骤S19、S21)。
在用于一个窗口的TSM处理完成后,计算再现时间的累积误差(S22)。为了计算累积误差,必须分别计算推算再现时间和到那时的实际再现时间。在时域中,音频信号的再现时间与数字音频采样的数量成比例。因此,可以通过计数TSM处理的数字音频采样来获得实际再现时间。另外,通过使用TSM处理的数字音频采样的时间标签可以获得音频信号的再现时间。如果应用由用户分配的时标α,则通过计数直到当前周期的要TSM处理的采样的数量可以获得以上推算再现时间。以这种方式,获得推算再现时间和实际的再现时间,并且计算二者的差。通过将该差添加到直到前一周期的再现时间的累积误差,计算直到当前周期的再现时间的新累积误差。
在更新了再现时间的累积误差后,检查该值是否超过上限(如+5ms)(S24)。在步骤S24中,如果结果为真,则计算补偿后的分析间隔Sa”(S26)。从下一帧应用补偿后的分析间隔Sa”以便降低累积误差。如果通过丢弃所计算出的分析间隔Sa的小数值的小数部分来确定修改后的分析间隔Sa’,则可以通过对修改后的分析间隔Sa’加1来确定补偿后的分析间隔Sa”。如果通过上舍入所计算出的分析间隔Sa的小数值的小数部分来确定修改后的分析间隔Sa’,则可以通过对修改后的分析间隔Sa’减1来确定补偿后的分析间隔Sa”。例如,如果所计算出的分析间隔Sa的值是31.7,并且确定修改后的分析间隔Sa’是31(或32),则确定补偿后的分析间隔Sa”是32(或31)。对于更迅速的误差补偿,可以使用更大的值(诸如2或3)而不是1作为要添加到修改后的分析间隔Sa’或从修改后的分析间隔Sa’减去的值,以便获得补偿后的分析间隔Sa”。以这种方式,在计算补偿后的分析间隔Sa”并将其分配到分析间隔Sa后,当从下一帧周期执行TSM程序(S20)时使用该分析间隔。
在重复TSM处理同时应用补偿后的分析间隔Sa”期间,再现时间的累积误差连续降低到0附近,然后朝向异号增加,最后偏离所允许误差范围的下限(如,-5ms)。此时,将应用来执行TSM程序的分析间隔被再次替换为修改后的分析间隔Sa’,而不是到那时仍然使用的补偿后的分析间隔Sa”。在步骤S28和S30中执行该处理。在应用了修改后的分析间隔Sa’后,再现时间的累积误差再次增加,因此而超过所允许误差范围的上限。然后再次使用补偿后的分析间隔Sa”。以这种方式,在所计算出的分析间隔Sa不是自然数的情况下,与计算出的分析间隔Sa最接近的两个自然数被分别分配为修改后的分析间隔Sa’和补偿后的分析间隔Sa”,并且交替应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”,而不是应用所计算出的分析间隔Sa。只要再现时间的累积误差超过误差范围的上限或下限,则交替使用修改后的分析间隔Sa’和补偿后的分析间隔Sa”。
根据上述的控制方法,经TSM处理的输出信号的实际再现时间在基于由预定的时标计算的推算再现时间的固定范围中摆动。如果假设建立允许误差范围,以便保持所谓嘴唇同步地将本发明的控制方法应用到AV信号的时标再现中,则AV信号的同步几乎可以完美地达到人不能识别出AV信号的同步误差的程度。
另一方面,通过步骤S20到S30完成用于一个分析窗口的处理。此时,检查是否存在要被处理的更多输入信号的音频采样。如果没有更多的输入信号,则程序立即终止。否则,它返回到要处理下一窗口的步骤。在返回处理期间,检查时标α的值是否被改变(S34)。如果时标α还没有改变,则程序返回到TSM处理的执行步骤(S20),并且以上述相同方式重复用于分析窗口Wm+1的TSM处理。如果时标α已经改变,它返回到步骤S20,在其中由于时标α的改变,所以应该重新计算分析窗口间隔Sa、修改的分析窗口间隔Sa’和其它参数(S34)。
可以以软件引擎的形式实现这些控制方法和TSM方法。可以将这些软件引擎加载到存储器,并且在诸如CPU、DSP、微处理器和音频解码器芯片之类的处理器上执行。用于执行本发明的方法的设备的基本配置如图4所示。如图所示,该设备需要诸如ROM或闪存之类的用来存储引擎程序的非易失性存储器110、用于执行引擎程序并将输入信号转换为经TSM处理的输出信号的处理器120和用于在TSM处理之前或之后存储数据的存储器130。作为实例,可以将处理器实现为DSP、微计算机或CPU单元,或者它可以是特殊目的音频芯片、音频/视频芯片、MPEG芯片或DVD芯片。存储器130提供用于临时存储输入信号的输入缓冲器130、用于在TSM处理之后存储输出信号的输出缓冲器130b,还提供用于处理器120的各种操作和数据处理所需的空间。此外,需要用户输入设备140,如输入键盘或遥控器来将用户输入的时标α传递给处理器。
在TSM处理之前,来自诸如CD-ROM、硬盘和解码芯片之类的输入信号提供者150的输入信号被临时存储在存储器130的输入缓冲器130b,然后由处理器120进行TSM处理。TSM处理的信号被临时存储在输出缓冲器130b并被传送到再现单元160来通过D/A转换处理经由扬声器播放。
如果将TSM方法应用到AV装置,可以获得AV信号的同步。这是因为本发明的TSM方法能够使时标的音频信号的再现时间几乎与给定时标精确成比例。作为另一个原因,在本发明的TSM方法中,一旦改变时标,立即基于改变后的时标来TSM处理下一帧。当时标AV信号时,经过一段时间,时标的视频信号的实际时标可能与用户分配的时标α不同。在这种情况下,如果根据用户分配的时标执行音频信号的时标处理,不保持时标的AV信号的同步。在时标AV信号的情况下,必须基于另一时标的信号的实际时标来执行一个信号的时标,以便保持AV信号的同步。本发明提出通过将时标的视频信号的实际时标传送到音频信号的TSM处理,以使用时标的视频信号的实际时标作为用于时标音频信号的参考时标。通过使用该方法,实现了经时标的AV信号的同步。
更具体地说,引入目标时标的概念。在经时标的信号的再现处理中观察到的实际时标可以随时间变化,并且该目标时标就是由变化的实际时标连续追踪的参考时标。当仅再现音频信号时,由用户分配的时标α成为目标时标。然而,在使用AV设备再现经时标的AV信号时,可以采用视频信号的实际时标作为其值可以变化的目标时标。在音频信号的TSM处理中,视频信号的实际时标可以被认为是用户分配的时标。
假设由音频信号时标处理器100和视频信号时标处理器170根据用户分配的相同时标分离地时标AV信号的视频和音频信号。为了保持视频信号的音频信号之间的同步,基于视频信号的实际时标处理音频信号的TSM。即,如果视频信号的实际时标的值改变,则通过将时标修改为视频信号的实际时标的改变的值来处理音频信号的时标,当在音频信号的TSM处理中时该时标用作参考。明确地说,视频信号时标处理器170周期地计算时标的视频信号的实际时标,并且检查所计算的时标是否具有与先前计算的时标相同的值。如果两个时标不同,则新计算的时标被提供到音频TSM处理120。另外,视频信号时标处理器170周期地计算视频信号的实际时标,并且将其传送到音频信号的时标处理器100的处理器120,并且音频信号的时标处理器100的处理器120可以测试是否已经改变的时标。无论使用哪种方法,可以在步骤S34执行关于是否改变视频信号的实际时标的确定,其中检查是否由用户纠正时标。如果已经改变了视频信号的实际时标,即目标时标α’,则执行从S12到S32的过程,例如,返回到步骤S12,读取改变的目标时标α’,并且重新计算分析间隔Sa等。如果还没有改变目标时标α’,它转到步骤S20。
以这种方式,在时标AV信号的情况下,如果使用作为音频信号时标的参考的、视频信号的实际时标TSM处理音频信号,则总是可以保持AV信号的同步。例如,假设由用户分配的时标是2(即,2倍快速再现)。在基于该值开始AV信号的时标再现之后,可以假设在特定周期中视频信号的实际时标由于某些原因变为2.1。在这种情况下,音频信号时标处理器100从视频信号时标处理器170接收视频信号的实际时标值2.1,但是将其当作用户分配的时标。因此,在音频信号的经时标的再现中,目标时标从2.0改变为2.1。然后,基于改变的值,重新计算分析间隔Sa、修改后的分析间隔Sa’和补偿后的分析间隔Sa”。通过应用这些值,处理音频信号的TSM。
在MPEG信号的情况下,可以从时间标签计算时标的视频信号的实际时标(即,目标时标)。视频信号时标处理器170可以从当前时标的视频帧的时间标签读取时间值。因此,如果已知在过去T1的某个点上的时标的视频帧的时间标签TS1和在当前时间T2的时标的视频帧的时间标签TS2,则可以从方程(4)计算时标的视频信号的实际时标αv。即,视频信号的实际时标是从过去的某个点T1到当前时间T2的实际流逝时间T2-T1与在T1的时标的视频帧的时间标签TS1和在T2的时标的视频帧的时间标签TS2之间的差的比率。所计算的值作为新的目标时标α’被应用到音频信号的时标再现中。
αv=α’=(TS2-TS1)/(T2-T1) (4)以这种方式,根据本发明,根据用户分配的时标来时标视频信号,并且基于视频信号的实际时标来时标音频信号。因此,在时标的同时获得AV信号的同步,而不管视频信号的实际再现速度,音频再现速度都可以与视频再现速度一致。结果,可以很好地保持时标的音频和视频信号之间的同步。
另一方面,上述本发明的音频信号的TSM技术和用于AV信号的同步技术可以与公知的用于视频信号的时标再现技术组合来应用到数字广播信号的时标再现,由此进一步提供各种有用的功能。
由“电话中断时段观看功能”来示例第一个有用的附加功能。根据该功能,当不能观看电视,例如由于使用厕所或电话呼叫(这成为“电话中断时段”)时存储广播信号,并且在电话呼叫后,可以以高速模式顺序地从电话中断时段的起点重播所存储的广播信号。然后,当所存储的广播信号赶上当前广播信号时,由当前正在接收的广播信号来代替所存储的广播信号。通过使用该功能,可以连续地、没有中断地观看广播信号。
第二个附加的功能是“返回并慢放观看功能”。当人们希望在观看电视的同时详细观看先前的内容时,该功能以低速或正常速度模式顺序地从关心的场景开始重播。之后,以高速模式重播所存储的广播信号来进行正常观看,并且当它赶上当前广播信号时切换到当前广播信号。
第三个附加功能是“立即慢放功能”。该功能用于详细观看当前广播信号,至少从当前场景开始在存储装置中存储正在接收的广播信号,同时以低速模式重播所存储的广播信号,并且当它赶上当前广播信号时切换到当前广播信号。
可以在正在接收的广播信号可以被存储在诸如存储器或硬盘之类的数据存储介质中的条件下建立这些功能。因此,用于执行这些功能的设备需要配有用于数字广播信号的存储装置和用于音频和视频信号的时标处理方法。图8是描述系统200的配置的方框图,该系统可以通过时标数字电视广播信号来提供以上附加的功能。可以将该系统200嵌入在数字电视、具有内置数字广播接收机的TV电话、个人视频录像机(RVR)、机顶盒等等中。
下面简要描述在图8的系统中执行的处理。可以数字化并分组视频信号,然后使用相关音频信号和/或数据信道复用视频信号。数据信道可以是与相关视频密切相关的或完全不相关的。这些复用信号称为数字广播信号(或广播节目)。此外,多个广播节目可以被复用为单一的传送流。以传送流的形式将根据MPEG标准压缩并编码的数字广播信号提供到数字TV。通过地波广播、卫星广播、有线电视等向TV观众供应数字广播信号。一旦电视接收信号,则由去复用器245去复用视频、音频和其它信息并将其传送到MPEG解码器230。同时,在存储器240中存储它以便提供以上功能。这里,存储器240是用于广播信号的存储装置的典型实例。MPEG解码器230的两个数据源之一是通过去复用器245直接提供的当前广播信号,而另一个是先前接收的并存储在存储器240中的广播信号。控制器265控制哪个元数据将要被提供到MPEG解码器230。MPEG解码器230将MPEG广播信号分离为视频信号和音频信号,然后分别解压缩并解码该信号。经解码的数据成为PCM数据。在不需要时标的情况下,经解码的视频和音频信号被分离地传送到A/V同步器250。A/V同步器250同步视频信号和音频信号。同步的视频和音频信号被传送到视频编码器255和音频数字-模拟转换器(DAC)260来分别转换为模拟视频和音频信号,最后作为运动图像和声音通过显示器或扬声器输出。如果显示设备是诸如LCD或PDP之类的数字驱动显示装置,则需要分离的驱动电路而不是视频编码器255。通过总线(275)连接每个元件。
为了执行上述3个功能,应该执行用于音频和视频信号的时标处理。为此,将来自MPEG解码器230的解码的视频和音频信号提供到视频时标器220和音频时标器210,其中对它们进行时标并提供到A/V同步器250。诸如遥控器280或键盘270之类的用户输入装置配有用于指示以上3个功能的按键。如上所述,例如遥控器280有利地配有用于“电话中断时段观看功能”的电话中断键280a、用于“立即慢放功能”的立即慢放键280b、用于“返回并慢放观看功能”的返回和慢放键280c、用于赶上广播信号的返回键280d和用于增加或降低重播速度的向上和向下键280e、280f等。
图9是显示与图8中的系统不同的另一系统200-1的配置的方框图。图9中的系统200-1与图8的系统200的区别在于A/V同步器250-1放置在MPEG解码器230和两个时标器220、210之间。图8的系统200在时标后处理视频和音频信号的同步,而图9的系统200-1在时标前同步视频和音频信号。
在图8和9描述的系统中,存储器240是用于正在接收的广播信号的存储介质的典型实例,可以是RAM。作为以MPEG模式压缩并解码的数字信号的广播信号尤其具有许多视频信号数据。因此,需要大容量RAM来存储长时间的广播信号,由此增加成本。因此,在数字TV和与数字TV结合使用的机顶盒和个人视频录像机(PVR)的情况下,最好使用诸如硬盘之类的低成本大容量存储装置作为存储器240。此外,可以将硬盘和RAM的组合用作存储器240。虽然图8和9中描述的系统是数字TV配置的实例,但它可以被认为是TV电话的配置,即所谓TV接收机功能。由于TV电话不使用遥控器280,TV电话的某些按键需要接管遥控器280的相关按键280a~280f的功能。
图5是显示电话中断时段观看功能的执行过程的流程图。图10a和10b是显示当使用采用图8或图9的系统的数字TV或TV电话(通常称为“数字TV”)执行电话中断时段观看功能时的信号处理的图。假设存储器240具有能够存储最多4分钟广播信号的容量。特别地,图10a和10b分别描述4分钟和5分钟的电话中断时段的实例。当从存储器存储并获取广播信号时最好采用FIFO模式。如果使用FIFO模式,则在图10b中只有最新的4分钟广播信号被存储在存储器240,并且由于溢出,所以不可避免地丢失先前一分钟的广播信号,即从19:10到19:11接收的广播信号。
例如,在由于在观看TV时的电话呼叫等用户需要中断的情况中,按下电话中断键280a(S40)。它记住在按下电话中断键280a时的存储器240的地址以便读取在已经按下电话中断键280a的点之后的广播信号(S42)。必须至少从按下电话中断键280a的点开始存储广播信号。不管按键输入,考虑到“返回并慢放观看功能”和其它功能,最好连续存储广播信号。这是是否向显示器和扬声器输出在电话中断期间接收的广播信号的选项。
以下,如图10a所示,如果用户在19:14按下遥控器280的返回键280d来在电话呼叫后再次观看电视,则控制器265控制MPEG解码器230来读取并解码存储器240中存储的广播信号。在该操作之前,控制器265最终执行关于要被解码的存储器的起始地址的判决处理。即,当按下返回键280d时,计算电话中断键280a的输入点Tr和返回键280d的输入点Tb之间的时间周期Tr-Tb,并且确定它是否超过存储器240的最大存储时间(如,4分钟)(S46)。如图10b所示,如果Tr-Tb>Tmax,则将电话中断时段的起始地址从当前时间的地址更新到存储了之前Tmax分钟接收到的广播信号的地址(S48)。在图10b中,电话中断时段的起始地址被更新为在存储器240中当前存储的第一广播信号(即,在19:11接收到的广播信号)的地址,并且将在19:10到19:11之间接收到的广播信号当作丢失。如图10b所示,如果Tr-Tb<Tmax,则它不超过电话中断时段存储器240的最大存储容量,因此不需要更新电话中断时段的起始地址,并且将不丢失数据。
在电话中断时段的起始地址的判决处理后,执行“赶上广播信号功能”的处理。即,MPEG解码器230从以上判决的地址顺序地读取并解码存储器240中存储的广播信号。将由MPEG解码器230解码的视频和音频信号分别传送到视频时标器220和音频时标器210,并且在高速模式下以指定的时标重播它们。由每个时标器210、220采用的基本时标可以是正常速度的两倍,可以通过用户使用遥控器280的速度控制键280e、280f将其改变为其它值。进一步通过AV合成器250将时标来以便以高速模式重播的视频和音频信号进行合成,并且输出作为视频和音频。从以上解释不难理解,在图9所示的系统200-1的情况下,在AV合成器250上的合成将在两个时标器210、220的时标之前。
当以高速模式重播时,逐渐地减少当前正在接收的广播信号和存储器240中存储的广播信号的再现信号之间的时差。在这样的情形中的特定时期后,再现信号几乎赶上当前广播信号。如果两个信号之间的时差很小以至于在预定的误差范围内时,则由MPEG解码器230解码的信号被通过去复用器245提供的当前广播信号代替,而不是存储器240中存储的广播信号。然后,将当前广播信号输出到数字TV显示器和扬声器。可以通过比较时间标签的值来判断是否完成“赶上广播信号功能”。
接下来,图6是显示返回并慢放观看功能的执行过程的流程图,图11是显示当执行返回并慢放观看功能时的信号处理的图。对于该功能,需要连续地在存储器240中存储当前正在接收的广播信号,同时将其解码并实时输出(S60)。例如,当人在观看足球节目的时候希望详细观看刚刚进球的场景时,这是有用的功能。在这种情况下,一般再次观看数个或数十毫秒的场景,因此存储数十秒的广播信号的存储容量对于存储器240来说是足够的。
如果用户在18:20:23按下返回并慢放键280c来再次观看重要的场景(S62),则控制器265识别按键输入并控制MPEG解码器230来读取并解码存储器240中存储的广播信号,而不是使用从去复用器245直接提供的、当前接收的广播信号(S64)。只要按下返回并慢放键280c,就编程来返回到过去某个时间,如10秒前。例如,如果用户一旦按下返回并慢放键280c,18:20:13的广播信号将被提供到MPEG解码器230,这返回到10秒前。由视频时标器220和音频时标器210分别时标在MPEG解码器230解码的视频和音频信号,使得以低速模式(如2倍慢速)重播它们。为了用户方便的缘故,可以显示正在返回播放的场景的时间和/或与当前广播信号的时间差。
为了完成低速模式重播,用户按下返回键280c。如果感测到返回键输入,控制控制器265以使得以高速模式播放存储器240中存储的广播信号以便赶上当前信号(S70)。在步骤S64的低速模式重播和步骤S70的高速模式重播中,可以将基本上应用的时标设置为2倍快速和1.5倍慢速,当用户需要时可以通过使用按键280e、280f来改变这些时标。赶上当前信号的处理与结合图5的步骤S52说明的相同。例如,如果在18:20:43按下返回键280d,以低速重播的信号是从18:20:13到18:20:20的广播信号。因此,通过以高速模式读取并重播在18:20:23之后的、存储在存储器240中的广播信号,可以赶上当前信号。例如,如果以1.5倍快速的高速模式播放存储器240中存储的广播信号时,将在18:21:23赶上当前广播信号。然后,MPEG解码器230解码从去复用器245直接提供的广播信号。
图7是显示立即慢放观看功能的执行过程的流程图,而图12是显示当执行立即慢放观看功能时的信号处理的图。仅对于该功能,在命令该功能的执行之前不需要将广播信号存储到存储器240。然而,如果还提供有以上两个功能,当前广播信号将连续地存储在存储器240中(S80)。当需要仔细地观看特定场景时,该功能使得能够以慢速度模式观看TV,并且当遇见这样的场景时,用户可以通过按下立即慢放键280b来执行该功能(S82)。如果感测到立即慢放键280b的输入,控制器265立即控制MPEG解码器230来读取并解码存储器240中存储的广播信号。由视频时标器220和音频时标器210分别以所分配的时标来时标所解码的视频和音频信号,并且以低速模式播放所获得的视频和音频信号(S84)。如上所述,如果用户在以上低速模式重播后按下返回键280d以便返回到正常速度时。控制器265识别出按键按下(S86)并开始以高速模式重播存储器240中存储的广播信号(S88)。然后,当所存储的信号的高速重播赶上当前广播信号时,控制器265通过控制MPEG编码器230返回到当前广播信号以便解码当前广播信号(S90)。
在图12中,如果在18:20:20按下立即慢放键280b,并且在18:20:30按下返回键280d,并且所分配的时标是2倍慢速和1.5倍快速,则以2倍慢速将从18:20:20开始存储了5秒的广播信号重播10秒(从20秒到30秒),并且从当按下返回键280d时的30秒开始,以1.5倍快速重播从25秒开始存储的广播信号。结果,再现信号可以在18:20:40赶上当前广播信号。然后,直接输出当前广播信号。
启用这些有用的附加功能的原因在于无论时标是多少,都可以实现AV信号之间的同步。如前所述,AV同步归因于根据本发明的音频信号的时标方法的灵活性和自适应性。即,根据本发明,即使视频信号的重播速度与所分配的时标不同,也基于视频信号的实际时标来时标音频信号,并且该自适应的时标是可实时应用的,使得可以连续地同步时标的视频和音频信号。
在以上描述中,不具体描述视频信号的时标方法。存在许多公知的时标技术,从这些技术中可以选择并使用恰当的技术。只要能够精确地计算实际时标,就可以将任意视频信号时标方法应用到本发明。
工业适用性根据本发明的TSM音频信号的处理,一旦分配了特定的时标,就可以控制对应于所分配的时标的推算再现时间和通过时标进行经时标的信号的实际再现时间的差,以使其保持在预先建立的微小误差范围内。此外,即使时标改变,立即就使用改变后的时标来TSM处理音频信号。结果,与使用由用户分配的时标计算出的再现时间相比,通过本发明的TSM处理获得的音频信号总是被保持在能够被丢弃的狭窄误差范围内。因此,当应用到多媒体信号时本发明可以完成视频和音频的同步。特别地,即使时标的信号的实际时标可以偏离用户分配的值,也基于时标的偏离值来自适应地执行音频信号的TSM处理,使得时标处理中的AV同步需要更少的负载。此外,该AV信号同步导致诸如“电话中断观看功能”、“返回并慢放观看功能”和“立即慢放观看功能”之类的有用和实际的功能。
可以编程本发明,使得可以将它包含在个人计算机的多媒体播放器中,例如可以将它嵌入置入DVD播放器、数字VTR、TV电话、PVR(个人视频录像机)、MP3播放器、机顶盒之类的数字多媒体或数字广播信号处理器的芯片中。
虽然参照数个优选实施例已经描述了本发明,但是描述是说明性的,并且不应理解为限制本发明,本领域内的普通技术人员将理解的是,可在不背离由所附权利要求书限定的本发明宗旨和范围的前提下对本发明进行各种形式和细节上的修改。
权利要求
1.一种用于数字音频信号的时标修改方法,其中将输入信号的音频采样流分段为多个重叠分析窗口,将重叠区域的长度改变为对应于所分配的时标α的长度,加权合成重叠区域,由此被转换为时标输出信号,该方法包括步骤a)定义从输入音频采样的第mSa采样(m周期索引)开始的N+Kmax个采样作为当前周期m的分析窗口Wm,其中如果期望的合成间隔Ss除以时标α所得的值是自然数,则分配该值作为分析间隔Sa,而如果是小数,则分别分配最接近该小数的两个自然数作为修改后的分析间隔Sa’和补偿后的分析间隔Sa”,每次当满足特定的期望条件时,交替地应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”来代替分析间隔Sa;b)当在来自输出音频采样的末尾的OV个采样和与之重叠的当前周期分析窗口的OV个采样之间显示出最高的波形相似性时,计算当前周期分析窗口Wm的移位值Km,同时将当前周期分析窗口Wm的起始点移位特定预定数量个采样,该预定数量在被定义为从前一周期m-1的输出信号的末尾开始计算的第OV+1采样开始的Kmax个采样的搜索范围内;c)定义从当前周期分析窗口的前端第Km+1采样开始的N个采样作为要添加到当前周期的附加帧,其中通过将从附加帧的前端开始的OV个采样叠加到从前一周期帧的末尾开始的OV个采样来合成当前周期m的输出信号;和d)累积当前周期m的输出信号的实际再现时间和由时标α计算出的推算再现时间之间的误差,其中当累积误差偏离允许误差范围的上限或下限时,认为满足特定的期望条件。
2.如权利要求1所述的修改方法,还包括步骤时标α改变时,基于改变后的时标重新计算分析间隔Sa,其中使用改变后的时标和重新计算出的分析间隔Sa处理时标修改。
3.如权利要求1或2所述的修改方法,其中时标α包括由用户输入装置分配的时标,或通过与视频信号的时标修改一起执行的视频信号的时标处理提供的视频信号的实际时标。
4.如权利要求1所述的修改方法,其中当在每个周期在搜索范围Kmax中移位分析窗口Wm时跳过多个采样。
5.如权利要求1到4中任意一个所述的修改方法,其中通过由从前一周期帧的末尾开始的特定数量个采样组成的重叠区域和与前一周期帧重叠的当前周期的当前周期分析窗口Wm的特定数量个采样之间的交叉相关性来确定波形相似性。
6.如权利要求5所述的修改方法,其中在前一周期帧的采样和当前分析窗口中,选择其索引为k(k大于2的自然数)的倍数的采样并将其参与到交叉相关性的计算中。
7.一种用于数字音频/视频信号的时标修改方法,其中输入数字音频/视频信号被分离为音频信号和视频信号,使用相同的时标α时标每个信号,该方法包括步骤a)周期地计算通过基于时标α时标视频信号所获得的时标的视频信号的实际时标;b)确定时标的视频信号的当前周期的实际时标是否与前一周期的时标不同,其中如果不同,则将当前周期的实际时标作为目标时标α’,目标时标α’成为用于音频信号的时标修改的参考;和c)将输入音频信号的采样流分段为多个重叠分析窗口,将重叠区域的长度改变为对应于目标时标α’的长度,加权合成重叠区域,由此修改为时标的输出音频信号。
8.如权利要求7所述的时标修改方法,其中步骤c)包括步骤a)定义从输入音频采样的第mSa采样(m周期索引)开始的N+Kmax个采样作为当前周期m的分析窗口Wm,其中如果期望的合成间隔Ss除以时标α所得的值是自然数,则分配该值作为分析间隔Sa,而如果是小数,则分别分配最接近该小数的两个自然数作为修改后的分析间隔Sa’和补偿后的分析间隔Sa”,每次当满足特定的期望条件时,交替地应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”来代替分析间隔Sa;b)当在来自输出音频采样的末尾的OV个采样和与之重叠的当前周期分析窗口的OV个采样之间显示出最高的波形相似性时,计算当前周期分析窗口Wm的移位值Km,同时将当前周期分析窗口Wm的起始点移位特定预定数量个采样,该预定数量在被定义为从前一周期m-1的输出信号的末尾开始计算的第OV+1采样开始的Kmax个采样的搜索范围内;c)定义从当前周期分析窗口的前端第Km+1采样开始的N个采样作为要添加到当前周期的附加帧,其中通过将从附加帧的前端开始的OV个采样叠加到从前一周期帧的末尾开始的OV个采样来合成当前周期m的输出信号;和d)累积当前周期m的输出信号的实际再现时间和时标α’计算的推算再现时间之间的误差,其中当累积误差偏离允许误差范围的上限或下限时,认为满足特定的期望条件。
9.如权利要求1、7或8所述的时标修改方法,其中视频信号的实际时标是从过去的某个点T1到当前时间T2的流逝时间T2-T1与过去的某个点T1中的时标视频帧的时间标签TS1到当前时间T2中的时标的视频帧的当前时间标签TS2的流逝时间TS2-TS1之间的比率。
10.如权利要求7或8所述的时标修改方法,其中确定允许误差范围的上限和下限在误差范围内,使得在音频和视频时标的再现期间不会识别出信号之间的不同步。
11.如权利要求8所述的时标修改方法,其中当在每个周期在搜索范围Kmax中移位分析窗口Wm时跳过多个采样。
12.如权利要求8所述的时标修改方法,其中通过由从前一周期帧的末尾开始的特定数量个采样组成的重叠区域和与前一周期帧重叠的当前周期分析窗口Wm的特定数量个采样之间的交叉相关性来确定波形相似性。
13.如权利要求12所述的时标修改方法,其中在每个前一周期帧的所有采样和当前分析窗口中,选择其索引为k(k大于2的自然数)的倍数的采样并将其参与到交叉相关性的计算中。
14.一种使用设备再现广播信号的方法,该设备接收以MPEG模式压缩并编码的数字电视广播信号的传输流,并且实时再现视频和音频信号,该方法包括a)至少在用户输入电话中断键之后在存储装置中顺序地存储正在接收的数字电视广播信号;b)在用户按下返回键之后,以FIFO模式读取所存储的广播信号,并且使用预定的时标来时标相应检索到的视频和音频信号,其中,特别地,基于再现的视频信号的实际时标α来执行音频信号的时标,通过时标通过应用预定的时标计算出的视频信号获得的视频信号的实际时标,输入信号的音频采样流被分段为多个重叠的分析窗口,重叠区域的长度被改变为对应于视频信号的实际时标α的长度,加权合成重叠区域,由此转换为时标的输出信号;和c)输出时标的视频和音频信号来代替当前正在接收的广播信号。
15.如权利要求14所述的方法,还包括步骤如果通过应用作为高速再现模式的值的时标α再现的广播信号与正在接收的广播信号之间的时间误差落入特定的期望误差范围内,则输出正在接收的广播信号来代替所存储的广播信号。
16.如权利要求14所述的方法,还包括步骤当电话中断键输入和返回键输入之间的电话中断时段超出存储装置的最大存储时间时,以从较早存储的信号开始的顺序将正在接收的广播信号替代所存储的广播信号,并且将从当前时间算起的电话中断时段的起始地址改变为在最大存储时间之前的广播信号的地址。
17.一种使用设备再现广播信号的方法,该设备接收以MPEG模式压缩并编码的数字电视广播信号的传输流,并且实时再现视频和音频信号,该方法包括步骤a)在存储装置中顺序存储广播信号;b)当检测到用户的返回并慢放键输入时,从该时间点的特定时间周期之前接收的广播信号开始以FIFO模式读取所存储的广播信号,并且使用预定的时标来时标相应检索到的视频和音频信号以便能够实现低速再现,其中,特别地,基于再现的视频信号的实际时标α执行音频信号的时标,通过时标通过应用预定的时标计算出的视频信号获得的视频信号的实际时标,输入信号的音频采样流被分段为多个重叠的分析窗口,重叠区域的长度被改变为对应于视频信号的实际时标α的长度,加权合成重叠区域,由此转换为时标的输出信号;和c)输出时标的视频和音频信号来代替当前正在接收的广播信号。
18.如权利要求17所述的方法,还包括步骤a)当用户输入返回键时,通过将时标修改为用于高速再现模式的值来时标所存储的广播信号,从而进行高速再现,和b)如果以高速模式正在再现的广播信号和正在接收的广播信号之间的时间误差落入特定的期望误差范围内,则输出正在接收的广播信号来代替所存储的广播信号。
19.一种使用设备再现广播信号的方法,该设备接收以MPEG模式压缩并编码的数字电视广播信号的传输流,并且实时再现视频和音频信号,该方法包括步骤a)至少在输入立即慢放键之后在存储装置中顺序存储广播信号;b)从输入立即慢放键的点开始以FIFO模式读取所存储的广播信号,并且使用预定的时标来时标相应获取视频和音频信号,以便能够实现低速再现,其中,特别地,基于再现的视频信号的实际时标α执行音频信号的时标,通过时标通过应用预定的时标计算出的视频信号获得的视频信号的实际时标,输入信号的音频采样流被分段为多个重叠的分析窗口,重叠区域的长度被改变为对应于视频信号的实际时标α的长度,加权合成重叠区域,由此转换为时标的输出信号;和c)输出时标的视频和音频信号来代替当前正在接收的广播信号。
20.如权利要求19所述的方法,还包括步骤a)当用户输入返回键时,通过将时标修改为用于高速再现模式的值来时标所存储的广播信号,从而进行高速再现,和b)如果以高速模式正在再现的广播信号和正在接收的广播信号之间的时间误差落入特定的期望误差范围内,则输出正在接收的广播信号来代替所存储的广播信号。
21.如权利要求14、17或19所述的方法,其中通过下面的步骤执行音频信号的时标a)定义从输入音频采样的第mSa采样(m周期索引)开始的N+Kmax个采样作为当前周期m的分析窗口Wm,其中如果期望的合成间隔Ss除以时标α所得的值是自然数,则分配该值作为分析间隔Sa,而如果是小数,则分别分配最接近该小数的两个自然数作为修改后的分析间隔Sa’和补偿后的分析间隔Sa”,每次当满足特定的期望条件时,交替地应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”来代替分析间隔Sa;b)当在来自输出音频采样的末尾的OV个采样和与之重叠的当前周期分析窗口的OV个采样之间显示出最高的波形相似性时,计算当前周期分析窗口Wm的移位值Km,同时将当前周期分析窗口Wm的起始点移位特定预定数量个采样,该预定数量在被定义为从前一周期m-1的输出信号的末尾开始计算的第OV+1采样开始的Kmax个采样的搜索范围内;c)定义从当前周期分析窗口的前端第Km+1采样开始的N个采样作为要添加到当前周期的附加帧,其中通过将从附加帧的前端开始的OV个采样叠加到从前一周期帧的末尾开始的OV个采样来合成当前周期m的输出信号;和d)累积当前周期m的输出信号的实际再现时间和由时标α计算出的推算再现时间之间的误差,其中当累积误差偏离允许误差范围的上限或下限时,认为满足特定的期望条件。
22.如权利要求14、17或19所述的方法,还包括步骤在时标存储装置中存储的广播信号之前分别通过MPEG解码器解压缩并解码视频和音频信号。
23.如权利要求14、17或19所述的方法,其中通过调节视频帧的输出时间间隔来执行视频信号的时标,以便与时标一样快,或者减少输出帧的数量,以便和时标一样慢,或者将二者组合。
24.如权利要求14、17或19所述的方法,其中通过调节视频帧的表示时间标签的值来执行视频帧的输出时间间隔的调节。
全文摘要
问题需要能够确保时标被修改的音频信号和视频信号之间的同步的方法。解决方案当分析移位Sa=Ss/α具有小数值时,分别选择最接近该小数值的两个自然数作为修改后的分析间隔Sa’和补偿后的分析间隔Sa”,其中Ss是合成移位,而α是指定的时标(可变速度比)。在通过将源音频样本划分为重叠的连续分析窗口来改变重放速度的源音频样本的时标修改中,只要满足预定条件,就交替地应用修改后的分析间隔Sa’和补偿后的分析间隔Sa”。累积估算的重放时间和时标被修改的音频信号的实际重放时间之间的时差。满足预定条件的情况是累积时差超过允许误差范围的上限阈值或下限阈值的情况。在改变AV信号的重放速度的处理中,如果给定重放速度改变的视频信号的实际可变速度比作为音频信号的目标可变速度比来改变音频信号的重放速度,则可以获得视频信号和音频信号之间的同步。通过将该技术应用到数字TV或TV电话,可以连续观看电话中断时间的广播信号。通过在从过去或现在初始化的低速模式重放后还可以通过高速重放模式赶上当前正在接收的广播信号。
文档编号H04N9/804GK1902697SQ200480040219
公开日2007年1月24日 申请日期2004年5月17日 优先权日2003年11月11日
发明者崔元龙 申请人:科斯莫坦股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1