技术简介:
本专利针对音频视频信号不同步问题,提出通过分析音频中的语音特征与视频中唇部动作的对应关系,结合MuEv判别边界计算和元音音素分类,实现精准同步校正。方法包括:采集音视频数据,过滤语音干扰,提取声门事件与唇部特征,建立音频-视频关联模型,最终计算并调整时间偏移量。
关键词:音频视频同步,MuEv判别,唇部识别
专利名称:用于独立于说话者特征测量音频视频同步的方法、系统和程序产品的制作方法
用于独立于说话者特征测量音频视频同步的方法、系统和程序产品 相关申请
本申请要求基于2004年5月14日提交的美国申请No.10/846,133以 及2005年4月13日提交的PCT申请NO.PCT/US2005/012588的优先权, 其文本和附图并入在本文中。
背景技术:
本发明涉及至少具有视频和相关信息的多媒体娱乐、教育和其他节目 编制(programming)的制作、处理、传送、存储等,特别是同步。
至少具有视频和相关信息的多媒体娱乐、教育和其他编制节目的制 作、处理、传送、存储等要求同步。这种节目编制的典型例子是电视和电 影节目(program)。通常,这些节目包括视觉或者视频部分、听觉或者 音频部分,并且还可以包括一个或更多的不同数据类型部分。典型数据类 型部分包括隐藏式字幕(closed captioning),针对盲人的叙述性描述、例如 网站和其它信息指示等附加节目信息数据、以及包括在压缩系统(举例而 言,例如MPEG和JPEG)中的各种元数据。
通常制作、运行、存储或传播^f见频和相关信号程序的过程中,前述音 频、视频和/或数据中的各项的同步会受到影响。例如,当制作节目时, 一般称为口形同步(lip sync)的音频和—见频的同步可能会不协调。如果以准 确的唇形同步制作节目,该定时可能会受到后续操作的干扰,例如节目的 处理、存储或传送。认识到以完整的唇形同步制作的电视节目的唇形同步 会受到后续干扰是重要的。这种干扰可以通过分析引起该后续干扰的音频 和视频信号处理延时差异(delay differential)而得到纠正。如果电视节目 开始制作时就具有唇形同步上的误差,那么该误差的后续纠正就非常困 难,但是可以利用本发明进行纠正。通过本文中讲授的内容,可以正确地 理解这些问题和藉由本发明的解决方案。多媒体节目编制的一个方面在于维护视听表现(audio-visual presentation )例如电视节目中的音频和视频同步,以防止给观众带来不便, 并且方便节目的进一步运行或者有利于节目的分析。在共同转让、授权的 专利中描述了应对该挑战的各种方法。美国专利4,313,135、美国专利 4,665,431、美国专利4,703,355、美国专利Re. 33,535、美国专利5,202,761 、 美国专利5,530,483、美国专利5,550,594、美国专利5,572,261 、美国专利 5,675,388、美国专利5,751,368、美国专利5,920,842、美国专利5,946,049、 美国专利6,098,046、美国专利6,141,057、美国专利6,330,033、美国专利 6,351,281 、美国专利6,392,707、美国专利6,421,636以及美国专利 6,469,741。大体而言,这些专利处理4全测、维护以及纠正唇形同步和其他 类型的视频和相关信号的同步。
美国专利5,572,261描述了视频信号中的实际口部图像(mouth image) 的使用,以预测正在发出的音节,并将该信息与相关音频信号中的声音进 行比较,从而测量相对的同步。不幸地是,当没有口部图像时,就不能够 确定正在发出的是哪个音节。
作为另一个例子,在能够测量节目的音频和视频部分之间关系的系统 中,音频信号可以对应于多个视频信号中的一个或更多,并且期望确定出 是哪一个。例如,在电视演播室中,三个说话者中每个人都佩戴一个扩音 器,并且每个表演者具有拍摄说话者图像的对应摄影机,期望使得音频节 目编制与来自摄影机的视频信号相关。这种相关性的一个用途在于自动地 选择(传送或记录)拍摄当前正在说话的表演者的摄影机。作为另一例子, 在选择了具体的摄影机时,用于选择对应于该视频信号的音频。在又一例 子中,用于检查输出视频信号,并且确定它对应于一组视频信号中的哪一 组,从而有利于对应音频的自动选择或者定时。在美国专利5,530,483和 5,751,368中记名又了描写这些类型的系统的共同转让的专利。
上述专利包括的关于现有技术的教导通过引用整体并入本文中。
一般,除了美国专利5,572,261、 5,530,483和5,751,368之外,上述 专利描述了在不对视频信号图像进行检查或者响应的情况下的运行。因 此,该类专利描述的应用范围限定于使用各种视频定时信息的特定系统。
专利5,530,483和5,751,368涉及通过对视频信号中携带的图像进行;险查, 来测量视频延时并识别视频信号,但是没有对纟见频和音频信号进行任何比 较或者其它检查。专利5,572,261讲述了使用视频信号中实际口部图像和 相关音频信号中的声音来测量相对同步。美国专利5,572,261描述了一种 在唇部和音频中检测口部发音的出现的运行模式。例如,当唇部处于用于
发出像E的声音的位置并且E出现在音频中时,这两个事件发生之间的 时间关系被用于测量它们之间的相对延时。美国专利5,572,261中的描述 记叙了使用的共同属性,举例来说,例如由唇部发出的特定声音,其可以 在音频和视频信号中进行检测。对于对应于某种声音的唇部的视觉定位以 及相应声音的听觉呈现的检测和相关,计算起来强度很高,导致高成本以 及高复杂性。
在J. Hershey, and J.R. Movellan 6令"i仑文("Audio-Vision: Locating sounds via audio-visual synchrony" Advances in Neural Information Processing Systems 12,由S.A. Solla, T.K. Leen, K-R Muller编辑,MIT Press: Cambridge, MA (MIT Press, Cambridge, Mass., (c) 2000))中,认识到声音可 以用于鉴别视频图像中对应的单个像素。音频信号和图像中的单个像素之 间的相关性被用于制作电影,这种电影示出了与音频具有高相关性的视频 区域,并且从该相关性数据中它们估计出图像活动的中心(centroid), 以及利用它来找出说话的面孔。Hershey等人描述了通过使声音和脸部的 不同部分相关来4全测同步从而鉴别出电视图 <象中两个说话者中哪一个正 在讲话的能力。Hershey等人尤其提及"有意思的是同步性由一些部位共 同分享,例如,眼晴,它不会直接地对声音产生影响,但却有助于交流"。 更具体地,Hershey等人表示面部的这些部位包括唇部都会对交流具有贡 献。Hershey和Movellan没有表示他们的算法能够测量同步或者实现本发 明的任何其他特征。他们再一次具体说胡它们不能直接地对声音产生影 响。在该参考文献中,算法仅仅根据特征的运动或者不运动而鉴别出是谁 正在说话。
在另 一篇论文中,M. Slaney和M. Covell ("FaceSync: A linear operator for measuring synchronization of video facial images and audio tracks",可在
www.slanev.org上获得)描述将本征点(Eigen Point)用于确定说话者的唇 部,Yehia、 Ruben、 Batikiotis-Bateson提供的算法可以用于对相应的音频 信号进行运算,以提供面部参照点(fiduciary point)的位置。接着,使用图 像中类似的唇部参考点和Yehia算法中的参考点来进行比较,以确定唇形 同步。Slaney和Covell继续描述了在"最优化线性检测器"中对该比较进 行优化,该最优化线性;险测器"等效于维纳滤波器,它将来自所有像素的 信息进行组合以测量音频-视频同步,,。尤其提及在脸部同步算法(FaceSync algorithm)中"使用来自所有像素的信息",因而由于从明显无关的像素 中提取信息而降低了效率。进一步地,算法要求对特定的已知面部图像使 用训练(training),并且进一步地描述为"依赖于训练和测试数据大小,,。 此外,尽管Slaney和Covell提供了其算法的数学解释,但是他们没有给 出实施或者运算该算法来完成唇形同步测量的具体方法。重要地是, Slaney和Covell方法依赖于面部参照点,例如嘴角和唇上的点。
同样,Silver的美国专利5,387,943描述了 一种要求由操作者鉴别口部 的方法。并且,上述类似的美国专利No.5,572,261利用了^L频的唇部运动。 这些参考资料中的任何一个都仅仅关注于纯粹的唇部运动。在任何一个这 些公开的方法中,都没有考虑唇部的其他特征或其他面部部位,例如,唇 部的形状。尤其,在这些参考资料中,没有检测或者考虑空间的唇部形状, 仅仅只有打开和闭合的运动。
人类声音的最重要的知觉方面是音调、响度、音质和定时(与速度和 节奏有关)。 一般认为这些特征或多或少地彼此独立,并且认为它们分别 与声学信号的基本频率fo、振幅、频谱包络(spectral envelope)以及时间 变化有关。不幸地是,当尝试传统的语音识别技术和同步技术时,它们受 到个体说话特征很大地影响,例如,低或高的语音音调、口音、音调调整 和难于识别、量化或者鉴别的其他语音特性。
应该看出,消除或者至少降低不同说话者的与语音特征有关的 一个或 者更多影响将是有益的。因此,本领域需要一种解决不同说话者语音特征 的改进的视频和音频同步系统。正如将会看到的那样,本发明以一种优质 方法达到了这个目标。
发明内容通过本文中所述的方法、系统以及程序产品消除现有技术的缺陷。
本发明提供对在信号的视频部分中传送的图像与例如音频信号等关 联信号中的特征进行直接的比较。更具体地,公开了一种用于测量音频视 频同步的方法、系统和程序产品,其独立于说话者的具体特征,无论是音 调深沉的说话者,例如高大的男人,还是音调高的说话者,例如娇小的女 人。在一个实施方案中,本发明涉及测量唇部的形状以考虑由该形状产生
的元音和其他音调(tone)。与仅仅考虑打开或闭合运动的传统方法不同, 本发明考虑唇部的形状和运动,实质上通过视频特征而提供所讲单词的音 频和视频同步的改进精确度。此外,与仅仅考虑打开或闭合运动的传统方 法不同,本发明考虑形状,并且也可以考虑唇部的运动。因此,根据本发 明配置的系统可以降低或消除与不同说话者有关的语音特征的一个或更 多影响。
尽管以用于同步关于人类说话者的音频和视频的优选实施方案描述 本发明,应该理解,其应用并不受限于此,并且可以用于定时和鉴别的特 定特征期望定位和/或鉴别的任何声音源。本发明可以用于的这种非人类 声音源的仅仅一个实施例是计算机产生的语音。
发明人引入术语音频和视频MuEv (Audio and Video MuEv,参照美国 专利申请20040227856)。 MuEv是相互事件(Mutual Event)的缩写,意指发 生在图像、信号或者数据中的充分唯一的事件,其可以伴随着关联信号中 的另一个MuEv。这样两个MuEv有例如音频和视频MuEv,其中,某个 -现频品质(或序列)对应于唯一且匹配的音频事件。
本发明提供对在信号的视频部分中传送的图像与例如音频信号等关 联信号中的特征进行直接的比较。更具体地,公开了一种以独立于说话者 的个人语音特征的方式测量音频一见频同步的方法、系统和程序产品。
通过以下步骤进行实施首先从输入音频-视频信号中采集音频和视 频MuEv,并将它们用于校准音频视频同步系统。MuEv采集和校准阶段 之后,分析音频信息,并分析视频信息。由此,从音频和视频信息中计算
音频MuEv和S见频MuEv,并将音频和3见频信息分类为元音音素(vowel sound),包括但不限于AA、 EE、 OO (两个大写字母分别表示元音a、 e 和o的声音)、无声以及其他未分类音位(phoneme)。将这种信息用于确 定主要音频类别,并使得主要音频类别与一个或更多对应的视频帧相关 联。确定匹配位置,并确定视频和音频的偏移量。简单说明的实施例是可 以将音素EE (音频MuEv)鉴别为出现在音频信息中并匹配至对应的图像 特征,例如形成与发出元音EE有关的形状的唇部(视频MuEv), /人而测量 其相对定时(relative timing),或者将其用于确定或纠正唇部同步误差。
本发明提供对在信号的视频部分中传送的图像与例如音频信号等关 联信号中的特征进行直接的比较。更具体地,公开了一种用于测量音频视 频同步的方法、系统和程序产品。通过以下步骤进行实施首先通过接收 音频视频信息将数据采集进音频视频同步系统。可以采取数据采集时间随 后用于确定相对的音频和视频定时的方式来执行数据采集。在这点上,优 选地,同时捕获音频和视频数据,并将其存储在已知位置的存储器上,使 得有可能简单地通过参考该已知的存储器位置而从存储器中再调用 (recall)最初时间一致的音频和S见频。从存储器中再调用可以同时针对 音频和视频,或者按照需要以有利于处理。然而,可以使用采集、存储和 再调用数据的其他方法,并且可以进^f亍调整以适应本发明的具体应用。例 如,当没有中间存储器的情况下捕获数据时,可以对数据进行分析。
优选地,数据采集之后,分析捕获的音频信息,并分析捕获的视频信 息。由此,从音频和视频信息中计算声门脉沖,并将音频和视频信息分类 为包括AA、 EE、 00、无声以及其他未分类音位的元音音素。将这种信 息用于确定并关联视频帧中的主要音频类别。确定匹配位置,并确定视频 和音频的偏移量。
本发明的一个方面在于一种用于测量音频视频同步的方法。该方法包 括以下步骤首先接收例如电视节目的视频部分及关联的音频部分;分析 音频部分,以在其中定位特定音位的呈现;以及还分析视频部分,以在其 中定位特定—见位( viseme )的出现。才妄着,分析音位和牙见位,以确定相关 音位及其—见位的相对定时,并定位muev。
本发明的另一方面在于一种通过以下步骤测量音频视频同步的方法 接收视频信息和关联的音频信息,分析音频信息以定位特定声音的呈现, 并且分析—见频信息以定位对应于特定声音形成的唇部形状的呈现,以及将
特定声音的位置与对应的唇部形状的位置进行比较,以确定音频和视频的 相对定时,例力。muev。
本发明的再一方面在于一种测量音频视频同步的方法,其包括以下步 骤接收电视节目的视频部分和关联的音频部分,以及分析音频部分以定 位特定元音音素的呈现,同时分析视频部分,以定位对应于发出特定元音 音素的唇部形状的呈现,以及分析在步骤b)中定位的元音音素的出现和/ 或位置和步骤c)的对应唇部形状的位置,以确定其相对定时。本发明还分 析对于说话者唯一的个人语音特征的音频部分,并将其过滤掉。因此,实 质上可以标准化与给定视频帧相关的口语语音的音频表示(audio representation),其中,实质上过滤掉i兌话者语音的个人特征。
本发明提供了用于识别和定位muev的方法、系统和程序产品。如本 文中所使用,术语"muev,,是相互事件(MUtualEVent)的缩写,意指发 生在图像、信号或者数据中的充分唯一的事件,其可以伴随着关联信号中 的另 一个MuEv。因此,图像muev具有匹配关联信号中的muev的可能性。 例如,对于球棒击打棒球,音频信号中球棒击打的声音是一个muev,球 棒的摆动是一个muev,并且球立即地改变方向也是一个muev。显然,每 个muev具有在时间上匹配其他muev的可能性。通过在图^f象的一个或几 个受限区域中寻找运动尤其是快速运动,即,抛球的投手和击球的击球手, 来实现视频muev的检测,而图像的剩余部分是静止的。在音频中,可以 通过寻找短促的、敲击的声音,这些声音在时间上与其他短促的敲击音隔 离,来检测球棒的击打声。本领域的普通技术人员应该从这些教导中认识 到,其他 muev可以在关联信号中鉴另'J并可以用于本发明。
附图中示出了本发明的各种实施方案和范例。 图1为执行本发明的方法的系统的概图; 图2示出了本发明的框图,其中,图像通过视频信号传送,并且关联 信息通过关联信号和同步输出传送;
图3示出了与传送图像的视频信号和传送关联信息的音频信号一起 使用的本发明的框图4为示出本发明的方法的"数据采集阶段"的流程图,"数据采集 阶段"还称为"A/VMuEv采集和校准阶段"。
图5为示出本发明的方法的"音频分析阶段"的流程图6为示出本发明的方法的视频分析的流程图7为示出还被称为声门脉沖(Glottal Pulse)的音频MuEv的推导和计 算的流程图8为示出本发明的方法的测试阶^a的流程图9为示出还被称为声门脉冲的音频MuEv的特性的流程图;以及
图10为示出根据本发明的从音频/视频表现的音频部分中去除个人语 音特征的处理的流程图。
具体实施例方式本发明的优选实施例具有图像输入、提供图像相互事件的图像相互事 件鉴别器、以及关联信息输入、提供关联信息相互事件的关联信息相互事 件鉴别器。图像相互事件和关联信息相互事件适当地连接至比较运算,该 比较运算将两种类型的相互事件进行比较而确定其相对定时。在本发明的 具体实施方案中,可以关于传送图像或关联信息的方法来标注相互事件, 或者关于图像或者关联信息的性质来标注相互事件。例如,视频相互事件、 亮度相互事件、红色相互事件、色度相互事件以及亮度(luma)相互事件 是一些类型的图像相互事件,而音频相互事件、数据相互事件、重量相互 事件、速度相互事件以及温度相互事件是通常使用的一些类型的关联相互 事件。
图1示出了本发明的优选实施方案,其中,视频传送图像和传送关联 信息的关联信号。图1具有视频输入1、具有相互事件输出5的相互事件 鉴别器3、关联信号输入2、具有相互事件输出6的相互事件鉴别器4、 具有输出8的比较7。
运行时,视频信号1连接至图像相互事件鉴别器3,图像相互事件鉴 别器3运行来比较视频的多幅图像帧,以识别由视频信号传送的图像中的 元素的运动(如果存在)。通常用于视频压缩例如MPEG压缩的运动向量的 计算对于该项功能是有益的。有益的是放弃仅仅表示少量运动的运动向 量,并仅仅使用按照图片高度5%或更多的次序表示有效运动(significant motion)的运动向量。当才全测到这种运动时,针对该运动来检查相关的剩 余部分的视频信号运动,以确定它是否是可能在关联信号中具有对应 muev的事件。
在5处产生表示视频场或帧中存在相互事件的相互事件输出,在该样 例中,存在可能在关联信号中具有对应相互事件的运动。在优选形式中, 期望针对每一个帧输出二进制数,该数表示相互事件的数目,相互事件就 是在该帧中相对于前一帧运动的小区域单元,而该帧的剩余部分保持相对 静止。
可以注意到,虽然将视频表示为将图像传送至图像相互事件鉴别器3 的优选方法,但是也可以利用其他类型的图像传送,例如,文件、软件包、 数据等,因为本发明的操作并不受限于传送图像的具体方法。为了针对特 定视频信号或者由^f见频信号传送的特定类型的期望图像来最优化本发明, 还可以使用其他类型的图像相互事件。例如,单独地或者结合起来利用具 体区域中的亮度变化、视频信号包络的变化、承载图像的视频信号的频率 或能含量(energy content)的变化以及视频信号性能的其他变化,来产生 相互事件。
关联信号2连接至相互事件鉴别器4,相互事件鉴别器4配置成确定 关联信号中关联信号相互事件的出现。当确定相互事件出现在关联信号中 时,在6处提供相互事件输出。优选地,相互事件输出为二进制数,该二 进制数表示已经出现在关联信号2的连续片断(segment)中的相互事件 的数目,且更具体地,该片断是在长度上与用于输出运动信号数目5的视 频信号1的场或帧周期对应的片断。该时间周期可以从运动鉴别器3经由
适当连接9连接至相互事件鉴别器4,本领域的普通技术人员将由本文的 描述而了解。可选地,出于该目的或其他目的,如当前的这些教导所了解, 视频1可以直接地连接至相互事件鉴别器4。
可以注意到,虽然将信号表示为将关联信息传送至关联信息相互事件 鉴别器4的优选方法,但是由于本发明的操作并不受限于传送关联信息的 具体方法,也可以利用其他类型的关联信息传送,例如,文件、软件包、 数据等。在图l的优选实施例中,由于信号对于传送的优选用途,关联信 息还被称为关联信号。类似地,关联信息相互事件还称为关联信号相互事 件。关联信号中相互事件的检测会很大程度上依赖于关联信号的属性。例 如,可能出现在图像中的由设备提供的或者响应于设备而提供的数据,例 如由用户输入至拒员机(teller machine )的数据,可以是优良的相互事件。 如以下所讨论,可能与运动相关的音频特性是优良的相互事件。作为其他
的变化、信号的信息、频率或能含量的变化以及信号性能的其他变化,来 产生相互事件。在以下本发明的详细实施方案中,将提供对具体信号类型 中的相互事件进行鉴别的更多详情。
因此,对于作为视频场或帧周期而传送的每幅图像,在5处出现一个 相互事件输出,并且在6处出现一个相互事件输出。因为在该优选实施方 案中将视频作为传送图像的方法,所以图像相互事件输出还被称为视频相 互事件,并且关联信号相互事件输出适当地连接至比较7,比较7的作用 在于根据滑动时标确定两个输出的最佳匹配。在优选实施方案中,比较优 选地为确定两个信号之间的最佳匹配和两个信号之间的相对时间的相关 性(correlation)。
发明人实施AVSync (Audio Video Sync detection,音频视频同步检测) 基于对Muev的鉴别,例如,元音音素、无声以及辅音音素,优选地,包 括至少三个元音音素和无声。示例的元音音素为三个元音音素/AAA/EE/ 和/00/。本文中所述的算法假设在其最终实施中说话者独立。
第一阶段是图4中大致示出的初始数据采集阶段,还称为音频/视频 MuEv采集和校准阶段。在初始数据采集阶段,实验数据用于产生判别边
界并建立音位的分割音频区域,即,音频MuEv的/AA/, /00/, /EE/。本发 明不限于仅仅三种元音,其可以拓展至包括其他元音或者音节,例如 "lip-biting" 、 "V"和"F"等。
同时,产生对应的视位(viseme),即视频MuEv,以确立不同的视频 区域。
这些稍后在AVI分析期间进行使用,在音频和视频流中识别这些元 音的位置。通过分析音频中元音位置和对应的视频帧中^r测的元音,估计 音频-视频同步。
除了音频-视频MuEv匹配之外,还检测音频和视频中的无声中断 (silence break),并且无声中断用于确定A/V同步的程度。
AVI分析期间,在音频和视频流中识别这些元音的位置。通过分析音 频中的元音位置和对应的视频帧中检测的元音,估计音频-视频同步。
除了音位-视位匹配之外,可以才全测音频和视频中的无声中断,无声 中断还用于确定A/V同步的程度。
下一步骤为如图5中所示的音频MuEv分析和分类以及如图6中所示 的视频MuEv分析和分类。音频MuEv分类基于声门脉冲分析。在图5中 所示并详细描述的声门脉冲分析中,收集音频采样,并计算非无声区域中 的来自音频采样的声门脉沖。针对每个声门脉沖周期,计算平均值(the Mean )以及第二个矩(the Second Moment )和第三个矩(the Third Moment )。 这些矩被集中并围绕平均数进行归一化。将矩绘制成分布图。提取分隔大 部分元音类别的判别边界,并将其存储为用于音频分类的参数。
在图6中所示并详细描迷的音频分析和分类的实质上并行的阶段,通 过使用面部检测器和唇部跟踪器提取每个音频帧的唇部区域。优选地,归 一化亮度值以去除任何照明影响。唇部区域被划分成子区域,典型地为三 个子区域内部、外部和相异区域。内部区域通过从外部唇部区域的整个 四边中除去大约25%的像素而形成。外部唇部区域和内部区域的差异被 看作相异区域。计算所有三个区域的平均值和标准偏差。认为这些区域的 平均值/标准偏差是说话者元音的一见频测量,因此形成相应的^L频MuEv。 注意,该视频MuEv实质上基于外部、内部和相异区域,而外部、内部和 相异区域实质上基于唇部形状,而不是纯粹的唇部运动。利用寻找视频 MuEv的本方法配置的系统能够找到比传统系统更多的MuEv,传统系统 一般是一种严格基于运动的系统。例如,对于出现形状的每一帧,可以识 别对应于说话者元音音素"EE"的唇部形状。通过比较,使用仅仅利用 唇部运动来确定EE音素的系统会需要几个帧才能找到,因为需要这几帧 中这种唇部运动的冗余测量来确定唇部正在发出哪种声音。根据本发明, 考虑唇部的形状实质上减少了确定说话者正在发出的声音所需要的帧的 数量。同样,根据本发明,描述了系统可以识别出唇部形状所采用的方式 的具体教导。这些教导可以用于提供对于唇部正在发出的声音的实质上更 快速的鉴别和更加精确的校准。
下一阶段,在图7中示出并更加详细描述了检测阶段。图7中所示的 检测阶段的一个可能的实施为逐帧地处理检测数据。大量采样,例如大约 450个或者更多的音频采样,用作音频窗口。对于超过一些片^:例如80% 的每个音频窗口 ,处理非无声数据以计算音频MuEv或者GP(声门脉沖)。 对于音频MuEv或者GP采样,计算音频特征。出于该目的,使用多个音 频帧的平均频谱值,例如具有10%移位的IO个或者更多连续音频帧。将 这些分类成元音音素,例如,/AAA /00/、 /EE/,以及其他元音音素、 辅音音素和"F"和"V"音素。对于具有超过两个相同的连续分类的所 有这些采样,检查对应的视频帧。计算用于该帧的视频特征,并将其分类 为对应的一见频MuEv。通过分析这些数据而校-睑同步。
在如图8中所示并进行更加详细描述的检测阶段,确定视频帧中主要 的音频类别,并将其关联至纟见频帧以确定MUEV。该步骤通过定4立匹配 位置以及估计音频和视频的偏移量而完成。
图4中示出了在具有输入音频和视频信息的音频视频同步系统中采 集数据的步骤,即,音频/视频MuEv采集和校准。数据采集包括以下步 骤接收音频视频信息201,分别提取音频信息和视频信息203,分析音 频信息205和分析^L频信息207,以及乂人其中恢复音频和3见频分析数据。 存储音频和^L频数据209并再次^吏用。
分析数据包括以下步骤由音频教:据绘制出音频矩的分布图211,划 定音频判别边界并存储随之产生的音频判别数据213,由视频数据绘制视 频矩的分布图215,以及划定视频判别边界217并存储随之产生的视频判 别数据219。
通过例如图5中所示的方法分析音频信息。该方法包括以下步骤接 收音频流301,直到捕获的音频采样的片段达到阈值303。如果捕获的音 频的片段达到阈值,确定捕获的音频采样的音频MuEv或声门脉冲307。 下一步骤计算一个移位(shift)之内的音频MuEv或声门脉冲大小的连续 音频数据组的快速傅立叶变换。该步骤通过以下处理进行计算快速傅立 叶变换的平均频谱311,接着计算声门脉沖的快速傅立叶变换的频谱的音 频统计313;并返回音频统计。检测的音频统计313包括一个或更多的集 中的或者归一化的Ml(平均值)、M2B AR(第二个矩)、M3BAR (第三个矩)。
如图7所示,通过包括以下步骤的方法,从音频和视频信息中计算音 频MuEv或者声门脉冲,以找出捕获的音频采样的音频MuEv或声门脉冲。 该方法包括接收3N个音频采样的步骤501,以及对于i:O至N个采样, 执行以下步骤
i) 确定N+1个音频采样的快速傅立叶变换,步骤503;
ii) 计算前四个奇次谐波的和,S(I),步骤505;
iii) 找出具有最大变化率的S(I)的局部最小值,S(K),步骤507;以及
iv) 计算音频MuEv或者声门脉沖,GP = (N+K)/2,步骤509。
通过包括以下步骤的方法实现如图6所示的视频信息的分析接收视 频流并从视频帧获取视频帧401 ,在视频帧中找出面部的唇部区域403, 以及如果^见频帧为无声帧,4妄收随后的一见频帧405。如果^L频帧不为无声 帧,优选地,定义面部的内部和外部唇部区域407,计算面部的内部和外 部唇部区域的平均值和方差409,并计算唇部的宽度和高度411。该方法 提供了不依赖于运动的基于空间的MuEv。再次注意,所有这种基于空间 的信息可以源于视频的单个帧甚至单个场。因此,与传统的唇部运动的基 于运动的(时间)分析相比,实质上增加了快速地找出很多基于空间的视频
MuEv的潜力。但是,这并不是说基于运动的MuEv是无用的,而是说如 果需要,可以单独地或者结合基于空间的MuEv来使用它们。在处理过程 的最后,返回视频特征,并接收下一帧。
通过如图8中所示的方法,确定并关联视频帧中的主要音频类别,定 位匹配的位置,并估计音频和视频的偏移量。该方法包括以下步骤接收 音频和视频信息流601,重新获取(retrieve)单个音频和纟见频信息602, 分析音频信息605和视频信息613,以及分类音频信息607和视频信息 615。接着,过滤音频信息609和视频信息617,以清除随机出现的类别, 以及将最主要音频类别与对应视频帧关联611,找出匹配位置619,并估 计异步偏移量(asynchronous offset) 621 。
将音频和视频信息分类为至少包括AA、 EE、 OO、无声和未分类音 位的元音音素。该步骤不排除其他元音音素,也不排除辅音音素。
本发明的又一方面在于一种用于实现上述测量音频视频同步的方法 的系统。其通过包括以下步骤的方法实现音频视频同步系统的初始A/V MuEv采集和校准阶段,因而建立有关音频和视频MuEv的相关性,以及 分析阶段,所述分析阶段包括采集输入音频视频信息,分析音频信息, 分析视频信息,由音频信息和视频信息计算音频MuEv和视频MuEv;以 及确定和关联S见频帧中的主要音频类别,定位匹配位置,以及估计音频和 牙见频的偏移量。
本发明的再一方面在于包括一种用于测量音频视频同步的计算机可 读代码的程序产品。其通过包括以下步骤的方法实现音频视频同步系统 的初始A/V MuEv采集和校准阶段,因而建立有关音频和视频MuEv的相 关性,以及分析阶段,所述分析阶段包括采集输入音频视频信息,分析 音频信息,分析视频信息,由音频信息和视频信息计算音频MuEv和视频 MuEv;以及确定和关联视频帧中的主要音频类别,定位匹配位置,以及 估计音频和3见频的偏移量。
本发明可以通过诸如以下各种装置作为软件应用程序(如操作系统元 素)、专用处理器或者具有专用代码的专用处理器实施接收视频信号和 关联信号的装置、识别音频-视频事件并将视频信号和关联信号音频-视频
事件进行比较以确定相对定时的装置。软件执行一 系列还可以称为代码的 机器可读指令。这些指令可以存储在各种类型的承载信号的介质中。在这 点上,本发明的一个方面涉及一种程序产品,包括承载信号的介质或者可 触摸地包含机器可读指令的程序的承载信号的介质,其可由数字处理设备
执行以实现以下方法接收视频信号和关联信号,识别音频-视频事件, 并比较视频信号和关联信号音频-视频事件,以确定相对定时。
该承载信号的介质可以包括例如服务器中的存储器。服务器中的存储 器可以为非易失性内部存储器、数据盘、或者甚至用于下载至处理器以进 行安装的卖方服务器上的存储器。可选地,可以在承载信号的介质中例如 光学数据存储盘中包含指令。可选地,指令可以存储在任何种类的机器可 读数据存储介质或多个介质上,其可以包括例如"硬驱"、RAID阵列、 RAMAC、磁性数据存储磁盘(例如软盘)、磁带、数字光带、RAM、 ROM、 EPROM、 EEPROM、快闪存储器、点阵或三维阵列类型光学存储器、磁 光存储器、纸穿孔卡片(paper punch card)或者任何其它合适的承载信号 的介质,包括传输介质,例如数字和/或模拟通信链路,可以为电子、光 学和/或无线的。作为样例,机器可读指令可以包括由诸如"C++"等语言 编译的软件对象代码。
此外,例如,可以将程序代码压缩、加密或既压缩又加密,并且程序 代码可以包括可执行文件、脚本文件和用于安装的向导,如采用Zip文件 和cab文件。如本文中所使用,术语存储在承载信号的介质之中或之上的 "机器可读指令"或"代码"包括以上所有的传送装置。
音频MuEv (声门脉沖)分析。所述的方法、系统和程序产品基于声 门脉沖分析。声门脉冲的概念因为缺少其他语音分析和变换方法而产生。 具体地,现有技术中主要的语音变换方法大部分处理语音的频i普特征。
然而,频谱分析的一个缺点在于不能够在频i普域内完整地处理语音的 源特性。语音的源特性影响说话语音质量,其定义语音是否具有语气(正 常)的、强调的、带呼吸声的、吱吱嘎嘎声的、刺耳的或者轻声的品质。 语音的质量受到声带的外形长度、厚度、质量和压力的影响,以及受到脉 冲流动的量和频率的影响。完整的语音变换方法需要包括源特性的映射。时间域内语音质量特性 (还称为声门脉沖)比频率域更加明显。通过估计时间域内的声门脉沖的形 状,开始用于获取声门脉沖的一个方法。对声门脉冲的估计提高了源和声道(vocal tract)去巻积(deconvolution)及共振峰估计和映射的精度。
根据声门脉沖分析的一种方法,多个参数,喉部参数,用于描述声门 脉冲。参数基于图9中所示的LF(Liljencrants/Fant)模型。根据LF模型, 声门脉冲具有两个主要的独特时间特性打开系数(open quotient)(0Q-7yr。)是声带保持打开的每个周期的片段,脉冲的斜率或者速度商 (a-7yz;)是打开阶段的打开状态的持续时间7;与声带闭合(fold)的打开 阶段的整个持续时间z;的比值。为了完成声门流(flow)的描述,包括音 调周期r。、闭合率(RX^(7;-:rp)/7;)和数量(AV)。
LF模型的5个参数的估计要求估计声门闭合瞬间(glottal closure instant, GCI)。 GCI的估计使用以下事实最小相位信号的平均组延时值 与信号开始和分析窗口开始之间的移位成比例。在两个一致的瞬间,平均 组延时值为零值。分析窗口长度设置成仅仅稍微大于对应音调周期的值。 其在时间上移位信号内的一个采样,并且每次提取LPC剩余的未展开的 相位i普。对应于分析窗口的开始的平均组延时值由线性回归拟合 (regression fit)的斜率找出。随后的过滤不影响信号的时间性质,但是 消除可能会产生伪零相交的涨落(fluctuation)。因此,在平均延时的正 斜率期间GCI是零相交瞬间。
在估计GCI之后,通过将动态时间校正方法迭代应用到声门脉沖序 列的估计而获取LF模型参数。经由LP反向滤波器而获取声门脉冲的初 始估计。LP模型参数的估计基于利用与声门脉沖循环的闭合相位一致的 零激发(zero-excitation)周期的音调同步方法。参数处理可以分划为以下 两个阶#爻
(a) 參炎^初始餘^从激发序列的初始估计的分析中获取每个参 数的初始估计。当声门导数信号(glottal derivative signal)达到局部最小值 时,参数j;对应于该瞬间。参数AV为该瞬间信号的数量。参数Tp可以作为z;左侧的第一个零相交进行估计。可以发现参数7;是7;右侧的第一
个采样,其小于某个预置阈值。类似地,当信号小于某个阈值并且受限于
打开系数的值时,可以将参数r。估计为;左側的瞬间。特别困难的是获 得r。的精确估计,所以简单地将其设置为2/3*(re - rc)。在应用非线性优 化技术之后,由于该筒化导致的精度方面的损失仅仅是临时的,估计r。 是在闭合阶段期间的归一化频谱(由av归一化)的数量。
(b)參炎^f/夕4#游^處必。使用动态时变(dynamic time warping, DTW)方法。DTW对合成产生的声门脉沖与通过反向滤波获取的声门脉冲 进行时间对准。对准的信号比建模的信号更加平滑,其定时特性不失真, 但是没有出现在合成信号中的短期的或者其他时间的涨落。因为对准的信 号可以将估计的声门脉沖替换为可以由其估计LF参数的新模板,所以可 以迭代地使用该项技术。
在本发明的另一实施方案中,提供了一种音频同步方法,其提供了实 质上独立于给定说话者的个人特征的音频输出。 一旦产生输出,不管任何 个别说话者特征,其实质上类似于任何数量的说话者。根据本发明,如此 配置的音频/视频系统可以降低或者消除与不同说话者有关的语音特征的 一个或更多的影响。
人类声音的最重要的知觉方面是音调、响度、音质和定时(与速度和 节奏有关)。 一般认为这些特性彼此或多或少地独立,并且认为它们分别 与声音信号的基本频率fo、振幅、频谱包络以及时间变化有关。
已经观察到一个人的个人音调fo由个人身体共振(胸腔、喉、口腔)和 一个人声带的长度决定。音调信息位于一个人语音的较低频谱中。根据本 发明,新颖的方法关注于评估频率域中一个人的语音特征,接着消除最初 的几个谐波或者整个较低频带。结果留下了由人类讲话器官产生的个体智 能声音、音位的本质或谐波频谱。输出是独立于说话者个人特征的音频输 出。
工作时,傅立叶变换和音频归一化的矩(moment)用于估计对振幅 和时间变化的依赖性,因此进一步增强了语音识别方法。如下那样计算矩
使fi为傅立叶变换的第i个谐波,并且n为关于10ms数据的采样数, 接着将第k个矩定义为<formula>formula see original document page 30</formula>
依比例决定i的值,使得其覆盖整个频率范围。在这种情况下,仅仅
使用n中的m个(对应于6 KHz)频镨值。 将第k个(k>l)中心矩定义为
从上迷等式,可以得到:
<formula>formula see original document page 30</formula>
考虑的其他矩为
<formula>formula see original document page 30</formula>
参照图10,示出了根据本发明的方法的一个实施方案。图IO中所示 的过程在步骤1000开始。处理在步骤1002处开始,在其中重新获取音频 采样,例如在该步骤中为10毫秒,并且在步骤1004中计算DFT和振幅。 在步骤1006中,从步骤1002中采样的最后帧的开始,将音频指针移位一 增加值,如本实施例中的0.5毫秒。由此,该循环重复预定次数,在该实 施例中为10个循环,并且过程返回至存储器1018,包括具有音位的音频 数据。再次,该循环重复10次,接着处理继续至步骤1008,其中,执行 通过取立方根来平均频谱值和比例(scale)的过程。过程继续进行至步骤 1010,其中,DC值、第一谐波和第二谐波减小。同样,对应于超过预定 频率的频谱值也减小,预定频率在该实施例中为16khz。过程继续进行至
步骤1012,其中,针对M1M2BAR、 M3 BAR、 M20、 M23和M24,计 算归一化且集中的矩。在步骤1014中,Ml按照IOOO的比例决定,而其 他矩按照l,OOO,OOO的比例决定。在步骤1016中,从步骤1002到步骤1008 中初始音频帧的第一个音频帧的开始,使音频指针移位一预定量的时间, 如本实施例中的9毫秒。在步骤1020中,计算其他音位的矩。在步骤1022 中,分割(segment)矩特征。处理在1024时结束。如本领域的技术人员 所理解的,尽管结合图IO描述了值和处理步骤,其与发明人的实施例相 同,但是在不背离所附权利要求及其等效方案所限定的本发明的精神和范 围的情况下,可以使用其他值。
对于用于唇部追踪以使得音频与视频同步的实施例,认为10ms音频 的傅立叶变换的矩为音位特征。在一个实施例中,通过移位10%的采样而 计算多于9组的傅立叶变换。这些傅立叶变换系数的频i普的平均值用于计 算矩特征。当计算矩时,最初的三个频谱分量减少。利用10%的重叠获取 下一组音频采样。接着,依比例决定矩,并成对地绘图。这种分割允许在 两维矩空间中绘制出x/y曲线图。
对本发明进行了描述,本领域的普通技术人员应该认识到本发明可以用于 各种其他实施方案和结构中,并且更具体地,可以适于在不背离本发明的 精神和范围的情况下为期望的操作提供优选输入和输出。
权利要求1.一种用于测量音频视频同步的方法,所述方法包括以下步骤接收组合的音频和视频表现的视频部分和关联的音频部分;分析所述音频部分以识别和过滤音频数据,从而减少与说话者个人语音特征有关的音频数据,进而产生过滤的音频信号;分析所述过滤的音频信号,以在其中定位特定音位的出现;分析所述视频部分,以在其中定位特定视位的出现;以及分析所述音位和所述视位,以确定有关的音位及其视位的相对定时。
2. —种用于测量音频视频同步的方法,其包括 接收视频和关联的音频信息;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述过滤的音频表示,以识别特定声音;分析所述视频信息,以在其中定位与所述特定声音的形成对应的唇部 形状的出现;以及将定位的特定声音的位置与对应的唇部形状的位置进行比较,以确定 其相对定时。
3. —种用于测量音频视频同步的方法,其包括接收电视节目的4见频部分和关联的音频部分;分析音频信息,以在其中定位与说话者的个人语音特征有关的声音的 出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示; 分析所述过滤的音频部分,以在其中定位特定元音音素的出现; 分析所述视频部分,以在其中定位与发出特定元音音素对应的唇部形状的出现;以及分析在步骤d)中定位的元音音素的出现和/或位置和步骤e)的对应的 唇部形状的位置,以确定其相对定时。
4. 一种测量音频视频同步的方法,其包括将输入音频视频信息采集进音频视频同步系统中;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述过滤的音频信息;分析所述视频信息;从所述音频和视频信息中计算音频MuEv和视频MuEv;以及确定并关联视频帧中的主要音频类别,定位匹配位置,以及估计音频 和视频的偏移量。
5. 根据权利要求4所述的方法,其中,将输入音频视频信息采集进 具有输入音频视频信息的音频视频同步系统中的所述步骤包括以下步骤接收音频视频信息;分别提取所述音频信息和所述视频信息;分析所述音频信息和所述视频信息,并从其中恢复音频和视频分析数据;存储所述音频和视频分析数据,并重复应用所述音频和视频分析数据。
6. 根据权利要求5所述的方法,其包括根据所述音频数据提供音 频矩的分布图。
7. 根据权利要求6所述的方法,其包括提供音频判别边界并存储 随之产生的音频判别数据。
8. 根据权利要求5所述的方法,其包括根据所述视频数据提供视 频矩的分布图。
9. 根据权利要求8所述的方法,其包括:提供视频判别边界并存储 随之产生的视频判别数据。
10. 根据权利要求7所述的方法,其包括通过包括以下步骤的方法 分析所述音频信息接收音频流,直到捕获的音频釆样的片段达到一个阔值;找出所述捕获的音频采样的声门脉沖;计算在一个移位之内的声门脉冲大小的连续音频数据组的快速傅立 叶变换;计算所述快速傅立叶变换的平均频谱;计算所述声门脉冲的快速傅立叶变换的频谱的音频统计;以及 返回所述音频统计。
11. 根据权利要求10所述的方法,其中,所述音频统计包括所述傅 立叶变换的一个或更多的集中且归一化的矩。
12. 据权利要求11所述的方法,其中,所述音频统计包括所述傅立 叶变换的一个或更多的集中且归一化的矩,包括M1(平均值)、M2BAR(第 二个矩)和M3BAR (第三个矩)中的一个。
13. 根据权利要求10所述的方法,其包括通过包括以下步骤的方法 从所述音频和视频信息中计算所述声门脉沖,以找出所述捕获的音频采样 的声门脉冲接收3N个音频采样;对于i二O至N个采样i) 确定N+1个音频采样的快速傅立叶变换;ii) 计算前四个奇次谐波的和,S(I);iii) 找出具有最大变化率的S(I)的局部最小值,S(K);以及iv) 计算所述声门脉冲,GP = (N+K)/2。
14. 根据权利要求4所述的方法,其包括通过包括以下步骤的方法分 析所述视频信息接收视频流,并/人其中获取#见频帧; 在所述视频帧中找出面部的唇部区域;如果所述视频帧为无声帧,将所述帧识别为无声,接着重新开始接收 随后的^f见频帧;以及如果视频帧不为无声帧,定义面部的内部和外部唇部区域;计算面部的内部和外部唇部区域的平均值和方差;计算唇部的宽度和高度;以及返回-见频特4正,并4妾^l文下一帧。
15. 根据权利要求4所述的方法,其包括通过包括以下步骤的方法, 确定并关联视频帧中主要音频类别,定位匹配位置,以及估计音频和视频 的偏移量接收音频和视频信息流,从其中重新获取单独的音频和视频信息;分析所述音频和视频信息,并分类所述音频和视频信息;过滤所述音频和视频信息,以去除随机出现的类别;使得最主要音频类别与对应的视频帧相关联;找出匹配位置;以及估计异步偏移量。
16. 根据权利要求15所述的方法,其包括将所述音频和视频信息 分类为包括AA、 EE、 OO、无声和未分类音位的元音音素。
17. —种用于通过包括以下步骤的方法测量音频视频同步的系统将输入音频视频信息捕获进音频视频同步系统中;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述过滤的音频表示,以识别特定声音和无声; 分析所述视频信息;从所述过滤的音频信息和所述过滤的视频信息中计算音频MuEv和 视频MuEv;以及确定并关联视频帧中的主要音频类别,定位匹配位置,以及估计音频 和4见频的偏移量。
18. 根据权利要求17所述的系统,其中,将输入音频视频信息采集 进音频视频同步系统中的所述步骤包括以下步骤接收音频视频信息;分别提取所述音频信息和所述^见频信息;分析所述音频信息和所述视频信息,并从其中重新获取音频和视频分 析数据;存储所述音频和视频分析数据,并重复应用所述音频和视频分析数据。
19. 根据权利要求18所述的系统,其中,所述系统根据所述音频数据 绘制音频矩的分布图。
20. 根据权利要求19所述的系统,其中,所述系统划定音频判别边 界,并存储随之产生的音频判别数据。
21. 根据权利要求18所述的系统,其中,所述系统根据所述视频数 据绘制视频矩的分布图。
22. 根据权利要求21所述的系统,其中,所述系统划定一见频判别边 界,并存储随之产生的视频判别数据。
23. 根据权利要求20所述的系统,其中,所述系统通过包括以下步 骤的方法分析所述音频信息接收音频流,直到捕获的音频采样的片段达到一个阈值;找出所述捕获的音频采样的声门脉沖;计算在一个移位之内的声门脉冲大小的连续音频数据组的快速傅立叶变换;计算所述快速傅立叶变换的平均频语;计算所述声门脉冲的快速傅立叶变换的频谱的音频统计;以及 返回所述音频统计。
24. 根据权利要求23所述的系统,其中,所述音频统计包括所述傅 立叶变换的一个或更多的集中且归一化的矩。
25. 根据权利要求23所述的系统,其中,所述系统通过包括以下步 骤的方法从所述音频和视频信息中计算所述声门脉冲,以找出所述捕获的 音频采样的声门脉冲4妄收3N个音频釆样;对于i二O至N个采样确定N+1个音频采样的快速傅立叶变换;计算前四个奇次谐波的和,s(I);找出具有最大变化率的S(I)的局部最小值,S(K);以及计算所述声门脉冲,GP = (N+K)/2。
26. 根据权利要求20所述的系统,其中,所述系统通过包括以下步 骤的方法分析所述视频信息接收一见频流,并从其中获取视频帧;在所述—见频帧中找出面部的唇部区域;如果所述视频帧为无声帧,将所述帧识别为无声,接着重新开始接收 随后的视频帧;以及如果视频帧不为无声帧,定义面部的内部和外部唇部区域;计算面部的内部和外部唇部区域的平均值和方差;计算唇部的宽度和高度;以及返回纟见频特征,并接收下一帧。
27. 根据权利要求20所述的系统,其中,所述系统通过包括以下步 骤的方法,确定并关联视频帧中主要音频类别,定位匹配位置,以及估计 音频和视频的偏移量接收音频和^L频信息流,从其中重新获取单独的音频和视频信息;分析所述音频和视频信息,并分类所述音频和视频信息;过滤所述音频和视频信息,以去除随机出现的类别;使得最主要音频类别与对应的视频帧相关联;找出匹配位置;以及估计异步偏移量。
28. 根据权利要求27所述的系统,其中,所述系统将所述音频和视 频信息分类为包括AA、 EE、 OO、无声和未分类音位的元音音素。
29. —种包括通过包括以下步骤的方法测量音频视频同步的计算机 可读代码的程序产品接收视频和关联的音频信息;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述音频信息,以在其中定位声门事件的出现;分析所述视频信息,以在其中定位对应于音频声门事件的唇部形状的 出现;以及分析在步骤d)中定位的声门事件的位置和/或出现以及步骤e)的对应 的一见频信息,以确定其相对定时。
30. —种包括通过包括以下步骤的方法测量音频视频同步的计算机 可读代码的程序产品将音频视频输入信息采集进音频视频同步系统中;分析所述音频信息; 分析所述视频信息;从所述音频信息和所述视频信息中计算音频MuEv和视频MuEv;以及确定并关联^f见频帧中的主要音频类别,定位匹配位置,以及估计音频 和一见频的偏移量。
31. 根据权利要求30所述的程序产品,其中,将音频视频输入信息 采集进音频视频同步系统中的所述步骤包括以下步骤接收音频视频信息;分别提取所述音频信息和所述视频信息;分析所述音频信息和所述视频信息,并从其中重新获取音频和视频分 析数据;以及存储所述音频和视频分析数据,并重复应用所述音频和视频分析数据。
32. 根据权利要求30所述的程序产品,其中,将音频视频输入信息 采集进音频视频同步系统中的所述步骤还包括以下步骤根据所述音频数 据提供音频矩的分布图。
33. 根据权利要求32所述的程序产品,其中,将音频视频输入信息 采集进音频视频同步系统中的所述步骤还包括以下步骤提供音频判别边 界,并存储随之产生的音频判别数据。
34. 根据权利要求31所述的程序产品,其中,在音频和视频同步系 统中分析音频和视频流还包括根据所述视频数据提供视频矩的分布图。
35. 根据权利要求34所述的程序产品,其中,在音频和视频同步系 统中分析音频和视频流还包括提供视频判别边界,并存储随之产生的视 频判别数据。
36. 根据权利要求30所述的程序产品,其中,在音频和视频同步系 统中分析音频和—见频流还包括通过包括以下步骤的程序产品分析所述音频信息接收音频流,直到捕获的音频采样的片段达到 一个阈值; 找出所述捕获的音频采样的声门脉冲;计算在一个移位之内的声门脉冲大小的连续音频数据组的快速傅立 叶变换;计算所述快速傅立叶变换的平均频谱;计算所述声门脉冲的快速傅立叶变换的频谱的音频统计;以及 返回所述音频统计。
37. 根据权利要求36所述的程序产品,其中,所述音频统计包括所 述傅立叶变换的一个或更多的集中且归一化的矩。
38. 根据权利要求36所述的程序产品,其中,在音频和视频同步系 统中分析音频和—见频流还包括通过包括以下步骤的程序产品从所述音频 和视频信息中计算所述声门脉冲,以找出所述捕获的音频采样的声门脉 冲接收3N个音频采样;以及 对于—0至N个釆样确定N+1个音频采样的快速傅立叶变换;计算前四个奇次谐波的和,s(I);找出具有最大变化率的S(I)的局部最小值,S(K);以及 计算所述声门脉冲,GP = (N+K)/2。
39. 根据权利要求30所述的程序产品,其中,在音频和视频同步系 统中分析音频和视频流还包括通过包括以下步骤的程序产品分析所述视 频信息接收视频流,并从其中获取视频帧; 在所述视频帧中找出面部的唇部区域;如果所述视频帧为无声帧,将所述帧识别为无声,接着重新开始接收 随后的视频帧;以及如果视频帧不为无声帧,定义面部的内部和外部唇部区域; 计算面部的内部和外部唇部区域的平均值和方差; 计算唇部的宽度和高度;以及返回视频特征,并接收下一帧。
40. 根据权利要求30所述的程序产品,其中,在音频和视频同步系 统中分析音频和视频流还包括通过包括以下步骤的程序产品,确定并关 联-见频帧中主要音频类另U,定位匹配位置,以及估计音频和视频的偏移量4妾收音频和一见频信息流,从其中重新获取单独的音频和视频信息;分析所述音频和视频信息,并分类所述音频和视频信息;过滤所述音频和视频信息,以去除随机出现的类别;使得最主要音频类别与对应的视频帧相关联;找出匹配位置;以及估计异步偏移量。
41. 根据权利要求40所述的程序产品,在音频和视频同步系统中分 析音频和视频流还包括将所述音频和视频信息分类为包括AA、 EE、 OO、 无声和未分类音位的元音音素。
42. —种通过包括以下步骤的方法从音频信号中计算声门脉冲以找 出捕获的音频采样的声门脉冲的方法4妄收3N个音频采样;以及对于i=0至N个采样确定N+1个音频采样的快速傅立叶变换;计算前四个奇次谐波的和,s(I);找出具有最大变化率的S(I)的局部最小值,S(K);以及计算所述声门脉冲,GP = (N+K)/2。
43. —种通过包括以下步骤的方法从视频信号中分析视频信息的方法接收—见频流,并从其中获取^L频帧; 在所述视频帧中找出面部的唇部区域;如果所述视频帧为无声帧,将所述帧识别为无声,接着重新开始接收 随后的—见频帧;以及如果视频帧不为无声帧,定义面部的内部和外部唇部区域;计算面部的内部和外部唇部区域的平均值和方差;计算唇部的宽度和高度;以及返回视频特征,并接收下一帧。
44. 一种方法,通过包括以下步骤的方法确定并关联视频帧中主要音 频类别,定位匹配位置,以及估计音频和视频的偏移量接收音频和视频信息 流,从其中重新获取单独的音频和视频信息;分析所述音频和视频信息,并分类所述音频和^L频信息;过滤所述音频和视频信息,以去除随机出现的类别;使得最主要音频类别与对应的视频帧相关联;找出匹配位置;以及估计异步偏移量。
45. 根据权利要求14所述的方法,其包括将所述音频和视频信息 分类为包括AA、 EE、 OO、无声和未分类音位的元音音素。
全文摘要一种用于测量音频视频同步的方法、系统和程序产品。首先通过将音频视频信息采集进音频视频同步系统中,来执行。数据采集步骤之后,分析音频信息,并分析视频信息。接着,分析音频信息,以在其中定位与说话者的个人语音特征有关的声音的呈现。然后,通过去除与说话者的个人语音特征有关的数据,来过滤音频信息,以产生过滤的音频信息。在该阶段,分析过滤的音频信息和视频信息,确定音频和视频MuEv的判别边界,并使有关的音频和视频MuEv相关。在分析阶段,由音频和视频信息计算音频和视频MuEv,并将音频和视频信息分类为元音音素,包括AA、EE、OO、无声和未分类音位。该信息被用于确定并关联视频帧中的主要音频类别。确定匹配位置,并确定视频和音频的偏移量。
文档编号G10L25/48GK101199207SQ200580050133
公开日2008年6月11日 申请日期2005年11月16日 优先权日2005年4月13日
发明者J·卡尔·库珀, 克里斯多佛·史密斯, 吉班阿南达·罗伊, 米尔科·杜山·沃吉诺维科, 萨乌拉博·简 申请人:皮克索尔仪器公司