动态生成过程建模的制作方法

文档序号:6566710阅读:267来源:国知局
专利名称:动态生成过程建模的制作方法
技术领域
本发明一般涉及模拟、跟踪和分析由生成(generative)过程产生 的时间序列数据,尤其涉及用单一统计模型动态完成这一点。
背景技术
跟踪生成过程的问题涉及检测和适应生成过程的变化。对于视觉 背景建模,该问题已被广泛研究。图像中的各单个像素的强度可被视 为由可通过多峰概率分布函数(PDF)建模的生成过程产生。然后, 通过检测和适应强度的变化,可以执行背景-前景分割。用于对景物背景建模的方法可大致分类如下。 一类方法维持自适 应预测过滤器。新的观察根据当前的过滤器被预测。这基于用于前景 像素的预测误差较大的直觉,参见D. Koller, J. Weber and J. Malik, "Robust multiple car tracking with occlusion reasoning," Proc. European Conf. on Computer Vision, pp. 189-196, 1994; K.P. Karman and A. von Brandt, "Moving object recognition using an adaptive background memory," Capellini, editor, Time-varying Image Processing and Moving Object Recognition, pp. 297-307, 1990; 和K. Toyoma, J. Krumm, B. Brumitt and B. Meyers, "Wallflower: Principles and practice of background maintenance," Proc. ICCV, 1999。另一类方法通过使用参数模型自适应地估计像素的强度的概率分 布函数,参见C. Stauffer and W.E丄.Grimson, "Learning patterns of activity using real-time tracking," IEEE Trans. On Pattern Analysis and Machine Intelligence, pp. 747-757, 2000。该方法存在几个问题。 该方法随着时间的过去提取各像素的颜色特征,并用高斯分布函数的
独立的混合体独立地对各像素的颜色分量进行建模。对于 一些过程,各特征大小(dimension)随时间独立演变的假定可能是不正确的。下列文献说明了其它的概率方法C. Wren, A. Azarbayejani, T. Darrell and A. Pentland, "Pfinder: Real-time tracking of the human body," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 780-785, July 1997; O. Tuzel, et at., "A Bayesian approach to background modeling," Proc. CVPR Workshop, June 21, 2005; K. Toyoma, J. Krumm, B. Brumitt and B. Meyers, "Wallflower: Principles and practice of background maintenance," Proc. ICCV, 1999 ; 和N. Friedman and S. Russell, "Image segmentation in video sequences," Conf. on Uncertainty in Artificial Intelligence, 1997。另 一类方法使用非参数密度估计以自适应地学习像素强度的基本 生成过程的密度,参见D. Elgammal, D. Harwood and L Davis, "Non-parametric model for background subtraction," Proc. ECCV, 2000。由Stauffer等描述的用于视觉背景建模的方法已被扩展到音频分 析,M. Cristani, M. Bicego and V. Murino, "On-line adaptive background modeling for audio surveillance," Proc. Of ICPR, 2004。 他们的方法基于对波镨的各空间子波段使用分开的多组自适应高斯混 合模型的音频数据流的概率建模。该方法的主要缺点在于,GMM对 于各个子波段被维持,以检测该子波段中的外离(outlier)事件,随 后对外离事件是否为前景事件做出判定。与Stauffer等类似,大量的 概率模型同样难以管理。另 一方法从从音频内容提取的倒镨(c印stral)特征的时间序列检 测'背景,和'前景,,参见R, Radhakrishnan, A. Divakaran, Z. Xiong and I. Otsuka, "A content-adaptive analysis and representation framework for audio event discovery from 'unscripted' multimedia," Eurasip Journal on Applied Signal Processing, Special Issue onInformation Mining from Multimedia, 2005; 和由Radhakrishnan等 在2004年5月7日提交并且在此被加入作为参考的美国专利申请序号 No. 10/840824, "Multimedia Event Detection and Summarization"。在 该时间序列分析中,产生大多数的'正常,或'规则,数据的生成过程被称 为'背景,过程。在主导的正常的背景数据中产生短突发不正常或不规 则的数据的生成过程被称为'前景,过程。使用该方法,可以检测时间 序列数据中的'背景,和'前景,。例如,可以通过从倒i普特征的时间序列 检测音频背景检测体育音频中的精彩部分片段、监视音频中的显著事 件和视频内容中的节目边界。但是,该方法存在几个问题。最重要的 是,在事件可被检测前需要整个时间序列。因此,该方法不能被用于 诸如例如用于检测体育事件的"实况"广播中的精彩部分或用于检测由 监视照相机观察到的不寻常事件的实时应用。另外,该方法的计算复 杂性较高。统计模型对于整个时间序列的各个子序列被估计,并且所 有的模型被成双比较以构建仿射性(affinity)矩阵。同样,大量的统 计模型和静态处理使得该方法对于实时应用是不实用的。因此,需要简化的用于动态跟踪生成过程的方法。 大量的用于记录和操纵广播电视节目(内容)的技术是已知的, 参见以下专利美国专利6868225, Multimedia program book marking system; 6850691, Automatic playback overshoot correction system; 6847778, Multimedia visual progress indication system; 6792195, Method and apparatus implementing random access and time-based functions on a continuous stream of formatted digital data; 6327418, Method and apparatus implementing random access and time-based functions on a continuous stream of formatted digital data; 和美国专 利申请 20030182567, Client-side multimedia content targeting system 。这些技术还可包含内容分析技术以使得用户能够高效浏览内容。 一般地,技术依赖于关于节目的开始时间和结束时间的信息的电子节 目指南(EPG)。当前,EPG很少被更新,例如,在美国每天仅更新
四次。但是,EPG并不一直对记录"实况,,节目起作用。实况节目出于 任何多种的原因可晚些开始,并可超出它们的分配的时间。例如,在 平局的情况下或由于天气延迟,体育事件可被延长。因此,希望继续 记录节目直到节目完成,或者,替代性地,在不完全依赖EPG的情况 下继续记录节目。同样,定期安排的节目被新的公告中断不是不寻常 的。在这种情况下,希望只记录定期安排的节目。发明内容本发明提供用于动态跟踪和分析产生多变量时间序列数据的生成 过程的方法。在一个应用中,该方法被用于检测例如体育广播和新闻 广播的广播节目中的边界。在另一应用中,在通过诸如摄像机或麦克 风的监视设备获得的信号中检测显著事件。


图1、图2、图3、图4是要根据本发明的实施例处理的时间序列 数据;图5是根据本发明的一个实施例的系统和方法的框图;图6是要被分析的时间序列数据的框图;图7是用于更新生成过程的多变量模型的方法的框图;图8是用于通过使用时间序列数据的低级别和高级别特征进行建模的方法的框图。
具体实施方式
本发明的实施例提供动态跟踪和分析产生多变量数据的方法。图1表示广播信号形式的多变量(multivariate )数据101的时间 序列。时间序列数据101包含节目110和120,例如,后跟新闻节目 的体育节目。两个节目均由'正常,数据111和121支配,偶尔有短的 突发'不正常,数据112和122。希望在没有基本生成过程的先验知识的 情况下动态检测两个节目之间的边界102。
图2表示时间序列150,其中,要被记录的定期安排的广播节目 151暂时被不要被记录的未安排的广播节目152中断。因此,边界102被检测。图3表示多变量数据201的另一时间序列。时间序列数据201代 表例如实时监视信号。时间序列数据201由'正常,数据211支配,偶 尔有短的突发'不正常,数据212。希望在没有产生数据的生成过程的先 验知识的情况下动态检测显著(significant)事件。这然后可被用于产 生警报或永久地记录显著事件以减少通信带宽和存储需求。因此,边 界102被检测。图4表示代表要被记录的广播节目221的时间序列数据202。节 目偶尔被不要被记录的广播广告222中断。因此,边界102被检测, 使得广告可被跳过。虽然关于产生音频信号的生成过程说明了本发明的实施例,但应 理解,本发明可应用于产生例如视频信号、电磁信号、声学信号和医 疗和财务数据等的多变量数据的任意生成过程。系统和方法图5表示用于建模、跟踪和分析生成过程的系统和方法。信号源 310通过使用某一生成过程产生原始信号311。对于本发明,过程是未 知的。因此,希望在不知道生成过程的情况下动态地对该过程建模。 即,生成过程'被学习,,并且,随着生成过程随时间演变,模型341 被调整。信号源310可以是声源,例如,人、车辆、扬声器、电磁辐射的 发射器、发射光子的景物。信号311可以是声信号和电磁信号等。传 感器320获取原始信号311。例如,传感器320可以是麦克风、照相 机、RF接收器或IR接收器。传感器320产生时间序列数据321。应当理解,系统和方法可使用用于同时获取多种信号的多个传感 器。在这种情况下,来自各种传感器的时间序列数据321被同步,并 且模型341将所有的各个生成过程集成到单一的更高级的模型中。通过使用滑动窗时间序列数据被采样。能够调整滑动窗在时
间序列数据上随时间向前滑动的尺寸和速率。例如,尺寸和速率根据演变的模型341被调整。对于各窗口位置或各时刻特征从采样的时间序列数据321被提取 330。特征可包含低级特征、中级特征和高级特征。例如,声学特征可 包含音调、幅度、Mel频率倒谱系数(MFCC)、'演讲,、'音乐,、'鼓 掌,、流派(genre)、艺术家、歌曲标题或演讲内容。视频的特征可 包含空间和时间特征。低级特征可包含颜色、移动、紋理等。中级特 征和高级特征可包含MPEG-7描述符和对象标签(object label)。用 于各种信号的本领域已知的其它特征也可被提取330。应当理解,被提取的特定类型的特征可随时间被调整。例如,特 征被动态选择,根据演变的模型341进行提取。对于各时刻,特征被用于构建特征矢量331。随着时间的过去,多变量模型341根据特征矢量331被调整500。 模型341采取单一的高斯混合模型的形式。该模型包含概率分布函数 (PDF)或'分量,的混合。应当注意,更新过程将特征视为在特征矢 量内相互依赖(相关)。这与对于各特征维持单独的PDF并且各特征 被视为相互独立的现有技术不同。随着模型341随时间动态演变,模型可被分析350。执行的精确 的分析依赖于应用,这些应用中的一些,诸如节目边界检测和监视, 在上面被引入。分析150可产生用于控制器360的控制信号351。简单的控制信 号是警报。更复杂的信号可控制时间序列数据321的进一步的处理。 例如,只有时间序列数据的被选择的部分被记录,或者,时间序列数 据被概括为输出数据361。对监视的应用上述系统和方法可被检测显著事件的监视应用使用。显著事件与 生成过程的转变点相关。 一般地,相对于通常的'背景,事件,显著的'前 景,事件是不常有和不可预测的。因此,借助于生成背景过程的自适应 模型341,我们可检测不寻常的事件。
问题公式化图6表示时间序列数据400。数据a由在背景模式(PJ中'正常, 操作的未知的生成过程产生。数据/;2由在前景模式(P2)中不正常地 操作的生成过程产生。因此,时间序列数据400可被表达为 . ./^1,狎,2/^2户1,狎,1...问题是要在没有模式Pi和p2的任何先验知识的情况下找到模式 p2的开始401和模式p2的实现的发生的次数。 建模给定特征矢量331,我们通过用相对较少数目的特征矢量(&、 F2.....fU训练GMM 341估计在背景模式Pi中操作的生成过程。通过使用公知的最小描述长度(MDL)原理获得GMM 341中的 分量的数量,该原理参见J. Rissanen, "Modeling by the shortest data description," Automatica 14, pp. 465-471, 1978。GMM模型341由G指示。C 中的分量的数量是iT。我们使用符 号;r、 以表示分量341的概率系数、平均值和方差(variance)。因此,f分量的参数组分别为h^、 K^和Wh 。模型调整图7表示调整500各特征矢量Fn 331的模型341的步骤。在步骤 510中,我们用随机平均数、相对较高的方差斜协方差和相对较低的 混合概率初始化下一个分量(^+1511,并且,我们相应地将概率系数;r 归一化。在步骤520中,我们通过使用模型341确定特征矢量331的可能 性(likelihood)丄521。然后,我们将该可能性与预定的阈值i: 531相 比较530。如果对数可能性(log likelihood) 521比阈值531大,那么我们才艮据片argm气(^^i^)确定产生特征矢量i^的最可能的分量,并尸(t / Cj)根据下式更新540最可能的分量乂的参数。<formula>formula see original document page 11</formula>和<formula>formula see original document page 11</formula>这里,c^/ 与用于调整模型341的比率有关。对于其它的分量(/^/), 我们根据下式更新概率系数 、,=(1-a) 并将概率系数矩;rP车归 一化。否则,如果对数可能性521比阈值小,那么我们假定具有当前的 K分量的模型341不适于对特征矢量K建模。因此,我们用特征矢量 /^代替550分量CV+i的平均值。结果,我们将新的混合分量添加到模 型上,以说明与模型不一致的当前特征矢量&。我们还为将来的预期 数据产生新的伪分量。在步骤560中,我们记录与特征矢量7^—致的最可能的分量。然 后,通过检查对于模型的分量的成员资格的模式(pattern),我们可 检测基本生成过程的变化。我们的方法在多个方面与Stauffer等的方法不同。我们不对多变 量时间序列数据假定斜协方差。另外,我们关于当前的模型使用特征 矢量的可能性值,以确定生成过程的变化。并且,我们具有各时刻的 单一多变量混合模型。对于节目边界检测的应用我们如检测产生构成不同节目的时间序列数据的基本生成过程中 的实质变化的问题那样将节目边界检测的问题公式化。这源自于例如 广播体育节目与例如新闻节目或电影的'非体育,节目明显不同的观察。在本实施例中,我们同时使用低级特征和高级特征以减少需要的 处理的量。低级特征是Mel频率倒谱系数,并且高级特征是音频分类 标签。如图8所示,我们使用在时间上相邻的两个滑动窗『、601和『2£ 602。这些窗以固定的时间间隔W^603步进。两个窗中的标签被比较 以确定各时间步骤的距离610。通过使用Kullback-Leibler ( KL )距 离执行这种比较。距离被存储在緩冲器620中。如果存在节目边界,那么KL距离中的峰621可能指示时间/的 节目变化。可通过使用任意已知的峰检测过程对峰进行检测。通过使 用上述低级特征和多变量模型验证节目变化。但是,在这种情况下, 仅需要对与峰621相关的时间t之前(Q)和之后(G )的少量的特 征构建模型。我们可根据下式确定&和Gw之间的距离这里,和i^是峰左右的低级特征,并且#代表基数算子 (cardinality operator)。通过将该距离与预定的阈值相比较,我们 可确定该峰事实上是否与节目边界有关。本质上,生成过程中的候选 变化通过使用高级特征被检测,并且低级特征被用于验证候选变化是 实际的变化。虽然通过优选实施例的例子说明了本发明,但应理解,在本发明 的精神和范围内,可以提出各种其它的调整和修改。因此,所附的权 利要求的目的是要覆盖落在本发明的真实精神和范围内的所有这些变 化和〗务改。工业实用性用于动态跟踪和分析产生多变量时间序列数据的生成过程的更有 用的方法可被提供。
权利要求
1.一种用于对生成过程动态建模的方法,包括获取由生成过程产生的时间序列数据;在获取的同时对时间序列数据采样,以提取各时刻的单一特征矢量,该特征矢量包含时间序列数据的多个相关特征,该采样利用各时刻的滑动窗;和在获取和采样的同时根据各时刻的单一特征矢量动态更新多变量模型,该多变量模型包含高斯分布函数的混合。
2. 根据权利要求l的方法,其中,时间序列数据是包含多个节目 的广播信号,并且还包括在获取、采样和更新的同时,通过使用多变量模型动态检测多个 节目之间的边界。
3. 根据权利要求2的方法,还包括在获取、采样和更新的同时,只动态记录节目边界之间的选择的 程序。
4. 根据权利要求1的方法,其中,时间序列数据是实时监视信号, 并且还包括在获取、采样和更新的同时,通过使用多变量模型动态检测实时 监视中的显著事件。
5. 根据权利要求4的方法,还包括 响应检测到显著事件产生警报信号。
6. 根据权利要求l的方法,其中,时间序列数据是包含节目和多 个广告的广播信号;在获取、采样和更新的同时,通过使用多变量模型动态检测节目 和多个广告之间的边界;和 只记录节目。
7. 根据权利要求l的方法,其中,时间序列数据是包含音频和视 频信号的广播信号。
8. 根据权利要求l的方法,其中,时间序列数据通过多个传感器 被获取。
9. 根据权利要求l的方法,还包括在获取、采样和更新的同时,根据多变量模型动态调整滑动窗的 尺寸和时间序列数据的采样速率。
10. 根据权利要求l的方法,还包括在获取、采样和更新的同时,根据多变量模型动态调整多个相关 特征的类型。
11. 根据权利要求l的方法,还包括在获取、釆样和更新的同时,动态分析多变量模型以产生控制信号。
12. 根据权利要求ll的方法,还包括在获取、采样和更新的同时,根据控制信号动态处理时间序列数据。
13. 根据权利要求l的方法,其中,多个高斯分布函数根据最小 描述长度原理被确定。
14. 根据权利要求l的方法,其中,反高斯概率函数中的每一个 由一组参数指示,该组参数包含概率系数(;rjL、平均值^JL和方差WL。
15. 根据权利要求l的方法,还包括 通过使用多变量模型确定各特征矢量的可能性;和 根据可能性更新多变量模型。
16. 根据权利要求l的方法,其中,各特征矢量包含低级特征和 高级特征,并且,还包括通过使用高级特征确定多变量模型中的候选变化;和 通过使用低级特征验证候选变化。
全文摘要
一种方法动态跟踪和分析产生多变量时间序列数据的生成过程。在一个应用中,该方法被用于检测例如体育广播和新闻广播的广播节目。在另一应用中,在由诸如摄像机或麦克风的监视设备获得的信号中检测显著事件。
文档编号G06K9/62GK101129064SQ20068000583
公开日2008年2月20日 申请日期2006年7月3日 优先权日2005年7月8日
发明者阿贾伊·迪瓦卡瑞恩, 雷古纳赞·拉达克里希南 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1