一种测量音视频内容变化的方法

文档序号:7613370阅读:137来源:国知局
专利名称:一种测量音视频内容变化的方法
技术领域
本发明属于音视频技术领域,具体涉及一种测量音视频内容变化的方法。可用于广播电视等应用场合下音视频内容的变化检测,用户收视和收听率等精确调查。
应用背景广播、电视和网站等已成为最为普遍的媒体形式,是重大事件的消息来源,对社会大众有深刻影响。随着数字电视(DTV)普及,网络广播、网络电视(IPTV)应用的不断推广[1],对于广播和电视节目等音视频内容变化的实时监测与测量具有重要意义。两种最具代表性的应用就是收视(听)率调查和防内容篡改监测等。
收视率(收听率)对于一个电视(广播)媒体来说,具有生死存亡意义。电视媒体的竞争实际上就是电视节目质量的竞争,其表现形式就是收视率的高低。收视率数据来源于调查。目前传统收视率调查方法有三种电话调查法、日记调查法和测量仪调查法。不同的调查方法具有不同的数据质量和成本。此外,在数据的采集中,样本量的大小对其准确性产生影响。样本量大肯定调查精度高,但相应投入的费用也高。当样本量增加到一定程度时,其精度的提高幅度减少。鉴于上述情况,大多媒介研究公司在省会城市一般确定样本户为300家庭户,约为900人。另外,为了保证样本的代表性,需要对样本进行轮换。可以看到,传统的收视率调查方法,都是通过样本用户记录电视收看情况,再汇总来完成。这样就导致了成本的增加和数据质量的参差不齐。同时抽样用户的管理和轮换也进一步增加了成本开销。
在广播和电视的传输过程中,可能会有某些节目被恶意篡改,向受众散播非法或不良媒体信息,例如“法轮功”干扰卫星电视就是突出的例子。所以,有必要对传输的音视频节目所到达的各接收端进行实时监测,以便及时发现非法篡改并采取控制措施。目前防篡改监测都是人工的,即专门人员对各电视节目进行观察。随着广播和电视节目的传输形式和节目数量的不断增加,特别是网络电视(IP TV)的出现,人工监测的成本开销是巨大的,甚至是不可行的。
如果能对接收端节目的音视频内容变化进行自动监测,那么收视率调查和防篡改监测等就能在监测的同时自动进行分析。音视频内容的自动分析,结合音视频信息检索技术[2,3],对于节目的音视频进行内容特征的提取、传送和匹配,既大大减少反馈信息量,又能有效抵抗由于传输问题导致的质量下降。
对于视频的结构化分析,首先以镜头为单位进行分割。视频序列的镜头分割亦称镜头变化检测,是视频检索中的关键技术之一[4,5,6,7]。镜头变化是指视频序列中场景内容的变化。镜头分割方法的研究已经有多年,目前镜头分割的常用方法,包括灰度分割法[8]、边缘分割法[9]、彩色直方图分割法[10]、压缩域视频流分割方法[11]、块匹配镜头分割方法、统计判决镜头分割方法[2]、基于聚类的镜头分割方法[12]、镜头渐变的检测[13]等等。其中,压缩域镜头分割的计算复杂度低,可以很好满足实时应用。在音频分割方面,则相对简单,可以通过检测较长静音片段对音频进行分割[14]。
在接收端,需要向发送端的测量服务器发送节目特征流信息。服务器通过快速比较各接收端的节目特征和播放节目的特征,就可以完成各接收端节目内容变化的自动监测和统计。传统的广播和电视,都是单向被动接收的,需增加额外的反向传输信道,才能向发送端测量服务器发送接收节目的特征信息(在目前条件下,增加反向信道是非常容易的,例如可以通过GSM或CDMA等无线通信方式建立反向信道)。对于数字电视、网络广播或网络电视,其传送信道本身就是双向的,所以反向传输信道是现成可用的。
参考文献1.Waterman D.“the economics of internet TVnew niches vs mass audiences”,Info-Thejournal of policy,regulation and strategy for telecommunications,June 2001,vol.3,no.3,pp.215-229(15)2.D.Narasimhalu.“Multimedia databases”Multimedia Systems 4(5),19963.F Idris,S Panchanathan.“Review of image and video indexing techniques”Journal of VisualCommunication and Image Representation,19974.A hanger G,Little TDC.“A survey of technologies for parsing and Indexing Digital Video”Journal of Visual Communication and Image Representation,19965.Uillas Gargi,Rangacha Kasturi,Susan H Stryer.“Performance Characterization ofVideo-Shot-Change Detection Methods”IEEE trans on CSVT,20006.Boreczky JS,Rowe L.“Comparison of Video shot boundary detection techniques”Proceedings of Visual Communication and Image Representation,19967.Lienhart R.“Comparison of automatic shot boundary detection algorithms”Proceedings ofIS&T/SPEI Storage and Retrieval for Image and Video Databases VII,19998.Kikukawa T,Kawafuchi S.“Development of an automatic summary editing system for theaudio visual resources”Transactions of the Institute of Electronics,Information andCommunication Engineers,19929.Mai K,Miller J,Zabih R.“A robust method for detecting cuts and dissolves in videosequences”Proceedings of ACM Multimedia 95,San Francisco,199510.A Nagasaka,Y Tanaka.“Automatic video indexing and full-video search for objectappearances”Proc IFIP 2nd Working Conf Visual database Systems,199211.H J Zhang.“Video parsing using compressed data”Proc SPIE Symp Electronic ImagingScience and technologyImage and Video Processing II,199412.MR Naphade,R Mehrotra,AM Ferman.“A High-performance Shot boundary DetectionAlgorithm Using Multiple Cues”Proc of Int Conf on Image Processing,199813.Zhang H,Kankanhalli A,Smoliar SW.“Automatic partitioning of full motion videoMultimedia System”,199314.L Lu,HJ Zhang,H Jiang.“Content Analysis for Audio Classification and Segmentation”IEEE Transactions on Speech and Audio Processing,2002发明内容本发明的目的在于提供一种利用音视频节目特征信息测量与检测音视频节目内容变化的方法。
本发明提出的测量音视频内容变化方法,其基本技术方案是(1)接收端在接收音视频节目(如收听广播、收看电视)的同时,抽取当前收看节目的特征信息流(2)在接收端利用反向传输信道(如果不存在反向信道,也可以通过固定电话、移动电话等信道建立反向传输信道),实时或非实时地向节目发送端的测量服务器反馈所接收节目的特征信息流;(3)发送端的测量服务器同样要提取节目的特征信息流,并对接收端反馈束的特征信息流进行匹配,从而实现节目内容变化的测量或监测。
本发明在内容变化测量或监测的基础上,还可进行收听或收视率调查、防节目内容被篡改自动检测、接收端音视频质量测量等,无需再像传统收视(听)率调查那样,要在节目接收端人工记录收听或收视情况,从而大大增加了自动化程度,减少人工成本。另外,自动篡改检测也同样降低了人工成本,同时还可实现即时报警。
本发明的内容包括(1)提出(广播、电视等)音视频节目内容变化的实时(或非实时)监测的反馈框架模型,即电视台(电台)等节目发送端、测量服务器以及节目接收端的具体功能、作用及详细协作流程;(2)测量服务器的节目特征流的抽取,即对播放的所有节目进行特征流抽取,用于和某一个接收端所收看到的特征流进行匹配;(3)在节目接收端有一个设备或模块,它对当前观看的节目进行特征流抽取,同时通过反向传输信道发馈到测量服务器;(4)测量服务器为每个接收端进行特征流匹配,即在服务器收到接收端发来的特征流的同时,和播放节目的特征流进行比对,确定接收端收看的节目内容,完成收视率调查和被篡改节目检测等。
本发明提出的反馈框架模型见图1所示。在该框架中给出系统组成模块,关键模块有特征计算单元、特征转发单元、特征接收单元、节目匹配单元等。
在(电台或电视台侧的)音视频节目的发送端,配置一测量服务器,用于支撑对大规模用户的节目的测量,测量服务器可由多台服务器组成,进行并行处理。测量服务器中设有特征计算单元、节目匹配单元、特征接收单元、特征流缓存区和结果输出单元。测量服务器首先处理发送端所有播放节目,特征计算单元自动提取每一路节目的特征流;测量服务器要为每一个提出测量要求的接收终端服务,因此测量服务器中特征接收单元自动接收每个接收端反馈束的特征信息,然后由节目匹配单元根据特征流中相对时间信息和特征信息等进行匹配比较,从而获得测量结果,例如用户收看节目的情况、节目内容是否被篡改等。测量结果由结果输出单元输出。在特征计算单元与节目匹配单元之间设置特征流缓存区,用于暂存特征信息。
音视频节目的接收端(用户侧)配置一个特征计算单元和一个特征转发单元,特征计算单元对用户收看的音视频节目进行特征提取,以获得特征信息流,由于用户更换电视节目频道或电台频率等,因此特征信息流可能是由不同时段的不同节目对应的特征流连接而成的;特征转发单元将由特征计算单元提取得到特征信息流通过反向传输信道发送给发送端的测量服务器。
从上述框架模型可以看出,接收端须具备反向传输信道,并和测量服务器进行通信。反向传输信道在即将大规模进入应用的数字电视和网络电视中,都是存在的。对于传统的电视接收方式,同样可以通过增加额外的反向传输信道来解决,比如利用现成的电话线、Internet网络,甚至可以是无线网络等。
本发明中,特征计算单元对播放(在发送端)和接收(在接收端)音视频节目进行特征提取。对于视频节目,以视频镜头为基本单位进行分割,以每个镜头中选取K(1≤K≤3)幅关键帧,从关键帧中提取主色调、直方图或纹理等特征,作为视频特征流。对于音频节目,先对其静音进行检测,将音频流分割成由静音和非静音组成的片断;然后对非静音片断,计算其音频特征。通常选择过零率、短时能量、音调、频谱质心或迁移等一种或几种,作为音频特征。具体选择何种特征,根据实际应用确定。


图1为本发明系统框架模型图示。
图中标号1为发送端,2为节目传输信道,3为接收端,4为反向传输信道,5为测量服务器,6为特征计算单元,7为节目匹配单元,8为特征接收单元,9为特征流缓存,10为结果输出单元,11为特征发射单元。
具体实施例方式
根据前面的系统框架模型的说明,下面进一步描述具体实施方式

1、特征计算单元在音视频节目发送端,测量服务器对于电视台播放的N路电视节目,需要分别计算N路电视节目的特征流,并存储在测量服务器中。理论上特征流是无始无终的,因此一般只能保存一段时间(例如数天)的节目及其特征。在接收端同样需要提取所接收节目的特征,不过只要处理当前接收的1路节目。
在提取视频流特征时,以视频镜头为基本单位进行分割和提取。所谓视频镜头,是指相机从开始到结束拍摄所得的视频段。在镜头上进行特征提取,既大大缩减了特征信息量,又考虑了视频本身的内容,避免了均匀时域采样可能导致特征重复。
抽取视频流特征的基本原则是特征应表征视频内容,且数据量必须尽量少,同时又要抵抗传输错误导致的质量下降。采用镜头长度作为特征能较好的取得平衡。一般镜头的长度为几百帧左右,用两个字节就能表示,非常低。同时镜头长度又包含时戳信息,有利于节目匹配。
为了提高测量与统计精度,进行镜头分割后,对每个镜头选取K幅关键帧(一般情况下1≤K≤3通常K=1),关键帧是镜头的代表,然后对每个关键帧进行特征提取。我们可以从关键帧中提取主色调、颜色直方图或纹理等特征,这些特征的数据量也不多,可以根据实际应用选择,不会引起特征数据量的大幅度增加。
假设一个(电视台)发送端播放N路节目,缓冲区队列大小为S个镜头,则每个镜头的长度为Lsn{n=1,2,...,N,s=1,2,...,S},对每个镜头选取K个关键帧,则每帧的特征为Fskn{n=1,2,...,N,s=1,2,...,S,k=1,2,...,K}。这样就可以生成N路节目的特征流,可表示为L11F11L21F21...LS11FS11L12F12L22F22...LS22FS22...L1NF1NL2NF2N...LSNNFSNN,]]>这里上标1、2...N表示不同节目,下标1、2、...S表示一个节目的视频镜头顺序。
为了进行节目匹配,同时需要记录每个镜头的开始时间,因为每个节目的帧率是一定的,所以只需要记录每个节目第一个镜头的起始时间和该节目的帧率。这里用函数t(n,k)表示,n是节目号,k是镜头顺序号。
在电视节目的接收端,在接收并播放节目的同时,特征计算单元同样进行上述步骤的特征提取,并且向测量服务器反馈特征。需要注意的是,在节目接收端,用户可能会随时切换节目频道,所以在切换点加入节目切换的同步码。
假设节目切换同步码为#,镜头编号为S′,每个镜头长度为LS′,则接收端转发给测量服务器的特征流为...#L1F1L2F2...LS′FS′#...。实际应用中,同步码可以采用镜头长度不会取到的数(比如0),镜头长度采用定长的整数,特征矢量采用固定个数的定长的小数。这样通过反馈信道直接发送即可。
对于音频流来说,先对其进行静音检测,可将音频流分割成由静音和非静音组成的片段,然后对非静音片段,计算其音频特征,例如过零率、短时能量、音调、频谱质心或迁移等特征。具体选择何种特征,将取决于实际应用。和视频特征流表示非常类似,将音频流表示成特征信息流,并采取非常类似步骤,向测量服务器反馈音频的特征信息流。
2、节目内容匹配发送端的测量服务器接收到某一接收端发送来的特征流,解析到节目切换同步码,由特征匹配单元进行节目匹配。
匹配过程是先找到镜头切换同步码后最相似的若干镜头所在的节目号,然后修改该接收端当前收看的节目号。考虑到节目切换时引起的首个镜头不完整。所以匹配应从镜头切换同步码后的第二个镜头开始。匹配节目时,同时需要修改该接收端的时戳,即把时戳递增匹配到的镜头的长度。
节目匹配步骤为假设P为匹配镜头的个数,t(n,k)是取电视台节目镜头的时间戳函数,tk′是接收到特征流中的镜头特征矢量的时间戳,Tdelay是接收端反馈的最大延迟时间,T是当前该接收端已匹配的时间戳信息,D为欧式距离,α、β是权重。则用下面公式可确定匹配的节目号n。
argnminΣi=1pα|(LnK+i,L1+i)|+βD(FnK+i,F1+i)S.T.t(n,k+1)≥T,t(n,k+p)≥tk+p′-Tdelay]]>n直到在下一个节目切换同步码之前都不变。T每收到一个镜头长度特征都要相应的增加。如果某一段收看节目的特征流为#L1F1L2F2...LS′FS′#,之前的时戳为T,则经过该段节目后,时戳增加为T+L1+L2+...+LS′考虑到某接收端开始被测量时,T并没有初始化,节目匹配时对于T的约束不予考虑。
如果长时间没有收到某接收端的反馈,则该接收端应被置成为被测量状态。
完整的匹配过程用伪代码形式表示如下(1)接收到某接收端发送的特征流,如果该接收端状态是未测量,则T=0,如果当前接收到的是同步码,则转2),否则转3);(2)置状态为匹配中,i=0,转1);(3)如果该接收端的状态为测量中,T=T+L,转1)。如果该接收端的状态为匹配中,i=i+1,如果i==p,则转4),否则转1);(4)如果T==0,查找满足t(n,k+p)≥tk+p′-Tdelay的n、k;否则查找满足t(n,k+1)≥T,t(n,k+p)≥tk+p′-Tdelay]]>的n、k。对于所有可能的n、k,计算d=Σi=1pα|(LnK+i,L1+i)|+βD(FnK+i,F1+i),]]>取使d最小时的n、k,T=t(n,k+p),置该接收端状态为测量中,转1);3、节目内容被篡改检测被篡改节目检测即发现某些接收端接收的节目不是电视台的节目之一。篡改分为两类,一类为将多路节目中的一路节目整个替换掉,另一类为将其中一路节目的视频画面做子画面插入编辑后再进行转发。
对于第一类如果镜头特征距离连续高于某个门限值Th,则报警ifα|(LnK+i,LK′+1)|+βD(FnK+i,FK′+i)>Th,i=1,2,...,Q对于第二类需要引入一个监测算法,即检测是否分块中的某块的特征距离很大,而其它一部分的块的特征距离很小。
if|FnK+i(r1),FK′+i(r1)|>Th1|FnK+i(r2),FK′+1(r2)|<Th2...|FnK+i(rm),FK′+1(rm)|<Th2i=1,2,...,Q′,]]>F(r)为取区域r特征值则r1区域为可能被篡改的区域,应报警。
4、收视(听)率调查方法经过节目匹配后,可以得到某接收端任一时刻接收节目的信息。判定某接收端是否收看某一节目可以采用查找如下的节目切换,T0p、T1p是节目p的起始时间戳和结束时间戳,Tk、Tk+1是连续的两个节目切换的时戳,t为节目开始和结尾处允许不收看的阈值(正值)T0p-Tk>-t,Tk+1-T1p>-t。
基于收视率调查抽样原理,利用通信信道指定一定数量的反馈接收端,用以生成收视率抽样调查的结果。同样也可以应用轮换策略来提高抽样调查的数据质量。
模拟实验为了验证本发明方法的可行性,进行了模拟实验。电视节目传输和特征转发都在局域网中进行,传输和反向信道都是IP网络,和普通的Internet网络一致。发送端(电视台)和测量服务器(包括特征计算单元,节目匹配单元和特征接收单元)都配置于同一台服务器内,接收端(包括特征计算和转发单元)配置于同一局域网内的PC中。
发送端同时向网络和测量服务器发送10路不同的电视节目,模拟10个不同的频道,每段节目时长30分钟。所有的节目都是从卫星录制的来自CCTV、ABC等的真实电视节目,节目也涵盖新闻、体育、电视剧、MTV等各种类型。
首先验证节目匹配算法的可行性,匹配的特征为镜头长度。接收端收取30分钟节目,并且指定收取过程中切换的次数(0~3次),不同的切换次数为一组实验,每组实验进行5次。切换时刻和频道都由程序随机生成。实验结果列表如下

从表中可以看出,匹配算法能非常好的进行节目匹配。由于切换次数增加,偶尔会引起错误。我们通过分析发现,错误是由于两次切换之间过于频繁,只有几十秒甚至几秒钟,还不足一个镜头的长度,所以匹配算法无法确定所切换的频道。并且,考虑到实际应用中,这种切换其实是用户在选台时的快速切换,并不是所需要监控和记录的信息。
接着进行被篡改节目的检测实验。在发送端额外发送1路节目,这路节目不向测量服务器发送,所以这路节目会被测量服务器认定为被篡改的节目。同样的,接收端收取30分钟节目,并且指定收取过程中切换的次数(0~3次),不同的切换次数为一组实验,每组实验进行5次。不同的是,这里至少有一次切换的频道是额外发送的节目。实验结果列表如下

从实验中可以看出,每次接收端收取额外的节目,测量服务器都能及时发现。所以,根据本发明的算法,对于检测节目内容是否被篡改是非常有效的。
权利要求
1.一种用于测量音视频内容变化的方法,其特征在于设计了音视频节目内容变化的实时或非实时监测的反馈框架模型,其中在音视频节目的发送端,配置一测量服务器,用于支撑对大规模用户的节目的测量,测量服务器由多台服务器组成,进行并行处理;测量服务器中设有特征计算单元、节目匹配单元、特征接收单元、特征流缓存区和结果输出单元;测量服务器首先处理发送端所有播放节目,特征计算单元自动提取每一路节目的特征流;测量服务器为每一个提出测量要求的接收终端服务,测量服务器中特征接收单元自动接收每个接收端反馈来特征信息,然后由节目匹配单元根据特征流中相对时间信息和特征信息进行匹配比较,获得测量结果;测量结果由输出结果单元输出;特征计算单元与节目匹配单元之间设置特征流缓存区,用于暂存特征信息;在音视频节目的接收端配置一个特征计算单元和一个特征转发单元,特征计算单元对用户收看的音视频节目进行特征提取,以获得特征信息流;特征转发单元将由特征计算单元提取得到特征信息流通过反向传输信道发送给发送端的测量服务器。
2.根据权利要求1所述的方法,其特征在于所说特征计算单元对发送端播放和接收端接收的音视频节目进行特征提取,其中对于视频节目,以视频镜头为基本单位进行分割,再从每个镜头中选取1-3幅关键帧,从关键帧中提取主色调、颜色直方图或纹理特征,作为视频特征流;对于音频节目,先对音静进行检测,将音频分割为由静音和非静音组成的片断;然后对非静音片断,计算其音频特征,音频特征选用过零率、短时能量、音调、频谱质心或迁移的一种或几种。
3.根据权利要求2所述的方法,其特征在于对于视频节目,特征计算单元提取节目特征的步骤如下假设一个发送端播放N路节目,缓冲区队列大小为S个镜头,则每个镜头的长度为Lsn{n=1,2,...,N,s=1,2,...,S},对每个镜头选取K个关键帧,则每帧的特征为Fskn{n=1,2,...,N,s=1,2,...,S,k=1,2,...,K};这样就生成N路节目的特征流,表示为L11F11L21F21...Ls11Fs11L12F12L22F22...Ls22Fs22···L1NF1NL2NF2N...LsNNFsNN,]]>这里上标1、2…N表示不同节目,下标1、2、...S表示一个节目的视频镜头顺序;同时记录每个节目第一个镜头的起始时间和该节目的帧率,用函数t(n,k)表示,n为节目号,k为镜头顺序号;在节目接收端,特征计算单元同样进行上述步骤的特征提取,并在切换节目频道时在切换点加入节目切换的同步码假设节目切换同步码为#,镜头编号为S′,每个镜头长度为LS′,则接收端转发给测量服务器的特征流为...#L1F1L2F2...LS′FS′#...。
4.根据权利要求3所述的方法,其特征在于发送端的测量服务器接收到某一接收端发送来的特征流,解析到节目切换同步码,由特征匹配单元进行节目匹配;节目匹配的过程是先找到镜头切换同步码后最相似的若干镜头所在的节目号,然后修改该接收端当前收看的节目号;同时修改该接收端的时戳,把时戳递增匹配到镜头的长度,其匹配过程的伪代码形式如下(1)接收到某接收端发送的特征流,如果该接收端状态是未测量,则T=0,如果当前接收到的是同步码,则转(2),否则转(3);(2)置状态为匹配中,i=0,转(1);(3)如果该接收端的状态为测量中,T=T+L,转(1)。如果该接收端的状态为匹配中,i=i+1,如果i=p,则转4),否则转(1);(4)如果T=0,查找满足t(n,k+p)≥tk+p′-Tdelay的n、k;否则查找满足t(n,k+1)≥T,t(n,k+p)≥tk+p′-Tdelay的n、k。对于所有可能的n、k,计算d=Σi=1pα|(LnK+i,L1+i)|+βD(FnK+i,F1+i),]]>取使d最小时的n、k,T=t(n,k+p),置该接收端状态为测量中,转(1);其中,假设P为匹配镜头的个数,t(n,k)是取电视台节目镜头的时间戳函数,tk′是接收到特征流中的镜头特征矢量的时间戳,Tdelay是接收端反馈的最大延迟时间,T是当前该接收端已匹配的时间戳信息,D为欧式距离,α、β是权重;n为确定匹配的节目号。
全文摘要
本发明属音视频技术领域,具体为一种测量音视频节目内容变化的方法。在节目播放端设置测量服务器,在节目接收端设置特征计算单元和特征发送单元。接收端的特征计算单元自动提取当前所接收节目的特征流,特征发送单元将特征流通过反向传输信道发送给测量服务器;同时,测量服务器对节目播放端所有节目自动抽取特征流,形成节目特征流数据库;测量服务器在接收某个用户接收端反馈的特征流后,将它与节目特征流数据库中特征进行比对匹配,就可完成某一个接收端收看节目内容变化的监测和统计。本方法的两种典型应用是收视率调查和防节目内容篡改检测。
文档编号H04N17/00GK1719909SQ20051002778
公开日2006年1月11日 申请日期2005年7月15日 优先权日2005年7月15日
发明者薛向阳, 密聪杰, 刘振中 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1