一种基于实时视频流采集的视频实时识别方法

文档序号：10516205阅读：543来源：国知局

一种基于实时视频流采集的视频实时识别方法
【专利摘要】本发明公开了一种基于实时视频流采集的视频实时识别方法，包括以下步骤：（a）服务器端对视频流数据的视频图像或者声音数据进行特征提取，得到第一特征码，并根据该第一特征码在服务器端建立实时动态数据库；（b）用户在用户端采集视频数据或者声音数据，并提取该视频数据或者声音数据的第二特征码；（c）将第二特征码与服务器端的实时动态数据库中的信息进行匹配，并返回匹配结果。本发明采用上述方法，能够满足用户对自主收看视频节目的需求，实现实时的视频识别。
【专利说明】
-种基于实时视频流采集的视频实时识别方法
技术领域
[0001] 本发明设及视频处理领域，具体是一种基于实时视频流采集的视频实时识别方法。
【背景技术】
[0002] 基于静态的视频文件的分析和检索的方法研究有很多，也有较为成熟的系统推出，如化cebook，Google等提供的视频捜索引擎，用户通过检索输入之后上传到服务器进行特征识别，识别结果返回用户，服务器端的数据库都是静态数据库，并不能满足实时下的一些需求。例如用户希望通过正在播放的某电视台画面进行实时识别，得到对应电视台正在播放的视频相关信息并返还给用户。此时静态数据库已经完全不能满足需求。
[0003] 另外，广播电视数字化及手机电视等新媒体业务形式的出现(例如流媒体），用户的视频捜索行为更加丰富，包括:看直播、看点播，看回放等。然而目前支持即点即放的交互式点播电视（IV0D)，需要配备大容量的存储设备来存储来自视频服务器的影视文件，用户才能够对视频进行良好的交互式控制。由于存储大量的视频源文件，导致捜索速度大大降低，所W并不能很好的满足用户的捜索行为。为了更好的满足用户多种捜索方式，亟待提出一种基于实时动态数据库的视频识别方法。

【发明内容】

[0004] 本发明的目的在于提供一种基于实时视频流采集的视频实时识别方法，解决目前的视频识别方法无法满足用户对自主收看视频节目的需求，识别时系统延时较大的问题。
[0005] 本发明为实现发明目的，采用如下技术方案来实现:一种基于实时视频流采集的视频实时识别方法，包括W下步骤： (a) 服务器端对视频流数据的视频图像或者声音数据进行特征提取，得到第一特征码，并根据该第一特征码在服务器端建立实时动态数据库； (b) 用户在用户端采集视频数据或者声音数据，并提取该视频数据或者声音数据的第二特征码； (C)将第二特征码与服务器端的实时动态数据库中的信息进行匹配，并返回匹配结果。
[0006] 进一步地，作为优选方案，所述步骤(a)的具体过程为： (al)通过流媒体传输方式获取播放平台的视频流数据，运里的播放平台可W是电视台，也可W是网络直播， (a2)使用特征编码服务器提取视频流数据中每帖图像/每段声音的特征，得到第一特征码； (a3)将第一特征码与其对应的播放平台的信息建立索引关系，如果播放平台是电视台，则信息包括电视台的台号W及视频播放时的时间；如果播放平台是网络直播，则信息包括网站来源、播放时间、房间号等。
[0007] (a4)将步骤(a2)得到的第一特征码和步骤(a3)建立的索引关系建立实时动态数据库。
[0008] 本方案中，流媒体传输也称为流式传输过程，就是把连续的影像和声音信息经过压缩处理后放上网站服务器，由视频服务器向用户计算机顺序或实时地传送各个压缩包，让用户一边下载一边观看、收听，而不要等整个压缩文件下载到自己的计算机上才可W观看的网络传输技术。该技术先在使用者端的计算机上创建一个缓冲区，在播放前预先下一段数据作为缓冲，在网路实际连线速度小于播放所耗的速度时，播放程序就会取用一小段缓冲区内的数据，运样可W避免播放的中断，也使得播放品质得W保证。特征编码服务器，也可W叫特征编码器，它用于提取视频数据的颜色特征、纹理特征等等，或者提取声音数据的时域特征和频域特征，比如，用线性预测系数(LPC)、倒谱系数化PCC)、梅尔频率倒谱系数 (MFCC)或者通过神经网络训练生成时域特征和频域特征。视频的内容是基于特征匹配的，可W用描述视频颜色特征和纹理特征分布的统计模型，一段视频可W看作一组图像帖，对每于每一帖图像，计算其RGB颜色直方图和纹理特征。在计算每帖图像的颜色和纹理的特征基础上，再用聚类的方法得到典型的特征分布，运里聚类算法采用K-means算法。另外，我们建立的动态数据库指的是，动态数据库里的视频数据/声音数据(比如电视剧、电影等等）的相关信息跟实际电视台的相关信息是一一对应的。另外，还可用sift/surf特征提取技术提取视频图像或者声音数据的相应特征，得到特征码。
[0009] 进一步地，作为优选方案，所述步骤(a3)的具体过程为:假设直播平台在时间段t 内的相关信息集为S，第一特征码的特征集为Q，将Q与S建立对应关系，即索引关系。
[0010] 进一步地，作为优选方案，还包括步骤(a5)，所述步骤(a5)的具体过程为:删除实时动态数据库中的过时数据。
[0011] 进一步地，作为优选方案，所述步骤(b)的具体过程为： (bl)用户通过图像采集设备采集某电视台的视频图像或者声音数据； (b2)用户端对采集到的视频图像或声音数据进行特征提取，得到第二特征码； (b3)用户端将提取到的第二特征码传送到服务器端。
[0012] 进一步地，作为优选方案，所述步骤(C)的具体过程为： (cl)将第一特征码和第二特征码建立一种特征码度量空间0,并将用户端提取到的第二特征码数据定义为F1，服务器端的实时动态数据库中的第一特征码数据定义为F2; (c2)如果用户端传送过来的第二特征码数据F1与动态数据库中的某些第一特征码数据F2在度量空间0中的距离满足d(Fl, F2) < q，则匹配成功，否则匹配失败，其中q是给定的最大匹配距离阔值。
[0013] 与现有技术相比，本发明的有益效果是： (1)本发明实现了对视频信息的实时采集，通过实时更新动态特征数据库，匹配特征能够被系统动态加载，系统延时极小。
[0014] (2)本发明中，用户端并不上传视频图像或者声音信息，而是上传特征信息，也就是说用户采集到的视频图像或者声音信息特征提取放在客户端，而不是服务器，运样能够有效减少传输数据量，同时服务器不用计算特征，减小了服务器端的计算压力。
【具体实施方式】
[0015] 为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。实施例
[0016] 本实施例所述的一种基于实时视频流采集的视频实时识别方法，包括W下步骤： (a)服务器端对视频流数据的视频图像或者声音数据进行特征提取，得到第一特征码，并根据该第一特征码在服务器端建立实时动态数据库，第一特征码的提取方式有很多，比如sift/surf特征提取技术，它提取的特征就叫sift/surf特征，是一个64或者128维的向量。
[0017] (b)用户在用户端采集视频数据或者声音数据，并提取该视频数据或者声音数据的第二特征码，用户端同样可W采用sift/surf特征提取技术来提取第二特征码，也可W用其它方式，但是服务器端采用的特征提取技术和用户端采用的特征提取技术必须相同，从而确保特征码具有可匹配性。
[0018] (C)将第二特征码与服务器端的实时动态数据库中的信息进行匹配，并返回匹配结果。
[0019] 在本实施例中，服务器端根据第一特征码建立实时动态数据库，用户端将第二特征码与第一特征码进行匹配，实现视频识别，识别过程中，实时动态数据库做到实时更新，第一特征码被系统动态加载，系统延时极小。
[0020] 在本实施例中，可W采用W下方式来实现实时动态数据库的建立，具体如下： (al)通过流媒体传输方式获取播放平台的视频流数据，所谓的播放平台可W是电视台、网络直播等等； (a2)使用特征编码服务器提取视频流数据中每帖图像或者每段声音的特征，得到第一特征码； (a3)将第一特征码与其对应的播放平台的信息建立索引关系，如果播放平台是电视台，运里的信息就包括电视台台号和视频播放的时间，通过电视台台号W及播放时间（北京时间），可W对应找到该电视台在运个播放时间直播的节目名称、节目类型、主要参与角色、收视率等等;如果播放平台是网络直播，则运里的信息包括网站来源、播放时间、房间号等，通过运些信息，可W对应找到直播的节目名称、节目类型等等。
[0021] (a4)将步骤(a2)得到的第一特征码和步骤(a3)建立的索引关系建立实时动态数据库。
[0022] 步骤(a3)的索引关系建立方式为:假设直播平台在时间段t内的相关信息集为S，第一特征码的特征集为Q，将Q与S建立对应关系，即索引关系。
[0023] 为了确保实时动态数据库具有灵活的空间，本实施例还包括步骤(a5)，步骤(a5) 的具体过程为:删除实时动态数据库中的过时数据，假设动态实时数据库保存最新的T小时数据，查找动态数据库中在T小时W前的数据集，并将其删除，释放空间，减小数据库压力。
[0024] 本实施例中，可W采用如下方式来实现用户端提取第二特征码，所述步骤(b)的具体过程为： (bl)用户通过图像采集设备采集某电视台的视频图像或者声音数据； (b2)用户端对采集到的视频图像或声音数据进行特征提取，得到第二特征码； (b3)用户端将提取到的第二特征码传送到服务器端。
[0025] 本实施例可W采用如下方式来实现特征码的匹配： (cl)将第一特征码和第二特征码建立一种特征码度量空间0,并将用户端提取到的第二特征码数据定义为F1，服务器端的实时动态数据库中的第一特征码数据定义为F2; (c2)如果用户端传送过来的第二特征码数据F1与动态数据库中的某些第一特征码数据F2在度量空间0中的距离满足d(Fl, F2) < q，则匹配成功，否则匹配失败，其中q是给定的最大匹配距离阔值，q可W根据匹配结果的好坏进行修正，比如，当匹配精度不高时，可对应调节q的大小来实现较佳的匹配。
[0026] 本实施例中，基于上述形成的特征码构成动态特征库，实时视频识别的问题可W 描述为:边接受播出的视频数据边做内容的识别，内容识别完成的时刻^与内容播出的时刻之间允许存在一定的时延T，但其值必须恒定在一个范围内，r值越小表明识别的实时性越好，一般可W取0.2-2S。运里定义的内容识别是指从接收到的视频流中识别出与样本视频具有相同内容的片段，相同视频片段的时长和帖内容均要相同，但容许适度的信号特征崎变，例如图像尺寸和质量的变化。用户用视频采集设备采集到的视频流中图片数据可W作为样本库，用户并不上传视频流或者图像，用户采集到的图像或者声音信息，在用户端就直接提取特征码，然后将特征码上传到服务器，与服务器的实时动态数据库中的特征码进行匹配。
[0027] 下面就用具体实例进行说明：步骤a:服务器取得频道A的数据，并在视频时间tl，t2-'tn，分别获取视频帖的图片数据ρ1，ρ2···ρη，对运些图片用sift方法，分别对应计算出第一特征码n，f2-fn。服务器将多个频道的特征码入库，并建立其与信息间的索引关系。
[0028] 其中，ti为时间格式的数据年月日时分秒毫秒;pi为YUV格式编码的图片数据;fi 为300个64维的浮点数数组。
[0029] 步骤b:用户通过手机摄像头，获取一张图片puser，图片获取的时间为tuser，用与获取第一特征码完全相同的方法、相同的参数配置，计算出第二特征码化ser，然后将化ser 和化ser上传到服务器。
[0030] 步骤C:将fuser与系统中所有的第一特征码fi进行比较，计算距离函数化nc (化ser，fi)，化nc(化se;r，f i)的值小于我们的经验阔值时，就完成查找工作，认为puser和 pi是同一图片，通过索引找到fi的频道信息和时间信息ti。如果（tuser-ti)小于2秒，则认为是允许的时间延迟，匹配成功返回频道信息；否则认为匹配失败，返回相应信息。
[0031 ] Func(fa，扎）在本实施例中计算方法为：计算fa的300个数组val'''va300,与扎的 300个数组vbl'''vb300,两两之间的欧式距离d(vai，vbi)，如果d(vai，vbi)<l则认为有一个匹配对。化nc (f a，化）定义为化，化的匹配对的个数的倒数。
[0032] 在本实施例中，也可W采用颜色特征和纹理特征来表示提取到的特征码，假设颜色特征为VI，纹理特征为V2。服务器中数据库的颜色特征为V'l，纹理特征为V'2,将颜色特征建立一个度量空间化，纹理的特征建立一个度量空间化。那么d 01 (VI，v'l)描述了颜色特征距离，d 02 (V2, V'2)描述了纹理特征距离，两者组合可W有很多中形式，可W直接相加，也可W取均值等，得到最终的组合距离d来描述用户上传的特征与服务器数据库中特征的距离，距离越小，则匹配越好。
[0033] W上所述的【具体实施方式】，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，w上所述仅为本发明的【具体实施方式】而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于实时视频流采集的视频实时识别方法，其特征在于:包括以下步骤： (a) 服务器端对视频流数据的视频图像或者声音数据进行特征提取，得到第一特征码，并根据该第一特征码在服务器端建立实时动态数据库； (b) 用户在用户端采集视频数据或者声音数据，并提取该视频数据或者声音数据的第二特征码； (c) 将第二特征码与服务器端的实时动态数据库中的信息进行匹配，并返回匹配结果。2. 根据权利要求1所述的一种基于实时视频流采集的视频实时识别方法，其特征在于：所述步骤(a)的具体过程为： (al)通过流媒体传输方式获取播放平台的视频流数据； (a2)使用特征编码服务器提取视频流数据中每帧图像/每段声音的特征，得到第一特征码； (a3)将第一特征码与其对应的播放平台的信息建立索引关系； (a4)将步骤(a2)得到的第一特征码和步骤(a3)建立的索引关系建立实时动态数据库。3. 根据权利要求2所述的一种基于实时视频流采集的视频实时识别方法，其特征在于：所述步骤(a3)的具体过程为:假设直播平台在时间段t内的相关信息集为S，第一特征码的特征集为Q，将Q与S建立对应关系，即索引关系。4. 根据权利要求2所述的一种基于实时视频流采集的视频实时识别方法，其特征在于：还包括步骤(a5)，所述步骤(a5)的具体过程为:删除实时动态数据库中的过时数据。5. 根据权利要求1所述的一种基于实时视频流采集的视频实时识别方法，其特征在于：所述步骤(b)的具体过程为： (bl)用户通过图像采集设备采集某电视台的视频图像或者声音数据； (b2)用户端对采集到的视频图像或声音数据进行特征提取，得到第二特征码； (b3 )用户端将提取到的第二特征码传送到服务器端。6. 根据权利要求1所述的一种基于实时视频流采集的视频实时识别方法，其特征在于：所述步骤(c)的具体过程为： (cl)将第一特征码和第二特征码建立一种特征码度量空间0,并将用户端提取到的第二特征码数据定义为F1，服务器端的实时动态数据库中的第一特征码数据定义为F2; (c2)如果用户端传送过来的第二特征码数据F1与动态数据库中的某些第一特征码数据F2在度量空间0中的距离满足d(Fl，F2)〈 q，则匹配成功，否则匹配失败，其中q是给定的最大匹配距离阈值。
【文档编号】H04N21/233GK105872586SQ201610198899
【公开日】2016年8月17日
【申请日】2016年4月1日
【发明人】马良庄, 蔡毅, 朱奕
【申请人】成都掌中全景信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马良庄;蔡毅;朱奕;
技术所有人：成都掌中全景信息技术有限公司;
我是此专利的发明人

上一篇：视频请求的处理方法及装置的制造方法
上一篇：一种音量动态调整方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。