直播多媒体文件的识别方法及装置的制造方法

文档序号：8258824阅读：244来源：国知局

直播多媒体文件的识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及视频识别技术领域，具体而言，特别涉及一种直播多媒体文件的识别方法及装置。
【背景技术】
[0002]当前的视频搜索方式，通常使用是视频的“关键字”进行搜索。这不但要求用户知晓该视频的相关信息，同时也要求搜索服务提供方能及时维护与视频一一对应的“关键字”数据库。而实际上，我们常常会遭遇到这样的尴尬:在大街小巷或者电视机前邂逅一段有趣的视频，但我们并不熟悉甚至不知道这段视频的信息，更别说通过“关键字”搜索到这段视频了。
[0003]因而，基于声音识别视频便在这一实际需求的推动之下应运而生。在基于声音识别视频的技术中，当用户需要识别某视频时，首先通过移动端(如:智能手机)的录音设备获取视频中的声音信息，将反映该声音信息的特征数据与云端服务器中的特征数据库进行匹配，并将匹配结果(视频流或者视频相关的信息)返回到移动端。
[0004]但是，视频文件具有快速更新、快速上线的特点，甚至很多视频文件采用的是网络直播的形式，所以用户需要识别的视频常常是正在直播的视频。而在现有技术的上述方法中，云端服务器在获取到视频源产生的完整视频后，才会根据视频对应的音频信息构建特征数据库，因此，现有技术的方法并不能识别直播视频。
[0005]针对现有技术不能识别直播视频的问题，目前尚未提出有效的解决方法。

【发明内容】

[0006]本发明的主要目的在于提供一种直播多媒体文件的识别方法及装置，以解决现有技术不能识别直播视频的问题。
[0007]依据本发明的一个方面，提供了一种直播多媒体文件的识别方法。
[0008]根据本发明的直播多媒体文件的识别方法包括:根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息；根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，其中，特征数据库用于存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，特征样本的时间长度为第一预定时间；根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本；接收识别目标多媒体文件的识别请求，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录；获取目标多媒体文件对应的多媒体文件的标识信息。
[0009]进一步地，特征信息为多媒体文件的音频数据的指纹信息，根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息，包括:根据实时数据流获取直播多媒体文件的当前时段的音频数据；将当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段，其中，第二预定时间小于第一预定时间；以及提取每个音频片段的指纹信息，以得到直播多媒体的当前时段的特征信息。
[0010]进一步地，特征样本为η个音频片段的指纹信息，直播多媒体文件的当前时段的特征信息为m个音频片段的指纹信息，m〈n，n个音频片段的时间长度为第一预定时间，根据直播多媒体文件的特征信息更新待更新的多媒体记录中的特征样本包括:删除待更新的多媒体记录中特征样本的最早的m个指纹信息；将直播多媒体文件的当前时段的m个指纹信息按时间顺序置于待更新的多媒体记录的特征样本中。
[0011]进一步地，根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本，具体包括:步骤S1:特征指针指向直播多媒体文件当前时段的特征信息中的第一个指纹信息，并将计时器清零开始特征提取计时；步骤S2:获取特征指针指向的指纹信息；步骤S3:提取与直播多媒体的标识信息相对应的多媒体记录的特征样本，以得到第一特征样本；步骤S4:将特征指针指向的指纹信息拼接至第一特征样本的末尾，以得到第二特征样本；步骤S5:从第二特征样本的起始删除一个指纹信息；步骤S6:判断计时器中的时间是否达到第三预定时间，若未达到第三预定时间，特征指针指向下一个指纹信息，并重复执行步骤S2至S6 ;若达到第三预定时间，用得到的第二特征样本替换多媒体记录中多媒体标识对应的特征样本，其中，第三预定时间为m个指纹信息对应的多媒体文件的播放时间。
[0012]进一步地，提取音频片段的指纹信息包括:合并音频片段的左声道数据和右声道数据，以得到音频片段的立体声数据；以及提取音频片段的立体声数据的时频特征数据作为音频片段的指纹信息。
[0013]进一步地，识别请求中包括的目标多媒体文件的特征信息为直播多媒体文件的当前时段的N个指纹信息，N个指纹信息中的一个指纹信息为目标多媒体的N个立体声数据中的一个立体声数据的时频特征数据，其中，N个立体声数据中的第i个立体声数据为Si '= ai' *1' +hi' *r'，ai' +hi' =1，Γ为直播多媒体文件的当前时段的左声道数据，r'为直播多媒体文件的当前时段的右声道数据，ai'和bi'为预设的参数，i = 1，2，3...No在该方法中，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录包括:将目标多媒体文件的每个指纹信息分别与特征数据库中的特征样本匹配，得到每个指纹信息的匹配率；将最大匹配率对应的特征样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录。
[0014]依据本发明的一个方面，提供了一种直播多媒体文件的识别装置。
[0015]根据本发明的直播多媒体文件的识别装置包括:获取模块，用于根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息；定位模块，用于根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，其中，特征数据库用于存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，特征样本的时间长度为第一预定时间；更新模块，用于根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本；匹配模块，用于接收识别目标多媒体文件的识别请求，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录；识别模块，用于获取目标多媒体文件对应的多媒体文件的标识信息。
[0016]进一步地，特征信息为多媒体文件的音频数据的指纹信息，获取模块包括:音频数据获取模块，用于根据实时数据流获取直播多媒体文件的当前时段的音频数据；音频片段分割模块，用于将当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段，其中，第二预定时间小于第一预定时间；以及指纹信息提取模块，用于提取每个音频片段的指纹信息，以得到直播多媒体的当前时段的特征信息。
[0017]进一步地，特征样本为η个音频片段的指纹信息，直播多媒体文件的当前时段的特征信息为m个音频片段的指纹信息，m〈n，n个音频片段的时间长度为第一预定时间，更新模块包括:删除模块，用于删除待更新的多媒体记录中特征样本的最早的m个指纹信息；添加模块，用于将直播多媒体文件的当前时段的m个指纹信息按时间顺序置于待更新的多媒体记录的特征样本中。
[0018]进一步地，更新模块具体执行以下步骤:
[0019]步骤S1:特征指针指向直播多媒体文件当前时段的特征信息中的第一个指纹信息，并将计时器清零开始特征提取计时；步骤S2:获取特征指针指向的指纹信息；步骤S3:提取与直播多媒体的标识信息相对应的多媒体记录的特征样本，以得到第一特征样本；步骤S4:将特征指针指向的指纹信息拼接至第一特征样本的末尾，以得到第二特征样本；步骤S5:从第二特征样本的起始删除一个指纹信息；步骤S6:判断计时器中的时间是否达到第三预定时间，若未达到第三预定时间，特征指针指向下一个指纹信息，并重复执行步骤S2至S6 ;若达到第三预定时间，用得到的第二特征样本替换多媒体记录中多媒体标识对应的特征样本，其中，第三预定时间为m个指纹信息对应的多媒体文件的播放时间。
[0020]进一步地，指纹信息提取模块包括:立体声数据合成模块，用于合并音频片段的左声道数据和右声道数据，以得到音频片段的立体声数据；以及时频特征提取模块，用于提取音频片段的立体声数据的时频特征数据作为音频片段的指纹信息。
[0021]进一步地，识别请求中包括的目标多媒体文件的特征信息为直播多媒体文件的当前时段的N个指纹信息，N个指纹信息中的一个指纹信息为目标多媒体的N个立体声数据中的一个立体声数据的时频特征数据，其中，N个立体声数据中的第i个立体声数据为Si '= ai' *1' +hi' *r'，ai' +hi' =1，Γ为直播多媒体文件的当前时段的左声道数据，r'为直播多媒体文件的当前时段的右声道数据，ai'和bi'为预设的参数，i = 1，2，3...N,在该装置中，匹配模块包括:匹配率确定模块，用于将目标多媒体文件的每个指纹信息分别与特征数据库中的特征样本匹配，得到每个指纹信息的匹配率；多媒体记录确定模块，用于将最大匹配率对应的特征样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录。
[0022]通过本发明，预设一个特征数据库存储直播多媒体的特征信息，具体地，在该特征数据库中存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，并且特征样本的时间长度为第一预定时间，在有直播多媒体文件的实时数据流输入时，首先根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息，然后根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本，从而保证特征数据库中存储直播多媒体文件当前最新的特征信息。在接收识别目标多媒体文件的识别请求时，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录，然后获取目标多媒体文件对应的多媒体文件的标识信息，以达到识别目标多媒体文件的目的，解决了现有技术中不能识别直播视频的问题。
[0023]上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0024]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0025]图1是根据本发明实施例一的方法流程图；
[0026]图2是根据本发明实施例二的方法流程图；
[0027]图3是根据本发明实施例三的方法流程图；
[0028]图4是根据本发明实施例四的系统示意图；
[0029]图5是根据本发明实施例四的终端框图；
[0030]图6是根据本发明实施例四的视频检索服务器框图；
[0031]图7是根据本发明实施例四的指纹管理服务器框图；
[0032]图8是根据本发明实施例四的视频管理服务器框图；以及
[0033]图9是根据本发明实施例五的装置框图。
【具体实施方式】
[0034]下面结合附图和【具体实施方式】对本发明做进一步说明。需要指出的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
[0035]本发明

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭傅伦;许泽军;王晓萌;王英杰;袁斌;
技术所有人：乐视网信息技术（北京）股份有限公司;
我是此专利的发明人

上一篇：一种基于搜索结果页面触发音乐播放的方法及装置的制造方法
上一篇：一种能力标签的确定方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。