全媒体中多维检测特定目标的方法

文档序号:9288464阅读:171来源:国知局
全媒体中多维检测特定目标的方法
【技术领域】
[0001] 本发明涉及一种从全媒体数据中检测特定目标出现的方法,尤其涉及一种全媒体 中多维检测特定目标的方法。
【背景技术】
[0002] 全媒体信息包含文字、语音、图片、视频等多种形式的数据,从这些信息中找特定 的目标(人、物),涉及声纹识别、语音识别、图像识别、视频指纹、文字分析等多项技术,是 一项复杂的系统工程。并且,由于声纹、语音、图像识别及视频指纹技术都处于发展阶段,单 一一项技术无法达到预期的查全、查准等性能指标要求。在媒体中声纹、语音、图像、视频指 纹、文字信息,具有一定的内在关联性,例如,视频信息一般包括文字、声音、视频画面,声音 数据包括可以识别成文字的说话音,也包含说话人不同于他人的生物特征等,这些信息通 过内容分析,可以建立一定的关系,这就为通过多种方式检索共同目标提供了技术基础。
[0003] 基于对声纹、语音、图像、视频指纹、文字信息的长期研究,我们发现可以通过一定 的统计分析,提取这些信息中两项、三项、多项之间的共同特征或描述内容,利用一种检索 方式的结果,拓展到几种方式协同检索,提供综合检索结果。例如,从声纹检测,判断出说话 的人是谁,同时,提取这个人说话的片段信息;知道了说话人是谁后,可以从语音识别中,找 到涉及这个说话人的内容;也可以查询到说话人的图片和相关视频片段;还可以进一步找 到相关的文字信息。
[0004] 由于语音识别、图像识别、视频指纹识别采用DNN、HMM等技术,它们大多数是基于 统计分析模型,这些技术均有一定的缺陷,单一技术手段不能达到预期的识别效果。为了提 高单一技术的性能,需要大幅提高统计分析的样本模型库的数据量,但是,环境噪声、说话 人的口音、语速、性别等外部因素影响语音和声纹识别的性能,拍摄图像和视频的光照、分 辨率、背景复杂度也对图像识别、视频指纹识别有很大影响,单一技术手段都不能达到满意 效果,因此,需要采取多种手段结合,提高识别的查全率。

【发明内容】

[0005] 本发明是通过多种方式,检索全媒体信息的不同类型特征向量,如:文本关键词、 声纹、语音内容、图像色彩、图像语义等,汇总要查询目标的各项信息,能更全面获得与检索 目标相关的信息元数据片段及记录元数据的位置,多种方式不同维度的检索,提高了数据 的查全率和查准率。
[0006] 为实现上述目的,本发明所采用的技术方案是:全媒体中多维检测特定目标的方 法,具体步骤如下:
[0007] S1 :根据检索条件样本,如文本关键词、声纹特征语音、内容语音、特征图片、特征 视频,确定搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类型;
[0008] S2 :根据的搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类 型,选择匹配的检测识别引擎,如关键词识别引擎,声纹识别引擎、语音语义识别引擎、形状 识别引擎;
[0009]S3:分析每个检测识别引擎的结果,得到检索关键词、目标特征量数据,作为检索 条件发送给搜索引擎进行检索;
[0010]S4:相关的每个搜索引擎从输入的目标检索数据中检索符合条件的数据,并记录 数据片段和出现位置;
[0011] S5:每个搜索引擎检索不同的数据,得到不同的检索结果,将这些检索结果再进行 汇总、分类输出。
[0012] 进一步的,再步骤S2中,如有多个不同数据类型检索条件,则选择多个检测识别 引擎。
[0013]进一步的,再步骤S3中,如检索条件中含有3个以上的关键词,则进一步分解成关 键词组。
[0014] 进一步的,再步骤S3中,如某项数据无需启用与之对应的识别引擎处理数据,将 条件值设置成空值。
[0015]进一步的,步骤S4中的目标检索数据来自数据库、数据文件、网络流媒体,包括:文本、语音、图片、视频数据。
[0016]进一步的,步骤S5中检索结果是文本、语音、图片、视频中的一种或几种,对于语 音、视频的检索结果,再提取关联内容片段或记录入点和时长。
[0017] 更进一步的,在步骤S5中,检索结果是依据下面公式实现的:
[0018]
[0019] XVf又里汉可可抓叨:
[0020] SR,检索结果;SEi,搜索引擎;i,引擎编号,如,SEi代表声纹搜索引擎,SE2代表语 音搜索引擎;N,表示全媒体中的数据类型数;RE,,检测识别引擎,检测识别引擎具有目标检 测和目标识别的功能,针对不同数据,可以同时具有检测和识别两项功能,也可以只具有单 一功能,不同检测识别引擎处理不同数据内容;j,检测识别引擎编号,例如,REi代表声纹识 别引擎,识别说话的人是谁;RE2代表语音识别引擎,识别语音中的内容及关键词;k,表示样 本库中的样本号,也表示样本识别循环次数;M,表示样本库中的样本数,有多少样本可以识 另IJ认证;P],搜索引擎和检测识别引擎要检索和识别的目标参考样本数据吨,搜索引擎检 索对象,即搜索引擎从哪些数据中检索目标信息。
[0021] 作为更进一步的,所述的检测识别引擎具有检测识别和检索两层功能,不同数据 类型对象进行处理的引擎作为不同处理维度。
[0022] 本发明专利由于采用以上技术方案,能够取得如下的技术效果:通过多种方式, 检索全媒体信息的不同类型特征向量,如文本关键词、声纹、语音内容、图像色彩、图像语义 等,汇总要查询目标的各项信息,能更全面获得与检索目标相关的信息元数据片段及记录 元数据的位置。多种方式不同维度的检索,提高了数据的查全率和查准率。采用本发明方 法,可以弥补单一识别引擎的查全率低的问题,提高全媒体检索的查全率和查准率,针对不 同的应用环境和检索样本,可以将查全率提高10% -30%。
【附图说明】
[0023] 本发明共有附图1幅:
[0024] 图1是本发明的流程图。 具体实施例
[0025] 下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的解释说明。
[0026] 如图1所示,本发明提供的是:一种全媒体中多维检测特定目标的方法,具体步骤 如下:
[0027]S1 :根据检索条件样本,如文本关键词、文本句子、声纹特征语音(说话人的语音 或其他要检索的物体发出的声音数据)、内容语音(语音中说到检索目标的语音数据)、特 征图片(人脸、人形、物体形状、颜色、聚集状态特征图片)、特征视频(一小段含有人脸、人 形、物体形状、颜色、聚集状态特征的视频数据),确定搜索引擎和检测识别引擎要检索和识 别的目标参考样本数据的数据类型;检索条件样本类似普通搜索引擎的检索关键字,由于 全媒体检索的条件可能是文本、语音(片段)、图片、视频(片段)形式中的一种或几种组 合。文本可以是"关键词"单词组合;也可以是文本句子;也可以是中文与其他语言的混合 文本。语音(片段)是输入一段声音数据,在本发明的方法中默认支持WAV格式,其他格 式的声音数据可以转换,语音的内容可以是完整的句子,也可以是短语。图片采用基本的 BMP格式,其他格式的可以转换为BMP使用,图片中要有检索的目标人、物体,最低分辨率 32X32,颜色值不限。视频(片段)格式以AVI为基础,其他格式可以转换,包含要检索的人、 目标,要检索的目标分辨率不低于32X32像素。
[0028]S2 :根据的搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类 型,选择匹配的检测识别引擎,如关键词识别引擎,声纹识别引擎、语音语义识别引擎、形状 识别引擎;图1中的REi……REN代表不同的检测识别引擎,检测识别引擎可以检测或识别 文本关键词、声纹、语音语义、视频指纹、形状、物体颜色、聚集状态等特征。
[0029]S3 :分析每个检测识别引擎的结果,得到检索关键词、目标特征量数据,作为检索 条件发送给搜索引擎进行检索;检测识别引擎处理结果:
[0030] 关键词检测识别引擎,提取文本句子中关键词;
[0031] 声纹检测识别引擎,识别出说话人是谁,说话人的ID或名
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1