一种多媒体信息检索的方法

文档序号:6356781阅读:281来源:国知局
专利名称:一种多媒体信息检索的方法
技术领域
本发明涉及多媒体技术领域,尤其涉及一种多媒体信息检索的方法。
背景技术
伴随信息时代的发展、多媒体资料的增多,新闻广播节目日益呈现海量化的规模。 相对比传统的报纸、杂志、书籍等文本信息,以及先进的互联网的丰富文本信息,音视频数 据等多媒体资料具有更加丰富、生动的展现形式,也更有利于人们轻松地接受。但是,由于 多媒体资料的多和杂,如何便捷的获取感兴趣的内容成为一个亟待解决的课题。通常做的 方法是,用人工对这些资料进行信息提取,这样做很费时费力,因此近年来涌现了很多基于 人工智能的技术来应用于该领域,其中最热门的就是语音识别技术。语音识别技术是一种 语音到文本的转换技术,而变成了文本之后,就可以利用搜索技术进行全方位的索引和检 索。语音识别有两种做法,一种是采取了最简单的方法,雇佣人工进行标注。利用人工 收听、观看节目,从中提取最有用的信息,对于有些特别重要的片段,进行完整的语音识别 工作。另一种是利用自动语音识别技术对音视频资料中的文本进行识别,就可以获得该 段资料中的文本信息,把这些文本信息输入到数据库中,就可以方便的进行检索。人工语音识别的特点是没有技术门槛,系统搭建较简单,对人力的要求不高,具备 初级语言功底的即可,但是整体效率较为低下,处理的数据量有限,语料仅限于本国语言。自动语音识别系统的特点是充分利用计算机资源,能处理较大规模的数据,降低 人力成本,但缺点是一次性投入成本较高,甚至需要长期维护和修改,目前识别的质量距离 人工识别还有一定的差距,在噪音、方言时性能下降较大。而且常规的语音识别技术只能给出识别的最终汉字信息,在具体索引词的定位精 度上需要人工的判断、费时费力,同时受到语音识别性能的限制,索引和搜索的准确率也是 很难控制的。

发明内容
本发明的目的在于提出一种多媒体信息检索的方法,能够对多媒体信息进行更彻 底的标注,能够更加精细、快捷地索引和定位到感兴趣的位置。为达此目的,本发明采用以下技术方案 一种多媒体信息检索的方法,包括以下步骤
A、采集音视频数据;
B、获取音频数据的Lattice结果,包括时间点信息和匹配似然值打分信息,并转成多 候选信息;
C、根据时间点信息和匹配似然值打分信息,获得置信度打分信息;
D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;E、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引;
F、输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的 入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回;
G、分别进入到前向索引库的多候选信息中进行精确匹配,根据入口个数和置信度打分 信息选择置信度阈值,返回大于置信度阈值的候选位置列表以及对应的音视频位置处。步骤A还包括以下步骤
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和 声卡的方式采集广播信号中的音频数据。采用了本发明的技术方案,深入挖掘语音识别过程中的各种信息和后处理技术, 最终生成含有时间标注的多候选信息,以及对识别文本的置信度打分信息。识别后的这些 信息,并不是简单的送入数据库,而是根据搜索引擎的原理,专门定制了可以利用置信度打 分信息的最优化的前后向两级检索引擎,不仅能大大提高检索速度,还能根据识别的可靠 度打分,对候选结果进行排序,优先返回把握大的位置,识别准确率往往能达到95%以上。 对于索引内容,不仅仅是单一识别结果,还包含相似的多候选信息,能够最大限度的增加识 别的数量。此外,返回的部分还将包含时间点信息,用户可以非常便捷的定位到某个字的音 视频位置上。


图1是本发明具体实施方式
中多媒体信息检索的流程图。
具体实施例方式下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。图1是本发明具体实施方式
中多媒体信息检索的流程图。如图1所示,该多媒体 信息检索流程包括以下步骤
步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音频数据, 采用收音机和声卡的方式采集广播信号中的音频数据,然后将音频数据格式转成WINDOWS WAV格式(pcm无压缩),采样率为16千赫。由于电视卡以及声卡录制的格式是确定的,只需要针对特定格式进行编程转码即可。步骤102、获取音频数据的Lattice结果,包括时间点信息、静音信息和匹配似然 值打分信息,并转成多候选信息。和通常的识别结果不同,本具体实施方式
的识别结果并不是常规意义上的最优结 果(又称Ι-Best),而是语音识别中保留的较丰富的解码路径,又称Lattice格式结果。该格 式的主要特点是含有丰富的时间点和静音信息、以及匹配似然值打分信息,并可以转成逐 词多候选信息,或者称为混淆网络,以及最优结果,混淆网络上可以得到比最优识别结果更 好的性能。步骤103、根据时间点信息和匹配似然值打分信息,计算得到评估识别效果的打 分,也称置信度打分信息。
步骤104、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果。步骤105、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索 引。在本步骤中,无论哪种搜索技术都充分利用了多候选信息,这种做法在搜索引擎 中也是很少用到的,之所以增加了索引的内容,主要是因为语音识别可能出现识别错误,有 些正确文本可能是包含在多候选信息中的。因此,有了多候选信息,可以大大提高整体的识 别准确率。同时,考虑到单字的索引可以导致大量的候选结果,降低搜索效率,因此采用了 多个字词组合的索引方法,可以在保证搜索质量的前提下,大大提高搜索效率。同时把原始 信息进行有效的编码压缩生成前向索引,用于后期的精确匹配,两种检索都包含了时间点 信息和置信度打分信息。步骤106、用户输入待检索文本和时间点信息,进入后向索引库进行查询,获得一 组前向索引库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返 回。步骤107、分别进入到前向索引库的多候选信息中进行精确匹配,根据入口个数和 置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置列表以及对应的音视频 位置处,供用户浏览,完成一次检索。通过本具体实施方式
,可以对多媒体信息进行更彻底的标注和建库,后期查询能 更加精细、快捷的索引和定位到感兴趣的位置。同时,利用多候选信息的索引,可以大大增 加查找到的多媒体信息;利用置信度信息,可以过滤掉识别不是很好的多媒体信息,以上两 个技术都可以有效地回避因为语音识别的错误带来的检索错误。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖 在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种多媒体信息检索的方法,其特征在于,包括以下步骤A、采集音视频数据;B、获取音频数据的Lattice结果,包括时间点信息和匹配似然值打分信息,并转成多 候选信息;C、根据时间点信息和匹配似然值打分信息,获得置信度打分信息;D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;E、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引;F、输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的 入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回;G、分别进入到前向索引库的多候选信息中进行精确匹配,根据入口个数和置信度打分 信息选择置信度阈值,返回大于置信度阈值的候选位置列表以及对应的音视频位置处。
2.根据权利要求1所述的一种多媒体信息检索的方法,其特征在于,步骤A还包括以下 步骤将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
3.根据权利要求1所述的一种多媒体信息检索的方法,其特征在于,步骤A中,采用电 脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中 的音频数据。
全文摘要
本发明公开了一种多媒体信息检索的方法,首先采集音视频数据,获取音频数据的Lattice结果,根据时间点信息和匹配似然值打分信息,获得置信度打分信息,采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果,建立前向索引和后向索引,输入待检索文本和时间点信息,进入后向索引库进行查询,获得一组前向索引库的入口位置以及对应的置信度打分信息,分别进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回候选位置列表以及对应的音视频位置处。采用了本发明的技术方案,能够对多媒体信息进行更彻底的标注,能够更加精细、快捷地索引和定位到感兴趣的位置。
文档编号G06F17/30GK102117335SQ201110073050
公开日2011年7月6日 申请日期2011年3月25日 优先权日2011年3月25日
发明者伍昕, 刘赵杰, 吴鹏 申请人:天脉聚源(北京)传媒科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1