一种多媒体信息检索的方法

文档序号：6356781阅读：281来源：国知局

专利名称：一种多媒体信息检索的方法
技术领域：
本发明涉及多媒体技术领域，尤其涉及一种多媒体信息检索的方法。
背景技术：
伴随信息时代的发展、多媒体资料的增多，新闻广播节目日益呈现海量化的规模。相对比传统的报纸、杂志、书籍等文本信息，以及先进的互联网的丰富文本信息，音视频数据等多媒体资料具有更加丰富、生动的展现形式，也更有利于人们轻松地接受。但是，由于多媒体资料的多和杂，如何便捷的获取感兴趣的内容成为一个亟待解决的课题。通常做的方法是，用人工对这些资料进行信息提取，这样做很费时费力，因此近年来涌现了很多基于人工智能的技术来应用于该领域，其中最热门的就是语音识别技术。语音识别技术是一种语音到文本的转换技术，而变成了文本之后，就可以利用搜索技术进行全方位的索引和检索。语音识别有两种做法，一种是采取了最简单的方法，雇佣人工进行标注。利用人工收听、观看节目，从中提取最有用的信息，对于有些特别重要的片段，进行完整的语音识别工作。另一种是利用自动语音识别技术对音视频资料中的文本进行识别，就可以获得该段资料中的文本信息，把这些文本信息输入到数据库中，就可以方便的进行检索。人工语音识别的特点是没有技术门槛，系统搭建较简单，对人力的要求不高，具备初级语言功底的即可，但是整体效率较为低下，处理的数据量有限，语料仅限于本国语言。自动语音识别系统的特点是充分利用计算机资源，能处理较大规模的数据，降低人力成本，但缺点是一次性投入成本较高，甚至需要长期维护和修改，目前识别的质量距离人工识别还有一定的差距，在噪音、方言时性能下降较大。而且常规的语音识别技术只能给出识别的最终汉字信息，在具体索引词的定位精度上需要人工的判断、费时费力，同时受到语音识别性能的限制，索引和搜索的准确率也是很难控制的。

发明内容
本发明的目的在于提出一种多媒体信息检索的方法，能够对多媒体信息进行更彻底的标注，能够更加精细、快捷地索引和定位到感兴趣的位置。为达此目的，本发明采用以下技术方案一种多媒体信息检索的方法，包括以下步骤
A、采集音视频数据；
B、获取音频数据的Lattice结果，包括时间点信息和匹配似然值打分信息，并转成多候选信息；
C、根据时间点信息和匹配似然值打分信息，获得置信度打分信息；
D、采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果；E、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引；
F、输入待检索文本和时间点信息，进入后向索引库进行查询，获得一组前向索引库的入口位置以及对应的置信度打分信息，按照置信度打分信息高低依次返回；
G、分别进入到前向索引库的多候选信息中进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回大于置信度阈值的候选位置列表以及对应的音视频位置处。步骤A还包括以下步骤
将音频数据格式转成WINDOWS WAV格式，采样率为16千赫。步骤A中，采用电脑和电视卡的方式采集电视节目中的音频数据；采用收音机和声卡的方式采集广播信号中的音频数据。采用了本发明的技术方案，深入挖掘语音识别过程中的各种信息和后处理技术，最终生成含有时间标注的多候选信息，以及对识别文本的置信度打分信息。识别后的这些信息，并不是简单的送入数据库，而是根据搜索引擎的原理，专门定制了可以利用置信度打分信息的最优化的前后向两级检索引擎，不仅能大大提高检索速度，还能根据识别的可靠度打分，对候选结果进行排序，优先返回把握大的位置，识别准确率往往能达到95%以上。对于索引内容，不仅仅是单一识别结果，还包含相似的多候选信息，能够最大限度的增加识别的数量。此外，返回的部分还将包含时间点信息，用户可以非常便捷的定位到某个字的音视频位置上。

图1是本发明具体实施方式
中多媒体信息检索的流程图。
具体实施例方式下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。图1是本发明具体实施方式
中多媒体信息检索的流程图。如图1所示，该多媒体信息检索流程包括以下步骤
步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音频数据，采用收音机和声卡的方式采集广播信号中的音频数据，然后将音频数据格式转成WINDOWS WAV格式(pcm无压缩)，采样率为16千赫。由于电视卡以及声卡录制的格式是确定的，只需要针对特定格式进行编程转码即可。步骤102、获取音频数据的Lattice结果，包括时间点信息、静音信息和匹配似然值打分信息，并转成多候选信息。和通常的识别结果不同，本具体实施方式
的识别结果并不是常规意义上的最优结果(又称Ι-Best)，而是语音识别中保留的较丰富的解码路径，又称Lattice格式结果。该格式的主要特点是含有丰富的时间点和静音信息、以及匹配似然值打分信息，并可以转成逐词多候选信息，或者称为混淆网络，以及最优结果，混淆网络上可以得到比最优识别结果更好的性能。步骤103、根据时间点信息和匹配似然值打分信息，计算得到评估识别效果的打分，也称置信度打分信息。
步骤104、采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果。步骤105、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引。在本步骤中，无论哪种搜索技术都充分利用了多候选信息，这种做法在搜索引擎中也是很少用到的，之所以增加了索引的内容，主要是因为语音识别可能出现识别错误，有些正确文本可能是包含在多候选信息中的。因此，有了多候选信息，可以大大提高整体的识别准确率。同时，考虑到单字的索引可以导致大量的候选结果，降低搜索效率，因此采用了多个字词组合的索引方法，可以在保证搜索质量的前提下，大大提高搜索效率。同时把原始信息进行有效的编码压缩生成前向索引，用于后期的精确匹配，两种检索都包含了时间点信息和置信度打分信息。步骤106、用户输入待检索文本和时间点信息，进入后向索引库进行查询，获得一组前向索引库的入口位置以及对应的置信度打分信息，按照置信度打分信息高低依次返回。步骤107、分别进入到前向索引库的多候选信息中进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回大于置信度阈值的候选位置列表以及对应的音视频位置处，供用户浏览，完成一次检索。通过本具体实施方式
，可以对多媒体信息进行更彻底的标注和建库，后期查询能更加精细、快捷的索引和定位到感兴趣的位置。同时，利用多候选信息的索引，可以大大增加查找到的多媒体信息；利用置信度信息，可以过滤掉识别不是很好的多媒体信息，以上两个技术都可以有效地回避因为语音识别的错误带来的检索错误。以上所述，仅为本发明较佳的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种多媒体信息检索的方法，其特征在于，包括以下步骤A、采集音视频数据；B、获取音频数据的Lattice结果，包括时间点信息和匹配似然值打分信息，并转成多候选信息；C、根据时间点信息和匹配似然值打分信息，获得置信度打分信息；D、采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果；E、采用多候选信息、时间点信息和置信度打分信息建立前向索引和后向索引；F、输入待检索文本和时间点信息，进入后向索引库进行查询，获得一组前向索引库的入口位置以及对应的置信度打分信息，按照置信度打分信息高低依次返回；G、分别进入到前向索引库的多候选信息中进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回大于置信度阈值的候选位置列表以及对应的音视频位置处。
2.根据权利要求1所述的一种多媒体信息检索的方法，其特征在于，步骤A还包括以下步骤将音频数据格式转成WINDOWS WAV格式，采样率为16千赫。
3.根据权利要求1所述的一种多媒体信息检索的方法，其特征在于，步骤A中，采用电脑和电视卡的方式采集电视节目中的音频数据；采用收音机和声卡的方式采集广播信号中的音频数据。
全文摘要
本发明公开了一种多媒体信息检索的方法，首先采集音视频数据，获取音频数据的Lattice结果，根据时间点信息和匹配似然值打分信息，获得置信度打分信息，采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果，建立前向索引和后向索引，输入待检索文本和时间点信息，进入后向索引库进行查询，获得一组前向索引库的入口位置以及对应的置信度打分信息，分别进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回候选位置列表以及对应的音视频位置处。采用了本发明的技术方案，能够对多媒体信息进行更彻底的标注，能够更加精细、快捷地索引和定位到感兴趣的位置。
文档编号G06F17/30GK102117335SQ201110073050
公开日2011年7月6日申请日期2011年3月25日优先权日2011年3月25日
发明者伍昕, 刘赵杰, 吴鹏申请人:天脉聚源(北京)传媒科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：伍昕;吴鹏;刘赵杰
技术所有人：天脉聚源(北京)传媒科技有限公司
我是此专利的发明人

上一篇：一种支撑电视活动的网台互动系统和方法
上一篇：一种多媒体信息模糊检索方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。