一种全自动音视频结构化与精准搜索的方法

文档序号：8512592阅读：252来源：国知局

一种全自动音视频结构化与精准搜索的方法
【技术领域】
[0001]本发明实例涉及一种全自动音视频结构化与精准搜索的方法，特别是涉及一种基于大语音识别技术的全自动音视频内容文本型结构化后精准搜索音视频内容到每一秒的方法。
【背景技术】
[0002]音视频内容全自动结构化与精准搜索的目的，是帮助用户在互联网海量音视频内容里更快速准确地获取到最想要的音视频内容，帮助用户节约获取相关音视频精准内容的时间和降低获取成本。
[0003]随着互联网技术和互联网业务的迅猛发展，互联网中的数据类型不断快速增长，数据类型除文字与图片外还有大量的音视频。互联网中的数据类型里，文字与图片现均已是结构化数据，可以方便用户快速精准地搜索到最需要的内容。然而，互联网数据中的海量的音视频内容尚未大规模演变为结构化数据，因此，如何快速有效地将海量音视频进行全自动内容结构化处理以及对音视频内容进行精准搜索成为需要解决的问题。
[0004]目前普遍运用的音视频搜索方法是:基于人工编辑的音视频的标题或简介或标签中的文字进行搜索，这种搜索的缺陷在于可供搜索的文字有限，而且均是人工后期编辑添加的，搜索结果的客观性和准确性较低，并且，这种搜索方式无法精准搜索到音视频内的某一秒关键内容。
[0005]目前还有一种音视频搜索方法是:提取音视频内的某一个关键音轨或关键帧，以关键音轨或关键帧里的静态信息为某一特征去待搜索音视频中逐音轨或逐帧匹配筛选，这种搜索方式的缺陷在于需要依时序对关键音轨或关键帧重复匹配筛选和搜索，搜索过程中的运算量相当庞大，而且随着待搜索音视频库的不断增加，此方法的搜索效率会呈指数级下降，搜索耗时过长。

【发明内容】

[0006]为解决上述问题并克服相关技术中存在的问题，本发明实例公开了一种全自动音视频结构化与精准搜索的方法，用以快速大规模结构化互联网数据中的海量音视频内容并帮助用户提高音视频内容搜索的精准性，降低音视频内容搜索的时长和搜索结果的获取成本。
[0007]本发明实例公开的一种全自动音视频结构化与精准搜索的方法包括两个方面，分别是一种音视频内容的全自动数据结构化方法以及一种结构化后的音视频精准搜索方法。
[0008]依据本公开实例的第一方面，提供一种音视频内容的全自动数据结构化方法，过程如下。
[0009]系统自动在互联网或局域网上批量提取待结构化音视频，并记录每一个已提取的待结构化音视频的互联网或局域网地址。
[0010]系统自动利用音频分析技术批量抽取每一个上述已提取的待结构化音视频的相应完整音轨并压缩至不小于16bit的音频信号以待后用。
[0011]系统自动将上述每一个已抽取并压缩至不小于16bit的音频信号的待用音轨逻辑切割为多个以秒为单位的短时音轨。
[0012]系统自动为上述已逻辑切割的多个短时音轨依序标记毫秒级起止时间码。
[0013]系统自动将上述已逻辑切割的并依序标记毫秒级起止时间码的多个短时音轨，以批量多线程的方式同时分别提交给多个语音识别服务器，利用语音识别技术完成声音到文本字符的全自动转化。
[0014]系统自动将上述已完成声音到文本字符转化的多个短时音轨所对应的转化后文本片段取回，并将所有转化后文本片段内的每一个字符依序标记上所对应的毫秒级起止时间码。
[0015]系统自动将上述已标记毫秒级起止时间码的所有字符和文本片段重新依序组合成完整的文本，完整文本内的每一个字符均有其对应的毫秒级起止时间码。
[0016]系统自动将上述已标记毫秒级起止时间码的完整文本与其所对应的完整音轨以及待结构化音视频均同步建立完整唯一映射关系，即，待结构化音视频的完整音轨内的每一个声音均有一个唯一对应的已标记毫秒级起止时间码的文本字符。
[0017]系统自动将上述待结构化音视频的互联网或局域网地址、其所对应的完整音轨以及其所对应的已标记毫秒级起止时间码的唯一完整文本以字符串方式录入结构化音视频索引数据库。
[0018]至此，音视频内容的全自动数据结构化过程完成。
[0019]依据本公开实例的第二方面，提供一种结构化后的音视频精准搜索方法，过程如下。
[0020]系统接收用户发起的视频精准搜索请求，所述搜索请求中至少携带视频内容关键词字符或用户主观认为的视频描述型字符。
[0021]系统自动从本公开实例第一方面所述的结构化音视频索引数据库中以全文检索的方式，提取与上述用户搜索请求中一致的多个字符串，利用聚类算法分别确定待展示搜索结果的音视频资源，并为每一个待展示音视频资源确定字符串匹配度分数。
[0022]系统自动从本公开实例第一方面所述的结构化音视频索引数据库中以上下文语义分析的方式，提取与上述用户搜索请求中近似的多个字符串，利用聚类算法分别确定待展示搜索结果的音视频资源，并为每一个待展示音视频资源确定语义匹配度分数。
[0023]系统自动利用公式:字符串匹配度分数+语义匹配度分数，分别计算得到每个待展示音视频资源的最终得分。
系统根据每个待展示音视频资源的最终得分，以降序列表的方式，向用户反馈最终搜索结果。
【附图说明】
[0024]说明书附图页内的图1为本发明实施例中一种全自动音视频结构化与精准搜索的方法的实施流程图。
【主权项】
1.一种全自动音视频结构化与精准搜索的方法，其特征在于，所述方法主要包括:音视频自动提取模块、音文自动转换模块、音文自动耦合模块以及结构化内容搜索模块。
2.根据权利要求1所述的一种全自动音视频结构化与精准搜索的方法的音视频自动提取模块，其特征在于，自动在互联网或局域网上批量提取待结构化音视频并记录其对应的互联网或局域网地址、抽取并压缩其对应的音轨、逻辑切割每个音轨为多个以秒为单位的短时音轨并依序标记起止时间码。
3.根据权利要求1所述的一种全自动音视频结构化与精准搜索的方法的音文自动转换模块，其特征在于，以批量多线程的方式利用语音识别技术完成上述所有短时音轨的声音到文本字符的全自动转化、并将所有转化后文本片段内的每一个字符依序标记上所对应的起止时间码。
4.根据权利要求1所述的一种全自动音视频结构化与精准搜索的方法的音文自动耦合模块，其特征在于，系统自动将上述已标记毫秒级起止时间码的完整文本与其所对应的完整音轨以及待结构化音视频均同步建立完整唯一映射关系，使得完整音轨内的每一个声音均有一个唯一对应的已标记毫秒级起止时间码的文本字符，同时，系统自动将上述待结构化音视频的互联网或局域网地址、其所对应的完整音轨以及其所对应的已标记毫秒级起止时间码的唯一完整文本以字符串方式录入结构化音视频索引数据库。
5.根据权利要求1所述的一种全自动音视频结构化与精准搜索的方法的结构化内容搜索模块，其特征在于，系统自动在上述结构化音视频索引数据库中以全文检索的方式，提取与用户搜索请求中一致的多个字符串，利用聚类算法分别确定待展示搜索结果的音视频资源，同时，系统自动从上述结构化音视频索引数据库中以上下文语义分析的方式，提取与用户搜索请求中近似的多个字符串，利用聚类算法分别确定待展示搜索结果的音视频资源。
【专利摘要】本发明实例涉及一种全自动音视频结构化与精准搜索的方法，特别是涉及一种基于大语音识别技术的全自动音视频内容文本型结构化后精准搜索音视频内容到每一秒的方法。本发明实例公开了一种全自动音视频结构化与精准搜索的方法，用以快速大规模结构化互联网数据中的海量音视频内容并帮助用户提高音视频内容搜索的精准性，降低音视频内容搜索的时长和搜索结果的获取成本。本发明实例公开的一种全自动音视频结构化与精准搜索的方法包括两个方面，分别是一种音视频内容的全自动数据结构化方法以及一种结构化后的音视频精准搜索方法。
【IPC分类】G06F17-30
【公开号】CN104834740
【申请号】CN201510258687
【发明人】常锴, 罗振坤
【申请人】深圳市东方泰明科技有限公司, 常锴
【公开日】2015年8月12日
【申请日】2015年5月20日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：常锴;罗振坤;
技术所有人：深圳市东方泰明科技有限公司;常锴;
我是此专利的发明人

上一篇：一种基于分布式文件系统的数据块分配方法
上一篇：互联网信息存储系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。