一种基于人类语音内容索引的音频和视频文件管理方法

文档序号：10552971阅读：181来源：国知局

一种基于人类语音内容索引的音频和视频文件管理方法
【专利摘要】本发明提出一种基于人类语音内容索引的视频和音频文件管理方法，该方法利用语音识别技术识别音频和视频文件中的人类语音，将其中的人类语音内容(例如：对话声音)转化为文本信息，利用不同环境下对话内容的唯一性特点，将该文本信息作为标识该视频或音频文件实质内容的一项重要数据。在视频或音频文件库中采用该文本信息做文件索引标记信息，便可以高效地检测出实质内容相同的音频或视频文件,快速地辨别出实质内容不同的视频或音频文件。
【专利说明】
一种基于人类语音内容索引的音频和视频文件管理方法
技术领域
[0001]本发明属于音频和视频文件存储及管理领域，具体涉及一种基于人类语音内容索引的音频和视频文件管理方法。
【背景技术】
[0002]音频文件和视频文件存在多种不同的存放格式。其基本原理是采用固定的时间间隔对现实世界中的音频和视频信号采样，并将采样结果以某种分辨率形式存储。其中音频文件包含两类主要的音频文件格式:无损格式和有损格式，有损文件格式是基于声学心理学的模型，去除人类很难听到或根本听不到的声音。视频文件通常将语音信号和视觉信号存放在一个文件中，方便同时回放视频和音频内容。
[0003]由于音频文件和视频文件采样率和分辨率等信号采集格式的差异，原始采集的音频和视频文件往往体积巨大，不利于其音频和视频文件内容的管理和分发。所以产生了各种各样的音频文件和视频文件编码和解码器用于压缩和解压缩音频和视频信号。对于音频文件，通常采用有损压缩方法压缩数据，用于在互联网上传播和分发音频内容。对于视频文件，其格式通常是一个通用的容器，其中可以分别放入视频信息，音频信息和其它一些信息(例如，字幕信息，图片信息或视角信息等)。视频编解码器可以对特定格式的视频文件进行编解码，完成对视频文件的制作和播放。
[0004]由于音频和视频文件编解码的特性，其实际存储的数据内容往往依赖于特定的编解码算法，相同的原始文件通过不同的编码器编码后的文件在文件数据内容上几乎是完全不一样。同样地，对于同一个编解码算法，原始数据的一些微小变化，例如音频或者视频长度的一些微小变化(例如少0.1秒的内容)，其编码后产生的数据在文件数据内容上也是几乎完全不一样。
[0005]因此，同一个音频或视频内容往往存在着着多个与之对应的音频和视频文件，例如一部电影往往存在多种不同分辨率的文件，另外还有不同字幕组压缩的文件等等。对于这种实际内容相同，而存储的数据内容完全不一样的音频和视频多媒体文件，如何检测它们实质内容上的一致性是管理和存储这类文件的一个关键技术。本专利提出了一种基于人类语音内容索引的音频和视频文件管理方法，用于自动地检测音频和视频文件的实质内容。

【发明内容】

[0006]本发明提出一种基于人类语音内容索引的视频和音频文件管理方法，该方法利用语音识别技术识别音频和视频文件中的人类语音，将其中的人类语音内容(例如:对话声音)转化为文本信息，利用不同环境下对话内容的唯一性特点，将该文本信息作为标识该视频或音频文件实质内容的一项重要数据，由此将对多媒体音频和视频文件内容的查询和比较等操作转化成对文本文件内容的查询和比较等操作。若两个视频或两个音频文件的文本文字信息相同，则标记这两个视频或两个音频文件的实质内容相同，否则，则标记这两个视频或音频文件的实质内容不同。在视频或音频文件库中采用该文本信息做文件索引标记信息，便可以高效地检测出实质内容相同的音频或视频文件，快速地辨别出实质内容不同的视频或音频文件。
[0007]一种基于人类语音内容索引的视频和音频文件管理方法，具体步骤为:
[0008](I)采用语音识别技术将视频和音频文件中的人类语音内容转换为文本文字信息;
[0009](2)使用(I)得到的文本文字信息来标识视频或音频文件的实质内容，若两个视频或两个音频文件的文本文字信息相同，则标记这两个视频或两个音频文件的实质内容相同，否则，则标记这两个视频或音频文件的实质内容不同。具体步骤为:
[0010](2.1)在视频或音频文件库中，采用(I)中得到的文本文字信息作为视频或音频数据库的文件索引标记信息；
[0011](2.2)对于某个视频或音频文件，使用(I)中得到的文本文字信息在视频或音频文件库中进行检索；
[0012](2.3)若存在具有相同文件索引标记信息(S卩(I)中得到的文本文字信息)的文件，则将(2.2)的文件和文件库中检索到的文件标记为具有相同实质内容的文件;否则，则标记
(2.2)的文件为具有唯一实质内容的文件；
[0013](2.4)将(2.2)所指的文件及其文件索引标记信息更新至视频或音频文件库索引中.
[0014](3)对于(2.3)标记出的具有相同实质内容的视频或音频文件，采用一定的数据分布策略在多个区域之间或同一个区域内分布存储和管理(包括文件读，文件写，文件删除等多种文件操作)这些实质内容相同的视频或音频文件。其中区域可为服务器，机架，数据中心等硬实体或软实体；
[0015]在上述方法中，步骤(2)既可以采用步骤(I)中得到的原始文本文字信息，也可以采用对步骤(I)中的原始文本文字信息处理之后的信息，只要处理之后的信息可以与原始文本文字信息能够--对应，能够唯一标记原始文本文字信息即可。
【附图说明】
[0016]图1为本发明的整体流程示意图；
【具体实施方式】
[0017]本发明涉及的主体为视频或音频存储服务器。
[0018]图1为本发明的整体流程示意图，具体步骤为:
[0019](I)读取视频或音频文件；
[0020](2)采用语音识别技术将视频或音频文件中的人类语音内容转换成文本文字信息;
[0021](3)采用(2)得到的文本文字信息(或对文本文字信息处理之后的信息)作为该文件的索引标记信息；
[0022](4)使用(3)得到的索引标记信息在视频或音频文件库中查找，查询是否存在和
(3)相同的索引标记信息的文件;其中视频或音频文件库中的文件均采用文本文字信息(SP将文件中的人类语音内容转换后的文本文字信息)作为文件索引标记信息；
[0023](5)若存在具有相同索引标记信息的文件，则将(3)所指的文件与在文件库中检索到的文件标记为具有相同实质内容的视频或音频文件;否则，标记(3)所指的文件为具有唯一实质内容的视频或音频文件；
[0024](6)将(3)所指的文件及其文件索引标记信息更新至(4)所指的文件库索引；
[0025](7)对于(5)标记出的具有相同实质内容的视频或音频文件，采用一定的数据分布策略在多个区域之间或同一个区域内分布存储和管理(包括文件读，文件写，文件删除等多种文件操作)这些实质内容相同的视频或音频文件。其中区域可为服务器，机架，数据中心等硬实体或软实体。
【主权项】
1.一种基于人类语音内容索引的视频和音频文件管理方法，具体步骤为: (1)采用语音识别技术将视频和音频文件中的人类语音内容转换为文本文字信息； (2)使用(I)得到的文本文字信息来标识视频或音频文件的实质内容，若两个视频或两个音频文件的文本文字信息相同，则标记这两个视频或两个音频文件的实质内容相同，否则，则标记这两个视频或音频文件的实质内容不同。具体步骤为: (2.1)在视频或音频文件库中，采用(I)中得到的文本文字信息作为视频或音频数据库的文件索引标记信息； (2.2)对于某个视频或音频文件，使用(I)中得到的文本文字信息在视频或音频文件库中进行检索； (2.3)若存在具有相同文件索引标记信息(S卩(I)中得到的文本文字信息)的文件，则将(2.2)的文件和文件库中检索到的文件标记为具有相同实质内容的文件；否则，则标记(2.2)的文件为具有唯一实质内容的文件； (2.4)将(2.2)所指的文件及其文件索引标记信息更新至视频或音频文件库索引中。 (3)对于(2.3)标记出的具有相同实质内容的视频或音频文件，采用一定的数据分布策略在多个区域之间或同一个区域内分布存储和管理(包括文件读，文件写，文件删除等多种文件操作)这些实质内容相同的视频或音频文件。其中区域可为服务器，机架，数据中心等硬实体或软实体。2.在权利要求1所述的方法中，步骤(2)既可以采用步骤(I)中得到的原始文本文字信息，也可以采用对步骤(I)中的原始文本文字信息处理之后的信息，只要处理之后的信息可以与原始文本文字信息能够--对应，能够唯一标记原始文本文字信息即可。
【文档编号】G10L21/10GK105912615SQ201610212603
【公开日】2016年8月31日
【申请日】2016年4月5日
【发明人】谭玉娟, 晏志超
【申请人】重庆大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭玉娟;晏志超;
技术所有人：重庆大学;
我是此专利的发明人

上一篇：一种增强的基于轨迹重构的隐私保护方法
上一篇：个性化题库学习系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。