一种音频、视频内容的采集方法和检索方法

文档序号：7852286阅读：302来源：国知局

专利名称：一种音频、视频内容的采集方法和检索方法
技术领域：
本发明涉及一种音频、视频内容的采集方法，以及一种音频、视频内容的检索方法。

背景技术：
早在二十世纪末，科学家就预言二十一世纪将是信息的时代，特别是随着计算机技术和网络技术的发展，极大的扩展了信息的传播途径和速度。早期在图书馆中查阅大量的纸质文献的方法费时费力，将逐步被电子检索所替代，一台大型的存储服务器就可以超过一个规模庞大的图书馆的文献量。同时，随着技术的发展，信息不再仅仅包括了文字资料，更多将会是更为直观的音频文件、视频文件；其中视频文件也是音频文件与图像文件的结合。但是，现有技术无法将音频或视频文件中的声音转变为文字。
现有的检索方法在检索文字资料非常快捷方便，但是对于大量的音频文件和视频文件中的音频或视频文件却无能为力。例如，用户需要在一个长达数小时的音频或视频文件中检索其中的声音片断(例如其中的一句话或几句话)，现有方法将无能为力，用户只能浪费大量时间通篇浏览整个音频或视频文件。如果用户无法得知自己所需的声音片断位于哪一个音频文件或视频文件中，面对大量的音频和视频文件，更是无从下手进行检索。

发明内容
针对现有技术中存在的缺点和不足，本发明的目的是提出一种音频、视频内容的采集方法，能够将音频、视频文件中的声音转化为文字；同时本发明还提出一种音频、视频内容的检索方法，能够使用户能够在音频或视频文件检索到自己所需的声音片断，以及该声音片断在该音频、视频文件中的准确位置。
为了达到上述目的，本发明提出一种音频、视频内容的采集方法，包括 (1)将音频文件或视频文件中的声音文件分割成声音片断； (2)将步骤(1)所得的每一声音片断进行识别，得到与声音对应的文字。
其中，所述步骤(1)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断。
其中，所述步骤(1)还包括记录每一声音片断在该声音文件中对应的起始时间和结束时间。
其中，所述步骤(2)可以为通过语音识别软件，将每一声音片断进行语音识别，得到与声音片断对应的文字。
其中，所述步骤(2)还可以为通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。
同时，本发明还提出了一种音频、视频内容的检索方法，包括 (A)将声音文件分割成声音片断，并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间； (B)将步骤(A)所得的每一声音片断进行识别，得到与声音对应的文字； (C)生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该声音文件中对应的起始时间和结束时间； (D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索。
其中，所述步骤(A)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录每一声音片断在该声音文件中对应的起始时间和结束时间。
其中，所述步骤(B)具体为通过语音识别软件或通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。
其中，所述步骤(C)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该声音文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该声音文件中的起始时间和结束时间。
本发明提出的音频、视频内容的采集方法能够将声音转化为文字；本发明还提出一种音频、视频内容的检索方法，使用户能够在音频、视频文件中进行检索，解决了现有技术中无法检索的难题。

具体实施例方式 下面对本发明做进一步说明。
本发明提出了一种音频、视频内容的采集方法，包括 (1)将音频或视频文件分割成声音片断； (2)将步骤(1)所得的每一声音片断进行语音识别，得到与声音对应的文字。
其中，所述步骤(1)可以为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。静音技术是现有对音频或视频文件进行分段的一种常用方法。静音技术能够检测到声音的停顿，如果停顿超过预先设定一间隔时间，则认为声音中的一句话结束。以此可以将音频或视频文件中的每一句话分割为一个声音片断。现有技术中分割声音片断的方法不限于静音技术，除此之外还有很多种，在此不一一赘述。
其中，步骤(1)还可以包括，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。采用这种方式，可以获得每一声音片断位于音频或视频文件的准确位置。
其中，所述步骤(2)可以为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。现有语音识别软件非常成熟，多用于语音识别代替键盘输入。例如IBM ViaVoice语音识别系统。作为优选，为了保证识别的准确性，可以在语音识别后进行校对。
其中，所述步骤(2)还可以为通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。
同时，本发明还提出了一种音频、视频内容的检索方法，包括 (A)将声音文件分割成声音片断，并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间； (B)将步骤(A)所得的每一声音片断进行识别，得到与声音对应的文字； (C)生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该声音文件中对应的起始时间和结束时间； (D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索。
其中，所述步骤(A)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。
其中，所述步骤(B)可以为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。
其中，所述步骤(B)还可以为通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。
其中，所述步骤(C)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。采用这种方法，可以方便用户检索。如果将每一声音片断各自生成一个对应关系表也可以实现发明目的，但是会为将来的检索带来麻烦。这种关系表可以采用多种格式存储例如格式一存储为关系数据库表格式二存储为xml格式 <？xml version＝″1.0″encoding＝″GB2312″？> <VDELTA> <VATTRIBUTE> <field name＝″序号″value＝″00001″/> <field name＝″原文件编号″value＝″1000123″/> <field name＝″起始时间″value＝″00:10:05″/> <field name＝″结束时间″value＝″00:10:12″/> <field name＝″文字内容″value＝″郭广在这个问题上应该是有发言权的对″/> </VATTRIBUTE> </VDELTA> 例如下面为一段音频文件的文稿内容与音频的播放时间的对应关系表，如下表通过搜索“夫妻创业”两个字即可定位到序号为3的声音片断，即实现声音的快速检索。
权利要求
1、一种音频、视频内容的采集方法，包括
(1)将音频文件或视频文件中的声音文件分割成声音片断；
(2)将步骤(1)所得的每一声音片断进行识别，得到与声音对应的文字。
2、根据权利要求1所述的音频、视频内容的采集方法，其特征在于，所述步骤(1)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断。
3、根据权利要求1或2所述的音频、视频内容的采集方法，其特征在于，所述步骤(1)还包括记录每一声音片断在该声音文件中对应的起始时间和结束时间。
4、根据权利要求3所述的音频、视频内容的采集方法，其特征在于，所述步骤(2)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音片断对应的文字。
5、根据权利要求3所述的音频、视频内容的采集方法，其特征在于，所述步骤(2)具体为通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。
6、一种音频、视频内容的检索方法，包括
(A)将声音文件分割成声音片断，并记录所述的每一声音片断在该声音文件中对应的起始时间和结束时间；
(B)将步骤(A)所得的每一声音片断进行识别，得到与声音对应的文字；
(C)生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该声音文件中对应的起始时间和结束时间；
(D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索。
7、根据权利要求6所述的音频、视频内容的采集方法，其特征在于，所述步骤(A)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录每一声音片断在该声音文件中对应的起始时间和结束时间。
8、根据权利要求6或7所述的音频、视频内容的采集方法，其特征在于，所述步骤(B)具体为通过语音识别软件或通过速记方法，将每一声音片断进行语音识别，得到与声音片断对应的文字。
9、根据权利要求8所述的音频、视频内容的采集方法，其特征在于，所述步骤(C)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该声音文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该声音文件中的起始时间和结束时间。
全文摘要
本发明提出了一种音频、视频内容的采集方法和检索方法。针对现有技术中无法将音频、视频中的声音转化为文字，以及无法检索的问题而发明，提出一种音频、视频内容的采集方法包括将声音分段，然后对每一声音片断进行识别。同时提出一种音频、视频内容的检索方法包括将声音分段后识别，生成声音与文字的对应关系表，用户使用所需声音片断对用的文字在该对应关系表中进行检索。本发明提出的音频、视频内容的采集方法能够将声音转化为文字；本发明还提出一种音频、视频内容的检索方法，使用户能够在音频、视频文件中进行检索，解决了现有技术中无法检索的难题。
文档编号H04L12/28GK101102240SQ20061009116
公开日2008年1月9日申请日期2006年7月4日优先权日2006年7月4日
发明者王建波申请人:王建波

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王建波
技术所有人：王建波
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。