一种声音与文字对应关系表生成方法及定位方法

文档序号：2836834阅读：390来源：国知局

专利名称：：一种声音与文字对应关系表生成方法及定位方法
技术领域：
：本发明涉及一种声音与文字对应关系表生成方法及快速定位方法。
背景技术：
：早在二十世纪末，科学家就预言二十一世纪将是信息的时代，特别是随着计算机技术和网络技术的发展，极大的扩展了信息的传播途径和速度。早期在图书馆中査阅大量的纸质文献的方法费时费力，将逐步被电子检索所替代，一台大型的存储服务器就可以超过一个规模庞大的图书馆的文献量。同时，随着技术的发展，信息不再仅仅包括了文字资料，更多将会是更为直观的音频文件、视频文件；其中视频文件也是音频文件与图像文件的结合。现有的检索方法在检索文字资料非常快捷方便，但是对于大量的音频文件和视频文件中的音频或视频文件却无能为力。例如，用户需要在一个长达数小时的音频或视频文件中检索其中的声音片断(例如其中的一句话或几句话)，现有方法将无能为力，用户只能浪费大量时间通篇浏览整个音频或视频文件。如果用户无法得知自己所需的声音片断位于哪一个音频文件或视频文件中，面对大量的音频和视频文件，更是无从下手进行检索。
发明内容针对现有技术中存在的缺点和不足，本发明的目的是提出一种声音与文字对应关系表生成方法，使用户能够精确的对音频或视频文件进行检索；同时本发明还提出一种声音的快速定位方法，能够使用户检索到的所需的音频或视频文件后，将该段声音在整个音频或视频中进行快速定位。为了达到上述目的，本发明提出了一种声音与文字对应关系表生成方法，包括(1)将音频文件或视频文件分割成片断，并记录所述的每一片断在该文件中对应的起始时间和结束时间；(2)将步骤(1)所得的每一片断中的声音进行识别，得到与声音对应的文字；(3)生成声音与文字的对应关系表，该对应关系表中包含片断对应的文字，以及该片断在该音频或视频文件中对应的起始时间和结束时间。其中，所述步骤(1)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。其中，所述步骤(2)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。其中，所述步骤(3)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。同时，本发明还提出了还提出一种声音的快速定位方法，包括(A)将音频文件或视频文件分割成片断，并记录每一片断在该音频或视频文件中对应的起始时间和结束时间；(B)将步骤(A)所得的每一片断中的声音进行识别，得到与声音对应的文字；(c)生成声音与文字的对应关系表，该对应关系表中包含片断对应的文字，以及该片断在该音频或视频文件中对应的起始时间和结束时间；(D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索，如果检索到匹配的声音片断，则进入歩骤(E)，否则步骤结束；(E)读取检索到的声音片断，根据所述对应关系表中该声音片断想对于该音频或视频文件的起始时间和结束时间，在该音频或视频文件中进行定位。其中，所述步骤(A)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。其中，所述步骤(B)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。其中，所述步骤(C)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。本发明提出了一种声音与文字对应关系表生成方法，与现有技术相比，本发明提出的对应关系表中包含有每一声音片断对应的文字，从而提供了用户可以通过文字在音频或视频文件中进行检索的基础；同时该对应关系表中还包括有每一声音片断对于该音频或视频文件中的起始位置和结束位置，从而使用户检索到该声音片断后，可以快速的将该声音片断在该音频或视频文件中进行精确定位。同时，本发明还提出了还提出一种声音的快速定位方法，使用上述的声音与文字对应关系表，根据其中的声音片断位于音频或视频文件中的起始时间和结束时间进行精确定位，当用户检索到所需的声音片断后，根据该片断的起始时间和结束时间，使用现有技术，即可实现将该声音片断对应的音频或视频文件自该起始时间点开始播放，直到结束时间点停止。具体实施例方式下面对本发明做进一步说明。本发明提出了一种声音与文字对应关系表生成方法，以及一种声音的快速定位方法，以解决现有技术中无法在音频或视频文件中进行精确检索和准确定位的问题。其中，声音与文字对应关系表生成方法包括(1)将音频或视频文件分割成声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间；(2)将步骤(1)所得的每一声音片断进行语音识别，得到与声音对应的文字；(3)生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该音频或视频文件中对应的起始时间和结束时间。其中，所述步骤(1)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。静音技术是现有对音频或视频文件进行分段的一种常用方法。静音技术能够检测到声音的停顿，如果停顿超过预先设定一间隔时间，则认为声音中的一句话结束。以此可以将音频或视频文件中的每一句话分割为一个声音片断。现有技术中分割声音片断的方法不限于静音技术，除此之外还有很多种，在此不一一赘述.其中，所述步骤(2)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。现有语音识别软件非常成熟，多用于语音识别代替键盘输入。例如IBMViaVoice语音识别系统。作为优选，为了保证识别的准确性，可以在语音识别后进行校对。其中，所述步骤(3)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。采用这种方法，可以方便用户检索。如果将每一声音片断各自生成一个对应关系表也可以实现发明目的，但是会为将来的检索带来麻烦。这种关系表可以采用多种格式存储-例如格式一存储为关系数据库表<table>tableseeoriginaldocumentpage8</column></row><table>格式二存储为xml格式〈"xmlversion-".(Tencoding-〃GB2312""〈V亂TA〉〈VATTRIBUTE〉〈fieldname序号〃value=*00001〃/>〈fieldname^原文件编号〃value='1000123"/>〈fieldname-'起始时间'value-'OO:10:05*/>〈fieldname^结束时间"1value-"OO:10:12〃/>〈fieldname-〃文字内容，value^郭广在这个问题上应该是有发言权的对"/></VATTRlBUTE></VDELTA>本发明还提出了一种声音的快速定位方法，包括(A)将音频或视频文件分割成声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间；(B)将步骤(A)所得的每一声音片断进行语音识别，得到与声音对应的文字；(C)生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该音频或视频文件中对应的起始时间和结束时间；(D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索，如果检索到匹配的声音片断，则进入步骤(E)，否则步骤结束；(E)读取检索到的声音片断，根据所述对应关系表中该声音片断想对于该音频或视频文件的起始时间和结束时间，在该音频或视频文件中进行定位。其中，所述步骤(A)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。其中，所述步骤(B)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。其中，所述步骤(C)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。例如下面为一段音频文件的文稿内容与音频的播放时间的对应关系表，如下表<table>tableseeoriginaldocumentpage10</column></row><table>通过搜索"夫妻创业"两个字即可定位到序号为3的声音片断，即实现声音的快速定位。权利要求1、一种声音与文字对应关系表生成方法，包括(1)将音频文件或视频文件分割成片断，并记录所述的每一片断在该文件中对应的起始时间和结束时间；(2)将步骤(1)所得的每一片断中的声音进行识别，得到与声音对应的文字；(3)生成声音与文字的对应关系表，该对应关系表中包含片断对应的文字，以及该片断在该音频或视频文件中对应的起始时间和结束时间。2、根据权利要求1所述的声音与文字对应关系表生成方法，其特征在于，所述步骤(1)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。3、根据权利要求1所述的声音与文字对应关系表生成方法，其特征在于，所述步骤(2)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。4、根据权利要求1或2或3所述的声音与文字对应关系表生成方法，其特征在于，所述步骤(3)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。5、一种声音的快速定位方法，包括(A)将音频文件或视频文件分割成片断，并记录每一片断在该音频或视频文件中对应的起始时间和结束时间；(B)将歩骤(A)所得的每一片断中的声音进行识别，得到与声音对应的文字；(C)生成声音与文字的对应关系表，该对应关系表中包含片断对应的文字，以及该片断在该音频或视频文件中对应的起始时间和结束时间；(D)用户使用所需声音片断对用的文字，在步骤(C)所得的生成声音与文字的对应关系表进行检索，如果检索到匹配的声音片断，则进入步骤(E)，否则步骤结束；(E)读取检索到的声音片断，根据所述对应关系表中该声音片断想对于该音频或视频文件的起始时间和结束时间，在该音频或视频文件中进行定位。6、根据权利要求5所述的声音与文字对应关系表生成方法，其特征在于，所述步骤(A)具体为通过静音技术，将音频或视频文件中的每一句话分割为一个声音片断，并记录所述的每一声音片断在该音频或视频文件中对应的起始时间和结束时间。7、根据权利要求6所述的声音与文字对应关系表生成方法，其特征在于，所述步骤(B)具体为通过语音识别软件，将每一声音片断进行语音识别，得到与声音对应的文字。8、根据权利要求5或6或7所述的声音与文字对应关系表生成方法，其特征在于，所述步骤(C)具体为生成声音与文字的对应关系表，所述的对应关系表中包括该音频或视频文件的所有声音片断，以及每一声音片断对应的文字，以及每一声音片断在该音频或视频文件中的起始时间和结束时间。全文摘要本发明提出了一种声音与文字对应关系表生成方法及快速定位方法，针对现有技术无法对音频或视频文件精确检索的问题而发明，包括将声音分段、进行识别，然后生成声音与文字的对应关系表，该对应关系表中包含声音片断对应的文字，以及每一声音片断在该音频或视频文件中对应的起始时间和结束时间。该对应关系表提供了用户可以通过文字在音频或视频文件中进行检索的基础；同时该对应关系表中还包括有每一声音片断对于该音频或视频文件中的起始位置和结束位置，从而使用户检索到该声音片断后，可以快速的将该声音片断在该音频或视频文件中进行精确定位。文档编号G10L15/00GK101101590SQ20061009116公开日2008年1月9日申请日期2006年7月4日优先权日2006年7月4日发明者王建波申请人:王建波

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王建波
技术所有人：王建波
我是此专利的发明人