一种音视频语音处理与检索的系统的制作方法

文档序号：6390106阅读：156来源：国知局

专利名称：一种音视频语音处理与检索的系统的制作方法
技术领域：
本实用新型涉及音视频语音信息处理和计算机速记领域，特别是一种音视频语音信息同步处理与检索的系统。
技术背景目前在速记领域手写速记除个别场合已很少应用，而计算机速记有专业速记机(如亚伟速录机、华夏速记机等)、普通计算机键盘速记(如全音通、双文速记等)。均依靠人工(速记员)听打录入的高技能和计算机编码来实现，这是当前计算机速记的主体。但这种速记方法存在的问题有高投入低产出，将一名具有大专以上中文水平的人(年龄不超过25岁)培养成合格的速记师需要再经过专业技能培训I年(约1500学吋)及I年以上的实际工作锻炼，成才周期为2年。而且成才率低，最多不超过30%，难于普及；速记人员工作时高度紧张，劳动強度大和同声翻译雷同；行业整体素质低，工作质量难以保证，和行业要求差距较大。真正能胜任速记师工作的速记人员在本行业内是少数约占10%，多数或技能水平低或文化素质低，大专和本科生只有极少数人愿意投入到速记行业，速记行业大部分从业人员为高中、中专、中技的毕业生，约占70%以上，文化底蕴远不能满足速记行业的要求。所以速记专业人才队伍的建设非常困难。在计算机速记领域，以计算机语音识别为主体的新技术取代以人工技能为主体的(专业速记机或计算机键盘)速记是亟待解决的，也是计算机科学技术发展的必然。音视频语音信息目前尚无有效的办法进行快速精确的检索定位，基本上凭借具体工作人员的个人经验，对一般人员只能依靠播放音像资料带进行原始的人工查找，费时费力。远不能满足信息化社会对信息时效和信息规范化管理的要求
实用新型内容
本实用新型所要解决的技术问题是能够快速处理音视频语音信息并将其转换为文本，并能够通过文本信息检索原始对应的音视频信息，达到音、视、文信息一体化。本实用新型的技术方案提供了ー种音视频语音处理与检索的系统，包括采集设备、音视频信息处理计算机、音视频信息检索计算机，其特征在于，所述系统通过安装音视频采集设备来即时记录音视频信息，并将所述信息提供给所述音视频信息处理计算机进行处理，其处理结果传递给所述音视频语音信息检索计算机进行浏览、检索和打印。进ー步地，所述采集设备采用音视频语音采集设备或采用数码摄像机、并使用1394采集卡或USB接ロ，同时进行视频与语音音频的采集。进ー步地，所述采集设备采用声卡与网络摄像头相结合方式。进ー步地，所述采集设备将采集到的音视频信号通过USB接ロ或AV/S端子接ロ传入所述音视频信息处理计算机进行处理。进ー步地，所述采集设备和所述音视频信息处理计算机之间通过TCP/IP进行通τΗ ο[0010]进ー步地，所述音视频信息处理计算机的CPU为Intel双核E6300 I. 68GHz或以上，内存2G或以上，硬盘80G或以上；所述音视频信息检索计算机的CPU为P4 2.4或以上，RAM为IG或以上，硬盘为40G或以上。本实用新型的有益效果是计算机语音识别和计算机速记在更深层面的应用，同时也填补了我国在音视频语音精确定位与检索领域的ー项空白，这项技术的成功问世将是音视频语音处理及计算机速记领域的ー场革命，具有良好它的市场前景，具有巨大的社会效益与经济效益。

图I是实施例中同步处理与检索的系统的结构框图。图2是实施例中首视频/[目息处通系统框图。图3是实施例中首视频信息检索系统框图。
具体实施例本系统的结构框图如附图I所示，包括采集设备、音视频语音信息处理计算机(即前端处理平台)、和音视频信息检索计算机(即后端检索应用平台)。其中前端处理平台的要求是CPU为Intel双核E6300 I. 68GHz或以上，内存2G或以上，硬盘80G或以上，OS为Windows XP Professional/Windows 2003 . Net Framework 3.5。后端检索应用平台的要求是CPU:为P4 2. 4或以上，RAM为IG 或以上，硬盘为40G或以上，OS为Windows XP/Windows 2000 . Net Framework 3.5。其中采集设备采集的是音视频信号，本系统支持现场即时信息采集，通过计算机系统所安装的定制的音视频采集设备(视频编码器、摄像头、麦克风等)来即时记录音视频语音信息，提供给系统进行处理。系统也支持通过非现场录制的方式采集的满足系统要求的音视频语音信息。系统支持目前流行的常用多媒体文件格式WMV、WAV、DAT、ASF、RM、AVI、WMA。这些媒体格式覆盖了当今计算机多媒体音视频文件的绝大部分格式，可以很好的满足用户对系统的需要。而对于其它系统所不支持的格式，则需要通过本系统提供的专用格式转换软件转换为本系统所支持的格式。对于录音笔等高压缩录音设备，也需要通过其专门的转换软件转换后再录入系统。系统所支持的视频采集设备包括系统定制的视频采集设备(视频编码器、摄像头)，除此外，还支持DirectShow调用的视频采集卡；支持DirectShow调用的摄像头。采集的方案可以是一体化采集、独立式采集的方案，也可以是传统摄像机加AV/S端子视频采集卡的方案。系统所支持的音频采集设备包括系统定制的声卡、麦克风。除此外，还支持DirectSound调用技术的声卡麦克风输入；支持DirectSound调用技术的声卡Line in输入。系统定制的视频采集设备包括视频编码器、降噪器、声卡和电源转换器，统ー集成在系统前置盒内。其输入ロ为麦克风电平输入端ロ，输出ロ为线路电平输出至音视频语音信息处理计算机(即前端处理平台)。其中一体化采集解决方案采用DV (数码摄像机)作为采集设备，使用1394采集卡或USB接ロ，同时进行视频与音频采集，是ー种方便高效的方式。使用1394中继器可以中继信号，使信号放大延长信号传输距离，最大支持16级串联，每ー级根据使用信号线质量最远可以达到20米传输距离，总计可达200米以上的传输距离。其中独立式采集采用声卡与网络摄像头相结合方式，使用网络摄像头与麦克风结合的输入。在使用该方案的时候，采集用的计算机应配备双声卡，使用一个声卡上的麦克作为现场采集用麦克，另ー个声卡上的麦克做为跟读方式采集用麦克。选定其中任意ー个声卡做为声音回放声卡既可。而传统摄像机加AV/S端子视频采集卡方案使用传统摄像机AV/S端子输出至视频采集卡方式，使用传统摄像机做为音频与视频采集的载体，将采集到的音视频信号通过AV/S端子接ロ传入计算机进行处理、转换与记录。采集设备和前端处理平台之间通过TCP/IP进行通讯。采集设备采集的音视频数据，每隔一定时间存储ー个片段文件，同时将保存好的片段音视频文件传输给处理端，前端处理平台接收完文件后开始对音频文件处理，处理完后通知采集设备端，整个采集数据处通完成后合并成Iv完整文件。音视频语音处理计算机(前端处理平台)包括音视频语音信息处理系统，參见附图2，该系统包括音频抽取模块、音频流采样频率转换模块、语音分节处理模块、音视频流编码压缩模块、速记模式选择与处理模块、目标文件校对模块以及目标文件后续处理模块。其中音频抽取模块针对输入的音视频信息，抽取音视频文件的语音信息，保留和视频时序对应信息，视频流保持原有样式。音频(语音)流采样频率转换模块进行音频流采样频率转换，对于不同的设备拥有不同的音频采样频率与编码速率，而后面的语音分节处理模块所使用的采样频率与编码速率是固定的(16KHZ，16bit)，所以需要中间进行相应转换。语音分节处理模块将语音信号分解为特定时间区间的语音音频片断，并保留和视频时序对应信息。通过计算机自动与辅助手动调整切分点，使每ー小节的分节处应为一句话的完结处或一句话的中间停顿处，每ー小节大约在:Tio秒。当语音信息处理完毕生成相关文档后，系统将相关文档与音视频语音文件打包，音视频流编码压缩模块将音视频文件按照固定的编码与压缩格式进行压缩以节省硬盘占用空间，生成可供后端处理平台使用但不可修改的相关文件。压缩速度由所选择的格式由计算机的运行速度決定。速记模式选择与处理模块进行三种模式的选择和处理直接语音识别模式、人工跟读语音识别模式以及人工键盘速记模式。(I)对于普通话水平比较好的麦克风人声语音输入信息，直接选用语音识别引擎进行文本化处理，即直接语音识别模式。语音识别引擎直接根据输入语音信息将语音转换成文字，并保存对应的时序关系。该识别模式下除原音频文件所占用的系统内存外，还需要占用32KB/S的额外磁盘消耗，响应速度由计算机处理速度決定。(2)人工跟读语音识别模式对于普通话水平不好的麦克风人声语音输入信息，通过语音速记人员复述后选用语音识别引擎进行文本化处理，即人工跟读语音识别模式。人工跟读的语音信息还作为处理平台中进行校对需要的语音信息，同时被记录在输出的目标文件中。该识别模式下，系统除原有音频文件占用系统的内存外，还需要占用64KB/S的额外磁盘空间来支持额外语音记录的磁盘消耗。当为现场录音速记，且输入设备为麦克风时，此功能必需使用含有两块声卡(含有两个以上MIC输入)的计算机完成，若计算机仅有ー块声卡(仅有ー个MIC输入端ロ)无法使用此功能进行文本生成。(3)人工键盘速记模式对于音视频语音输入信息，工作人员也可以直接听写，通过键盘输入方式人工转换为文本信息。该模式下，记录速度由工作人员键盘输入速度决定，系统不占用额外磁盘空间。经上述步骤处理完的文本(称为目标文件)应保留和原音视频时序对应信息，建立文字和原音视频语音信息的关联。目标文件存储空间的占用，根据音频与视频相关联的解析度決定。目标文件校对模块分别对目标文件进行基础校对和全文校对，是对语音速记所生成文本文件再修订的过程。校对过程仅生成纯文本文件，不包含排版信息。基础校对是以词组或句子为基础的校对，毎次组合单个或几个语音分节时所分的音节，将音节组合后播放，并相应显示所转换出的文字信息。校对时语音信息的重放采用定时与快捷键组合的方式，根据用户设定的间隔时间自动重放语音信息，或者按照系统定义的特定快捷键重放语音信息。全文校对是以段落或全文为基础的校对，毎次组合基础校对中的单个或几个语音信息，将组合后的语音播放，并显示相应的文本信息。经过基础校对后的目标文件中每一句话，应保留和原音视频时序对应信息，基础校对结束后，音视频与该段文字相对应的定位信息误差在人的听、视觉感觉不到的范围以内。全文校对结束后，音视频文件对每次校对内容的时间定位信息误差在人的听、视觉感觉不到的范围以内。目标文件后续处理模块包括目标文件的编辑、排版、存储与打印。对于与原音视频语音信息相关联并经过全文校对的目标文件应提供固定格式的排版编辑功能；也可依用户需要，系统将文件导出启动word，编辑人员对于经过全文校对的目标文件，进行全文编辑、排版和打印输出，该模块还可以将校对后的文档、视频和语音信息打包生成系统所支持格式的输出文件，该目标文件可以被拷贝、传输，并可以被音视频信息检索系统打开、浏览、查询与打印，但不能被修改。音视频语音信息检索计算机(后端检索应用平台)包括音视频语音信息检索系统，该系统包括目标文件处理模块和检索模块(參见附图3)。其中目标文件处理模块可以打开由音视频语音信息处理系统最后所生成的电子集成文档(即目标文件)，并可以对其中的音视频语音与文字信息进行浏览。还可以根据需要将文字信息导出为纯文本或富文本格式文件，并导入到其它文本编辑器中编辑打印。该模块还可以将目标文件中的文本信息根据已有的排版格式打印输出。其中检索模块在打开目标文件后，可以对目标文件进行检索。用户输入期望的部分文本信息(一字、一句、一段文字)，系统自动查询，并精确定位相应的音视频信息。即通过对文字的检索，可以检索到与文字对应的声音和图像的定位信息，并且支持跨文件检索。跨文件检索由用户选择文件范围，系统根据文件内的文字信息进行检索工作。检索速度由文档长度决定，根据磁盘性能与处理速度，检索响应速度在五万字毎秒以内。跨文件检索吋，文件间切换间隔在IOOms以内该模块通过绝对匹配在文档中检索所要查询的信息，当查询结果为真时，返回文档中所处的定位位置，并定位相应的语音视频信息。计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率，计算机检索系统常采用一些运算方法，从概念相关性、位置相关性等方面对检索提问实行技术处理。检索的方法包含以下几种布尔逻辑检索、位置检索、截词检索、字段限定检索。本模块采用近似于位置检索的方式，是利用记录中的自然语言进行检索，词与词之间的逻辑关系用位置算符组配，是ー种可以不依赖主题词表而直接使用自由词进行检索的技术方法。[0031]本系统整体使用计算机作为信息采集与语音向文本转换的工具。通过数模转换采集语音与视频信号，通过计算机语音识别与人工校对、编辑方式产生与语音、视频信号相互对应的电子集成文档，以便于后续完成对音视频语音信息及其文本的阅览、检索与打印等一系列工作。该系统是计算机语音识别和计算机速记在更深层面的应用，同时也填补了我国在音视频语音精确定位与检索领域的ー项空白，这项技术的成功问世将是音视频语音处理及计算机速记领域的ー场革命，具有良好它的市场前景，具有巨大的社会效益与经济效益。
权利要求1.一种音视频语音处理与检索的系统，包括采集设备、音视频信息处理计算机、音视频语音信息检索计算机，其特征在于，所述系统通过安装音视频采集设备来即时记录音视频语音信息，并将所述信息提供给所述音视频语音信息处理计算机进行处理，其处理结果传递给所述音视频语音信息检索计算机进行浏览、检索和打印。
2.根据权利要求I所述的音视频语音处理与检索的系统，其特征在于，所述采集设备采用音视频语音采集设备或采用数码摄像机、并使用1394采集卡或USB接口，同时进行视频与语音音频的采集。
3.根据权利要求I所述的音视频语音处理与检索的系统，其特征在于，所述采集设备采用声卡与网络摄像头相结合方式。
4.根据权利要求I所述的音视频语音处理与检索的系统，其特征在于，所述采集设备将采集到的音视频信号通过USB接口或AV/S端子接口传入所述音视频信息处理计算机进行处理。
5.根据权利要求I所述的音视频语音处理与检索的系统，其特征在于，所述采集设备和所述音视频信息处理计算机之间通过TCP/IP进行通讯。
6.根据权利要求I所述的音视频语音处理与检索的系统，其特征在于，所述音视频信息处理计算机的CPU为Intel双核E63001. 68GHz或以上，内存2G或以上，硬盘80G或以上。
7.根据权利要求I所述的音视频语音处理与检索的系统，其特征在于，所述音视频信息检索计算机的CPU为P42. 4或以上，RAM为IG或以上，硬盘为40G或以上。
专利摘要本实用新型提供了一种音视频语音处理与检索的系统，包括采集设备、音视频信息处理计算机、音视频信息检索计算机，所述系统通过安装音视频采集设备来即时记录音视频信息，并将所述信息提供给所述音视频信息处理计算机进行处理。该实用新型的有益效果是能够快速处理音视频语音信息并将其转换为文本，并能够通过文本信息检索原始对应的音视频信息，达到音、视、文信息一体化。
文档编号G06F17/30GK202615395SQ20122022799
公开日2012年12月19日申请日期2012年5月18日优先权日2012年5月18日
发明者徐信申请人:徐信

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐信
技术所有人：徐信
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。