语音数据处理方法及系统的制作方法

文档序号：2832210阅读：242来源：国知局

专利名称：语音数据处理方法及系统的制作方法
技术领域：
本发明涉及一种语音处理技术，尤其是一种语音数据处理方法及系统。
背景技术：
随着计算机技术的高速发展和广泛应用，语音录制设备应用在各个领域。本发明主要以语音信箱和综合监听系统中的语音录制设备为例，进行介绍。
语音信箱是电子信箱业务(EMS)的一种，利用通信技术、计算机技术和数据库技术，通过电话网络将电话终端与语音信箱系统相连接，为电话用
户提供语音的接收、存储和提取，或者传真的存储转发以及其它多种服务等业务。它改变了长期以来电话只能提供实时和交互式语音通信的方式，开发出电话业务的潜在能力。语音信箱系统的基本原理，是将公用电话网的模拟电话或数字电话的信号，通过频带压缩，转换成数字信号送入主计算机的存储器存储，以备检索之用。尽管它仅仅只有短短十几年的历史，但因为较好地满足社会多层次、多样化的通信需求，受到国内外用户的普遍欢迎。
综合监听系统，可以用来建立对各种业务网络进行综合监听的统一监听网络。目前可以为之服务的业务网络包括传统的PSTN (Public Switched Telephone Network,公共交换电话网络)网络、2G的移动通信网络、3G移动通信网络及NGN (Next Generation Network,下一代网络)网络。无论监听系统服务与何种网络，都需要针对语音数据进行监听，当被监听用户数目较多，监听局呼叫量较大时，将会产生数量惊人的语音文件资料，这对存储设备是个严峻的考验，如何进行有效地存储是一个难题。
因此发明一种依据用户需求制定不同的规则对不同用户语音文件进行自动压缩，然后再进行存储的方法显得尤为重要。

发明内容
本发明要解决的技术问题是提供一种语音数据处理方法及系统，以有效提高语音文件存储能力。
为解决上述技术问题，本发明提供了一种语音数据处理方法，对所述语
音数据的压缩过程包括
(a) 采集并緩存原始语音流数据；
(b) 根据预先设置的压缩规则，将緩存的所述原始语音流数据压缩为语音文件；
(c) 存储压缩后的语音文件。
进一步地，步骤(c)中存储所述语音文件时，同时关联存储语音数据压缩编码描述信息。
进一步地，对压缩后的所述语音文件进行语音再现播放处理过程包括
(d) 下载压缩后的所述语音文件；
(e) 根据关联存储的语音数据压缩编码描述信息，将所述语音文件解压缩为语音流数据；
(f) 播放解压缩后的所述语音流数据。
进一步地，所述的压缩规则是指根据被采集语音流数据的用户的级别或需求采用相应的压缩编码格式。
进一步地，所迷语音文件是采用磁盘阵列方式存储的。
进一步地，所述语音数据压缩编码描述信息是以私有文件头的形式记录在文件头首部的。
为解决上述技术问题，本发明还提供一种语音数据处理系统，该系统包括配置模块、采集模块、压缩模块、存储模块，其中，
配置才莫块，用于配置并保存预先配置的压缩规则；
采集模块，用于采集原始语音流数据，还用于将采集的原始语音流数据同步发送给压缩模块；压缩模块，用于緩存采集模块发送的原始语音数据流，还用于根据预先
设置的压缩规则，将緩存的原始语音流数据压缩为语音文件；
存储模块，用于存储压缩后的语音文件。
进一步地，所述语音文件的文件头首部记录有语音数据压缩编码描述信自.
进一步地，所述系统还包括下载模块、解压缩模块及播放模块，其中，下载模块，用于从存储模块下载要播放的语音文件并发送给解压缩模
块；
解压缩模块，用于根据语音文件中的语音数据压缩编码描述信息对语音文件进行解压缩；
播放模块，用于播放解压缩后的语音流数据。
进一步地，所述存储模块还用于存储所述语音文件的语音文件相关信息，所述语音文件相关信息语音文件存储路径信息；所述系统还包括查询模块，用于查询语音文件相关信息获取要播;改的语音文件的存储路径；所述下载模块是根据所述查询模块的查询结果下载所述语音文件的。
与现有技术相比，本发明可以对语音设备录制过程中所产生的语音数据流根据私有规则进行自动压缩，私有规则的优势在于可以根据用户的不同需求进行规定，如可以设定被控目标的用户级别、以及针对不同的用户级别采用不同的压缩编码格式等，这样可以緩解文件存储设备的压力，同时当语音数据流需要在网络上传输时，可以提高网络传输效率。

图l是本发明语音数据处理方法中采集存储的过程示意图。
图2是本发明语音数据处理方法中语音再现播放的过程示意图。
图3是本发明语音数据处理系统的结果示意图。
图4是本发明应用实例1语音信箱的语音数据处理流程示意图。图5是本发明应用实例2监听设备的语音采集存储流程示意图。图6是本发明应用实例2监听设备的语音再现播放流程示意图。
具体实施例方式
本发明语音数据处理方法和系统，根据用户不同需要，对采集的语音数据的压缩要求进行不同的配置，增强压缩规则的灵活性，从而实现对语音信箱或综合监听系统中语音录制设备采集的语音数据进行自动压缩存储，提升语音文件存储设备的存储能力，同时提高了需要网络传送语音数据时的效率，緩解网络传输压力。
本发明语音数据处理方法，包括语音数据存储处理过程及语音再现播放处理过程，以下分别就两个处理过程进行说明。
如图1所示，语音数据采集存储过程包括以下步骤
步骤101:采集并緩存原始语音流数据；
原始语音流数据可以是不压缩的64kbps数据流，也可以是已经使用过压缩编码压缩过的数据流。
原始语音数据流承载方式可以是TDM承载、也可以是IP承载。当采用TDM承载的G.711语音编码格式时，语音为64kbps数据流；当采用IP承载时，原始语音流数据可以是已经经过G.711、 G.723、 AMR压缩后的数据流，并使用RTP/UDP/IP进行封装。
步骤102:根据预先配置的压缩规则，采用相应的压缩编码算法对原始语音流数据进行自动压缩处理；
在多媒体中，音频有很多压缩编码标准，如PCM语音压缩编码、ITU G.711语音压缩标准、ITUG.72X语音压缩标准、AMR语音压缩标准、MPEG 音频压缩标准等。
G.711为PCM编码，只对语音信号进行采样和量化，主要使用A律(在欧洲和其他国家4吏用)和n律(在北美和日本^f吏用)压扩算法，产生64kbps 的码流，主要用在电话中。G.711编码后的语音质量高，缺点是占用的带宽也很高。G.721是一种32kbps自适应差分脉冲编码调制(ADPCM)语音压缩算法，一般认为其传输质量要好于G.711。
另外还有传输速率为40/ 32/24kbps和16kbps的G.726和G.727算法。 G.723,又被准确地称为G.723.1,是一种以5.3/6.3kbps提供语音质量保证的标准语音多媒体数字信号编解码。它被设计用来通过标准电话线实现视频电话会议，以及实时编解码的最优化。
G.723.1是用于一见频会议的H.323 (IP )和H.324 ( POTS )标准的一部分。
G.728是一个16kbps的压缩标准，被广泛应用于信息网络电话，尤其是在要求延迟较小的电缆语音传输和VoIP中。G.729 A/B是一种以8Kbps的速率提供准音质的语音数字信号编解码器的ITU-T标准。
G.729 A是一种复杂性被降低的语音数字信号编解码器，而G.729 B则支持静音压缩和产生舒适音。
AMR语音压缩编码主要是提供移动装置使用的基本语音。它以可变速率的非立体声(mono)传输，速率在4.75 kbps ~ 12.2 kbps之间，它属于窄频，带宽只有3.5 kHz。 AMR可以根据不同的实际情况动态调整处理速率和错误控制，在当前的信道环境下提供最佳的语音质量。
MPEG音频压缩标准又有ISO 11172-3: MPEG-1音频标准(MP1 、 MP2、 MP3) ; ISO 13818-3: MPEG-2音频标准(Dolby AC-3 ) ; ISO 13818-7: MPEG-2 AAC音频标准和ISO 14496-3: MPEG-4音频标准。
在实际选择语音压缩标准时，要综合考虑质量、带宽、时延、算法复杂度等各种因素来进行选择。
压缩处理是根据预先对各个用户配置的语音数据压缩规则自动进行的，压缩规则是指根据被采集的原始语音流数据的用户级别或需求采用相应的压缩编码格式，语音信箱应用服务和监听应用中，是对拥有语音信箱服务的不同用户、或者净皮监听用户的设定的，包括压缩失见则的详细配置。如根据用户是否为重要用户选择是否需要进行压缩，以及根据用户级别选择不同的压缩编码格式，可以采用G.711、 G.721、 G.729、 AMR等。G.723.1由于算法复杂度较大，且时延较长，一般暂不采用。不同的压缩编码对语音文件的压缩质量有所不同，同时也影响语音再现播放时的质量。
VIP用户釆用低压缩率或不压缩的方式存储语音流；一般用户采用高压缩率压缩语音流进行存储，采用不同的压缩编码，使语音数据占用的存储容量不同，压缩质量也不相同，需要进行声音重现时，重现的质量也会根据用户级别有所不同。
步骤103:存储压缩处理后的语音文件及语音文件相关信息。
除了存储压缩后语音文件，同时在数据库呼叫相关信息表中记录各语音文件相关信息，包括用户呼叫详单索引号、主,皮叫号码、呼叫时间、语音数据压缩编码格式、保存路径等，并将上述相关信息采用私有头的格式存放在语音文件首部。语音文件首部还记录语音数据压缩编码描述信息。lt据库用于回放时的索引，文件首部的文件头信息用于回放时声音重现及呼叫相关信息显示。语音文件采用磁盘阵列存储。
对压缩存储的语音流数据的实现语音再现播放的处理过程，如图2所示，包括以下步骤
步骤201:下载要播放的语音文件；
判断需要将磁盘中存储的语音文件还原时，下载存储的压缩后的语音流数据。
步骤202:根据语音数据压缩编码描述信息，采用相应的压缩编码算法将所述语音文件解压缩为语音流数据；
步骤203:播放解压缩后的语音流数据。
为实现以上方法，本发明还提供一种语音数据处理系统，该系统包括语音采集存储设备及语音再现播放设备，如图3所示，其中，
所述语音采集存储设备用于采集存储语音数据，包括配置模块、采集模块、压缩模块、存储模块，其中，
配置模块，用于配置并保存预先配置的压缩规则；
釆集模块，用于采集原始语音流数据，还用于将采集的原始语音流数据
同步发送给压缩模块；
压缩模块，用于緩存采集模块发送的原始语音数据流，还用于根据预先
设置的压缩规则，将緩存的原始语音流数据压缩为语音文件；
存储模块，用于存储压缩后的语音文件及该语音文件关联的语音文件相关信息。
语音文件相关信息包括用户呼叫详单索引号、主被叫号码、呼叫时间、语音数据压缩编码格式、语音文件存储路径等信息。
语音文件以私有文件头的形式将文件头信息记录在文件头首部，文件头信息包括语音文件相关信息及语音数据压缩编码描述信息，上述信息供语音重现和信息重现时使用。
所述语音再现播放设备用于播放重现语音，包括查询模块、下载模块、解压缩模块及播放模块，其中，
查询模块，用于查询存储模块中的语音文件相关信息获取要播放的语音文件的存储路径；
下载模块，用于根据查询模块的查询结果从存储模块下载语音文件，并发送给解压缩模块；
解压缩模块，用于根据语音文件中的文件头信息对语音文件进行解压
缩；
播放模块，用于播放解压缩后的语音流数据。
本发明所说的语音数据处理方法可以应用于语音录制设备，如语音信箱及监听设备，以下分别就语音信箱和监听设备进行详细说明。
应用实例l,以语音信箱为例，
10语音信箱包括采集模块、压缩模块及存储模块，参见图4，说明语音信箱对语音流数据的处理过程
步骤400:开始；
步骤401:采集模块采集原始语音流数据；
步骤402:压缩模块对采集的原始语音流数据根据制定的用户各自不同的规则进行自动压缩处理；
如根据用户级别，VIP用户采用低压缩率或不压缩的方式存储语音流；一般用户采用高压缩率压缩语音流进行存储，采用不同的压缩编码，使语音数据占用的存储容量不同，压缩质量也不相同，在下面步骤中如果需要进行声音重现时，重现的质量也会根据用户级别有所不同；
步骤403:存储模块采用磁盘阵列存储语音文件。
存储的语音数据为压缩后的数据流，可以减少存储空间，对于语音流一般可以采用G.711、 G.721、 G.729等压缩编码方式进行压缩；
步骤404:判断是否需要将磁盘中存储的语音文件还原，如果需要则继续执行步骤405，如果不需要则流程结束；
步骤404:当需要将磁盘中存储的语音文件还原时，针对不同的用户压缩编码方式对语音数据进行相应解压缩处理，重现原来的声音，从电话中播放出来。
步骤405:结束；
应用实例2，以监听设备为例，参见图5,说明监听设备实现语音数据处理的过程
步骤500:开始；
步骤501:选定被控用户号码，设定此用户号码为被控号码，并配置用户信息，如此用户重要级别、优先级别以及监控语音数据存储压缩率；
步骤502:用户发起呼叫；
步骤503:判断当前发起呼叫的用户号码是否为被监听用户号码，如果是，继续执行步骤204,如果不是监听流程结束；步骤504:采集原始语音流凄t据；
原始语音流数据可以是TDM承载的语音数据、也可以是IP承载的语音数据。TDM承载时，语音数据的采集，需要根据呼叫控制信令，在呼叫开始时，申请新的空闲语音录制电路资源，如果没有，录制语音文件过程结束，如果有，则将用户时隙电路接到语音处理电路上，语音处理板进行语音录制工作，并同步将语音数据发给后台语音处理模块。采集过程不影响正常用户呼叫。
IP承载时，在媒体网关增加新的端口号用于向监听设备转发媒体包，语音数据的通过Socket方式进行采集，数据的采集开始和结束依据呼叫控制信令，采集过程不影正常用户呼叫。
步骤505:获取用户配置信息，根据不同用户的规则自动进行压缩处理；
根据被控用户级别，重要用户采用低压缩率或不压缩的方式存储语音流；非重要用户采用高压缩率压缩语音流进行存储。语音数据处理模块对语音流进行压缩打包，向文件服务器传送，由于已经是压缩后的数据，可以减少传送数据的时间，增加效率；
步骤506:文件服务器用于实现存储模块的功能，存储压缩后的语音文件及语音文件相关信息，所述语音文件相关信息包括用户呼叫详单索引号、主被叫号码、呼叫时间、语音数据压缩编码格式、语音文件路径等信息，同时上述信息也通过私有文件头的形式记录在文件头首部，同时还需要记录详细的语音数据压缩编码描述信息，上述信息供语音重现和信息重现时使用。
步骤507:呼叫结束，存储流程结束；
步骤508:结束。
如图6所示，是监听设备对压缩后存储的语音文件进行语音再现播放的方法
步骤600:开始；
步骤601:座席请求是否需要对监听的用户呼叫进行回放，如果是，执行步骤602,如果否，流程结束；
步骤602:播放器根据座席请求的需要回放的用户呼叫详单索引号询数据库，获得存储用户语音文件的路径以及文件压缩编码4各式；
步骤603:播放器从文件服务器获取存储的压缩语音文件，由于已经是压缩后的数据，可以减少传送数据的时间，增加效率；
步骤604:播放器根据查库得到的文件压缩编码格式、以及文件头中记录的语音文件压缩编码描述信息，对语音文件进行相应解码处理，重现语音播放；
步骤605:结束。
以上系统和方法中，语音数据压缩编码描述信息是以私有文件头的形式记录在文件头首部的，以便于语音重现，当然该信息也可以和其他语音文件相关信息记录在一起，只要该信息与语音文件相关联，在解压缩时，能找到该信息，并根据该信息重现语音流数据即可。
与现有技术相比，本发明可以对语音设备录制过程中所产生的语音数据流根据私有规则进行自动压缩，私有规则的优势在于可以根据用户的不同需求进行规定，如可以设定被控目标的用户级别、以及针对不同的用户级别采用不同的压缩编码格式等，这样可以緩解文件存储设备的压力，同时当语音数据流需要在网络上传输时，可以提高网络传输效率。
当然，本发明还有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1、一种语音数据处理方法，其特征在于，对所述语音数据的压缩过程包括(a)采集并缓存原始语音流数据；(b)根据预先设置的压缩规则，将缓存的所述原始语音流数据压缩为语音文件；(c)存储压缩后的语音文件。
2、如权利要求l所述的方法，其特征在于，步骤(c)中存储所述语音文件时，同时关联存储语音数据压缩编码描述信息。
3、如权利要求2所述的方法，其特征在于对压缩后的所述语音文件进行语音再现播放处理过程包括(d) 下载压缩后的所述语音文件；(e )根据关联存储的语音数据压缩编码描述信息，将所述语音文件解压缩为语音流凄t据；(f)播放解压缩后的所述语音流数据。
4、如权利要求1至3中任一项所述的方法，其特征在于所述的压缩规则是指根据被采集语音流数据的用户的级别或需求采用相应的压缩编码格式。
5、如权利要求1至3中任一项所述的方法，其特征在于所述语音文件是采用磁盘阵列方式存储的。
6、如权利要求2至3中任一项所述的方法，其特征在于，所述语音数据压缩编码描述信息是以私有文件头的形式记录在文件头首部的。
7、一种语音数据处理系统，其特征在于，该系统包括配置^f莫块、采集模块、压缩模块、存储模块，其中，配置模块，用于配置并保存预先配置的压缩规则；采集模块，用于采集原始语音流数据，还用于将采集的原始语音流数据同步发送给压缩模块；压缩模块，用于緩存采集模块发送的原始语音数据流，还用于根据预先设置的压缩规则，将緩存的原始语音流数据压缩为语音文件；存储模块，用于存储压缩后的语音文件。
8、如权利要求7所述的系统，其特征在于，所述语音文件的文件头首部记录有语音数据压缩编码描述信息；
9、如权利要求8所述的系统，其特征在于所述系统还包括下载模块、解压缩模块及播放模块，其中，下载模块，用于从存储模块下载要播放的语音文件并发送给解压缩模块；解压缩模块，用于根据语音文件中的语音数据压缩编码描述信息对语音文件进行解压缩；播放模块，用于播放解压缩后的语音流数据。
10、如权利要求7至9中任一项所述的系统，其特征在于所述存储模块还用于存储所述语音文件的语音文件相关信息，所述语音文件相关信息语音文件存储路径信息；所述系统还包括查询it块，用于查询语音文件相关信息获取要播放的语音文件的存储路径；所述下载模块是根据所述查询模块的查询结果下载所述语音文件的。
全文摘要
本发明提供了一种语音数据处理方法及系统，对所述语音数据的压缩过程包括(a)采集并缓存原始语音流数据；(b)根据预先设置的压缩规则，将缓存的所述原始语音流数据压缩为语音文件；(c)存储压缩后的语音文件。本发明提供一种语音数据处理方法及系统可以有效提高语音文件存储能力。
文档编号G10L19/14GK101534308SQ20091012728
公开日2009年9月16日申请日期2009年3月20日优先权日2009年3月20日
发明者吴建新, 曹明明申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹明明;吴建新
技术所有人：中兴通讯股份有限公司
我是此专利的发明人