一种mp3位串排列方法与装置的制作方法

文档序号：2830708阅读：241来源：国知局

专利名称：一种mp3位串排列方法与装置的制作方法
技术领域：
本发明涉及一种语音文件编码的排列方法与装置，特别是一种MP3位串的排列方法与装置。
技术背景MPEG-1 Audio Layer 3简称为MP3，是目前市面上所流行的一种数字音频编码与压縮格式。MP3的文件格式大幅度地降低了音频数据的数据量，而对于大多数用户的听觉感受来说，播放的音质与最初不经压縮的音频相比，并没有明显的下降。因此，市场上许多音乐、语音文件皆采用MP3的编码与压縮格式。市面上大多数的电子辞典，皆具备发音的功能。一般电子辞典也会将语音文件储存为MP3格式，不仅符合市场趋势，也节省储存语音文件所需的记忆空间。举例说明，将中文语音音素(2220个文件)储存为MP3格式的文件(位率24K,取样频率22050Hz)，约需花费3.58 MB (3,756,523字节)的记忆空间。然而，将发音的原始语音波形编码为MP3格式后，转换后的MP3语音文件会产生些许问题。参见图1、 2，由图中可发现，原始的语音文件(wave 格式文件，取样频率44100HZ)，转换为MP3编码格式的文件后，在语音波形前后两个部分(图2中划圈处)分别产生了一小段的静音。如此，将使得文字转语音播放时，MP3语音文件所多出的静音部分将造成听觉上的不流畅，会给将来语音文件的后处理工作带来困难。发明内容为了解决背景技术中存在的上述技术问题，本发明提供了一种MP3位串排列方法与装置，能有效解决原始语音文件转换为MP3语音文件时，前后两部分所产生的一小段多余的静音的问题；且能够将文件转换后的MP3 语音文件的文件大大縮小，从而节省了储存MP3语音文件所需的内存空间。本发明的技术解决方案是本发明是一种MP3位串排列方法，其特殊之处在于，该方法包括以下步骤1 )、接收包含复数个编码音框的MP3音讯数据；2) 、获取出步骤1)所接收的MP3音讯数据中的每一个编码音框所对应的主数据起始参数。3) 、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。4) 、重新编排步骤3)最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。上述编码音框包括文件头、附属信息及主要信息。上述编码音框还包括有错误侦测码或剩余位空间。上述步骤3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框，是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息。一种MP3位串排列装置，其特殊之处在于该装置包括接收包含复数个编码音框的MP3音讯文件的接收模块，获取出每一个编码音框所对应的主数据起始参数(main—data—begin)的获取模块，删除MP3音讯文件的第一个编码音框与最后一个编码音框的删除模块，重新编排编码音框、并依序更新每一个编码音框所对应的主数据起始参数的编排模块，获取模块一端与接收模块相接，另一端通过删除模块与编排模块相接。由于本发明所提供的MP3位串排列方法与装置，有效解决了原始语音文件转换为MP3文件时，前后两部分所产生的一小段多余静音的问题，降低了 MP3文件储存的内存空间，而位率与取样频率依旧不变，能保持语音质量，也利于未来要加上的后处理如平滑处理、韵律调整等。

图1是发音语音文件的原始波形图；图2是原始语音文件编码为MP3格式的波形图；图3是本发明MP3位串示意图；图4是本发明MP3位串排列方法流程图；图5是使用本发明的MP3位串排列方法处理后的MP3位串示意图；图6是使用本发明的MP3位串排列方法处理后的MP3格式波形图；图7是「无敌科技」四个字编码成MP3格式的波形图；图8是使用本发明的MP3位串排列方法处理图7后的波形图；图9是本发明的MP3位串排列装置结构示意图框图。
具体实施方式
参见图3， MP3位串示意图每一个MP3格式的编码音框，也可称为MP3位串格式，共可分为三个部分，分别为文件头(header) 10、附属信息 (side information) 20以及主要信息(main data) 30。文件头10共有32位，在第16个位会记录是否有使用错误侦测码(CRC)，如果第16个位记录为0 代表没有使用错误侦测码(without error protection);第16个位记录为1代表有使用错误侦测码(with error protection)。因此，每一个编码音框还包含一错误侦测码(图中未示)。若有使用错误侦测码，将可避免因为文件头IO 出现错误而无法正确译码的问题产生，而其中错误侦测码为16位。附属信息20在单声道时为136位，为双声道时则为256位。主要信息 30存放着比例因子(scale factor)和经过量化、位分配，以及无失真的霍夫曼编码(Huffman Encoding)之后的声音讯号，也就是说，经过MP3格式编码过后的声音讯号储存于主要信息30中。每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包含的声音特性不一定相同，为了维持一定的声音质量，每个编码框所利用的编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir) 机制来作调整。利用位储藏处机制，当某个音框的实际编码位少于位预算，编码器可将多出来的位预算储存到位储藏处。反之，当某个音框编码后所需位超出允许位数，则可利用位储藏处对先前的编码音框借位来储存。因此，每一个编码音框还可包含剩余位空间40，可用来储存其它编码音框的主要信息30。而每一个编码框都有一个9位的主数据起始参数(main—data—begin) 22，存放在每个编码音框的附属信息20的前9个位，用来记录每个编码音框的主要信息30的开始位置。这样，即可动态的决定每个编码音框的主要信息 30的起始位置。每个编码音框的文件头IO之间的距离相同，这表示文件头IO是在位串流上的固定位置。但是，每个编码音框的主要信息30部分却不一定在固定的位置上。例如，针对第2编码音框的主要信息30部分，由于第1编码音框有未用完的位空间，即所谓的剩余位空间40，利用上述的位储藏机制，将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续使用，也就是将第1编码音框的剩余位空间40，用来储存第2编码音框的主要信息30的一部分。同时，第2编码音框的主数据起始参数22也纪录了第 2编码音框的主要信息30的起始位置，而尚未储存的第2编码音框的主要信息30，继续存放于第2编码音框本身具有的主要信息30区，直到第2编码音框编码完后，再将其未用完的剩余位空间40留给下一个编码音框使用，依此类推。参见图4，本发明的MP3位串排列方法包括以下步骤步骤S10:接收包含复数个编码音框的MP3音讯文件；如同其它格式的音讯文件，MP3格式的音讯文件同样由复数个音框所组成。每一个MP3格式的编码音框，也可称为MP3位串格式，共可分为三个部分，分别为文件头(header) 10、附属信息(side information) 20以及主要信息(main data) 30。文件头10共有32位，在第16个位会记录是否有使用错误侦测码(CRC)，如果第16个位记录为0代表没有使用错误侦测码 (without error protection);第16个位记录为1代表有使用错误侦测码(witherror protection)。因此，每一个编码音框还包含一错误侦测码(图中未示)。若有使用错误侦测码，将可避免因为文件头10出现错误而无法正确译码的问题产生，而其中错误侦测码为16位。附属信息20在单声道时为136位，为双声道时则为256位。主要信息 30存放着比例因子(scale factor)和经过量化、位分配，以及无失真的霍夫曼编码(Huffman Encoding)之后的声音讯号，也就是说，经过MP3格式编码过后的声音讯号储存于主要信息30中。步骤S20:获取出步骤S10所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数(main—data一begin)。每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包含的声音特性不一定相同，为了维持一定的声音质量，每个编码框所利用的编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir) 机制来作调整。利用位储藏处机制，当某个音框的实际编码位少于位预算，编码器可将多出来的位预算储存到位储藏处。反之，当某个音框编码后所需位超出允许位数，则可利用位储藏处对先前的编码音框借位来储存。因此，每一个编码音框还可包含剩余位空间40，可用来储存其它编码音框的主要信息30。而每一个编码框都有一个9位的主数据起始参数(main—data—begin) 22，存放在每个编码音框的附属信息20的前9个位，用来记录每个编码音框的主要信息30的开始位置。这样，即可动态的决定每个编码音框的主要信息 30的起始位置。件头IO之间的距离相同，这表示文件头IO是在位串流上的固定位置。但是，每个编码音框的主要信息30部分却不一定在固定的位置上。例如，针对第2编码音框的主要信息30部分，由于第l编码音框有未用完的位空间，即所谓的剩余位空间40，利用上述的位储藏处机制，将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续使用，也就是将第1编码音框的剩余位空间40，用来储存第2编码音框的主要信息30的一部分。同时，第2编码音框的主数据起始参数22也纪录了第2编码音框的主要信息30的起始位置，而尚未储存的第2编码音框的主要信息30,继续存放于第2编码音框本身具有的主要信息30区，直到第2 编码音框编码完后，再将其未用完的剩余位空间40留给下一个编码音框使用，依此类推。步骤S30:删除步骤S20最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。由于，发现将原始的语音文件转换为MP3编码格式的文件后，转换后的MP3音讯文件的前后两部分各会出现一小段静音。为了解决静音所产生的问题，将步骤S10所接收的MP3音讯文件的复数个编码音框中，删除掉第一个编码音框与最后一个编码音框。因为，第一个编码音框与最后一个编码音框的主要信息30内容产生前后多余静音部份，所以删除掉第一个编码音框与最后一个编码音框，并不会对原本语音文件的活动语音(active voice) 部份产生太大的影响。删除第一个编码音框与最后一个编码音框，是删除第一个编码音框与最后一个编码音框的文件头10、附属信息20及主要信息30，并不会删除剩余位空间40。加上于MP3编码中，第1编码音框的主要信息30可以在其档头 10之前(第1编码音框之main—data—begin>0)。因此，本发明利用此特性，将第1编码音框删除后，并不会少了第1编码框的余位空间40，而造成储存位数目不够的问题，同时也能通过第1编码音框的主数据起始参数22，而找到第1编码音框的主要信息30的起始位置。步骤S40:重新编排步骤S30最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。参见图5，图5中将图3中的第1编码音框与第5编码音框删除。在删除第一个编码音框与最后一个编码音框之后，重新编排图2中的编码音框，原本第2编码音框重新编排成为第1编码音框；原本第3编码音框重新编排成为第2编码音框，以此类推。而且，所有的主数据起始参数22也依序更新。经过上述步骤，即通过发明的MP3位串排列方法，不仅可解决传统技术所产的静音问题，也由于删除第一个编码音框与最后一个编码音框，而降低了 MP3文件储存的内存空间，而位率与取样频率依旧不变，能保持语音质量。如前所述，中文语音音素(2220个文件)储存为MP3格式的文件，约需花费3.58MB (3,756,523字节)的记忆空间，但通过本发明的MP3位串排列方法转换后，内存储存空间降为2.87 MB (3,017,613字节)，只花费原来的80.79%，将可节省19.21%的内存储存空间，可有效降低内存成本。且删除前后所产生的静音，会与原始语音文件较为接近，如此在文字转语音时，整体听觉上不会因为多余的静音而觉得不流畅，也利于未来要加上的后处理如平滑处理、韵律调整等。参见图6:为使用本发明的MP3位串排列方法处理后的MP3格式的波形图。将图5与现有技术的图1及图2作比较，可以清楚发现图5中通过本发明提出的MP3位串排列方法处理后的MP3格式的波形，已删除掉了图2 中所存在的静音部份l、 2，并且在活动语音部分波形变化不大，且经过本发明的MP3位串排列方法处理后的MP3文件大小由1.37 KB (1，411字节) 降低为1.17KB (1,199字节)，节省了MP3文件的存储内存空间。参见图7，由图中可以看出每个字(活动语音波形)的前后，皆多出一小段的静音部份，会造成整段语音的播放像是单字逐一播放，而显得语音播放不流畅。参见图8，从其中可以看出已删除掉图7中的静音部份3、 4、 5、 6、 7，且有声部分波形大致上不变，删除图7中的静音部分3、 4、 5、 6、 7后整段语音听起来较为平顺。此外图7中的MP3文件大小为6.77 KB (6,942字节)，而图8中的 MP3文件大小为6.34KB (6,502字节)。由此可见，通过本发明提出的MP3 位串排列方法处理后的MP3文件，其文件大小也縮小了，降低了所需的内存空间，节省资源成本。参见图9:本发明的MP3位串排列装置，其包括接收模块50、获取模块60、删除模块70及编排模块80。接收模块50接收MP3音讯文件，且MP3音讯文件包含复数个编码音框。所述编码音框包含文件头、附属信息及主要信息；此外，所述编码音框还可以包含错误侦测码或剩余位空间，其中剩余位空间用以储存其它编码音框的主要信息。获取模块60获取出每一个编码音框所对应的主数据起始参数。其中，主数据起始参数用来记录编码音框的主要信息的起始位置。删除模块70删除编码音框中的第一个编码音框与最后一个编码音框，且删除模块70是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息，并不会删除剩余位空间。编排模块80重新编排通过删除模块70所删除后的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。通过编排模块80重新编排后的MP3音讯文件，删除了原MP3音讯文件中的静音部分，且文件大小较原来的MP3音讯文件縮小，达到播放更流畅与节省内存空间的优点。
权利要求
1. 一种MP3位串排列方法，其特征在于该方法包括以下步骤1)、接收包含复数个编码音框的MP3音讯文件；2)、获取出步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数；3)、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框；4)、重新编排步骤3)最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。
2、根据权利要求1所述的MP3位串排列方法，其特征在于所述编码音框包括文件头、附属信息及主要信息。
3、根据权利要求2所述的MP3位串排列方法，其特征在于所述编码音框还包括有错误侦测码或剩余位空间。
4、根据权利要求3所述的MP3位串排列方法，其特征在于所述步骤 3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框，是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要曰息。
5、一种MP3位串排列装置，其特征在于该装置包括接收包含复数个编码音框的MP3音讯文件的接收模块，获取出每一个编码音框所对应的主数据起始参数(main—data—begin)的获取模块，删除MP3音讯文件的第一个编码音框与最后一个编码音框的删除模块，重新编排编码音框、并依序更新每一个编码音框所对应的主数据起始参数的编排模块，所述获取模块一端与接收模块相接，另一端通过删除模块与编排模块相接。
全文摘要
本发明涉及一种MP3位串的排列方法与装置，该方法包括以下步骤1)接收包含复数个编码音框的MP3音讯文件；2)获取步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数；3)删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框；4)重新编排步骤3)最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。本发明所提供的MP3位串排列方法与装置，能有效解决原始语音文件转换为MP3语音文件时，前后两部分所产生的一小段多余的静音的问题；且能够将文件转换后的MP3语音文件的文件大大缩小，节省了储存MP3语音文件所需的内存空间。
文档编号G10L19/14GK101256775SQ20081001791
公开日2008年9月3日申请日期2008年4月9日优先权日2008年4月9日
发明者廖崇伯, 陈淮琰申请人:无敌科技(西安)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖崇伯;陈淮琰
技术所有人：无敌科技(西安)有限公司
我是此专利的发明人

上一篇：一种结构振动噪声主动控制方法及其装置的制作方法
上一篇：基因电泳图谱转化为数字音乐的方法