一种mp3位串排列方法与装置的制作方法

文档序号:2830708阅读:241来源:国知局
专利名称:一种mp3位串排列方法与装置的制作方法
技术领域
本发明涉及一种语音文件编码的排列方法与装置,特别是一种MP3位 串的排列方法与装置。
技术背景MPEG-1 Audio Layer 3简称为MP3,是目前市面上所流行的一种数字音 频编码与压縮格式。MP3的文件格式大幅度地降低了音频数据的数据量,而 对于大多数用户的听觉感受来说,播放的音质与最初不经压縮的音频相比, 并没有明显的下降。因此,市场上许多音乐、语音文件皆采用MP3的编码与压縮格式。市面上大多数的电子辞典,皆具备发音的功能。 一般电子辞典也会将语 音文件储存为MP3格式,不仅符合市场趋势,也节省储存语音文件所需的 记忆空间。举例说明,将中文语音音素(2220个文件)储存为MP3格式的 文件(位率24K,取样频率22050Hz),约需花费3.58 MB (3,756,523字节)的记忆空间。然而,将发音的原始语音波形编码为MP3格式后,转换后的MP3语音 文件会产生些许问题。参见图1、 2,由图中可发现,原始的语音文件(wave 格式文件,取样频率44100HZ),转换为MP3编码格式的文件后,在语音 波形前后两个部分(图2中划圈处)分别产生了一小段的静音。如此,将使 得文字转语音播放时,MP3语音文件所多出的静音部分将造成听觉上的不流畅,会给将来语音文件的后处理工作带来困难。 发明内容为了解决背景技术中存在的上述技术问题,本发明提供了一种MP3位 串排列方法与装置,能有效解决原始语音文件转换为MP3语音文件时,前 后两部分所产生的一小段多余的静音的问题;且能够将文件转换后的MP3 语音文件的文件大大縮小,从而节省了储存MP3语音文件所需的内存空间。本发明的技术解决方案是本发明是一种MP3位串排列方法,其特殊 之处在于,该方法包括以下步骤1 )、接收包含复数个编码音框的MP3音讯数据;2) 、获取出步骤1)所接收的MP3音讯数据中的每一个编码音框所对应 的主数据起始参数。3) 、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。4) 、重新编排步骤3)最终获得的MP3音讯文件的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。上述编码音框包括文件头、附属信息及主要信息。上述编码音框还包括有错误侦测码或剩余位空间。上述步骤3)中删除最终获得的MP3音讯文件中的第一个编码音框与最 后一个编码音框,是删除第一个编码音框与最后一个编码音框的文件头、附 属信息及主要信息。一种MP3位串排列装置,其特殊之处在于该装置包括接收包含复数个编码音框的MP3音讯文件的接收模块,获取出每一个编码音框所对应 的主数据起始参数(main—data—begin)的获取模块,删除MP3音讯文件的 第一个编码音框与最后一个编码音框的删除模块,重新编排编码音框、并依 序更新每一个编码音框所对应的主数据起始参数的编排模块,获取模块一端 与接收模块相接,另一端通过删除模块与编排模块相接。由于本发明所提供的MP3位串排列方法与装置,有效解决了原始语音 文件转换为MP3文件时,前后两部分所产生的一小段多余静音的问题,降 低了 MP3文件储存的内存空间,而位率与取样频率依旧不变,能保持语音 质量,也利于未来要加上的后处理如平滑处理、韵律调整等。


图1是发音语音文件的原始波形图;图2是原始语音文件编码为MP3格式的波形图;图3是本发明MP3位串示意图;图4是本发明MP3位串排列方法流程图;图5是使用本发明的MP3位串排列方法处理后的MP3位串示意图; 图6是使用本发明的MP3位串排列方法处理后的MP3格式波形图; 图7是「无敌科技」四个字编码成MP3格式的波形图; 图8是使用本发明的MP3位串排列方法处理图7后的波形图; 图9是本发明的MP3位串排列装置结构示意图框图。
具体实施方式
参见图3, MP3位串示意图每一个MP3格式的编码音框,也可称为MP3位串格式,共可分为三个部分,分别为文件头(header) 10、附属信息 (side information) 20以及主要信息(main data) 30。文件头10共有32位, 在第16个位会记录是否有使用错误侦测码(CRC),如果第16个位记录为0 代表没有使用错误侦测码(without error protection);第16个位记录为1代 表有使用错误侦测码(with error protection)。因此,每一个编码音框还包含 一错误侦测码(图中未示)。若有使用错误侦测码,将可避免因为文件头IO 出现错误而无法正确译码的问题产生,而其中错误侦测码为16位。附属信息20在单声道时为136位,为双声道时则为256位。主要信息 30存放着比例因子(scale factor)和经过量化、位分配,以及无失真的霍夫 曼编码(Huffman Encoding)之后的声音讯号,也就是说,经过MP3格式编 码过后的声音讯号储存于主要信息30中。每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包 含的声音特性不一定相同,为了维持一定的声音质量,每个编码框所利用的 编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir) 机制来作调整。利用位储藏处机制,当某个音框的实际编码位少于位预算, 编码器可将多出来的位预算储存到位储藏处。反之,当某个音框编码后所需 位超出允许位数,则可利用位储藏处对先前的编码音框借位来储存。因此, 每一个编码音框还可包含剩余位空间40,可用来储存其它编码音框的主要信 息30。而每一个编码框都有一个9位的主数据起始参数(main—data—begin) 22, 存放在每个编码音框的附属信息20的前9个位,用来记录每个编码音框的主要信息30的开始位置。这样,即可动态的决定每个编码音框的主要信息 30的起始位置。每个编码音框的文件头IO之间的距离相同,这表示文件头IO是在位串 流上的固定位置。但是,每个编码音框的主要信息30部分却不一定在固定 的位置上。例如,针对第2编码音框的主要信息30部分,由于第1编码音 框有未用完的位空间,即所谓的剩余位空间40,利用上述的位储藏机制,将 第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续 使用,也就是将第1编码音框的剩余位空间40,用来储存第2编码音框的主 要信息30的一部分。同时,第2编码音框的主数据起始参数22也纪录了第 2编码音框的主要信息30的起始位置,而尚未储存的第2编码音框的主要信 息30,继续存放于第2编码音框本身具有的主要信息30区,直到第2编码 音框编码完后,再将其未用完的剩余位空间40留给下一个编码音框使用, 依此类推。参见图4,本发明的MP3位串排列方法包括以下步骤 步骤S10:接收包含复数个编码音框的MP3音讯文件;如同其它格式的 音讯文件,MP3格式的音讯文件同样由复数个音框所组成。每一个MP3格式的编码音框,也可称为MP3位串格式,共可分为三个 部分,分别为文件头(header) 10、附属信息(side information) 20以及主 要信息(main data) 30。文件头10共有32位,在第16个位会记录是否有 使用错误侦测码(CRC),如果第16个位记录为0代表没有使用错误侦测码 (without error protection);第16个位记录为1代表有使用错误侦测码(witherror protection)。因此,每一个编码音框还包含一错误侦测码(图中未示)。 若有使用错误侦测码,将可避免因为文件头10出现错误而无法正确译码的 问题产生,而其中错误侦测码为16位。附属信息20在单声道时为136位,为双声道时则为256位。主要信息 30存放着比例因子(scale factor)和经过量化、位分配,以及无失真的霍夫 曼编码(Huffman Encoding)之后的声音讯号,也就是说,经过MP3格式编 码过后的声音讯号储存于主要信息30中。步骤S20:获取出步骤S10所接收的MP3音讯文件中的每一个编码音框 所对应的主数据起始参数(main—data一begin)。每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包 含的声音特性不一定相同,为了维持一定的声音质量,每个编码框所利用的 编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir) 机制来作调整。利用位储藏处机制,当某个音框的实际编码位少于位预算, 编码器可将多出来的位预算储存到位储藏处。反之,当某个音框编码后所需 位超出允许位数,则可利用位储藏处对先前的编码音框借位来储存。因此, 每一个编码音框还可包含剩余位空间40,可用来储存其它编码音框的主要信 息30。而每一个编码框都有一个9位的主数据起始参数(main—data—begin) 22, 存放在每个编码音框的附属信息20的前9个位,用来记录每个编码音框的 主要信息30的开始位置。这样,即可动态的决定每个编码音框的主要信息 30的起始位置。件头IO之间的距离相同,这表示文件头IO是在位串 流上的固定位置。但是,每个编码音框的主要信息30部分却不一定在固定 的位置上。例如,针对第2编码音框的主要信息30部分,由于第l编码音 框有未用完的位空间,即所谓的剩余位空间40,利用上述的位储藏处机制, 将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继 续使用,也就是将第1编码音框的剩余位空间40,用来储存第2编码音框的 主要信息30的一部分。同时,第2编码音框的主数据起始参数22也纪录了 第2编码音框的主要信息30的起始位置,而尚未储存的第2编码音框的主 要信息30,继续存放于第2编码音框本身具有的主要信息30区,直到第2 编码音框编码完后,再将其未用完的剩余位空间40留给下一个编码音框使 用,依此类推。步骤S30:删除步骤S20最终获得的MP3音讯文件中的第一个编码音框 与最后一个编码音框。由于,发现将原始的语音文件转换为MP3编码格式的文件后,转换后 的MP3音讯文件的前后两部分各会出现一小段静音。为了解决静音所产生 的问题,将步骤S10所接收的MP3音讯文件的复数个编码音框中,删除掉 第一个编码音框与最后一个编码音框。因为,第一个编码音框与最后一个编 码音框的主要信息30内容产生前后多余静音部份,所以删除掉第一个编码 音框与最后一个编码音框,并不会对原本语音文件的活动语音(active voice) 部份产生太大的影响。删除第一个编码音框与最后一个编码音框,是删除第一个编码音框与最后一个编码音框的文件头10、附属信息20及主要信息30,并不会删除剩余 位空间40。加上于MP3编码中,第1编码音框的主要信息30可以在其档头 10之前(第1编码音框之main—data—begin>0)。因此,本发明利用此特性, 将第1编码音框删除后,并不会少了第1编码框的余位空间40,而造成储存 位数目不够的问题,同时也能通过第1编码音框的主数据起始参数22,而找 到第1编码音框的主要信息30的起始位置。步骤S40:重新编排步骤S30最终获得的MP3音讯文件的编码音框,并 依序更新每一个编码音框所对应的主数据起始参数。参见图5,图5中将图3中的第1编码音框与第5编码音框删除。在删 除第一个编码音框与最后一个编码音框之后,重新编排图2中的编码音框, 原本第2编码音框重新编排成为第1编码音框;原本第3编码音框重新编排 成为第2编码音框,以此类推。而且,所有的主数据起始参数22也依序更 新。经过上述步骤,即通过发明的MP3位串排列方法,不仅可解决传统技 术所产的静音问题,也由于删除第一个编码音框与最后一个编码音框,而降 低了 MP3文件储存的内存空间,而位率与取样频率依旧不变,能保持语音质量。如前所述,中文语音音素(2220个文件)储存为MP3格式的文件,约 需花费3.58MB (3,756,523字节)的记忆空间,但通过本发明的MP3位串 排列方法转换后,内存储存空间降为2.87 MB (3,017,613字节),只花费 原来的80.79%,将可节省19.21%的内存储存空间,可有效降低内存成本。且删除前后所产生的静音,会与原始语音文件较为接近,如此在文字转语音 时,整体听觉上不会因为多余的静音而觉得不流畅,也利于未来要加上的后 处理如平滑处理、韵律调整等。参见图6:为使用本发明的MP3位串排列方法处理后的MP3格式的波 形图。将图5与现有技术的图1及图2作比较,可以清楚发现图5中通过本 发明提出的MP3位串排列方法处理后的MP3格式的波形,已删除掉了图2 中所存在的静音部份l、 2,并且在活动语音部分波形变化不大,且经过本发 明的MP3位串排列方法处理后的MP3文件大小由1.37 KB (1,411字节) 降低为1.17KB (1,199字节),节省了MP3文件的存储内存空间。参见图7,由图中可以看出每个字(活动语音波形)的前后,皆多出一 小段的静音部份,会造成整段语音的播放像是单字逐一播放,而显得语音播 放不流畅。参见图8,从其中可以看出已删除掉图7中的静音部份3、 4、 5、 6、 7, 且有声部分波形大致上不变,删除图7中的静音部分3、 4、 5、 6、 7后整段 语音听起来较为平顺。此外图7中的MP3文件大小为6.77 KB (6,942字节),而图8中的 MP3文件大小为6.34KB (6,502字节)。由此可见,通过本发明提出的MP3 位串排列方法处理后的MP3文件,其文件大小也縮小了,降低了所需的内 存空间,节省资源成本。参见图9:本发明的MP3位串排列装置,其包括接收模块50、获取 模块60、删除模块70及编排模块80。接收模块50接收MP3音讯文件,且MP3音讯文件包含复数个编码音 框。所述编码音框包含文件头、附属信息及主要信息;此外,所述编码音框 还可以包含错误侦测码或剩余位空间,其中剩余位空间用以储存其它编码音框的主要信息。获取模块60获取出每一个编码音框所对应的主数据起始参数。其中, 主数据起始参数用来记录编码音框的主要信息的起始位置。删除模块70删除编码音框中的第一个编码音框与最后一个编码音框, 且删除模块70是删除第一个编码音框与最后一个编码音框的文件头、附属 信息及主要信息,并不会删除剩余位空间。编排模块80重新编排通过删除模块70所删除后的编码音框,并依序更 新每一个编码音框所对应的主数据起始参数。通过编排模块80重新编排后 的MP3音讯文件,删除了原MP3音讯文件中的静音部分,且文件大小较原 来的MP3音讯文件縮小,达到播放更流畅与节省内存空间的优点。
权利要求
1. 一种MP3位串排列方法,其特征在于该方法包括以下步骤1)、接收包含复数个编码音框的MP3音讯文件;2)、获取出步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数;3)、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框;4)、重新编排步骤3)最终获得的MP3音讯文件的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。
2、 根据权利要求1所述的MP3位串排列方法,其特征在于所述编码 音框包括文件头、附属信息及主要信息。
3、 根据权利要求2所述的MP3位串排列方法,其特征在于所述编码 音框还包括有错误侦测码或剩余位空间。
4、 根据权利要求3所述的MP3位串排列方法,其特征在于所述步骤 3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音 框,是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要曰息。
5、 一种MP3位串排列装置,其特征在于该装置包括接收包含复数个编码音框的MP3音讯文件的接收模块,获取出每一个编码音框所对应的 主数据起始参数(main—data—begin)的获取模块,删除MP3音讯文件的第 一个编码音框与最后一个编码音框的删除模块,重新编排编码音框、并依序 更新每一个编码音框所对应的主数据起始参数的编排模块,所述获取模块一 端与接收模块相接,另一端通过删除模块与编排模块相接。
全文摘要
本发明涉及一种MP3位串的排列方法与装置,该方法包括以下步骤1)接收包含复数个编码音框的MP3音讯文件;2)获取步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数;3)删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框;4)重新编排步骤3)最终获得的MP3音讯文件的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。本发明所提供的MP3位串排列方法与装置,能有效解决原始语音文件转换为MP3语音文件时,前后两部分所产生的一小段多余的静音的问题;且能够将文件转换后的MP3语音文件的文件大大缩小,节省了储存MP3语音文件所需的内存空间。
文档编号G10L19/14GK101256775SQ20081001791
公开日2008年9月3日 申请日期2008年4月9日 优先权日2008年4月9日
发明者廖崇伯, 陈淮琰 申请人:无敌科技(西安)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1