信号复杂度和编码速率选择的映射实现方法

文档序号:2833070阅读:783来源:国知局
专利名称:信号复杂度和编码速率选择的映射实现方法
技术领域
本发明属于声信号分析处理技术领域,具体涉及到按音乐信号的信号复杂度对音乐信号进行分级,为编码速率选择提供依据,提高编码传输效率。
背景技术
随着通信技术的发展,数字化通信越来越受到人们的重视,现代通信的一个重要标志就是通信的数字化。数字信号最突出的优点是受信道噪声干扰小,易于再生与存储,易于误码保护和加密以及易于多路复用、分组和组合。但音频信号若是经过A/D转换后直接编码,将产生大量的数据,这不利于传输或存储,因此为了提高效率,必须对音频信号进行压缩处理;而原始的音频信号在时间和空间上存在着大量的冗余度可供压缩,并且可以在解码环节加以恢复。音频编码属于信源编码,由于音频信号的最终使用者是用户,所以只要音频信号解码后在人耳可接受的或是不能察觉的范围内,就允许对数字音频信号进行压缩以换取较高的编码速率。现代卫星通信、数字移动通信和个人通信网的迅猛发展,日益增加的客户需求量与现有通信信道容量之间的矛盾日益突出。如何提高信道的传输效率、有效地利用现有带宽是目前亟待解决的问题之一。对于音乐信号来说,如何在现有的信道资源条件下,选择适当的编码速率而又不影响信号质量,提高传输效率,即利用信源信号的特征来指导编码速率的选择并提高传输效率是近几年比较需要的。但此类研究还刚起步,成果并不多。本发明研究的正是基于音频本身性质来选择编码速率的模型机制,提出按音乐信号的信号复杂度对音乐信号进行分类,区别于传统音乐信号分类,能为编码速率选择提供依据,提高编码传输效率。在学术上,基于信号复杂度的分类和传统意义上的音乐类型分类(music genre classification) [I]和音乐情绪分类(music mode/emotion classification)是有本质区别的。后者是从音乐信号的内容(例如主题,韵律,旋律,类别,乐器,情绪等)出发,多用于数字音乐库的整理和检索;而前者是从应用和声音信号传输速率和质量出发。初步实验表明,传统音乐信号分类对音乐信号的复杂度有一定的指导作用,但不意味着同一类的音乐信号在同样传输速率下所达到的传输质量是一致的,并不是所有的复杂有用声音信号都需要同样高的码率来传输。参考文献George Tzanetakis, Perry Cook, “Musical Genre Classification of Audio Signals,,IEEE Transactions On Speech And Audio Processing, VOL 10,NO. 5,July 2002.Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland, “The HTK Book ” .Olivier Lartillot,Petri Toiviainen,Tuomas Eerola.,,MIRtoolbox” Qin Yan,Saeed Vasegi. ^Modelling and Synthesis of Formants ofBritish, American and Australian Accents.,,Proc. IEEE Conference on Acoustics Speech and Signal Processing (ICASSP),2003.pp. 712-755.Qin Yan,Saeed Vaseghi, Dimitrios Rentzos, Ching-Hsiang Ho.,,Analysis by Synthesis of Acoustic Correlates of British,Australian and American Accents. Proc (ICASSP) pp. 621-624(2004) 韩纪庆,冯涛,郑贵滨,马翼平.“音频信息处理技术北京清华大学出版社 2007.

发明内容
本发明研究的是复杂有用声音信号复杂度和编码速率之间的映射关系。目的是提出一组能表征音乐信号复杂度的特征参数集,并以此为分类依据,为传输速率选择提供依据。本发明的信号复杂度和编码速率选择的映射实现方法包含如下五个过程
A.特征提取提取音频输入信号的特征参数集,基于该特征参数集为输入音频信号导出特征矢量;
B.MOS值提取建立编码质量的MOS值数据库;
C.聚类对A步骤得到的特征矢量样本进行聚类处理,得到特征聚类码本;
D.对应建立C步骤得到的类别与编码速率的对应关系,得到信号复杂度与编码速率的映射关系码本;
E.测试测试D步骤得到的码本是否有效。通过对本发明信号复杂度和编码速率选择的映射实现方法的正确使用,一方面可以进一步用于音乐的分类研究,另一方面对音乐复杂度的分级,在保证编码质量的前提下, 用不同的速率对不同复杂度的音乐进行编码,使得音质与文件体积之间达到平衡,实现指导编码速率的自动选择,提高编码传输效率。


图I是特征提取流程图。图2是MOS值提取过程中用到的ITU-R标准BS. 1387定义的PEAQ算法示意图。图3是对应过程流程图。图4是信号复杂度与编码速率选择的映射实现方法流程图。图5是短时特征的第一类各个MOS值区间的样本数占总样本数统计结果图。图6是长时特征的第一类各个MOS值区间的样本数占总样本数统计结果图。
具体实施例方式下面结合附图和具体实施例对本发明方法作进一步详细说明。信号复杂度与编码速率选择的映射实现方法包含如下步骤
A、特征提取提取音频输入信号的特征参数集,基于该特征参数集为输入音频信号导

特征矢量。特征提取过程(如图I所示)包含以下步骤
Al.在提取特征之前,首先将音频信号转换成数字形式,即将wav形式的音频文件通过一定的采样率对其进行采样,得到一系列离散的采样点。A2.将数字形式的音频信号分帧,即通过计算一定时间内包含多少个采样点来划
5分帧。根据对语音信号的研究,音频信号特性是随时间而变化的,所以是一个非稳态过程。 但从另一方面来看的话,虽然音频信号具有时变特性,但在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。因此本发明中分帧的时间随特征的特性而定,总体上有长时特征和短时特征之分。长时特征的帧长一般以秒为数量级, 而短时特征的巾贞长一般以晕秒为数量级;
A3.从数字形式的音频信号样本帧中计算要提取的特征;
A4.把该特征参数集转换成该帧的特征矢量输出。B、MOS值提取建立编码质量的MOS值数据库。MOS值提取过程包含的步骤如下 BI.为了使音频文件能够被 AMR-WB+ (Extended Adaptive Multi-Rate audio codec
Wideband宽带自适应多速率音频扩展压缩编码)编码器识别,需要转换音频格式,包括音频的位速、采样大小、采样频率和音频格式等。B2.将每段音乐切割成若干片段片段。在matlab环境下,使用帝国理工大学电子工程系Mike Brooks主持编写Matlab的音频工具箱voicebox。Vociebox中的readwav函数可以读取步骤BI得到的特定格式的音频。B3.将B2步骤得到的音频片段,用encoder编码器和decoder解码器对每个片段分别编解码,再用改进的PEAQ算法器衡量得到该片段的编码质量MOS值。B4.用encoder编码器编码时,AMR-WB+编码速率的范围为5. 2_36kbit/s,用不同的速率都重复B3步骤,最后得到不同速率下所得的编码质量MOS值。C、聚类:对A步骤得到的特征矢量样本进行聚类处理,得到特征聚类码本;聚类过程包
含以下步骤
Cl.将步骤A得到的特征矢量集转换成htk格式。C2.利用HTK工具包[2]中的Hquant训练工具对Cl得到的数据进行聚类,得到聚类码本。D、对应建立C步骤得到的类别与编码速率的对应关系,得到信号复杂度与编码速率的
映射关系码本。对应过程包含以下步骤
Dl.根据C过程得到的特征聚类码本,判定音频信号每帧所在的类别,并记录每帧在各个预定编码速率下的MOS值。D2.统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例。D3.根据D2得到的比例数据,得到映射关系码本,里面记录的是每个类别要达到特定编码质量MOS值需要的编码速率。E、测试测试D步骤得到的码本是否有效。测试过程包含以下步骤
El.用不同于步骤A中的音频信号进行步骤A,B,得到音频信号的特征矢量和实际编码速率下的MOS值。E2.根据特征聚类码本,判定每帧音频信号所在的类别,然后根据映射关系码本, 用该类别下达到目标MOS值所需的预定编码速率对其编解码,得到预定编码速率下的编码质量MOS值。
E3.对比实际编码速率下的MOS值和预定编码速率下的MOS值,测试出映射关系码本的效果。音乐特征提取是一个计算一系列能表示一段音乐特征数值的过程。要建立基于音乐信号复杂度的编码速率选择模型的话,音乐特征的设计是整个过程中最大的挑战。本发明参考MIRtoolbox工具包[3]中的特征,并根据其特性分为长时特征和短时特征。短时特征包含以下9个
I) root-mean-square energy (均方 根倉泛量)
权利要求
1.一种信号复杂度和编码速率选择的映射实现方法,其特征在于包含如下五个过程A.特征提取提取音频输入信号的特征参数集,基于该特征参数集为输入音频信号导出特征矢量;B.MOS值提取建立编码质量的MOS值数据库;C.聚类对A步骤得到的特征矢量样本进行聚类处理,得到特征聚类码本;D.对应建立C步骤得到的类别与编码速率的对应关系,得到信号复杂度与编码速率的映射关系码本;E.测试测试D步骤得到的码本是否有效。
2.如权利要求I所述的信号复杂度和编码速率选择的映射实现方法,其特征在于特征提取过程包含以下步骤Al.在提取特征之前,首先将音频信号转换成数字形式,即将wav形式的音频文件通过一定的采样率对其进行采样,得到一系列离散的采样点;A2.将数字形式的音频信号分帧,即通过计算一定时间内包含多少个采样点来划分中贞,分帧的时间随特征的特性而定,长时特征的帧长以秒为数量级,而短时特征的帧长以毫秒为数量级;A3.从数字形式的音频信号样本帧中计算要提取的特征;A4.把该特征参数集转换成该帧的特征矢量输出。
3.如权利要求I所述的信号复杂度和编码速率选择的映射实现方法,其特征在于MOS 值提取过程包含的步骤如下BI.转换音频格式,包括音频的位速、采样大小、采样频率和音频格式,以使音频文件能够被AMR-WB+编码器识别;B2.读取步骤BI得到的特定格式的音频,将每段音乐切割成若干片段;B3.将B2步骤得到的音频片段,用encoder编码器和decoder解码器对每个片段分别编解码,再用改进的PEAQ算法器衡量得到每个片段的编码质量MOS值;B4.用encoder编码器编码时,AMR-WB+编码速率的范围为5. 2_36kbit/s,用不同的速率都重复B3步骤,最后得到不同速率下所得的编码质量MOS值。
4.如权利要求I所述的信号复杂度和编码速率选择的映射实现方法,其特征在于聚类过程包含以下步骤Cl.将步骤A得到的特征矢量集转换成htk格式;C2.利用HTK工具包中的Hquant训练工具对Cl得到的数据进行聚类,得到特征聚类码本。
5.如权利要求I所述的信号复杂度和编码速率选择的映射实现方法,其特征在于对应过程包含以下步骤Dl.根据C过程得到的特征聚类码本,判定音频信号每帧所在的类别,并记录每帧在各个预定编码速率下的MOS值;D2.统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例; D3.根据D2得到的比例数据,得到映射关系码本,里面记录的是每个类别要达到特定编码质量MOS值需要的编码速率。
6.如权利要求I所述的信号复杂度和编码速率选择的映射实现方法,其特征在于测试过程包含以下步骤El.用不同于步骤A中的音频信号进行步骤A,B,得到音频信号的特征矢量和实际编码速率下的MOS值;E2.根据特征聚类码本,判定每帧音频信号所在的类别,然后根据映射关系码本,用该类别下达到目标MOS值所需的预定编码速率对其编解码,得到预定编码速率下的编码质量 MOS 值;E3.对比实际编码速率下的MOS值和预定编码速率下的MOS值,测试出映射关系码本的效果。
全文摘要
本发明公开一种信号复杂度和编码速率选择的映射实现方法,包含如下五个过程特征提取提取音频输入信号的特征参数集,基于该特征参数集为输入音频信号导出特征矢量;MOS值提取建立编码质量的MOS值数据库;聚类对特征矢量样本进行聚类处理,得到特征聚类码本;对应建立聚类处理得到的类别与编码速率的对应关系,得到信号复杂度与编码速率的映射关系码本;测试测试码本是否有效。通过对本发明的正确使用,一方面可以进一步用于音乐的分类研究,另一方面对音乐复杂度的分级,在保证编码质量的前提下,用不同的速率对不同复杂度的音乐进行编码,使得音质与文件体积之间达到平衡,实现指导编码速率的自动选择,提高编码传输效率。
文档编号G10L15/06GK102610234SQ201210100679
公开日2012年7月25日 申请日期2012年4月9日 优先权日2012年4月9日
发明者严勤, 周云春 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1