基于音频关注度的分级编码方法及系统的制作方法

文档序号：2823916阅读：172来源：国知局

专利名称：基于音频关注度的分级编码方法及系统的制作方法
技术领域：
本发明涉及音频编码技术领域，尤其涉及一种基于音频关注度的分级编码方法及系统。
背景技术：
在安防监控系统中，不同的客户端具有不同的限制和需求，采用不同的监控终端与网络系统，提供不同的服务质量。异构的安防监控网络导致网络带宽波动频繁，使得系统无法为各种不同的客户端提供最优的码流。可分级编码技术是解决这一问题的有效手段，它将码流划分为一个核心层及多个增强层，其中核心层保证信号的最低重建质量，增强层则通过提高信噪比或者扩展频带的方式渐次改善重建质量。接收到的增强层数越多，解码音质越高。其优点在于，分级编码只需要提供一个唯一的码流，不需要为不同网络和客户端提供不同的码流，网络设备和客户端可以通过直接截短码流的方式实现码率的平滑切换，适应不同网络的带宽波动，满足不同客户端的应用需求。传统的可分级编码通常针对人耳感知特性，依据子带信号能量或信掩比等特征作为码率分配策略的依据，而安防监控环境下所关注的音频信号常常具有高能量、能量快速变化及方位快速变化等特征，如果依据人耳掩蔽等感知特性有可能造成能量较低但快速变化的关注音源被分配较少的编码比特，导致量化噪声增大，关注音源音质下降。这成为提高安防监控关注音源编码质量的障碍。要针对安防监控关注音频重点编码，前提是需要准确地判断出关注音频，这需要借助音频关注度分析技术。音频关注度即对音频信号的关注程度。在安防监控中，突然出现的高能量声音、能量快速变化或方位快速变化等类型音频信号往往标志着突发事件的发生，应当引起较高的关注。在这些关注音源中包含着重要的监控信息，对事件辨识的效果和特定关注音源的编码质量存在密切关系，因此应当重点针对监控所关注的音源对象提升质量。因而在现有安防监控系统带宽波动频繁的状况下，需要对音频中的关注音源进行优先编码，从而能以更准确地记录关注音源。

发明内容
针对上述存在的技术问题，本发明的目的是提供一种基于音频关注度的分级编码方法及系统，以解决安防监控对音频智能分析与高效精准编码提出的需求。为达到上述目的，本发明采用如下的技术方案一种基于音频关注度的分级编码系统预处理模块对输入信号进行预处理，其输入为音频原始信号，输出为预处理后的信号，预处理后的信号做两路输出一路输出给核心编码器模块；一路输出给残差映射模块；核心层编码模块采用通用的编码算法对来自预处理模块的输入信号进行编码，编码后作两路输出，其中一路输出为核心层码流，作为码流的一部分，另一路输出为解码后的重构信号，输出给残差映射模块；
残差映射模块预处理模块输出的预处理后的信号和核心层编码模块输出的解码后重构的信号为本模块的输入，用预处理后的信号和解码后的重构信号得到残差信号，本模块的输出为残差信号；子带划分模块残差映射模块输出的残差信号为本模块的输入，本模块对残差信号进行子带划分，得到子带残差信号，输出给量化/编码模块；关注度计算模块该模块的输入为关注度分析信号，关注度分析信号可以是预处理后的信号，也可以是解码后的重构信号，但不局限于这两种特征信号，本模块输出为子带关注度值，输出给基于关注度比特分配模块；基于关注度比特分配模块根据关注度计算模块输出的子带关注度值，对子带关注度值按照从高到低的顺序进行排序，提取子带关注度值最大的子带，该模块的输出为子带关注度值最大的子带编号，用于指导量化/编码模块的比特分配；量化/编码模块由子带划分模块输出的子带信号作为本模块的输入，并通过基于关注度比特分配模块输出的子带编号进行量化编码，该模块的输出为扩展层码流，作为码流的一部分。所述关注度计算模块中，通过关注度分析信号来计算每个子带关注度值大小，依据每个子带关注度值按照从大到小的顺序，然后逐个子带进行编码。所述关注度计算模块中，子带关注度值可以根据子带能量的高低，空间线索变化的快慢以及子带能量变化的快慢等特征进行计算或基于其中部分特征进行计算。一种基于音频关注度的分级编码方法①输入音频信号，所述输入音频信号可以是单声道或多声道信号，预处理可以包括高通滤波、分帧等处理，得到预处理后的音频信号s (η)；②由步骤①所得的预处理后的音频信号作为核心层编码的输入，核心层编码进行编码后，一路输出为核心编码码流作为码流的一部分，另一路作解码得到解码后的重构信号彻).③由步骤①得到预处理后的音频信号s(n)和由步骤②得到解码后的重构信号 S㈨，获得残差信号e (η)，对e (η)进行子带划分，划分成N个子带，其中N > 1 ；④计算N个子带的每个子带关注度值，此步骤首先确定计算输入的关注度分析信号，关注度分析信号可以是预处理后的信号s (η)，也可以是解码后的重构信号，但不局限于这两种信号，然后将子带按照子带关注度值的大小将子带从大到小进行排序；⑤提取未编码子带子带关注度值最大的子带编号；⑥根据步骤⑤获得的音频关注度值最大的子带编号，首先对该子带进行量化编码，如果关注度分析信号为预处理后的信号s (η)，编码端需要对子带编号进行编码，如果关注度分析信号为预处理后的信号，则编码端不需要对子带编号进行编码；⑦判断用于编码的比特数是否用尽，是则结束编码，否则返回步骤⑤。所述步骤④进一步包括以下子步骤子带划分的步骤对输入的关注度特征信号进行子带的划分；特征参数提取的步骤提取子带关注度计算所需特征参数，包括ILD、子带能量等特征参数；子带关注度计算的步骤结合特征参数提取的步骤计算的特征参数，得到这个子
5带关注度值，子带关注度值的计算方法可以根据具体情况的不同，设计不同的模型；子带排序的步骤根据子带关注度计算的步骤计算出的各个子带关注度值将子带从大到小进行排序。所述子带关注度计算的步骤中，子带关注度值的计算方法为f (Si, Ii) = Si^Ii其中，Si为子带空间音频参数，Ii为子带的能量。本发明具有以下优点和积极效果1)本发明根据音频关注度模型，提出基于子带关注度优先级的可分级码率分配策略，克服了现有可分级编码方法无法针对关注音源逐级提升质量的缺陷；2)本发明通过计算音频关注度来指导关注度分级编码层的量化与编码，能够针对人耳关注的音频信号进行优先编码，在安防监控领域有较好的应用前景。

图1是本发明提供的基于音频关注度的分级编码系统的框架示意图。图2是本发明提供的关注度分级的分级编码方法的流程图。图3是本发明子带划分及根据子带关注度值大小对子带的排序的一个示意图。图4是本发明提供的基于音频关注度的分级编码方法的框架例子示意图。附图标记101-音频原始信号，102-预处理后信号，103-解码后重构信号，104-残差信号， 105-子带残差信号，106-关注度分析信号，107-子带关注度值，108-子带编号，109-核心层码流，110-扩展层码流；201-音频原始信号，202-预处理后信号，203-解码后重构信号，204-残差信号， 205-子带残差信号，206-解码后重构信号，207-子带关注度值，208-子带编号，209-核心层码流，210-扩展层码流。
具体实施例方式本发明提供的基于音频关注度的分级编码系统分为两部分，一部分为核心编码层，另一部分为关注度编码层，其中核心层是通用的编码技术，关注度编码层可以分为多个增强层，该系统符合安防监控需求的音频压缩与处理框架。本发明的核心编码层采用的方法是通用的编码算法，关注度编码层采用的方法是本发明的主要内容。本发明提供的基于音频关注度的分级编码系统，如图1所示，具体包括以下部分预处理模块对输入信号进行预处理，其输入为音频原始信号201，输出为预处理后的信号202，预处理后的信号做两路输出一路输出给核心层编码模块；一路输出给残差映射模块；核心层编码模块采用通用的编码算法对预处理模块的输入信号进行编码，编码后作两路输出，其中一路输出为核心层码流，作为码流的一部分，另一路输出为解码后的重构信号203，输出给残差映射模块；残差映射模块预处理模块输出的预处理后的信号202和核心层编码模块输出的解码后重构的信号203为本模块的输入，用预处理后的信号202和解码后的重构信号203
6得到残差信号204，本模块的输出为残差信号204 ；子带划分模块残差映射模块输出的残差信号204为本模块的输入，本模块对残差信号进行子带划分，得到子带残差信号205，输出给量化/编码模块；关注度计算模块该模块的输入为关注度分析信号206，关注度分析信号206可以是预处理后的信号，也可以是解码后的重构信号，但不局限于这两种特征信号，本模块输出为子带关注度值207，输出给基于关注度比特分配模块；基于关注度比特分配模块根据关注度计算模块输出的子带关注度值207，对子带关注度值按照从高到低的顺序进行排序，提取子带关注度值最大的子带，该模块的输出为子带关注度值最大的子带编号208，用于指导量化/编码模块的比特分配；量化/编码模块由子带划分模块输出的子带信号205作为本模块的输入，并通过基于关注度比特分配模块输出的子带编号进行量化编码，该模块的输出为扩展层码流，作为码流的一部分。本发明提供的基于音频关注度的分级编码方法，具体包括以下步骤步骤1 对输入信号进行预处理，而预处理具体可以包括高通滤波、分帧、感知加权等过程，输出信号为预处理后的信号s (η) 201 ；步骤2 对预处理过后的信号进行核心层编码模块编码，核心层编码一路输出为核心编码码流；一路进行解码得到解码后的重构信号5 (η) 203 ；步骤3 根据步骤1的输出结果s (η)与步骤2的输出结果S (η)得到残差信号 e (η) 204，对e (η)进行子带划分，此处假设将整个信号划分为N个子带；步骤4 计算N个子带的每个子带关注度值207，此步骤首先得确定计算输入的关注度分析信号206，关注度分析信号可以是预处理后的信号s (η) 201，也可以是解码后的重构信号5 (η) 203，但不局限于这两种信号，然后将子带按照子带关注度值的大小将子带从大到小进行排序。本步骤具体实施方式
包括以下子步骤①子带划分对输入的关注度特征信号206进行子带的划分，划分方法与步骤3方法相同，但步骤3是对e(n)进行划分，此处是对输入的关注度特征信号行子带的划分，同样得到N个子
市ο②特征参数提取提取子带关注度计算所需特征参数，包括ILD、子带能量等特征参数。③子带关注度计算结合步骤②计算的特征参数，得到这个子带关注度值，子带关注度值的计算方法可以根据具体情况的不同，设计不同的模型，例如最简单的可取f (SyIi) =SjIi，这里&为子带空间音频参数，Ii为子带的能量。④子带排序根据③计算出的各个子带关注度值207将子带从大到小进行排序。图3提供了一个子带排序的一个示意图。步骤5 提取未编码子带的子带关注度值最大的子带编号。步骤6 根据步骤5获得的音频关注度值最大的子带编号，首先对该子带进行量化编码，如果关注度分析信号为预处理后的信号s (η) 201，编码端需要对子带编号进行编码，
7如果关注度分析信号为预处理后的信号5 (η) 203，则编码端不需要对子带编号进行编码。步骤7 量化完之后，判断用于编码的比特数是否用尽，如果用尽则结束编码，如果未用尽则返回步骤⑤。下面进一步以具体实施例结合附图对本发明作进一步说明步骤1 对采样率为16kHz输入信号进行预处理，而预处理具体包括高通滤波和感知加权两个过程，输出信号为s (η) 201 ；将输入信号送入高通滤波器，滤除50Hz以下的低频信号；将高通滤波后的信号送入感知加权滤波器^b(ζ)，同时Y ‘ 1； Y ‘ 2以及Y ‘ 3(0 < Y ‘ Y ‘ 2, Y ‘ 3< D三个系数也相应调整以缓和量化噪声谱Wlb(Z) =+“ O其中Y' 1； Y' 2, Y' 3为调整参量，为线性预测分析系数，i为线性预测的阶数，=1 +Λ A10Z-10。步骤2 对经过预处理过后的信号202进行8kbps模式的G. 729. 1编码器编码，核心层编码一路输出为核心编码码流；一路进行解码得到解码后的重构信号5 (η) 203 ；步骤3 对步骤1的输出结果s (η)与步骤2的输出结果S (η)(经过2倍上采样后的信号)作减法运算得到残差信号e (η) 204，对e (η)进行子带划分，此处假设将整个信号划分为N个子带，此处假设将整个信号均勻划分为64个子带。图3为均勻划分为8个子带的示意图，横轴表示子带划分范围，纵轴表示频域幅度，其中低频核心层编码用通用的编码算法；根据残差计算出来的子带在图中用数字“1”到“8”分别标示，其中子带1、子带2、子带3、和子带4是低频音频子带；子带5、子带6、子带7、和子带8是高频音频子带；64个子带的划分与8个子带划分同理；步骤4 计算64个子带的每个子带关注度值，此例选取解码后的重构信号5 (η)的情况，如图4所示，此处选取解码后的重构信号5 (η) 203原因是在编码端不用传子带关注度值，如果选取预处理后的信号s (η)则要传子带关注度值。然后根据子带关注度值大小从大到小顺序将子带进行排序，具体实施方式
为定义ip (k)为第k个子带关注度值，Sk为第k个子带的空间音频参数，Ik为第k个子带的能量，用如下公式计算每个子带关注度值ip(k) = f(sk，Ik) = sk*Ik其中k = 0，1，. · ·，63 ；步骤5 提取未编码子带的子带关注度值最大的子带编号207，送入步骤6进行量化编码。步骤6 根据步骤5获得的子带关注度值最大的子带编号207，对该子带进行量化编码。此处运用G. 729. 1中的TDAC球型矢量量化方法编码。步骤7 量化完这个子带后，判断用于编码的比特数是否用尽，是则结束编码，否则返回步骤5继续量化。图2是本发明内容的关注度分级编码算法流程图，涉及到关注度计算、关注度排序、和依据关注度值指导扩展层量化/编码。图3为8个子带划分与子带关注度值排序的示意图，横轴表示子带划分范围，纵轴
8表示幅度，其中低频核心层编码是本发明的基础，不在本发明考虑范围内；增强层均勻划分为8个子带，根据各子带关注度值比较，发现第6个子带关注度值最大，则先量化该子带，量化完成后找关注度值第二大的子带并对其量化；依次类推，分别编码第1到8个子带，图中各个子带内的数字是根据子带关注度值对各个子带优先次序排序后的序号。图4为本发明中编码框架图的一个具体实施例图。以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案，都落入本发明的保护范围。
9
权利要求
一种基于音频关注度的分级编码系统，其特征在于，包括预处理模块对输入信号进行预处理，其输入为音频原始信号，输出为预处理后的信号，预处理后的信号做两路输出一路输出给核心编码器模块；一路输出给残差映射模块；核心层编码模块采用通用的编码算法对来自预处理模块的输入信号进行编码，编码后作两路输出，其中一路输出为核心层码流，作为码流的一部分，另一路输出为解码后的重构信号，输出给残差映射模块；残差映射模块预处理模块输出的预处理后的信号和核心层编码模块输出的解码后重构的信号为本模块的输入，用预处理后的信号和解码后的重构信号得到残差信号，本模块的输出为残差信号；子带划分模块残差映射模块输出的残差信号为本模块的输入，本模块对残差信号进行子带划分，得到子带残差信号，输出给量化/编码模块；关注度计算模块该模块的输入为关注度分析信号，关注度分析信号可以是预处理后的信号，也可以是解码后的重构信号，但不局限于这两种特征信号，本模块输出为子带关注度值，输出给基于关注度比特分配模块；基于关注度比特分配模块根据关注度计算模块输出的子带关注度值，对子带关注度值按照从高到低的顺序进行排序，提取子带关注度值最大的子带，该模块的输出为子带关注度值最大的子带编号，用于指导量化/编码模块的比特分配；量化/编码模块由子带划分模块输出的子带信号作为本模块的输入，并通过基于关注度比特分配模块输出的子带编号进行量化编码，该模块的输出为扩展层码流，作为码流的一部分。
2.根据权利要求1所述的基于音频关注度的分级编码系统，其特征在于所述关注度计算模块中，通过关注度分析信号来计算每个子带关注度值大小，依据每个子带关注度值按照从大到小的顺序，然后逐个子带进行编码。
3.根据权利要求1或2所述的基于音频关注度的分级编码系统，其特征在于所述关注度计算模块中，子带关注度值可以根据子带能量的高低，空间线索变化的快慢以及子带能量变化的快慢等特征进行计算或基于其中部分特征进行计算。
4.一种基于音频关注度的分级编码方法，其特征在于，包括以下步骤①输入音频信号，所述输入音频信号可以是单声道或多声道信号，预处理可以包括高通滤波、分帧等处理，得到预处理后的音频信号s (η)；②由步骤①所得的预处理后的音频信号作为核心层编码的输入，核心层编码进行编码后，一路输出为核心编码码流作为码流的一部分，另一路作解码得到解码后的重构信号Kn). ③由步骤①得到预处理后的音频信号s(η)和由步骤②得到解码后的重构信号对功，获得残差信号e(n)，对e(n)进行子带划分，划分成N个子带，其中N > 1 ；④计算N个子带的每个子带关注度值，此步骤首先确定计算输入的关注度分析信号，关注度分析信号可以是预处理后的信号s(n)，也可以是解码后的重构信号，但不局限于这两种信号，然后将子带按照子带关注度值的大小将子带从大到小进行排序；⑤提取未编码子带子带关注度值最大的子带编号；⑥根据步骤⑤获得的音频关注度值最大的子带编号，首先对该子带进行量化编码，如果关注度分析信号为预处理后的信号s (η)，编码端需要对子带编号进行编码，如果关注度分析信号为预处理后的信号，则编码端不需要对子带编号进行编码；⑦判断用于编码的比特数是否用尽，是则结束编码，否则返回步骤⑤。
5.根据权利要求4所述的基于音频关注度的分级编码方法，其特征在于，所述步骤④ 进一步包括以下子步骤子带划分的步骤对输入的关注度特征信号进行子带的划分；特征参数提取的步骤提取子带关注度计算所需特征参数，包括ILD、子带能量等特征参数；子带关注度计算的步骤结合特征参数提取的步骤计算的特征参数，得到这个子带关注度值，子带关注度值的计算方法可以根据具体情况的不同，设计不同的模型；子带排序的步骤根据子带关注度计算的步骤计算出的各个子带关注度值将子带从大到小进行排序。
6.根据权利要求5所述的基于音频关注度的分级编码方法，其特征在于所述子带关注度计算的步骤中，子带关注度值的计算方法为f(Si，Ii) = SjIi其中，Si为子带空间音频参数，Ii为子带的能量。
全文摘要
本发明涉及音频编码技术领域，尤其涉及一种基于音频关注度的分级编码方法及系统。本发明分核心层编码和扩展层编码，首先对输入信号进行预处理，进行核心层编码和扩展层编码，其中扩展层对预处理后的信号进行子带划分、计算每个子带关注度值，并根据子带关注度值优先提取子带关注度最大的子带、进行量化编码；本发明系统包括预处理模块、核心层编码模块、残差映射模块、子带划分模块、关注度计算模块、基于关注度的子带比特分配模块、量化/编码模块。本发明对关注度程度高的子带优先编码，针对关注音源逐级提升质量的缺陷，从而实现了高效的基于关注度的可分级音频编码。
文档编号G10L19/14GK101950562SQ201010530779
公开日2011年1月19日申请日期2010年11月3日优先权日2010年11月3日
发明者周超群, 杨玉红, 杨裕才, 杭波, 王国英, 王松, 胡瑞敏, 赵云, 高丽申请人:武汉大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡瑞敏;杭波;杨玉红;杨裕才;高丽;赵云;王松;王国英;周超群
技术所有人：武汉大学
我是此专利的发明人

上一篇：共振型光驱动发声装置的制作方法
上一篇：一种音频数据的比较方法和装置的制作方法