一种音频质量自调整控制方法与流程

文档序号：15359377发布日期：2018-09-05 00:27阅读：212来源：国知局

本发明涉及流媒体及网络通信技术领域，尤指一种音频质量自调整控制方法。

背景技术：

音频是网络上流媒体的主要业务之一，良好的音频体验质量保证是服务提供商赢得客户、占有市场的关键技术因素。网络系统的复杂性、多样性和脆弱性，使得体验质量保证和优化面临着诸多不确定的因素。尽管对音频质量的优化调整已有一些研究，但总的来看，存在以下不足：

传统研究中是通过对单一参数的调控（如采用编码速率调整的方式）来改善音频体验质量，但我们的实验表明，如仅针对单一可控参数进行优化调整，体验质量可调整的区域范围较小，难以实现从“差”或“劣”等级到“优”或“良”等级的转化；

对各单元、各单元中可控参数如何调整，调整到何种程度缺少具体的量化度量标准或参考；

缺乏利用多方法或多手段的综合策略去优化音频质量的研究，一个完整的音频系统由多个单元组成，但显然系统中各组成单元对音频体验质量的影响不同，可控制性也不相同，因此，传统单一的优化策略难以实现音频应用体验质量的有效提升。

技术实现要素：

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明提供一种音频质量自调整控制方法，完成该方法，包括发送单元、传输单元、接收单元、监测单元四个部分，包括：

步骤一，接收单元将音频质量划分为优、良、中、差、劣5个等级，其具体数值用集合{mos5=5、mos4=4、mos3=3、mos2=2、mos1=1}表示，共划分为4个区间：[5,4]、（4,3]、（3,2]、（2,1]，其中，mos5表示音频等级为‘优’等，mos4表示音频等级为‘良’等，mos3表示音频等级为‘中’等，mos2表示音频等级为‘差’等，mos1表示音频等级为‘劣’等；将mos4标记为第一阈值、mos3标记为第二阈值、mos2标记为第三阈值、mos1标记为第四阈值；

步骤二，监测单元实时计算音频应用体验质量值，通过实验获取发送单元、传输单元、接收单元中的不同参数与音频应用体验质量值的对应关系，得到训练数据集，借助机器学习算法建立体验质量评估模型，模型至少包含输入层、输出层两层；设定输入层至少具有6个输入，输入层的6个输入为编码类型、编码速率、传输路径性能的时延、抖动、丢包，以及接收缓存参数；输出层输出体验质量；该模型实现发送单元、传输单元、接收单元中可控的多维参数向体验质量的映射；

步骤三，确定发送单元、传输单元、接收单元中编码类型、编码速率、传输路径性能、接收缓存可控参数变化对体验质量的影响变化程度，建立音频应用中各组成单元中可控参数值变化与体验质量增加值或降低值的对应映射关系；

步骤四，监测单元在系统终端测量体验质量，将测量值与预设体验质量阈值等级进行比较，根据比较分析结果至少调整发送单元、传输单元、接收单元中编码类型、编码速率、传输路径性能、接收缓存中的至少一个，按照调整后的编码类型和、或编码速率和、或传输路径参数和、或接收缓存，来进一步发送、传输、接收音频信号，进而达到优化音频应用体验质量的目的。

其中，确定发送单元中可控参数对音频体验质量影响的步骤包括：

发送单元控制编码类型、编码速率；

针对不同编码类型对应的语音质量而言，g.711＞g.726＞g729＞g.723；

g711编码音频质量高于g.726编码0.4mos值，g.726编码音频质量高于g729编码0.2mos值，g729编码音频质量高于g.723编码0.2mos值；

针对不同编码速率对应的语音质量而言，同一编码下，较高编码速率的音频质量高于较低编码的体验质量：11.8kbit（g729）＞8kbit（g729）＞6.4kbit（g729）；6.3kbit（g723.1）＞5.3kbit（g723.1）；

g729编码的可扩展速率中，11.8kbit编码速率比8kbit编码速率的音频质量高0.2mos值，8kbit编码速率比6.4kbit编码速率的音频质量高0.1mos值，g723.1编码中，6.3kbit编码速率比5.3kbit编码速率的音频质量高0.1mos值。

其中，确定传输单元中可控参数对音频体验质量影响的步骤包括：

传输单元控制传输路径性能；针对传输路径丢包率（plr）而言，对g.711编码，以无网络丢包情况为参考，0.8%丢包率可使音频质量降低0.1mos值，3.3%丢包率可使音频质量降低0.5mos值，7.6%丢包率使音频质量降低1mos值，11.8%丢包率使音频质量降低1.5mos值，19%丢包率使音频质量降低2mos值；对编码g.729而言，相比无网络丢包的情况，0.5%丢包率使音频质量降低0.1mos值，2.1%丢包率使音频质量降低0.5mos值，5.7%丢包率使音频质量降低1mos值，9.8%丢包率使音频质量降低1.5mos值，16%丢包率使音频质量降低2mos值；根据上述数据，利用插值法或曲线拟合方法，计算出丢包率（plr）与mos值变化()之间的函数关系，如下：

（g.711编码，plr取值范围为0～1）

（g.729编码，plr取值范围为0～1）

针对传输路径时延(delay)而言，对各类编码类型，以无网络时延情况为参考，170毫秒传输时延使各类音频编码质量降低0.1mos值，265毫秒传输时延使各类音频编码质量降低0.5mos值，360毫秒传输时延使各类音频编码质量降低1mos值，480毫秒传输时延使各类音频编码质量降低1.5mos值，700毫秒传输时延使各类音频编码质量降低2mos值；根据上述数据，利用插值法或曲线拟合方法，计算时延（delay）与mos值变化()之间函数关系，如下：

（delay取值单位为ms）

针对传输路径抖动(jitter)而言，如对编码类型g.711，抖动缓冲为10毫秒的情况下，以无抖动情况为参考，1毫秒抖动使音频质量降低0.1mos值，3毫秒抖动使音频质量降低0.5mos值，6毫秒抖动使音频质量降低1mos值，9毫秒抖动使音频质量降低1.5mos值，10毫秒抖动使音频质量降低2mos值；抖动缓冲为20毫秒的情况下，以无抖动情况为参考，4毫秒抖动使音频质量降低0.1mos值，8毫秒抖动使音频质量降低0.5mos值，10毫秒抖动使音频质量降低1mos值，12毫秒抖动使音频质量降低1.5mos值，18毫秒抖动使音频质量降低2mos值；

抖动缓冲为40毫秒的情况下，以无抖动情况为参考，9毫秒抖动使音频质量降低0.1mos值，12毫秒抖动使音频质量降低0.5mos值，16毫秒抖动使音频质量降低1mos值，19毫秒抖动使音频质量降低1.5mos值，21毫秒抖动使音频质量降低2mos值；对编码类型g.729，抖动缓冲为10毫秒的情况下，以无抖动情况为参考，1毫秒抖动使音频质量降低0.1mos值，3毫秒抖动使音频质量降低0.5mos值，5毫秒抖动使音频质量降低1mos值，7毫秒抖动使音频质量降低1.5mos值，9毫秒抖动使音频质量降低2mos值；抖动缓冲为20毫秒的情况下，以无抖动情况为参考，5毫秒抖动使音频质量降低0.1mos值，8毫秒抖动使音频质量降低0.5mos值，11毫秒抖动使音频质量降低1mos值，13毫秒抖动使音频质量降低1.5mos值，18毫秒抖动使音频质量降低2mos值；抖动缓冲为40毫秒的情况下，以无抖动情况为参考，10毫秒抖动使音频质量降低0.1mos值，11毫秒抖动使音频质量降低0.5mos值，16毫秒抖动使音频质量降低1mos值，18毫秒抖动使音频质量降低1.5mos值，20毫秒抖动使音频质量降低2mos值；根据上述数据，利用插值法或曲线拟合方法，计算上述情况下抖动（jitter）与mos值变化()之间函数关系如下，抖动缓冲为20毫秒为例：

（g.711编码，jitter取值单位为ms，jitterbuffer为20ms）

（g.729编码，jitter取值单位为ms，jitterbuffer为20ms）。

其中，确定接收单元中可控参数对体验质量影响的步骤包括：

接收单元控制接收缓存大小；针对接收缓存大小(jitterbuffer)而言，对编码类型g.711音频信号而言，传输过程中有2毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.30，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.36；传输过程中有4毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.49，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.63；传输过程中有6毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.69，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.94；传输过程中有8毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.97，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.33；传输过程中有10毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.77，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.53；传输过程中有12毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.42，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.53；传输过程中有14毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.29，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.41；传输过程中有16毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.27，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.18；传输过程中有18毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.26，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.97；根据上述数据，利用插值法或曲线拟合方法，相对于10毫秒抖动缓冲，不同抖动缓冲条件下，抖动（jitter）与mos值变化()之间大致函数关系如下：

（jitterbuffer为20ms，jitter取值单位为ms）

（jitterbuffer为40ms，jitter取值单位为ms）

对编码类型g.729，传输过程中有2毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.35，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.37；传输过程中有4毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.66，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.75；传输过程中有6毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.15，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.33；传输过程中有8毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.41，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.87；传输过程中有10毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.36，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加2.0；传输过程中有12毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.92，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.87；传输过程中有14毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.61，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.73；传输过程中有16毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.35，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加1.38；传输过程中有18毫秒抖动的情况下，20毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.29，40毫秒抖动缓冲比10毫秒抖动缓冲mos值增加0.87；根据上述数据，利用插值法或曲线拟合方法，相对于10毫秒抖动缓冲，不同抖动缓冲条件下，抖动（jitter）与mos值变化()之间函数关系如下：

（jitterbuffer为20ms，jitter取值单位为ms）

（jitterbuffer为40ms，jitter取值单位为ms）

上述发送单元、传输单元、接收单元中编码类型、编码速率、传输路径性能、接收缓存等可控参数与体验质量mos值变化的对应关系，为本发明设计音频应用优化策略提供了数据支撑。

其中，监测单元针对不同情况做出相应优化调整策略的步骤包括：

周期性对比音频体验质量测量值与预设音频体验质量阈值，根据对比结果调整性能参数中的一个或几个，以实现对音频的优化调整；

分4种情况分别做出调整策略，其中体验质量计算值用mosc表示：

若mosc大于等于第一阈值，则发送单元、传输单元、接收单元中的设置均不做调整；

若mosc小于第一阈值且大于等于第二阈值，可对发送单元、接收单元的设置作出调整，以进一步优化体验质量，即根据体验质量编码、速率对应的体验质量情况，将低体验质量的编码类型、编码速率向高体验质量的编码类型、速率进行调整；

具体优化过程中，如通过调整编码类型、编码速率可使音频应用的体验质量高于第二域值0.6mos值（此数值参考e-model体验质量划分标准），则不再进行优化；否则，在下一音频传输周期中，将接收单元现有接收缓冲增加1倍，以进一步改善体验质量值，此时，不管mos是否还能获得较大提升，直接退出优化程序；

若mosc小于第二阈值且大于等于第三阈值，对g.711编码而言，丢包值不大于3.3%，且抖动值不大于12毫秒（40毫秒缓冲下）、8毫秒（20毫秒缓冲下）、3毫秒（10毫秒缓冲下）情况下，则仅对发送单元、接收单元的设置作出调整，优化体验质量，即根据体验质量编码、速率对应的体验质量情况，将低体验质量的编码类型、速率向高体验质量的编码类型、速率进行调整，直至mosc大于等于第二阈值；如下一评价周期中，体验质量仍低于第二阈值，则接收单元将现有接收缓冲增加1倍，进一步改善体验质量值；如体验质量仍不能大于等于第二阈值，则通过传输单元调整音频传输路径，优化音频体验质量，直至mosc大于等于第二阈值；

若mosc小于第三阈值，表明该情况下，传输路径不能满足音频传输需要，则需断开音频传输链接，重新选路，则主要通过调整传输单元来优化体验质量。

本发明的主要目的：划分音频体验等级，确定预设体验质量阈值区间，确定发送单元、传输单元、接收单元中可控参数种类；确定发送单元、传输单元、接收单元中编码类型、编码速率、传输路径、接收缓存等可控参数变化对体验质量值的影响变化程度，建立系统可控参数与体验质量等级调整映射关系；针对性采用编码优化、路径优化、码率优化、缓存优化等策略来调控体验质量。

附图说明

图1为本发明的基本原理图；

图2为本发明中，当mosc小于第一阈值且大于等于第二阈值时调整策略流程图；

图3为本发明中，当mosc小于第二阈值且大于等于第三阈值时调整策略流程图；

图4为本发明中，具体实验例系统构成图；

图5为本发明中，一个实施例中采用本方法后音频体验质量比较示意图（mosc小于第一阈值且大于等于第二阈值情况）；

图6为本发明中，一个实施例中采用本方法后音频体验质量比较示意图（mosc小于第二阈值且大于等于第三阈值情况）。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，本领域普通技术人员可通过本附图获得其他的附图。

本发明提供了一种音频质量自调整控制方法，该方法的基本原理图如图1所示。完成该方法，包括发送单元、传输单元、接收单元、监测单元四个部分，包括：

进一步，确定发送单元中可控参数对音频体验质量影响的步骤包括：

发送单元控制编码类型、编码速率；

针对不同编码类型对应的语音质量而言，g.711＞g.726＞g729＞g.723；

g711编码音频质量高于g.726编码0.4mos值，g.726编码音频质量高于g729编码0.2mos值，g729编码音频质量高于g.723编码0.2mos值；

进一步，确定传输单元中可控参数对音频体验质量影响的步骤包括：

（g.711编码，plr取值范围为0～1）

（g.729编码，plr取值范围为0～1）

（delay取值单位为ms）

（g.711编码，jitter取值单位为ms，jitterbuffer为20ms）

（g.729编码，jitter取值单位为ms，jitterbuffer为20ms）。

进一步，确定接收单元中可控参数对体验质量影响的步骤包括：

（jitterbuffer为20ms，jitter取值单位为ms）

（jitterbuffer为40ms，jitter取值单位为ms）

（jitterbuffer为20ms，jitter取值单位为ms）

（jitterbuffer为40ms，jitter取值单位为ms）

进一步，监测单元针对不同情况做出相应优化调整策略的步骤包括：

周期性对比音频体验质量测量值与预设音频体验质量阈值，根据对比结果调整性能参数中的一个或几个，以实现对音频的优化调整；

分4种情况分别做出调整策略，其中体验质量计算值用mosc表示：

若mosc大于等于第一阈值，则发送单元、传输单元、接收单元中的设置均不做调整；

若mosc小于第三阈值，表明该情况下，传输路径不能满足音频传输需要，则需断开音频传输链接，重新选路，则主要通过调整传输单元来优化体验质量。

本发明针对现有音频质量的优化调整技术的不足，提出了一种音频质量的优化调整方法，其根据音频体验质量来调整系统中多个单元可控参数，主要涉及发送单元、传输单元、接收单元，涉及音频编码、音频编码速率、传输网络性能、接收缓冲大小等多个可控参数。本发明适用于无线、有线网络中voip、音频点播等多个场景。其系统及各功能单元如图2所示。

发送单元主要完成音频信号的编码、封包发送等功能，发送单元中的可控参数主要包括编码类型和编码速率，其接收监测单元对音频体验质量的评价结果，依事先设定的算法机制完成对可控参数的调整来达到优化体验质量的目的。本实施例所用软件为openphone；

传输单元主要完成音频封包的传输，发送单元中的可控参数主要包括带宽、丢包、时延、抖动等可控参数，通常不同的传输路径，网络性能的参数各不相同，借助rtp协议和网络测量算法可较容易得到网络传输路径的具体指标，在本方法中，当音频质量较差，就需通过调整数据包传输路径来改善信号传输路径性能，进而提升音频质量。但相比其它两个单元而言，传输单元的调整最为复杂，因此音频质量较好的情况下，一般不对传输单元进行调整。本实施例为了便于控制传输路径性能，所用软件为nistnet；

接收单元主要完成音频信号的解包、解码等功能，接收单元中可控的参数主要是接收缓冲大小，该参数对音频质量有着非常重大的影响，具体实施例中主要是根据监测单元的反馈，依事先设定的算法机制完成对接收缓冲的调整来达到优化音频体验质量的目的。本实施例接收端所用软件为openphone；

监测单元主要完成实时计算音频应用体验质量值，目前常用机器学习方法均可实现该功能，如svm、神经网络、决策树等，本实施例选用人工神经网络作为建立映射关系的方法，输入层包括编码类型、编码速率、时延、抖动、丢包、接收缓存共6个参数，隐藏层20个节点，输出层具有1个输出。

当发送端编码为g.729,抖动约为2ms，丢包约为2%，时延值为100ms、抖动缓冲20ms情况下，mos值约为3.04，利用图3所示方法，对音频应用进行优化，则音频质量优化后编码为g.711，抖动缓冲40ms，音频质量经测量约为3.60。

当发送端编码为g.729,抖动约为8ms，丢包约为6%，时延值为150ms、抖动缓冲20ms情况下，mos值约为2.07，利用图4所示方法，先需对网络传输路径进行修化，再利用发送单元或（及）接收单元对音频应用进行优化，则音频质量优化后编码为g.711，音频质量经测量约为3.50。

图5和图6为采用本方法后音频体验质量比较示意图，其中，图5是mosc小于第一阈值且大于等于第二阈值的情况，图6是mosc小于第二阈值且大于等于第三阈值的情况。由图可知，经过本方法的调整，音频体验质量均得到改善。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型、改进，这些变型和改进也视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡治国;郭丽峰;闫涛
技术所有人：山西大学
我是此专利的发明人

上一篇：螺栓棒料输送上料机的制作方法
上一篇：一种燃料电池导电添加剂及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。