一种直录播互动系统中的音频处理方法及装置的制造方法_2

文档序号：9218172阅读：来源：国知局

混音权重分配后的语音信号包络值611\进行平滑处理；其中，处理过程如下：Ei=envjh+env'3(1-11);其中，env'i表示第i路音频采集设备上一个采样点的语音信号包络值，h表示平滑系数，Ei表示第i路音频采集设备平滑处理后的语音信号包络值。
[0033] 获取各个音频采集设备平滑处理后的语音信号包络值总和即
及各个音频采集设备的语音信号权重值
[0034] 将各个音频采集设备平滑处理后的语音信号包络值总和E与阈值Eth进行比较，并根据比较结果做出相应处理。
[0035] 根据比较结果做出相应处理的过程为：
[0036] 若E彡Eth，Eth表示音频采集设备语音信号包络总和的阈值，则对权重值Wi做平滑，得到二次混音权重值&，
[0038] 其中叫、1112表不平滑系数，wth表不权重值的阈值；
[0039] 如果E>Eth，对权重值做平滑：
[0041] 其中W'i表示第i路音频采集设备上一个采样点所分配的权重值。
[0042] 根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值的过程：混音后的音频输出值
[0043] 步骤104 :根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值。
[0044] 所述方法还包括对混音后的音频输出值进行限幅处理，根据混音后的音频输出值与预设限幅的阈值上限和预设限幅的阈值下限的比较，并根据比较结果进行对应的处理，得到混音后的最终输出值。
[0045] 具体而言，将混音后的音频输出值的绝对值与预设限幅的阈值上限（EH)和预设限幅的阈值下限（EJ进行比较，假设EHS1. 5，E^%0. 5,当|Em| <E^t，混音后的最终输出值￡_=￡"1;当匕彡旧」<￡11时，混音后的最终输出值
当|Em|彡EH，混音后的最终输出值E^fsignD^*，
[0046] 下面举例进行详细说明：
[0047] 假设在直录播互动教室中，安装有1个全景摄像头用于拍摄整个录播教室的图像，在教室中的不同的位置安装6个麦克风（即n = 6)并记录每个麦克风的位置坐标，得到麦克风1的坐标MiCl(53,60)，麦克风2的坐标Mic 2(159,60)，麦克风3的坐标 Mic3 (265, 60)，麦克风4的坐标Mic4 (53, 180)，麦克风5的坐标Mic5 (159, 180)，麦克风6的坐标 Mic6(265, 180)。
[0048] 假设声源的发出者为教师，通过全景摄像头获取尺寸为320X240的整个录播教室的当前帧图像如图2所示，根据运动目标检测法检测得到教师所在当前帧图像中的位置为P(120, 100)，根据公式
，计算得到麦克风1对应的
，按照同样方法得到麦克风2对应的12为3. 204e _4,麦克风3对应的13为4. 420e A麦克风4对应的14为9. 184e A麦克风5对应的15为1. 262e汔麦克风6对应的16为3. 646e _5。再通过公式
计算分别得到麦克风 1对应的一次混音权重值匕为0. 2096,麦克风2对应的一次混音权重值k 2为0. 4090,麦克风3对应的一次混音权重值匕为0. 0564,麦克风4对应的一次混音权重值k 4为0. 1172,麦克风5对应的一次混音权重值匕为0. 1611，麦克风6对应的一次混音权重值k 6为0. 0466。
[0049] 假设图像的采样频率为30Hz，声音的采样频率为44. lKHz，因此当前帧图像的采样点a对应多个声音采样点，以其中一个声音采样点B为例，声音采样点B的前一个声音采样点为A，且该采样点A对应的当前帧图像的采样点a，各麦克风在声音采样点B进行采样时，麦克风1采集到的语音信号幅值为〇. 4,麦克风2采集到的语音信号幅值为0. 6,麦克风3采集到的语音信号幅值为0. 4,麦克风4采集到的语音信号幅值为0. 1，麦克风5采集到的语音信号幅值为0. 5,麦克风6采集到的语音信号幅值为0. 1，得到麦克风1进行一次混音权重分配后的语音信号包络值为enVl= |e0. 4X0. 2096 = 0. 08384,得到麦克风2进行一次混音权重分配后的语音信号包络值为env2= |e 2|*k2= 0. 6X0. 4090 =0. 2454,得到麦克风3进行一次混音权重分配后的语音信号包络值为env3= | e 31 *k3 = 0. 4X0. 0564 = 0. 02256,得到麦克风4进行一次混音权重分配后的语音信号包络值为env4 =|e4|*k4= 0. 1X0. 1172 = 0.01172,得到麦克风5进行一次混音权重分配后的语音信号包络值为env5= |e5|*k5= 0. 5X0. 1611 = 0. 08055,得到麦克风6进行一次混音权重分配后的语音信号包络值为 env6= |e6|*k6= 0? 1X0.0466 = 0.00466。
[0050] 假设各麦克风在声音米样点A(即声音米样点B的前一个声音米样点）进行米样时，得到的一次混音权重分配后的语音信号包络值分别为erw'0. 08421、env' 2 = 0. 2412、env' 3= 0. 0223、env' 4= 0. 0116、env' 5= 0. 08231、env' 6= 0. 00435，
[0051] 假设平滑系数为0? 0023,得到麦克风1的E1= env fh+env' ^(1-h)= 0? 08384X0. 0023+0. 08421X0. 9977 = 0? 084,麦克风 2 的 E2S 0? 241，麦克风 3 的 E 3为 0. 022,麦克风4的E4S 0. 012,麦克风5的E 5为0. 082,麦克风6的E 6为0. 004。因此，麦克风1-6平滑处理后的语音信号包络值总和E为0. 445,并通过计算得到麦克风1的语音信号权重值1为0. 189,麦克风2的W 2为0. 542,麦克风3的W 3为0. 049,麦克风4的W 4为 0. 027,麦克风5的15为0. 184,麦克风6的W 6为0. 009。
[0052]假设 Eth为 0? 85、w th为 1、m 丄为 0? 9925、m ^为〇? 9996, E H为 1. 5, E 匕为 0? 5，麦克风1-6平滑处理后的语音信号包络值总和E为0.445, E小于Eth，因此根据公式
对麦克风1-6的权重值1进行平滑，以麦克风1的权重值A的平滑为例，W $ 0. 189,由于W i小于w th，因此将数值带入公式％* (l-m2) +Wth*m# 得到二次混音权重值力为0. 9997,并根据上述公式依次得到w 2为0. 9998, w 3为0. 9996, w 4 为0. 9996,《5为0. 9997, w 6为0. 9996,得到混音后的音频输出值
由于得到的Em的绝对值小于E ^ 0. 5,因此对混音后的音频输出值Em进行限幅处理，得到混音后最终输出值0.491。
[0053] 图4所示为根据本发明的较佳实施例提供的直录播互动系统中的音频处理装置，如图4所示，本发明的较佳实施例提供的直录播互动系统中的音频处理装置，上述装置包括：全景摄像机401、音频采集设备402和智能

完整全部详细技术资料下载

当前第2页1 2 3