一种视频会议系统的多麦克风混音方法

文档序号：7813157阅读：1526来源：国知局

一种视频会议系统的多麦克风混音方法
【专利摘要】本发明提供一种视频会议系统的多麦克风混音方法，通过各麦克风通道采集声音与扬声器播放声音之间的延时时间以及采集声音的能量大小来判定最大回声通道，以排除回声最大的通道，再由各可选通道采集帧能量值以及它们之间的相关性，选择最佳通道采集的声音作为混音源并确定所选通道的混音权值，最后根据所选通道及确定的混音权值进行混音输出。本发明选择最佳通道采集的声音作为最优混音源，且所有算法按照自适应设计，能动态调整最优混音源，保证了声音的采集范围和音质效果。
【专利说明】一种视频会议系统的多麦克风混音方法

【技术领域】
[0001] 本发明涉及一种混音处理方法，更具体地说，涉及一种用于视频会议的多麦克风混音处理方法。

【背景技术】
[0002] 早期的视频会议系统一般都使用定向或者全向麦克风来进行声音采集，全向麦克风的声音采集范围大，但混响严重，音质不佳，定向麦克风音质好，但声音采集范围窄，为解决音质和声音采集范围的矛盾，目前视频会议系统已经开始采用多麦克风的方案，通过多个定向麦克风的组合，来保证声音的采集范围和音质。而如何组合多麦克风采集的数据，形成最佳的混音（多路语音数据混合形成一路输出语音）效果，成为多麦克风方案需要解决的核心问题。
[0003] 自适应是指处理和分析过程中，根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件，使其与所处理数据的统计分布特征、结构特征相适应，以取得最佳的处理效果。

【发明内容】

[0004] 本发明要解决的技术问题，在于提供一种视频会议系统的多麦克风混音方法，先判定最大回声通道并将其排除，再选择出最佳通道采集的声音作为混音源，最后确定动态变化的混音权值输出混音。选择最佳通道采集的声音作为最优混音源，保证了声音的采集范围和音质效果。
[0005] 本发明是这样实现的：一种视频会议系统的多麦克风混音方法，所述方法包括声音采集过程、延时估计过程、回声通道判定过程、混音源选择过程和混音输出过程：
[0006] 所述声音米集过程是：扬声器播放声音，复数个麦克风通道米集声音；将所述扬声器播放的声音和各麦克风通道米集的声音按巾贞分块存储，得到扬声器的播放巾贞能量和各麦克风通道的采集帧能量，每帧长度为一固定值，每帧包含复数个点；
[0007] 所述延时估计过程：得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间；
[0008] 所述最大回声通道判定过程：根据得到的各麦克风通道的延时时间，将各麦克风通道米集的声音与扬声器播放的声音按巾贞对齐，再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道，即该通道所含的回声成分最高，选择混音源时将最大回声通道排除，以保证消除会议系统的回声；
[0009] 所述混音源选择过程：将所述最大回声通道排除后，选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音，计算所述两个混音源每帧的混音权值；
[0010] 所述混音输出过程是：由所述两个混音源每帧的混音权值得到混音每帧各个点的输出值，最终再由各麦克风通道输出混音。
[0011] 进一步的，所述延时时间的计算过程如下：
[0012] 步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对 t匕，得到各麦克风通道的延时时间，计算公式如下公式1所示：
[0013]

【权利要求】
1. 一种视频会议系统的多麦克风混音方法，其特征在于，所述方法包括声音采集过程、延时估计过程、最大回声通道判定过程、混音源选择过程和混音输出过程：所述声音米集过程是：扬声器播放声音，复数个麦克风通道米集声音；将所述扬声器播放的声音和各麦克风通道米集的声音按巾贞分块存储，得到扬声器的播放巾贞能量和各麦克风通道的采集帧能量，每帧长度为一固定值，每帧包含复数个点；所述延时估计过程：得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间；所述最大回声通道判定过程：根据得到的各麦克风通道的延时时间，将各麦克风通道米集的声音与扬声器播放的声音按巾贞对齐，再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道，即该通道所含的回声成分最高，选择混音源时将最大回声通道排除，以保证消除会议系统的回声；所述混音源选择过程：将所述最大回声通道排除后，选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音，计算所述两个混音源每帧的混音权值；所述混音输出过程是：由所述两个混音源每帧的混音权值得到混音每帧各个点的输出值，最终再由各麦克风通道输出混音。
2. 根据权利要求1所述一种视频会议系统的多麦克风混音方法，其特征在于，所述延时时间的计算过程如下：步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对比，得到各麦克风通道的延时时间，计算公式如下公式1所示：
(1) 公式（1)中，N表不声音最大延时对应的样点数，η为1到N的正整数，i表不声音每中贞包含的点数，cap (i+n)表示麦克风通道的采集巾贞第i+n个点的值，play⑴表示扬声器的播放帧第i个点的值，cor (η)表示麦克风通道和扬声器播放通道的线性相关值；步骤22、公式（1)中每一个η对应一个所述线性相关值，将最大的线性相关值对应的η 换算成t，得到麦克风通道的延时时间，换算过程如下公式（2)所示：
(2)
3. 根据权利要求1所述一种视频会议系统的多麦克风混音方法，其特征在于，所述子带能量是指声音每帧上的各个点经过FFT后对应得到的每个点的能量幅值，所述最大回声通道判定过程，具体如下公式（3)和公式（4)所示：
(3) (4) 公式（3)和公式（4)中，i表示通道索引，j表示子带索引，Μ表示子带总数，PMP (i，j) 表示第i麦克风通道第j子带能量，Pplay(j)为扬声器第j子带能量，Π (i，j)表示第i麦克风通道第j子带能量的衰减比，n_n(i)表示第i麦克风通道平均子带能量的衰减比；将公式（3)得到的值代入公式（4)中能得到各麦克风通道对应的平均子带能量的衰减 t匕，再对每个麦克风通道的平均子带能量的衰减比进行排序，其中最大平均子带能量的衰减比对应的麦克风通道就是最大回声通道。
4. 根据权利要求1所述一种视频会议系统的多麦克风混音方法，其特征在于，所述混音源包括，任意选择采集帧能量最大的两个麦克风通道中的一个麦克风通道采集的声音记为混音源mixO,则另一个麦克风通道采集的声音记为混音源mixl，所述两个混音源mixO和 mixl每帧的混音权值计算过程，如公式（5)和公式（6)所示：
(5) 所述公式（5)和公式（6)中，λπ?χ。与别表示混音源mix〇和mixl每帧的混音权值，Y表示遗忘因子，为一固定常数，PMP(mixO)表示混音源mixO每巾贞的能量值，PMP(mixl) 表示混音源mixl每巾贞的能量值；将公式（5)得到的混音源mixO每帧的混音权值代入公式（6)能得到混音源mixl每帧的混音权值，两个混音源的混音权值都是每帧更新一次，其中混音源mixO的混音权值有初始值。
5. 根据权利要求4所述一种视频会议系统的多麦克风混音方法，其特征在于，所述混音输出的过程如公式（7)所示：
(7) 所述公式（7)中，i表示混音源mixO和混音源mixl采集声音每帧所包含的点数， capmix(l[i]表示混音源mixO的采集巾贞第i个点的值，capmixl[i]表示混音源mixl的采集中贞第i个点的值，out [i]表示混音每帧第i个点的输出值；将所述公式（5)和公式（6)得到的混音源mixO和mixl每帧的混音权值代入公式（7)，就得到混音每帧第i个点的输出值。
【文档编号】H04H60/04GK104219013SQ201410441776
【公开日】2014年12月17日申请日期:2014年9月1日优先权日:2014年9月1日
【发明者】毕永建申请人:厦门亿联网络技术股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毕永建
技术所有人：厦门亿联网络技术股份有限公司
我是此专利的发明人

上一篇：应用于移动终端上的情景模式变更方法和装置制造方法
上一篇：一种干扰抑制方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。