基于啸叫音自动识别的远程会议控制方法及装置的制造方法

文档序号:10616280阅读:218来源:国知局
基于啸叫音自动识别的远程会议控制方法及装置的制造方法
【专利摘要】本发明公开了一种基于啸叫音自动识别的远程会议控制方法及装置,此方包括:终端采集声音输入信号;提取所述声音输入信号的时域包络信号并计算所述声音输入信号在预设频率以上的频带部分的能量占比,所述终端判断所述时域包络信号具有周期性并且所述能量占比大于或等于预定阈值时执行静音操作。本发明可以从根本上消除啸叫音对音视频会议的进程的影响,保证音视频会议的通话质量,提高用户的使用体验。
【专利说明】
基于啸叫音自动识别的远程会议控制方法及装置
技术领域
[0001]本发明涉及本发明涉及一种语音通信领域的噪声消除技术,特别是对发送端音频信号进行噪声消除的技术,可应用于单对单音频通话及多方音频通话领域。【背景技术】
[0002]人们在同时使用话筒和扬声器的时候,比如在剧场表演时、在会议厅开会时、在卡拉0K歌唱时,常常会遇到啸叫的现象,啸叫出现时,扬声器会发出刺耳的尖叫声,这将严重影响用户的使用体验。
[0003]随着移动互联网覆盖范围的扩大,人们越来越习惯使用移动终端实现以前需要使用固定设备才能完成的事情,例如使用手机作为会议终端参加远程会议,但是在使用时,如果开启免提模式,就很容易出现啸叫的现象,一旦出现,往往会显著干扰会议质量。
[0004]为了降低啸叫现象的干扰,技术人员采用各种办法,例如移频法、中心削波法、梳状滤波法、话筒阵列等,这些方法的思路基本为破坏啸叫产生的条件、防止啸叫产生,但现实情况是因为话筒和耳机不一定配套使用(例如多部手机同时开启外放),仍然无法根本上避免啸叫的产生,在进行音频或视频会议时仍然会因为啸叫音影响会议的进程。
【发明内容】

[0005]为了解决现有技术中无法从根本上消除啸叫音对音视频会议的进程影响的问题, 本发明提供了基于啸叫音自动识别的远程会议控制方法及装置。
[0006]本发明提供的基于啸叫音自动识别的远程会议控制方法,包括:
[0007]步骤1,终端采集声音输入信号;
[0008]步骤2,所述终端提取所述声音输入信号的时域包络信号并计算所述声音输入信号在预设频率以上的频带部分的能量占比,判断所述时域包络信号具有周期性并且所述能量占比大于或等于预定阈值时执行静音操作。
[0009]上述基于啸叫音自动识别的远程会议控制方法还具有以下特点:[〇〇1〇]步骤2包括:所述终端提取所述声音输入信号的时域包络信号,检测所述时域包络信号是否具有周期性,在所述时域包络信号具有周期性时计算所述声音输入信号在预设频率以上的频带部分的能量占比,在能量占比大于或等于预定阈值时,执行静音操作。
[0011]上述基于啸叫音自动识别的远程会议控制方法还具有以下特点:
[0012]所述方法还包括:在所述时域包络信号不具有周期性时,所述终端对所述声音输入信号编码后向服务器发送;
[0013]所述方法还包括:所述能量占比小于所述预定阈值时,所述终端对所述声音输入信号编码后向服务器发送。
[0014]上述基于啸叫音自动识别的远程会议控制方法还具有以下特点:
[0015]所述检测所述时域包络信号是否具有周期性包括:使用信号相关法或正交变换法检测所述时域包络信号是否具有周期性。
[0016]上述基于嘯叫音自动识别的远程会议控制方法还具有以下特点:
[0017]所述预设频率为500至3500赫兹之间的值,或者所述方法还包括设置预设频率的初始值,并根据下述方法更新所述预设频率:确定每个语音编码帧周期内的声音输入信号的频域信号的峰值,如果在一个嘯叫检测周期内所述峰值所对应的频率位于频宽小于预设频率宽度的频率段内的时长大于预设时长,则将此频率值作为更新后的预设频率。
[0018]本发明提供的基于嘯叫音自动识别的远程会议控制装置,应用于终端中,包括:采集模块、时域包络信号提取模块、计算模块、判断模块、控制模块;
[0019]所述采集模块用于采集声音输入信号;
[0020]所述时域包络信号提取模块用于提取所述声音输入信号的时域包络信号;
[0021]所述计算模块用于计算所述声音输入信号在预设频率以上的频带部分的能量占比;
[0022]所述判断模块用于判断所述时域包络信号是否具有周期性以及所述能量占比是否大于或等于预定阈值;
[0023]所述控制模块用于在所述判断模块判定所述时域包络信号具有周期性并且所述能量占比大于或等于预定阈值时,对所述终端执行静音操作。
[0024]上述基于嘯叫音自动识别的远程会议控制装置还具有以下特点:
[0025]所述装置还包括编码模块和发送模块;
[0026]所述控制模块还用于所述判断模块判定所述时域包络信号不具有周期性时或所述能量占比小于预定阈值时,控制编码模块对所述声音输入信号进行编码,控制所述发送模块向服务器发送所述编码模块编码后的数据。
[0027]本发明提供的基于嘯叫音自动识别的远程会议控制装置,包括:
[0028]服务器接收远程会议中一通话方中至少一个终端发送的声音输入信号;
[0029]对每个终端执行嘯叫音识别过程,包括:提取终端的声音输入信号的时域包络信号并计算所述声音输入信号在预设频率以上的频带部分的能量占比,在所述时域包络信号具有周期性并且所述能量占比大于或等于预定阈值时,判定此终端的声音输入信号中具有嘯叫音;否则,判定此终端的声音输入信号中不具有嘯叫音;
[0030]所述服务器将声音输入信号不具有嘯叫音的各终端的声音输入信号进行混合并编码后发送至所述通话方的对端通话方。
[0031 ]上述基于嘯叫音自动识别的远程会议控制方法还具有以下特点:
[0032]所述预设频率为500至3500赫兹之间的值,或者所述方法还包括设置预设频率的初始值,并根据下述方法更新所述预设频率:确定每个语音编码帧周期内的声音输入信号的频域信号的峰值,如果在一个嘯叫检测周期内所述峰值所对应的频率位于频宽小于预设频率宽度的频率段内的时长大于预设时长,则将此频率值作为更新后的预设频率。
[0033]本发明提供的基于嘯叫音自动识别的远程会议控制装置,应用于服务器中,包括:接收模块、时域包络信号提取模块、计算模块、判断模块、控制模块、编码模块、发送模块;
[0034]所述接收模块接收远程会议中一通话方中至少一个终端发送的声音输入信号;
[0035]所述时域包络信号提取模块用于提取所述各终端的所述声音输入信号的时域包络信号;
[0036]所述计算模块用于计算所述终端的声音输入信号在预设频率以上的频带部分的能量占比;
[0037]所述判断模块用于判断所述终端的声音输入信号的时域包络信号是否具有周期性并且所述能量占比是否大于或等于预定阈值;
[0038]所述控制模块用于在所述判断模块判定终端的声音输入信号的时域包络信号具有周期性并且能量占比大于或等于预定阈值时,判定此终端的声音输入信号中具有啸叫音,否则判定此终端的声音输入信号中不具有啸叫音;还用于将声音输入信号不具有啸叫音的各终端的声音输入信号进行混合,控制编码模块对混合后的声音输入信号进行编码, 控制发送模块将编码后的信号发送至所述通话方的对端通话方。
[0039]本发明可以从根本上消除啸叫音对音视频会议的进程的影响,保证音视频会议的通话质量,提高用户的使用体验。【附图说明】
[0040]构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0041]图1是实施例一中基于啸叫音自动识别的远程会议控制方法的流程图;
[0042]图2是实施例一中一种典型的基于啸叫音自动识别的远程会议控制方法的流程图;
[0043]图3是实施例二中应用于服务器的基于啸叫音自动识别的远程会议控制装置的结构图;
[0044]图4是实施例三中基于啸叫音自动识别的远程会议控制方法的流程图;
[0045]图5是实施例四中应用终端的基于啸叫音自动识别的远程会议控制装置的结构图。【具体实施方式】
[0046]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0047]本发明的实施例一和实施例二对应于在终端侧进行啸叫音自动识别并在终端侧控制终端采集到的声音信号的方式;实施例三和实施例四对应于在服务器侧进行啸叫音自动识别并在服务器侧控制各终端的声音信号的方式。
[0048] 实施例一
[0049]图1是实施例一中基于啸叫音自动识别的远程会议控制方法的流程图;此基于啸叫音自动识别的远程会议控制方法包括:
[0050]步骤101,终端采集声音输入信号;
[0051]步骤102,提取上述声音输入信号的时域包络信号并计算上述声音输入信号在预设频率以上的频带部分的能量占比;[〇〇52]步骤103,终端判断时域包络信号具有周期性并且量占比大于或等于预定阈值时执行静音操作。
[0053]此方法还包括在时域包络信号不具有周期性或者能量占比小于预定阈值时,终端对声音输入信号编码后向服务器发送。[〇〇54]此方法步骤102中,提取声音输入信号的时域包络信号和计算声音输入信号在预设频率以上的频带部分的能量占比此两个过程可以并列进行,也可以依次进行。此两个过程依次进行时,优选先提取声音输入信号的时域包络信号再计算声音输入信号在预设频率以上的频带部分的能量占比的方式,参考图2,此方法包括:[〇〇55]步骤201,终端采集声音输入信号;[〇〇56]步骤202,提取声音输入信号的时域包络信号;
[0057]步骤203,检测时域包络信号是否具有周期性;在时域包络信号具有周期性时,转到下一步;[〇〇58]步骤204,计算声音输入信号在预设频率以上的频带部分的能量占比;[〇〇59]步骤205,判断能量占比是否大于或等于预定阈值,在能量占比大于或等于预定阈值时,转到下一步;
[0060]步骤206,此终端执行静音操作。[0061 ]此方法还包括:在时域包络信号不具有周期性时,执行步骤207:终端对上述声音输入信号编码后向服务器发送;[〇〇62]此方法还包括:在能量占比小于预定阈值时,执行步骤207:终端对上述声音输入信号编码后向服务器发送。
[0063]上述步骤203中检测时域包络信号是否具有周期性的方法包括:使用信号相关法或正交变换法(包括傅里叶变换法和离散余弦变换法)检测时域包络信号是否具有周期性。 [〇〇64]本方法中使用的预设频率为500至3500赫兹之间的固定值,例如3000赫兹。或者, 本方法中,为预设频率设置初始值,例如此初始值为1000至3500赫兹之间的值(例如3000赫兹)。在会议进行过程中判断满足预设条件时更新此预设频率,判断不满足预设条件时不更新预设频率。其中,预设频率的更新方法包括:确定每个语音编码帧周期(一般为5ms至 20ms)内的声音输入信号的频域信号的峰值,如果在一个啸叫音检测周期(一般至少为2s) 内所述峰值所对应的频率位于频宽小于预设频率宽度(例如5赫兹)的频率段内的时长大于预设时长(例如200ms),则将此频率值作为更新后的预设频率。
[0065]在一个语音编码帧周期内对声音信号进行傅立叶变换,在频域上搜索峰值;在一个啸叫检测周期内,如果频域上峰值频点能够连续稳定200ms,则该稳定频点对应的频率就作为预设频率的更新值,否则就不更新预设频率。
[0066]实施例二
[0067]图3是实施例二中基于啸叫音自动识别的远程会议控制装置的结构图;此装置应用于终端中,包括:采集模块、时域包络信号提取模块、计算模块、判断模块、控制模块。 [〇〇68]采集模块用于采集声音输入信号;
[0069]时域包络信号提取模块用于提取上述声音输入信号的时域包络信号;
[0070]计算模块用于计算声音输入信号在预设频率以上的频带部分的能量占比;
[0071]判断模块用于判断时域包络信号是否具有周期以及能量占比是否大于或等于预定阈值;
[0072]控制模块用于在判断模块判定时域包络信号具有周期性并且能量占比大于或等于预定阈值时,对上述终端执行静音操作。
[0073]本装置还包括编码模块和发送模块。[〇〇74]控制模块还用于在判断模块判定时域包络信号不具有周期性时或能量占比小于预定阈值时,控制编码模块对上述声音输入信号进行编码,控制发送模块向服务器发送编码模块编码后的数据。
[0075]本装置中控制模块还可以控制时域包络信号提取模块和计算模块同时执行相应操作,或者按先后顺序执相应操作。优选的,可以先控制时域包络信号提取模块提取上述声音输入信号的时域包络信号,在判断模块判定声音输入信号的时域包络信号具有周期性时,再控制计算模块计算声音输入信号在预设频率以上的频带部分的能量占比。[〇〇76] 实施例三
[0077]图4是实施例三中基于啸叫音自动识别的远程会议控制方法的流程图;此方法包括:[〇〇78]步骤401,服务器接收远程会议中一通话方中至少一个终端发送的声音输入信号。 [〇〇79]步骤402,对上述通话方中所有终端执行啸叫音识别过程,对每个终端执行啸叫音识别过程,包括:提取终端的声音输入信号的时域包络信号并计算声音输入信号在预设频率以上的频带部分的能量占比,在时域包络信号具有周期性并且能量占比大于或等于预定阈值时,判定此终端的声音输入信号中具有啸叫音;否则,判定此终端的声音输入信号中不具有啸叫音。
[0080]步骤403,服务器将声音输入信号不具有啸叫音的各终端的声音输入信号进行混合并编码后发送至上述通话方的对端通话方。
[0081]此方法步骤402中,提取声音输入信号的时域包络信号和计算声音输入信号在预设频率以上的频带部分的能量占比此两个过程可以并列进行,也可以依次进行。此两个过程依次进行时,优选先提取声音输入信号的时域包络信号再计算声音输入信号在预设频率以上的频带部分的能量占比的方式。[〇〇82]其中,步骤402中,检测时域包络信号是否具有周期性包括:使用信号相关法或正交变换法检测时域包络信号是否具有周期性。[〇〇83]本方法中使用的预设频率为500至3500赫兹之间的固定值,例如3000赫兹。或者, 本方法中,为预设频率设置初始值,例如此初始值为1000至3500赫兹之间的值(例如3000赫兹)。在会议进行过程中判断满足预设条件时更新此预设频率,判断不满足预设条件时不更新预设频率。其中,预设频率的更新方法包括:确定每个语音编码帧周期(一般为5ms至 20ms)内的声音输入信号的频域信号的峰值,如果在一个啸叫音检测周期(一般至少为2s) 内所述峰值所对应的频率位于频宽小于预设频率宽度(例如5赫兹)的频率段内的时长大于预设时长(例如200ms),则将此频率值作为更新后的预设频率。
[0084]实施例四
[0085]图5是实施例四中基于啸叫音自动识别的远程会议控制装置的结构图,此装置应用于服务器中,包括:接收模块、时域包络信号提取模块、计算模块、判断模块、控制模块、编码模块、发送模块。
[0086]接收模块接收远程会议中一通话方中至少一个终端发送的声音输入信号;
[0087]时域包络信号提取模块用于提取上述各终端的声音输入信号的时域包络信号;
[0088]计算模块用于计算各终端的声音输入信号在预设频率以上的频带部分的能量占比;
[0089]判断模块用于判断终端的声音输入信号的时域包络信号是否具有周期性以及能量占比是否大于或等于预定阈值;
[0090]控制模块用于在判断模块判定终端的声音输入信号的时域包络信号具有周期性并且能量占比大于或等于预定阈值时,判定此终端的声音输入信号中具有啸叫音,否则判定此终端的声音输入信号中不具有啸叫音;还用于将声音输入信号不具有啸叫音的各终端的声音输入信号进行混合,控制编码模块对混合后的声音输入信号进行编码,控制发送模块将编码后的信号发送至所述通话方的对端通话方。
[0091]本发明可以从根本上消除啸叫音对音视频会议的进程的影响,保证音视频会议的通话质量,提高用户的使用体验。
[0092]上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。[〇〇93]本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。[〇〇94]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
[0095]以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
【主权项】
1.基于啸叫音自动识别的远程会议控制方法,其特征在于,包括:步骤1,终端采集声音输入信号;步骤2,所述终端提取所述声音输入信号的时域包络信号并计算所述声音输入信号在 预设频率以上的频带部分的能量占比,判断所述时域包络信号具有周期性并且所述能量占 比大于或等于预定阈值时执行静音操作。2.如权利要求1所述的基于啸叫音自动识别的远程会议控制方法,其特征在于,所述步骤2包括:所述终端提取所述声音输入信号的时域包络信号,检测所述时域包络 信号是否具有周期性,在所述时域包络信号具有周期性时计算所述声音输入信号在预设频 率以上的频带部分的能量占比,在能量占比大于或等于预定阈值时,执行静音操作。3.如权利要求1或2所述的基于啸叫音自动识别的远程会议控制方法,其特征在于,所 述方法还包括:在所述时域包络信号不具有周期性时,所述终端对所述声音输入信号编码 后向服务器发送;所述方法还包括:所述能量占比小于所述预定阈值时,所述终端对所述声音输入信号 编码后向服务器发送。4.如权利要求1或2所述的基于啸叫音自动识别的远程会议控制方法,其特征在于,所 述检测所述时域包络信号是否具有周期性包括:使用信号相关法或正交变换法检测所述时 域包络信号是否具有周期性。5.如权利要求1或2所述的基于啸叫音自动识别的远程会议控制方法,其特征在于,所 述预设频率为500至3500赫兹之间的值,或者,所述方法还包括设置预设频率的初始值,并 根据下述方法更新所述预设频率:确定每个语音编码帧周期内的声音输入信号的频域信号 的峰值,如果在一个啸叫检测周期内所述峰值所对应的频率位于频宽小于预设频率宽度的 频率段内的时长大于预设时长,则将此频率值作为更新后的预设频率。6.基于啸叫音自动识别的远程会议控制装置,其特征在于,应用于终端中,包括:采集 模块、时域包络信号提取模块、计算模块、判断模块、控制模块;所述采集模块用于采集声音输入信号;所述时域包络信号提取模块用于提取所述声音输入信号的时域包络信号;所述计算模块用于计算所述声音输入信号在预设频率以上的频带部分的能量占比;所述判断模块用于判断所述时域包络信号是否具有周期性以及所述能量占比是否大 于或等于预定阈值;所述控制模块用于在所述判断模块判定所述时域包络信号具有周期性并且所述能量 占比大于或等于预定阈值时,对所述终端执行静音操作。7.如权利要求6所述的基于啸叫音自动识别的远程会议控制装置,其特征在于,所述装 置还包括编码模块和发送模块;所述控制模块还用于所述判断模块判定所述时域包络信号不具有周期性时或所述能 量占比小于预定阈值时,控制编码模块对所述声音输入信号进行编码,控制所述发送模块 向服务器发送所述编码模块编码后的数据。8.基于啸叫音自动识别的远程会议控制方法,其特征在于,包括:服务器接收远程会议中一通话方中至少一个终端发送的声音输入信号;对每个终端执行啸叫音识别过程,包括:提取终端的声音输入信号的时域包络信号并计算所述声音输入信号在预设频率以上的频带部分的能量占比,在所述时域包络信号具有周期性并且所述能量占比大于或等于预定阈值时,判定此终端的声音输入信号中具有嘯叫音;否则,判定此终端的声音输入信号中不具有嘯叫音; 所述服务器将声音输入信号不具有嘯叫音的各终端的声音输入信号进行混合并编码后发送至所述通话方的对端通话方。9.如权利要求8所述的基于嘯叫音自动识别的远程会议控制方法,其特征在于,所述预设频率为500至3500赫兹之间的值,或者所述方法还包括设置预设频率的初始值,并根据下述方法更新所述预设频率:确定每个语音编码帧周期内的声音输入信号的频域信号的峰值,如果在一个嘯叫检测周期内所述峰值所对应的频率位于频宽小于预设频率宽度的频率段内的时长大于预设时长,则将此频率值作为更新后的预设频率。10.基于嘯叫音自动识别的远程会议控制装置,其特征在于,应用于服务器中,包括:接收模块、时域包络信号提取模块、计算模块、判断模块、控制模块、编码模块、发送模块; 所述接收模块接收远程会议中一通话方中至少一个终端发送的声音输入信号; 所述时域包络信号提取模块用于提取所述各终端的所述声音输入信号的时域包络信号; 所述计算模块用于计算所述终端的声音输入信号在预设频率以上的频带部分的能量占比; 所述判断模块用于判断所述终端的声音输入信号的时域包络信号是否具有周期性并且所述能量占比是否大于或等于预定阈值; 所述控制模块用于在所述判断模块判定终端的声音输入信号的时域包络信号具有周期性并且能量占比大于或等于预定阈值时,判定此终端的声音输入信号中具有嘯叫音,否则判定此终端的声音输入信号中不具有嘯叫音;还用于将声音输入信号不具有嘯叫音的各终端的声音输入信号进行混合,控制编码模块对混合后的声音输入信号进行编码,控制发送模块将编码后的信号发送至所述通话方的对端通话方。
【文档编号】G10L25/18GK105979197SQ201610575325
【公开日】2016年9月28日
【申请日】2016年7月19日
【发明人】江周平, 徐家骏, 代金良
【申请人】块互动(北京)科技有限公司, 一块互动(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1