研讨会稳定记录发言的系统及方法与流程

文档序号：30265671发布日期：2022-06-02 04:02阅读：135来源：国知局

1.本发明涉及声音信号处理技术领域，尤其涉及研讨会稳定记录发言的系统及方法。

背景技术：

2.目前应用的语音识别系统保证高识别准确率具有诸多前提，其中最重要的包括1)发言人讲话稳定清晰明了，且能被拾音设备平稳采集；2)发言人逐一讲话，多人同时发言易出现错误的识别结果，最常见的错误现象是其他人讲话的识别结果在自己识别界面上出现；3)实录现场环境较为安静，白噪音少，且具有均匀的收音环境。目前主要有两种策略对上述现象进行优化：
3.其一，调整各现场的硬件设施和限制发言人距离，确保发言人的音源被正确的麦克风拾音设备采集，从而有效采集声音信号和避免其被其他麦克风接受，达到优化实录过程的效果。此外，各硬件设备也具备多项参数，包括麦克风灵敏度、收音范围和阈值等，以便实时进行调整。但该方法受限于具体的现场环境和采音设备,不具备泛化性，即需要对每一个现场进行过程繁琐的观测记录、重复测试，此外，由于现场情形多变，不同的目标声源人讲话声音、讲话习惯也不尽相同，通过硬件调整的方式往往难以解决上述提出的问题。
4.其二,针对串音现象，一般语音识别系统在采集到各通道的声源数字信号后，对其进行预设计的数学变化和策略计算，预测该帧识别结果的输出通道并进行相应的输出。该方法将串音过程中的声音信号采集和串音识别输出分离进行，并不能抑制或消除声源的串音音源部分，因此该方法依赖于硬件的采集结果，易受现场硬件设施和环境结构影响，如音源的反射衍射现象易使某些麦克风采集的音源更容易被串音。
5.目前，对于研讨会的发言，大部分都需要进行发言记录以及将发言信息通过广播设备播放出去，而在发言过程中，存在多人同时发言时，已发生串音、噪音现象，导致播放设备难以稳定的播放对应发言人的语音信息。
6.例如，中国专利cn202010497438.0公开了会议声音采集、会议记录以及会议记录呈现方法和装置。通过人声分离进行发言记录；但是其依然无法解决发言过程中的声音采集的稳定性，导致播放设备难以稳定的播放对应发言人的语音信息。

技术实现要素：

7.本发明主要解决现有的技术中研讨会的发言信息难以被稳定记录的问题；提供一种研讨会稳定记录发言的系统及方法。
8.本发明的上述技术问题主要是通过下述技术方案得以解决的：研讨会稳定记录发言的系统，包括声音采集模块，设置有若干个，分布安装在研讨会现场，对每个声音采集模块划分采集区域，每个声音采集模块均包括若干个麦克风，用于采集研讨会音源信息并转换成数字信号，若干个所述麦克风均与处理模块连接；图像采集模块，设置有若干个，与声音采集模块配对，采集研讨会现场的人员图像信息，与处理模块连接；处理模块，对采集区
域进行分区标记，获取每个采集区域内麦克风传递的语音通道的音源信息以及图像采集模块传递的人员图像信息，对音源信息进行噪音以及串音处理后获得稳定的音源信号，根据处理后的音源信号以及人员图像信息进行发言人与音源的匹配后进行音源输出。通过声音采集模块进行研讨会分区域音源信号采集，结合图像采集模块进行发言人员图像采集，处理模块对采集的信息进行处理后，获得稳定的音源信息，并与发言人匹配后进行稳定的音源输出，实现研讨会发言的稳定记录，减少串音和噪音干扰。
9.作为优选，还包括安装支架，所述安装支架包括与墙体或地面固定的安装座以及转动安装在安装座上的转轴，所述图像采集模块包括摄像头和陀螺仪，所述安装座上设置有用于安装所述麦克风的若干个安装槽，所述摄像头安装在转轴上，所述陀螺仪安装在摄像头上，用于检测摄像头的转动角度，所述转轴与电机连接，所述电机以及陀螺仪均与mcu连接，所述mcu获取麦克风的音源信息，并根据获取的音源信息控制电机工作带动转轴转动使所述摄像头拍摄发言人的图像。通过、陀螺仪、电机和转轴实现摄像头快速对准发言人进行拍摄，实时获取发言人的图像信息，使得发言人与音源的匹配度更快、更好。
10.作为优选，所述的处理模块包括音源信号预处理模块、音源增益模块、噪音识别模块、串音识别模块、图像处理模块以及音频输出模块，所述音源信号预处理模块与声音采集模块连接，所述音源增益模块与音源信号预处理模块连接，所述噪音识别模块与音源增益模块连接，所述串音识别模块与噪音识别模块连接，所述图像处理模块分别与串音识别模块和图像采集模块连接，所述音频输出模块分别与图像处理模块以及串音识别模块连接。通过音源信号预处理模块进行音源信号特征提取，通过音源增益模块进行音源放大，通过噪音识别模块进行噪音识别，结合串音识别模块进行串音识别后提供稳定的音源信号。
11.作为优选，所述的安装槽内设置有电磁铁，所述麦克风上设置有永磁铁，所述电磁铁吸附或排斥所述永磁体，所述麦克风的侧边设置有卡槽，所述安装槽的侧壁设置有卡块，所述卡块和卡槽相匹配，将所述麦克风卡接在安装槽内。电磁铁通电后，具有磁性，其南北极可以随着通入电流的方向进行改变，当控制电磁铁与永磁体相吸时，通过磁铁的吸附力使得麦克风固定卡接在安装槽内，卡块和卡槽用于安装限位。
12.作为优选，所述的卡块为圆弧形卡块。当卡块为圆弧形时，若出现麦克风更换问题，需要拆除麦克风，电磁铁改变南北极，使得电磁铁与永磁铁相斥，电磁排斥力大于圆弧形卡块与卡槽的摩擦力，使得麦克风弹出安装槽，方便麦克风的更换。
13.作为优选，所述的卡块为矩形卡块，所述安装槽的侧壁设置有用于收纳矩形卡块的收纳槽，所述矩形卡块内部设置有弹簧，所述弹簧不通电时处于自然状态使得矩形卡块与卡槽卡接，所述弹簧通电时弹簧收缩进入收纳槽。弹簧通电收缩时完全收入收纳槽内，矩形卡块与卡槽不在启动限位作用，更换麦克风时更加快速，同时，当电磁铁突然断电时，麦克风也不会因为颠簸等原因从安装槽内掉出来，安全性更高。
14.本发明还提供一种研讨会稳定记录发言的方法，包括以下步骤：
15.声音采集模块进行不同音源信号采集，图像采集模块进行发言人员图像采集；
16.对采集到的音源信号进行特征提取；
17.将音源信号进行自适应音源增益、噪音识别和串音识别；
18.将优化后的音源信号与发言人匹配后进行音源输出。
19.作为优选，自适应音源增益的方法为：获取当前帧某一音源通道内的音源信号，并
获取该帧音源信号声音提供者k帧历史帧信号，将k+1帧音源信号输入前馈记忆网络得到增益后的音源信号。
20.作为优选，所述的串音识别的方法为：对各通道的特征数据进行相似度计算，对相似度高的通道，再通过时序马尔可夫过程进行数字信号的时序对齐，识别出在时间上有向后延迟的相似通道，将识别出的时间上有向后延迟的相似通道判定为串音通道
21.作为优选，取每个通道在当前时间的特征和历史时间帧上的特征进行异常检测，识别出麦克风突然采集声音的过程，并计算该过程是串音发生的概率，将串音发生概率和串音通道判定结果进行加权计算，得到最终的串音识别结果。
22.本发明的有益效果是：通过声音采集模块进行研讨会分区域音源信号采集，结合图像采集模块进行发言人员图像采集，处理模块对采集的信息进行音源增益、噪音识别以及串音识别处理后，获得稳定的音源信息，并与发言人匹配后进行稳定的音源输出，实现研讨会发言的稳定记录，减少串音和噪音干扰。
附图说明
23.图1是本发明实施例的系统结构框图。
24.图2是本发明实施例的方法流程图。
25.图中1、声音采集模块，2、图像采集模块，3、音源信号预处理模块，4、音源增益模块，5、噪音识别模块，6、串音识别模块，7、图像处理模块，8、音频输出模块。
具体实施方式
26.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
27.需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
28.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
29.再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。本发明的说明书和权利要求书及上述附图中的术语“第
一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。应当进一步理解，此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
30.为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。
31.实施例：一种研讨会稳定记录发言的系统，如图1所示，包括声音采集模块1、图像采集模块2、音源信号预处理模块3、音源增益模块4、噪音识别模块5、串音识别模块6、图像处理模块7以及音频输出模块8，音源信号预处理模块与声音采集模块连接，音源增益模块与音源信号预处理模块连接，噪音识别模块与音源增益模块连接，串音识别模块与噪音识别模块连接，图像处理模块分别与串音识别模块和图像采集模块连接，音频输出模块分别与图像处理模块以及串音识别模块连接。
32.其中，声音采集模块设置有若干个，分布安装在研讨会现场，对每个声音采集模块划分采集区域，每个声音采集模块均包括若干个麦克风，用于采集研讨会音源信息并转换成数字信号。
33.图像采集模块，设置有若干个，与声音采集模块配对，采集研讨会现场的人员图像信息。
34.本发明还提供一种研讨会稳定记录发言的方法，如图2所示，包括以下步骤：
35.s1：声音采集模块进行不同音源信号采集，图像采集模块进行发言人员图像采集。
36.s2：对采集到的音源信号进行特征提取；根据提供的预设的特征量化和分析，确定原信号的音量指标，例如：对于某个通道的数据其共有4000个数，取窗口大小为200，窗口总数为20，则将获得维度为20
×
200的窗口数据，该数据再通过特征融合，最后表达为一个长度为512的矢量在对所有通道进行如上操作后，将输出维度为4
×
512的特征数据。
37.s3：将音源信号进行自适应音源增益、噪音识别和串音识别；音源增益的方法为：获取当前帧某一音源通道内的音源信号，并获取该帧音源信号声音提供者k帧历史帧信号，将k+1帧音源信号输入前馈记忆网络得到增益后的音源信号，具体为：对某个通道的发言人在当前桢采集到的声学数字信号除词之外，还需k帧该发言人的历史桢信号共k+1帧信号通过前馈记忆网络，网络经过多层前向神经网络和记忆网络，输出长度为h的表征局部声学信息特征的浮点数向量和维度为h的表征历史声学信息特征的浮点数向量二者加权激活后输出一个浮点数p＝relu(w
lhl
+wghg+b),其中relu是一种激活函数,，w、b是训练好的参数，如p＝0.5，则l
out
＝0.5
·
l
in
。根据本方法提供的增益策略，每个通道的音源都将根据自身特征实时确定独有的增益参数，增益后的音源在感官上具有清晰稳定的收听效果，不存在无法听清和爆破音等情况，在现实应用中也对识别增效、音源留底起到了显著作用。
38.其中，噪音识别的方法为：根据每个音源通道的特征提取结果进行音源分类，建立分类模型，设置噪音阈值，计算音源通道的数字信号功率以及输出分类模型结果，具体为：对某通道的声学数字信号，首先计算其功率，如再对其经过特征数据提取后进入分类模型，输出其为噪音音源的概率若二者有其一超过给定阈值，则判定该通道为环境噪音音源，其分类模型的设定方法为根据历史数据或者大量实验数据进行数据特征整合后建立的大数据融合分类模型，具有一定的可靠性。
39.其中，串音识别的方法为：对各通道的特征数据进行相似度计算，对相似度高的通道，再通过时序马尔可夫过程进行数字信号的时序对齐，识别出在时间上有向后延迟的相似通道，将识别出的时间上有向后延迟的相似通道判定为串音通道；取每个通道在当前时间的特征和历史时间帧上的特征进行异常检测，识别出麦克风突然采集声音的过程，并计算该过程是串音发生的概率，将串音发生概率和串音通道判定结果进行加权计算，得到最终的串音识别结果；其具体过程为：存在4个通道的特征数据，两两进行相似度计算，假设第2通道、第3通道、第4通道的相似度较高，s
2,3
＝80％,s
2,4
＝85％,s
3,4
＝73％,,即第2通道和第3通道有80％是相似的，第2通道和第4通道有85％是相似的，第3通道和第4通道有73％是相似的，然后对3个通道的原始采集到的声学数字信号进行时序对齐，对齐的过程是计算相似通道对之间相似的部分发生在哪些时间段上，并取概率最大的对齐路径，假设对齐后第3通道和第4通道均延后于第2通道，则第3通道和第4通道则是相对于第2通道的串音通道，对某通道，在该时间桢上的特征数据为512维的取k桢历史特征数据对该k+1帧的特征进行时序上的前馈记忆网络建模，结果将输出一个概率，表示综合历史k桢的数据模式来看，发生串音的概率，如p＝0.87，将串音发生概率和串音通道判定结果进行加权计算，得到最终的串音识别结果，对串音通道进行标记，其加权数值根据实际实验获得。
40.s4：将优化后的音源信号与发言人匹配后进行音源输出；在特定时间桢上的所有麦克风通道音源有3中处理结果，一是正常音源，二是环境噪音音源，三是串音音源，将环境噪声音源的识别结果置空，将串音音源的识别结果输送给图像处理单元，将正常音源输入语音识别模块进行语音识别，结合图像采集单元采集发言人的人脸信息，进行正常音源与说话角色的匹配；其匹配方法为：图像处理单元获取图像采集单元采集的图像信息、串音通道音源和正常音源，提取串音音源与正常音源相同的声纹信息，获取两个通过记录音源信息的时刻，进行声源位置的标记，结合图像信息进行声源角色确认，并进行正常音源匹配，输出匹配结果；音频输出模块根据发言人匹配结果和正常音源进行结合后输出稳定的音频信号。
41.在本发明的另一个实施例中，设置了安装支架，安装支架包括与墙体或地面固定的安装座以及转动安装在安装座上的转轴，图像采集模块包括摄像头和陀螺仪，安装座上设置有用于安装麦克风的若干个安装槽，摄像头安装在转轴上，陀螺仪安装在摄像头上，用于检测摄像头的转动角度，转轴与电机连接，电机以及陀螺仪均与mcu连接，mcu获取麦克风
的音源信息，并根据获取的音源信息控制电机工作带动转轴转动使摄像头拍摄发言人的图像。
42.安装槽内设置有电磁铁，麦克风上设置有永磁铁，电磁铁吸附或排斥所述永磁体，麦克风的侧边设置有卡槽，安装槽的侧壁设置有卡块，卡块和卡槽相匹配，将麦克风卡接在安装槽内，卡块为圆弧形卡块。
43.电磁铁通电后，具有磁性，其南北极可以随着通入电流的方向进行改变，当控制电磁铁与永磁体相吸时，通过磁铁的吸附力使得麦克风固定卡接在安装槽内，卡块和卡槽用于安装限位，当卡块为圆弧形时，若出现麦克风更换问题，需要拆除麦克风，电磁铁改变南北极，使得电磁铁与永磁铁相斥，电磁排斥力大于圆弧形卡块与卡槽的摩擦力，使得麦克风弹出安装槽，方便麦克风的更换。
44.在本发明的另一实施例中，卡块为矩形卡块，安装槽的侧壁设置有用于收纳矩形卡块的收纳槽，矩形卡块内部设置有弹簧，弹簧不通电时处于自然状态使得矩形卡块与卡槽卡接，弹簧通电时弹簧收缩进入收纳槽。
45.弹簧通电收缩时完全收入收纳槽内，矩形卡块与卡槽不在启动限位作用，更换麦克风时更加快速，同时，当电磁铁突然断电时，麦克风也不会因为颠簸等原因从安装槽内掉出来，安全性更高。
46.在此基础上，本发明的卡块还可以设置为直角三角形的形状，其斜边朝外，直边朝向安装槽的底部，通过通电弹簧与收纳槽底部连接，麦克风放入安装槽时，压缩通电弹簧，使得直角三角形的卡块向收纳槽内部收缩，麦克风进入安装槽内后其卡槽与卡块对应，通电弹簧回复，实现限位卡接，更换时，通电弹簧通电收缩，麦克风取出更换。
47.以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：麦联韬唐海江朱宇袁宇豪
技术所有人：杭州云嘉云计算有限公司
我是此专利的发明人