基于全景摄像头和麦克风阵列的会议转录系统的制作方法

文档序号：17126463发布日期：2019-03-16 00:31阅读：231来源：国知局

本发明涉及庭审会议转录设备技术领域，尤其涉及一种基于全景摄像头和麦克风阵列的会议转录系统。

背景技术：

现在法院、检察院庭审会议中普遍需要将实时的会议记录、转录做成庭审证据，这里面的记录包含了视频的记录、音频的记录，另外还包括转录成文字形式的类似口供证据的记录，对于这些庭审记录，如何在会议当中实时的记录、分类以及整理，最终形成有效的材料，减少工作人员的后期处理工作量，是非常重要的。这类的需求往往一般有下面几个具体要求：1、对于视频全程记录，包括法官、检察官、犯罪嫌疑人的录像；2、对于音频的记录，包括在确定的时间内确定说话人的身份，即一个时间内是谁在说，特别是法官和嫌疑人的话语需要身份确认区分，确定那段话是谁说的；3、对于文字的记录，庭审文本的记录形成，期望庭审结束，文字材料自动形成，包括时间点、发言人(讲述人)的名字、发言人的身份，发言人具体内容。然而，现有的庭审会议记录只是简单的记录庭审现场的语音和视频，后续还需人工进行整体、分类，费事费力。

因此，为了解决上述问题，急需发明一种新的基于全景摄像头和麦克风阵列的会议转录系统。

技术实现要素：

本发明的目的在于：提供一种基于全景摄像头和麦克风阵列的会议转录系统，实现会议中按身份进行转录。

本发明提供了下述方案：

一种基于全景摄像头和麦克风阵列的会议转录系统，包括用于获取视频数据的一个全景摄像头、用于获取音频数据的多个麦克风组成的阵列、用于对视频数据进行预处理的图像处理模块、用于对音频数据进行预处理的声音处理模块以及用于对预处理后的视频数据和音频数据进行匹配的音视频处理模块，各所述全景摄像头分别与所述图像处理模块电连接，各所述麦克风阵列分别与所述声音处理模块电连接，所述声音处理模块和所述图像处理模块分别与所述音视频处理模块电连接，所述音视频模块与存储模块电连接。

优选地，所述图像处理模块包括用于对全景摄像头获取的视频数据进行校正处理的图像校正模块和用于进行人脸检测的人脸检测定位模块，所述图像校正模块与所述人脸检测定位模块电连接，所述图像校正模块分别与各全景摄像头电连接，所述人脸检测定位模块与所述音视频处理模块电连接。

优选地，所述声音处理模块包括声源定位模块和有效声源提取模块，所述声源定位模块和所述有效声源提取模块电连接，所述声源定位模块分别与各麦克风阵列电连接，所述有效声源提取模块与所述音视频处理模块电连接。

优选地，所述音视频处理模块包括人物声音匹配模块和图像声音对齐矫正剪辑模块，所述人物声音匹配模块和所述图像声音对齐矫正剪辑模块电连接，所述人物声音匹配模块分别与所述人脸检测定位模块和所述有效声源提取模块电连接，所述图像声音对齐矫正剪辑模块与所述存储模块电连接。

优选地，所述存储模块包括视频存储单元和文本编辑存储单元，所述视频存储单元和所述文本编辑存储单元分别与所述图像声音对齐矫正剪辑模块电连接。

优选地，所述图像处理模块采用mcu。

优选地，所述声音处理模块采用mcu。

优选地，所述音视频处理模块采用mcu。

优选地，所述存储模块采用raid高速存储硬盘【正确】。

优选地，所述麦克风阵列采用自适应降噪麦克风阵列【正确】。

本发明产生的有益效果：

1、本发明所公开的基于全景摄像头和麦克风阵列的会议转录系统，包括用于获取视频数据的多个全景摄像头、用于获取音频数据的多个麦克风阵列、用于对视频数据进行预处理的图像处理模块、用于对音频数据进行预处理的声音处理模块以及用于对预处理后的视频数据和音频数据进行匹配的音视频处理模块，各所述全景摄像头分别与所述图像处理模块电连接，各所述麦克风阵列分别与所述声音处理模块电连接，所述声音处理模块和所述图像处理模块分别与所述音视频处理模块电连接，所述音视频模块与存储模块电连接；通过分别设置图像处理模块和声音处理模块，能够结合人脸检测和麦克风阵列定位算法，综合两者的优势，互补两者的缺点，实现会议中按身份进行转录；

2、所述图像处理模块包括用于对全景摄像头获取的视频数据进行校正处理的图像校正模块和用于进行人脸检测的人脸检测定位模块，所述图像校正模块与所述人脸检测定位模块电连接，所述图像校正模块分别与各全景摄像头电连接，所述人脸检测定位模块与所述音视频处理模块电连接；通过设置所述图像校正模块与所述人脸检测定位模块，在进行处理时只需要人脸检测定位算法，不需要人脸识别算法，不需要耗资源的模型库来实现，识别快速高效；

3、所述声音处理模块包括声源定位模块和有效声源提取模块，所述声源定位模块和所述有效声源提取模块电连接，所述声源定位模块分别与各麦克风阵列电连接，所述有效声源提取模块与所述音视频处理模块电连接；通过设置声源定位模块和有效声源提取模块，只需要定位算法，不需要声音分类算法，较为高效，易于前端实现。

附图说明

图1为本发明的基于全景摄像头和麦克风阵列的会议转录系统的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参见图1所示，一种基于全景摄像头和麦克风阵列的会议转录系统，包括用于获取视频数据的多个全景摄像头、用于获取音频数据的多个麦克风阵列、用于对视频数据进行预处理的图像处理模块、用于对音频数据进行预处理的声音处理模块以及用于对预处理后的视频数据和音频数据进行匹配的音视频处理模块，各所述全景摄像头分别与所述图像处理模块电连接，各所述麦克风阵列分别与所述声音处理模块电连接，所述声音处理模块和所述图像处理模块分别与所述音视频处理模块电连接，所述音视频模块与存储模块电连接。所述图像处理模块包括用于对全景摄像头获取的视频数据进行校正处理的图像校正模块和用于进行人脸检测的人脸检测定位模块，所述图像校正模块与所述人脸检测定位模块电连接，所述图像校正模块分别与各全景摄像头电连接，所述人脸检测定位模块与所述音视频处理模块电连接。所述声音处理模块包括声源定位模块和有效声源提取模块，所述声源定位模块和所述有效声源提取模块电连接，所述声源定位模块分别与各麦克风阵列电连接，所述有效声源提取模块与所述音视频处理模块电连接。所述音视频处理模块包括人物声音匹配模块和图像声音对齐矫正剪辑模块，所述人物声音匹配模块和所述图像声音对齐矫正剪辑模块电连接，所述人物声音匹配模块分别与所述人脸检测定位模块和所述有效声源提取模块电连接，所述图像声音对齐矫正剪辑模块与所述存储模块电连接。所述存储模块包括视频存储单元和文本编辑存储单元，所述视频存储单元和所述文本编辑存储单元分别与所述图像声音对齐矫正剪辑模块电连接。

本实施例中所述基于全景摄像头和麦克风阵列的会议转录系统，所述图像处理模块采用mcu。所述声音处理模块采用mcu。所述音视频处理模块采用mcu。图像和声音处理模块都放在一个mcu里面，型号是：armcortex-a9多核处理器，实际中，我们采用三个cpu的核来进行人脸的图像处理，一个核专门做声音处理。所述存储模块采用raid高速存储硬盘。所述麦克风阵列采用自适应降噪麦克风阵列。

本实施例中所述基于全景摄像头和麦克风阵列的会议转录系统，包括用于获取视频数据的多个全景摄像头、用于获取音频数据的多个麦克风阵列、用于对视频数据进行预处理的图像处理模块、用于对音频数据进行预处理的声音处理模块以及用于对预处理后的视频数据和音频数据进行匹配的音视频处理模块，各所述全景摄像头分别与所述图像处理模块电连接，各所述麦克风阵列分别与所述声音处理模块电连接，所述声音处理模块和所述图像处理模块分别与所述音视频处理模块电连接，所述音视频模块与存储模块电连接；通过分别设置图像处理模块和声音处理模块，能够结合人脸检测和麦克风阵列定位算法，综合两者的优势，互补两者的缺点，实现会议中按身份进行转录；

本实施例中所述基于全景摄像头和麦克风阵列的会议转录系统，所述图像处理模块包括用于对全景摄像头获取的视频数据进行校正处理的图像校正模块和用于进行人脸检测的人脸检测定位模块，所述图像校正模块与所述人脸检测定位模块电连接，所述图像校正模块分别与各全景摄像头电连接，所述人脸检测定位模块与所述音视频处理模块电连接；通过设置所述图像校正模块与所述人脸检测定位模块，在进行处理时只需要人脸检测定位算法，不需要人脸识别算法，不需要耗资源的模型库来实现，识别快速高效；

本实施例中所述基于全景摄像头和麦克风阵列的会议转录系统，所述声音处理模块包括声源定位模块和有效声源提取模块，所述声源定位模块和所述有效声源提取模块电连接，所述声源定位模块分别与各麦克风阵列电连接，所述有效声源提取模块与所述音视频处理模块电连接；通过设置声源定位模块和有效声源提取模块，只需要定位算法，不需要声音分类算法，较为高效，适用于前端实现。

本实施例中所述基于全景摄像头和麦克风阵列的会议转录系统的原理及处理过程为：全景摄像头部分采用三个150°广角的摄像头，摄像头之间有相互重叠的部分，三个摄像头单元夹角为120°，经过图像校正拼接可以获得全景效果；经过人脸检测，能够将每个人脸的中心位置区分开来；麦克风阵列使用了三个mic的，采用doa(位置估计算法)取两个备选音源位置，采用的算法是srp-phat；大概拾取到设备周围三米以内会议参加者，它需要分辨的角度是15度(假定一个会议者的占据座位的宽度是75cm)，这个对于3个mic的阵列是可以达到的。我们可以大概按照15°角度的分辨区间来区分，落在一个区间的，可以认为是同一个人发声，同时确定他的位置，这种考虑主要是结合摄像头人脸检测和阵列定位的现存不足和各自的优势：采用的是人脸检测而非人脸识别，人脸检测需要的算法复杂度没有那么高，不需要很大的模型，我们最后用说话人的位置(比如角度信息)来给说话人做一个id号，后面在庭审记录中，只要替换对应的与会者身份或者名字就可以了；麦克风阵列和定位算法受到阵列的尺寸和单元个数的影响，不可能做非常精确的定位，你比如下面的这种庭审中，两个审讯人坐的位置相对比较接近，如果只用阵列，是非常难定位是左边还是右边的审问官在审问，如果结合人脸位置，我们就可以调整srp值的阈值使得doa的判断结果更为准确；阵列只是提供doa(位置估计)算法和指向性拾音，并不对声音做分类判断，基于现在的人声和其他噪声的分类判断算法还不是能做的非常精确，所以引入人脸检测做辅助结合判断，比如现在的会议室，很多地方都配有电脑，扫描仪器，这些仪器也发出来噪声，这些噪声会干扰doa的对位置的估计。但引入人脸检测，问题就非常好解决了。对于同时有三个人发声的情况我们将忽略，这种一般都是大家一起鼓掌，或者一起大笑造成的，这种做文字转录成文本也没有意义。

本实施例中所述基于全景摄像头和麦克风阵列的会议转录系统，结合人脸检测和麦克风阵列定位算法，综合两者的优势，互补两者的缺点，使得会议中按身份做转录成为可能；只需要定位算法，不需要声音分类算法，较为高效，适用于前端实现；只需要人脸检测定位算法，不需要人脸识别算法，不需要耗资源的模型库来实现。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁斌
技术所有人：北京快鱼电子股份公司
我是此专利的发明人

上一篇：一种用于落地式镗铣床上的刀杆的制作方法
上一篇：陶瓷双列封装器件冲击振动试验夹具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。