一种基于深度学习的人声增强与环境预测系统

文档序号：26128339发布日期：2021-08-03 13:13阅读：292来源：国知局

本实用新型涉及科学计算及智能分类领域，具体涉及一种基于深度学习的人声增强与环境预测系统。

背景技术：

在日常生活中，由于环境的干扰，语音信号很可能会被破坏和污染，导致我们无法很好的去判断语音的内容；另外，当语音信号的信源过于嘈杂时，我们无法获取到其它有用的信息。譬如说，报警电话，在报警人过度紧张的情况下，我们可能无法从报警人的口中获取有用的信号，但是我们可以通过其进入到麦克风环境声音进行对其所在的环境进行分析和判断，从而得到其粗略的位置信息等等。对于人声信号增强和环境声信号的预测的研究对于家居、公安、军事方面都具有重要意义。

随着深度学习技术的迅速发展，我们可以将神经网络运用到语音信号的处理上面，通过对预知环境音的训练，我们可以快速准确的分析出不同环境声音信号对应的环境类型，进而帮助我们去处理一些生活社会上的问题。提高我们的生活质量。

技术实现要素：

一种基于深度学习的人声增强与环境预测系统，其特征在于：信号接收器、信号存储器、人声提取器、环境音提取器、信号放大器、环境预测系统、显示器、扬声器；

所述信号接收器与所述信号存储器通过有线方式连接；所述信号存储器分别与所述的人声提取器、环境音提取器通过有线方式依次连接；所述的人声提取器、信号放大器、扬声器通过有线方式依次串联连接；所述的环境音提取器、环境预测系统、显示器通过有线方式依次串联连接；

所述人声提取器包括：模数转换器、反向抑噪器、数模转换器；

所述的模数转换器，反向抑噪器，数模转换器依次串联连接；

所述环境音提取器包括：高通滤波器、声道混合器、低通滤波器；

所述的高通滤波器、声道混合器、低通滤波器依次串联连接；

所述信号存储器分别与所述的模数转换器、高通滤波器通过有线方式依次连接；

所述低通滤波器分别与所述的模数转换器、环境声预测系统通过有线方式依次连接；

所述数模转换器与所述信号放大器通过有线方式连接；

所述信号接收器用于接收声音信号，将声音信号存入所述信号存储器；

所述信号存储器用于存取接收声音信号，将声音信号分别传输至所述的人声提取器、环境音提取器；

所述人声提取器接收所述信号存储器输出的声音信号，并接收所述环境音提取系统输出的环境声音信号，结合环境声音信号，进一步对声音信号的人声进行提取得到人声信号，并传输至所述信号放大器；

所述模数转换器接收所述环境音提取系统输出的环境声音信号，将环境声音信号通过模数转换得到环境音数字信号序列；

所述反向抑噪器计算获得与环境音数字信号序列频谱相同、相位相差180°的抑噪信号数字序列，将抑噪信号数字序列传输至所述数模转换器，通过数模转换得到抑噪模拟信号；

所述反向抑噪器接收所述信号存储器输出的声音信号，将抑噪模拟信号与声音信号混合，使得抑噪模拟信号与声音信号中环境声音信号互相抵消，从而获取人声信号；

所述环境音提取器用于对声音信号的环境音进行提取得到环境声音信号，并传输至所述的人声提取器、环境预测系统；

所述高通滤波器将声音信号经过进行高通滤波后得到高通滤波后声音信号，将高通滤波后声音信号传输至所述声道混合器；

所述声道混合器将高通滤波后声音信号进行混合得到混合后声音信号；

所述低通滤波器用于对混合后声音信号进行低通滤波得到环境声音信号，分别传输至所述的人声提取器、环境预测系统；

所述信号放大器用于放大人声信号，将放大后人声信号传输至所述扬声器进行播放；

所述环境预测系统用于对环境声音信号进行分类得到环境声音类型，将环境声音类型输出至所述显示器进行显示；

所述环境预测系统，是基于卷积神经网络的环境声音识别系统，结合声音梅尔能量谱有效提取特征，使用混合构建的方法进行模型训练，增强训练样本分布，提高模型鲁棒性；从原始音频中提取得到的梅尔能量谱特征进行混合构建得到样本库，用于对卷积神经网络模型进行训练，最终以训练后的卷积神经网络进行环境声音的识别。

本新型可以用于对语音信号进行降噪处理，获取更加清晰完整的语音信号，并且判断出其产生的环境种类。

附图说明

图1是本实用新型实施例的流程图。

图2是本实用新型实施例的环境预测系统原理图。

图3是本实用新型实施例的高通滤波器电路图。

图4是本实用新型实施例的低通滤波器电路图。

图5是本实用新型实施例的信号放大器电路图。

具体实施方式

本实用新型为了使本领域技术人员理解本公开所披露的技术方案，下面将结合实施例及有关附图，对实施例的技术方案进行描述，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。本公开所采用的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，“包括”和“具有”以及它们的任何变形，意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、或方法、或系统、或产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是，本文所描述的实施例可以与其他实施例相结合。

请参阅图1，图1是本实用新型实施例提供的一种基于深度学习的人声增强与环境预测系统，如图所示，本实施例的一种基于深度学习的人声增强与环境预测系统，包括：信号接收器、信号存储器、人声提取器、环境音提取器、信号放大器、环境预测系统、显示器、扬声器；

所述人声提取器包括：模数转换器、反向抑噪器、数模转换器；

所述的模数转换器，反向抑噪器，数模转换器依次串联连接；

所述环境音提取器包括：高通滤波器、声道混合器、低通滤波器；

所述的高通滤波器、声道混合器、低通滤波器依次串联连接；

所述信号存储器分别与所述的模数转换器、高通滤波器通过有线方式依次连接；

所述低通滤波器分别与所述的模数转换器、环境声预测系统通过有线方式依次连接；

所述数模转换器与所述信号放大器通过有线方式连接。

所述信号接收器的型号为：小米麦克风。

所述信号存储器的型号为：at28c64b-15pu。

所述人声提取器中：所述反向抑噪器选型为at40k05-2bqc，所述模数转换器选型为ads1296模数转换器，所述数模转换器选型为dac904数模转换器。

所述环境音提取器中：所述高通滤波器选型为有源高通滤波器，所述声道混合器选型为at40k05-2bqc，所述低通滤波器选型为有源低通滤波器。

所述信号放大器的具体实现为：pnp三极管。

所述环境预测系统的具体实现为：at40k05-2bqc的fpga。

所述扬声器型号为：edifier)-r10u2.0。

所述显示器型号为：17英寸显示器。

下面结合图1至图5介绍本实用新型的具体实施方式为：

所述信号接收器主体形式为一个麦克风，用于接收声音信号，将声音信号存入所述信号存储器；

所述信号存储器用于接收声音信号并进行存储，将声音信号分别传输至所述的人声提取器、环境音提取器，所述声音信号包括人声信号和环境声音信号；

所述模数转换器接收所述环境音提取系统输出的环境声音信号，将环境声音信号以96khz的采样频率通过模数转换得到环境音数字信号序列；

所述反向抑噪器接收所述信号存储器输出的声音信号，将抑噪模拟信号与声音信号混合，使得抑噪模拟信号与声音信号中环境声音信号互相抵消，从而获取到清晰、无干扰的人声信号；

所述环境音提取器用于对声音信号的环境音进行提取得到环境声音信号，并传输至所述的人声提取器、环境预测系统；

所述高通滤波器将声音信号经过进行高通滤波后得到高通滤波后声音信号，将高通滤波后声音信号传输至所述声道混合器；

所述声道混合器将高通滤波后声音信号进行混合得到混合后声音信号；

所述声音信号包含左声道声音信号、右声道声音信号，所述声道混合器将左声道声音信号、右声道声音信号进行一定的数字技术是的人声的相位进行抵消，而环境音的不进行抵消得到去除人声的效果。

所述低通滤波器用于对混合后声音信号进行低通滤波得到环境声音信号，分别传输至所述的人声提取器、环境预测系统；

所述信号放大器对人声信号进行调幅放大，得到更加清晰、明亮的放大后人声信号，将放大后人声信号传输至所述扬声器进行播放；

所述环境预测系统用于对环境声音信号进行分类得到环境声音类型，将环境声音类型输出至所述显示器进行显示，具体为：

所述环境预测系统，是基于卷积神经网络的环境声音识别系统，结合声音梅尔能量谱有效提取特征，使用混合构建的方法进行模型训练，增强训练样本分布，提高模型鲁棒性；从原始音频中提取得到的梅尔能量谱特征进行混合构建得到样本库，用于对卷积神经网络模型进行训练，最终以训练后的卷积神经网络进行环境声音的识别，将环境声音类型输出至所述显示器进行显示。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本实用新型专利保护范围的限制，本领域的普通技术人员在本实用新型的启示下，在不脱离本实用新型权利要求所保护的范围情况下，还可以做出替换或变形，均落入本实用新型的保护范围之内，本实用新型的请求保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张海天
技术所有人：武汉大学
我是此专利的发明人