环境语音采集处理方法、装置、设备及可读存储介质与流程

文档序号：22112691发布日期：2020-09-04 15:14阅读：268来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音处理技术领域，尤其涉及一种环境语音采集处理方法、装置、设备及可读存储介质。

背景技术：

目前，语音采集过程中不可避免的会受到环境噪音的影响，导致采集得到的语音信息质量较差，无法满足实际使用的要求限制。

目前对于语音信息中的环境噪音的处理主要是将环境噪音完全抹除，但是这样处理后会导致获取的语音信息的失真，也无法满足实际使用的要求限制，存在一定的缺陷。

技术实现要素：

本申请的主要目的在于提供一种环境语音采集处理方法、装置、设备及可读存储介质，旨在解决语音采集处理过程中环境噪音导致的语音信息失真无法准确识别的问题。

为实现上述目的，本申请提供的一种环境语音采集处理方法，所述环境语音采集处理方法包括以下步骤：

获取当前环境的实时语音信号；

根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；

根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号。

可选地，所述根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值的步骤包括：

获取所述预设语音信号的第一字符信息；

获取所述实时语音信号的第二字符信息；

根据第一字符信息与所述第二字符信息的字符差异，计算当前环境的噪音评估值。

可选地，所述根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号的步骤包括：

若所述噪音评估值大于第一预设值且小于第二预设值，则获取环境噪音干扰因子；

根据所述环境噪音干扰因子对于所述实时语音信号进行滤波去噪运算，获取去噪语音信号；

将所述去噪语音信号作为最终的输出语音信号。

可选地，所述获取环境噪音干扰因子的步骤包括：

将所述第一字符信息作为输入，将所述第二字符信息输出，利用神经网络算法，根据神经网络模型中中间层的设置数值获取各环境噪音干扰因子；

根据平均算法获取最终环境噪音干扰因子。

可选地，所述得到最终的输出语音信号的步骤之后包括：

将所述输出语音信号与所述实时语音信号对比，显示去噪评测指标；

根据所述去噪评测指标对于所述神经网络算法进行更新。

可选地，所述根据所述噪音评估值对于所述实时语音信号进行处理的步骤包括：

若所述噪音评估值大于或等于第二预设值，则根据所述预设语音信号对于所述实时语音信号进行去噪处理，获取备选语音信号；

获取所述备选语音信号与所述实时语音信号的实际差异值；

若所述实际差异值大于预设差异值，则删除获取的所述实时语音信息。

可选地，所述根据所述噪音评估值对于所述实时语音信号进行去噪处理的步骤包括：

若所述噪音评估值小于或等于第一预设值，则不对所述实时语音信号进行去噪处理。

本申请还提供一种环境语音采集处理装置，所述环境语音采集处理装置包括：

获取模块，用于获取当前环境的实时语音信号；

计算模块，用于根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；

处理模块，用于根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号。

本申请还提供一种环境语音采集处理设备，所述环境语音采集处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的环境语音采集处理程序，所述环境语音采集处理程序被所述处理器执行时实现如上述的环境语音采集处理方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的环境语音采集处理方法的步骤。

本申请通过获取当前环境的实时语音信号；根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号。通过采集的实时语音信号与预设语音信号进行比较，得到采集的实时语音信号中噪音评估值，根据不同的噪音评估值对于采集的语音信号进行相应的处理，结合实际环境中的噪音信息，使最终的输出语音信号更加接近真实的语音信息，处理后的输出语音信号更加真实准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本申请环境语音采集处理方法第一实施例的流程示意图；

图3为本申请环境语音采集处理方法第二实施例中对于图2步骤s20的细化流程图；

图4为本申请环境语音采集处理方法第三实施例中对于图2步骤s30的细化流程图；

图5为本申请环境语音采集处理方法第五实施例中对于图2步骤s30的细化流程图；

图6为本申请环境语音采集处理设备一实施例的系统结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请实施例终端为环境语音采集处理设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wifi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端设备移动到耳边时，关闭显示屏和/或背光。当然，终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及环境语音采集处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的环境语音采集处理程序，并执行以下操作：

获取当前环境的实时语音信号；

根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；

根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号。

基于上述终端硬件结构，提出本申请各个实施例。

本申请提供一种环境语音采集处理方法。

参照图2，在环境语音采集处理方法第一实施例中，该方法包括：

步骤s10，获取当前环境的实时语音信号；

实时语音信号由语音采集设备采集得到，语音采集设备可以是录音笔，手机以及其他可以采集并存储语音信号的设备。实时语音信号中包括用户需要的目标语音信息和会对目标语音信息产生影响的环境噪音信号，采集到实时语音信号后，需要对于实时语音信号进行处理，对于实时语音信号的处理可以是不进行处理，可以是进行适当处理，也可以是直接将采集到的语音删除，不进行存储。

步骤s20，根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；

实时语音信号为语音采集设备采集到的语音信号，而预设语音信号为用户或者其他人提前存储的语音信息，预设语音信号为一些常用字的纯净语音信号，同时还可以包括预先采集的不同的用户的对于不同常用字的纯净语音信号，纯净语音信号为在安静环境中采集到的语音信号，纯净语音信号可以提供同一用户或者不同用户的语音波形信息，根据实时语音信号中识别出的常用字的字符信息与预设语音信号中的相同常用字的字符信息进行对比，获取环境噪音对于采集到的实时语音信号的影响，确定相应的环境噪音评估值。环境噪音评估值可以是设定的噪音对于采集到的语音信号的干扰程度的计算函数，也可以是直接获取的环境中噪音的声压级，环境中噪音的声压级可以由声压传感器直接获取，此时噪音评估值为声压传感器获取的噪音值的大小，此时可以直接利用采集到的实时语音信号获取对应的噪音评估值，但是此时需要确保没有其他用户在当前环境中且环境中的噪音是在较长时间内不会变化的，否则会对采集到的实时语音信息的处理造成影响。

步骤s30，根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号；

将采集到的实时语音信号根据噪音评估值进行不同的分类处理，当计算得到的噪音评估值较小时，说明采集到的实时语音信息质量较高，可以不进行处理直接作为最终的时长语音信号使用，当计算得到的噪音评估值较大但是又小于预设值时，说明采集到的实时语音信号存在较大的干扰信息，需要根据采集到的实时语音信息和预设语音信息对于采集到的实时语音信息进行处理，处理方式为根据实时语音信息和预设语音信息获取噪音的干扰因子，通过噪音的干扰因子将采集到的实时语音信号进行处理，得到最终的输出语音信号，当噪音评估值超过预设值，说明采集到的实时语音信息中的环境噪音干扰较大，得到的语音信号不准确，此时对于语音信号要求较高的使用用途无法正常使用，此时可以选择不存储采集到的实时语音信号，重新采集新的实时语音信号。

在本实施例中，获取当前环境的实时语音信号；根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；根据所述噪音评估值对于所述实时语音信号进行处理，得到最终的输出语音信号。根据采集的实时语音信号和预设语音信号计算得到噪音评估值，根据实时监测得到的噪音评估值对于实时语音信号进行处理，将处理后的实时语音信号作为最终的时长语音信号，通过实时的噪音评估值作为判断依据对于实时语音信号进行处理可以使输出语音信号更加准确，从而降低环境噪音对于采集的实时语音信号的影响。

进一步地，参照图2和图3，在本申请环境语音采集处理方法上述各实施例的基础上，提供环境语音采集处理方法第二实施例，在第二实施例中，

步骤s20包括：

步骤s21，获取所述预设语音信号的第一字符信息；

步骤s22，获取所述实时语音信号的第二字符信息；

正常的语音信号由一个个不同的字符信息连接起来形成最终的语音信号，对于实时语音信号，需要分析出其中的第一字符信息，确定其中存在的相应常用字字符信息，对于每一个相应的常用字字符信息，寻找预设语音信号中的第二字符信息中对应的相同常用字的字符信息，记录相应的字符信息。对于预设语音信号中的信息，如果对于经常采集固定多人的语音信息，则可以在预设语音信号中记录不同的常用者对于常用字的第二字符信息，在采集第一字符信息时可以额外提供采集者的身份信息来提高计算得到的噪音评估值的准确性。如果是对于随机采集得到的语音信息进行处理，则可以获取标准的常用字的字符信息作为预设语音信号中的第一字符信息。

步骤s23，根据第一字符信息与所述第二字符信息的字符差异，计算当前环境的噪音评估值；

当获取到第二字符信息与对应的第一字符信息之后，根据每个字符信息的差异，计算得到最终的噪音评估值。对于实时语音信号中的第二字符信息，找到第一字符信息中匹配的相应字符信息，最终可以通过加权平均的方法获取噪音评估值。同时噪音评估值可以为事先利用声压传感器采集的当前环境中无目标音源发声时的声压强度。

在本实施例中，通过预设语音信号与实时语音信号中相应的第一字符信息与第二字符信息得到噪音评估值，从而判断当前环境噪音对采集的实时语音信息的影响。

进一步地，参照图2和图4，在本申请环境语音采集处理方法上述各实施例的基础上，提供环境语音采集处理方法第三实施例，在第三实施例中，

步骤s30包括：

步骤s31，若所述噪音评估值大于第一预设值且小于第二预设值，则获取环境噪音干扰因子。

噪音评估值如果为根据噪音对于采集到的语音信息的获取的环境噪音对于目标声源的声音信息的干扰程度，则第一预设值和第二预设值为相应的干扰程度等级值，如第一预设值可以为3，第二预设值可以为5；如果噪音评估值为由声压传感器获取的当前环境中无目标声源时的声压级，则第一预设值和第二预设值可以为对应的声压。当噪音评估值处于第一预设值与第二预设值之间时，则需要获取环境噪音干扰因子。环境噪音干扰因子的获取可以是通过滤波的方法得到。在获取到实时语音信号和预设语音信号中的字符信息后，将相同常用字信息对应的实时语音信号和预设语音信号提取出来，然后根据滤波算法获取相应的环境噪音干扰因子，滤波算法主要是通过不同的声音信号的行列式求得环境噪音干扰因子，即因为环境噪音的影响，会将正常的预设语音信号干扰成新的采集到的实时语音信号，在使用滤波算法时，还需要用到字符信息的长度，所以在获取实时语音信息中的字符信息时需要对于实时语音信息进行分帧，根据不同的采样频率，可以将信号服务不同长度的帧，同时还要考虑帧移，分帧后对于语音信息推荐汉明窗。同时还需要根据相同常用字字符信息对应的预设语音信号和实时语音信号得到两者的互相关函数和对应的矩阵。

步骤s32，根据所述环境噪音干扰因子对于所述实时语音信号进行滤波去噪运算，获取去噪语音信号；

在获取到相应的环境噪音干扰因子后，根据环境噪音干扰因子对于实时语音信息进行去噪处理，同时环境噪音干扰因子的获取可以多次结合不同的字符信息多次重复获取多个不同的环境噪音干扰因子，再通过加权平均得到综合的环境噪音干扰因子。获取去噪语音信号时，根据加权平均得到的环境噪音干扰因子对于实时语音信号再次进行滤波矩阵的运算，得到去噪语音信号。这里获取去噪语音信号时可以直接利用matlab中的内部函数求得去噪语音信号，使用matlab可以输出去噪后的语音信号的波形。获取到去噪语音信号后，将去噪语音信号作为最终的输出语音信号。

步骤s33，将所述去噪语音信号作为最终的输出语音信号；

进行去噪处理后的去噪语音信号可以作为输出语音信号进行输出。

在本实施例中，通过预设语音信号和实时语音信号获取环境噪音干扰因子，之后通过环境噪音干扰因子获取去噪语音信号。

进一步地，在本申请环境语音采集处理方法上述各实施例的基础上，提供环境语音采集处理方法第四实施例，在第四实施例中，

步骤s31包括：

步骤a1，将所述第一字符信息作为输入，将所述第二字符信息输出，利用神经网络算法，根据神经网络模型中中间层的设置数值获取各环境噪音干扰因子；

神经网络模型包含数个不同的层，通常神经网络由三层结构构成，包括输入层、中间层和输出层，将第一字符信息对应的矩阵信息作为输入的信息放到神经网络模型的输入层，而把第二字符信息作为预设的输出层的输出训练结果，从而根据第一字符信息和对应的第二字符信息调整神经网络模型中的中间层的各个参数，继而可以得到对应的环境噪音干扰因子。对于不同的常用字字符信息，可以获取多个不同的环境干扰因子，或者通过多次虽然相同的第一字符信息来获取不同的环境噪音干扰因子。

步骤a2，根据平均算法得到最终环境噪音干扰因子；

在获取到不同的各环境噪音干扰因子后，可以根据不同的环境干扰因子通过加权平均的方法获得最终环境噪音干扰因子。

步骤s30之后包括：

步骤b1，将所述输出语音信号与所述实时语音信号对比，显示去噪评测指标；

根据最终的时长语音信号与采集的实时语音信号进行对比，获取去噪评测指标，去噪评测指标包括时域混噪比改善指标、线性预测倒谱系数距离改善指标、mel频率倒谱系数距离改善指标，其中后两个指标的评价根据客观，可以直接有相应的数值表示。

步骤b2，根据所述去噪评测指标对于所述神经网络算法进行更新；

获取到去噪评测指标后，根据相应的指标数值，与标准的指标数值进行对比获取差异值，如果相应的数值差距较大，则说明相应的神经网络模型存在较大的误差，可以根据指标的数值大小对于神经网络模型进行调整，如对于中间层的各因子增加额外的权值进行调整，或者增加更多神经网络模型的层数。

在本实施例中，通过神经网络模型可以获取环境噪音干扰因子，并根据去噪后的结果对于神经网络模型进行调整，使获取的环境噪音干扰因子根据准确，也提高采集的实时语音信号的去噪效果。

进一步地，参照图2和图5，在本申请环境语音采集处理方法上述各实施例的基础上，提供环境语音采集处理方法第五实施例，在第五实施例中，

步骤s30包括：

步骤s34，若所述噪音评估值大于或等于第二预设值，则根据所述预设语音信号对于所述实时语音信号进行去噪处理，获取备选语音信号；

若噪音评估值较大，说明当前的环境噪音对于采集的实时语音信号的干扰较大，此时仍然按照第三实施例中对于实时语音信号的进行去噪处理，即获取相应的环境噪音干扰因子，将去噪后的语音信号作为备选语音信号，此时因为环境噪音较大，所以不一定能够直接输出。

步骤s35，获取所述备选语音信号与所述实时语音信号的实际差异值；

将去噪处理后的备选语音信号与采集的实时语音信号进行对比，获取两者的差异值。

步骤s36，若所述实际差异值大于预设差异值，则删除获取的所述实时语音信号；

差异值过大，说明根据去噪处理后的备选语音信号与实际采集到的语音信号差距较大，此时认为去噪处理后的语音信号因为环境噪音的影响而创造较大的误差，无法正常用于语音识别或者语音对比等用途，因而可以将采集到的实时语音信号进行删除。如果差异值较小，说明去噪处理提高了采集的实时语音信号的准确性且失真较小，因此可以将备选语音信号作为输出语音信号。

在本实施例中，当噪音评估值较大时，即使进行了去噪处理，也要对获取的备选语音信号进行评估，只有评估合格才能认为去噪后的语音信号可以作为输出语音信号。

进一步地，在本申请环境语音采集处理方法上述各实施例的基础上，提供环境语音采集处理方法第六实施例，在第六实施例中，

步骤s30包括：

步骤c，若所述噪音评估值小于或等于第一预设值，则不对所述实时语音信号进行去噪处理；

如果噪音评估值较小，可能是因为语音采集装置不是引起的场景误差，或者说，即使存在环境噪音，对于采集到的实时语音信号也影响不大，因此不进行处理会更有利于对于实时语音信号接下来的存储、识别或者其它操作。

在本实施例中，当噪音评估值较小时，不对所述实时语音信号进行处理，直接按照预设流程进行存储或者其它操作。

此外，参照图6，本申请实施例还提出一种环境语音采集处理装置，所述环境语音采集处理装置包括：

获取模块，用于获取当前环境的实时语音信号；

计算模块，用于根据预设语音信号与所述实时语音信号，计算当前环境的噪音评估值；

处理模块，用于根据所述噪音评估值对于所述实时语音信号进行去噪处理，得到最终的输出语音信号。

可选地，计算模块还用于：

获取所述预设语音信号的第一字符信息；

获取所述实时语音信号的第二字符信息；

根据第一字符信息与所述第二字符信息的字符差异，计算当前环境的噪音评估值。

可选地，处理模块还用于：

若所述噪音评估值大于第一预设值且小于第二预设值，则获取环境噪音干扰因子；

根据所述环境噪音干扰因子对于所述实时语音信号进行滤波去噪运算，获取去噪语音信号；

将所述去噪语音信号作为最终的输出语音信号。

可选地，获取模块还用于：

将所述第一字符信息作为输入，将所述第二字符信息输出，利用神经网络算法，根据神经网络模型中中间层的设置数值获取各环境噪音干扰因子；

根据平均算法获取最终环境噪音干扰因子。

可选地，环境语音采集处理装置还包括：

显示模块，用于将所述输出语音信号与所述实时语音信号对比，显示去噪评测指标；

更新模块，用于根据所述去噪评测指标对于所述神经网络算法进行更新。

可选地，处理模块还用于：

若所述噪音评估值大于或等于第二预设值，则根据所述预设语音信号对于所述实时语音信号进行去噪处理，获取备选语音信号；

获取所述备选语音信号与所述实时语音信号的实际差异值；

若所述实际差异值大于预设差异值，则删除获取的所述实时语音信号。

可选地，处理模块还用于：

若所述噪音评估值小于或等于第一预设值，则不对所述实时语音信号进行去噪处理。

本申请设备和可读存储介质(即计算机可读存储介质)的具体实施方式的拓展内容与上述环境语音采集处理方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄族良;陈昊亮
技术所有人：广州国音智能科技有限公司
我是此专利的发明人

上一篇：一种焊接式宽流道板式换热器的制作方法
上一篇：一种自动包装机的制作方法