一种清浊音检测方法、装置、设备及介质与流程

文档序号：25285962发布日期：2021-06-01 17:35阅读：165来源：国知局

本申请涉及计算机技术领域，特别涉及一种清浊音检测方法、装置、设备、介质。

背景技术：

随着网络多媒体以及人工智能的迅速发展，对高质量的歌声处理技术要求越来越高，比如智能修音、智能人声合成等。在对歌声进行处理的过程中，歌曲的清浊音检测对于实现自动修音以及语音合成具有重要意义，在清浊音区分不清楚时，会出现变速变调或者智能合成后的声音信号出现电音、破音、听感不自然等问题，故高质量的清浊音检测对于修音或歌唱声合成具有重要意义。

现有的清浊音检测方法主要包括：一是，仅仅针对音频信号给出大致的语音段以及静音段检测结果。二是，仅仅基于基频是否为0进行检测。三是，在进行语音识别的过程中，利用训练好的模型区分清浊音音素。

发明人发现以上现有技术中至少存在如下问题，一是，采用上述第一种方法只能检测出人声和静音，对于清浊音信号的检测准确度较低。二是，由于基频判断本身不够准确等问题导致最终的清浊音片段出现过多误差。三是，采用上述第二种方法需要依赖大量的训练集语料整理、人工标注等工作，且在应用目标不同时，比如识别的音频语音发声类型不同(一般语音和歌曲)，或者识别的语种不同(英语和汉语)，需要的训练集数据有较大差异，在切换应用场景时，也需要重新训练模型或对现有模型做迭代优化，这样整个过程工作量较大，且需要的成本太高。

技术实现要素：

有鉴于此，本申请的目的在于提供一种清浊音检测方法、装置、设备、介质，能够提高清浊音检测的正确率，且工作量较小，需要的成本较低。其具体方案如下：

为实现上述目的，第一方面，提供了一种清浊音检测方法，包括：

提取待处理音频信号对应的功率谱；

基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段；

根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。

可选地，所述根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段，包括：

将所述第一能量比不小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段；

将所述第一能量比小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

可选地，所述提取待处理音频信号对应的功率谱，包括：

提取所述待处理音频信号的基频信息；

利用所述基频信息和所述采样频率提取所述待处理音频信号对应的功率谱。

可选地，所述利用所述基频信息和所述采样频率提取所述待处理音频信号对应的功率谱，包括：

利用窗函数对所述待处理音频信号进行截取，以将所述待处理音频信号分成不同的待处理音频帧，以便将一帧所述待处理音频帧作为一个所述待处理音频信号子段，其中，所述窗函数的窗长基于所述基频信息和所述采样频率确定；

提取各个所述待处理音频帧对应的功率谱，得到所述待处理音频信号对应的功率谱。

可选地，所述根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段，包括：

将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比，其中，所述加权后功率谱为利用基于所述采样频率确定出的权重对所述功率谱进行加权得到的功率谱，所述目标频段的频段宽度不小于预设频段宽度阈值；

判断所述第一能量比是否不小于所述第一预设能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值；如果是，则判定当前待处理音频信号子段为浊音子段，将连续多个所述浊音子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段，如果否，则判定当前待处理音频信号子段为清音子段，将连续多个所述清音子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

可选地，所述判断所述第一能量比是否不小于所述第一预设能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值，包括：

判断所述第一能量比是否不小于所述第一预设能量比阈值中的第一个能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值中的第一个能量比阈值；

或，判断所述第一能量比是否不小于所述第一预设能量比阈值中的第二个能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值中的第二个能量比阈值。

可选地，所述将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比之前，还包括：

基于所述采样频率构造频域上的目标周期信号；

基于所述目标周期信号确定所述功率谱中各个频率对应的权重；

利用所述权重对所述功率谱进行加权，得到加权后功率谱。

可选地，所述将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比之后，还包括：

对所述第二能量比对应的比率曲线进行平滑处理。

第二方面，提供了一种清浊音检测装置，包括：

功率谱提取模块，用于提取待处理音频信号对应的功率谱；

能量比确定模块，用于基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段；

清浊音检测模块，用于根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。

第三方面，提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以实现前述公开的清浊音检测方法。

第四方面，提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的清浊音检测方法。

在本申请中，先提取待处理音频信号对应的功率谱，并基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段，然后再根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。由此可见，本申请先提取待处理音频信号对应的功率谱，然后基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，然后便可以根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段，这样基于待处理信号对应的功率谱确定出待处理音频信号中各个待处理音频信号子段的第一能量比之后，便可以根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段，能够提高清浊音检测的正确率，且不需要大量的训练样本，也不需要根据应用场景重新训练模型等，工作量较小，需要的成本较低。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的音频处理方案所适用的系统框架示意图；

图2为本申请公开的一种清浊音检测方法流程图；

图3为本申请公开的一种清浊音检测方法流程图；

图4为本申请公开的一种功率谱示意图；

图5为本申请公开的一种第一能量比对应的曲线图；

图6为本申请公开的一种基于第一能量比进行清浊音检测结果图

图7为本申请公开的一种具体的清浊音检测方法流程图；

图8为本申请公开的一种第二能量比对应的曲线图；

图9为本申请公开的一种基于第一能量比、第二能量比进行清浊音检测结果图；

图10为本申请公开的一种基于基频是否为0对前述的图4进行清浊音检测的结果示意图；

图11为本申请公开的一种基于第一能量比和第二能量比对前述的图4进行清浊音检测的结果示意图；

图12为本申请公开的一种音频合成示意图；

图13为本申请公开的一种对所述图8所示的第二能量比曲线进行平滑处理之后，得到的平滑后第二能量比曲线图；

图14为本申请公开的一种清浊音检测装置结构示意图；

图15为本申请公开的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在清浊音检测方法中主要包括，仅仅针对音频信号给出大致的语音段以及静音段检测结果。或，仅仅基于基频是否为0进行检测。或，在进行语音识别的过程中，利用训练好的模型区分清浊音音素。这样可能会由于在语音段和静音段只能检测出人声和静音，对于清浊音信号的检测准确度较低。而由于基频判断本身不够准确等问题导致最终的清浊音片段出现过多误差。而利用训练好的模型区分清浊音音素需要依赖大量的训练集语料整理、人工标注等工作，且在应用目标不同时，或者识别的语种不同时，需要的训练集数据有较大差异，在切换应用场景时，也需要重新训练模型或对现有模型做迭代优化，这样整个过程工作量较大，且需要的成本太高。有鉴于此，本申请提供了一种清浊音检测方法，能够提供清浊音检测的正确率，且工作量较小，需要的成本较低。

为了便于理解，先对本申请的清浊音检测方法所适用的系统框架进行介绍。可以理解的是，本申请实施例中并不对计算机设备的数量进行限定，其可以是多个计算机设备共同协作完成清浊音检测功能。在一种可能的情况中，请参考图1。由图1可知，该硬件组成框架可以包括：第一计算机设备101、第二计算机设备102。第一计算机设备101与第二计算机设备102之间通过网络103实现通信连接。

在本申请实施例中，在此不具体限定第一计算机设备101与第二计算机设备102的硬件结构，第一计算机设备101与第二计算机设备102两者进行数据交互，实现清浊音检测功能。进一步，本申请实施例中并不对网络103的形式进行限定，如，网络103可以是无线网络(如wifi、蓝牙等)，也可以是有线网络。

其中，第一计算机设备101和第二计算机设备102可以是同一种计算机设备，如第一计算机设备101和第二计算机设备102均为服务器；也可以是不同类型的计算机设备，如，第一计算机设备101可以是终端或智能电子设备，第二计算机设备102可以服务器。在又一种可能的情况中，可以利用计算能力强的服务器作为第二计算机设备102来提高数据处理效率及可靠性，进而提高清浊音检测效率。同时利用成本低、应用范围广的终端或智能电子设备作为第一计算机设备101，用于实现第二计算机设备102与用户之间的交互。

举例说明，请参考图2，终端在获取到待处理音频信号后，将所述待处理音频信号发送到服务器。服务器在接收到所述待处理音频信号之后，提取出所述待处理音频信号对应的功率谱，然后基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，然后再根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。服务器在确定出所述清音片段和浊音片段之后，将确定出的所述清音片段和浊音片段的信息发送到所述终端，以便所述终端根据所述清音片段和所述浊音片段的信息对所述待处理音频进行修音以及语音合成等处理。

参见图3所示，本申请实施例公开了一种清浊音检测方法，该方法包括：

步骤s11：提取待处理音频信号对应的功率谱。

在实际应用中，需要先提取待处理音频信号对应的功率谱。

在具体的实施过程中，提取待处理音频信号对应的功率谱，包括：提取所述待处理音频信号的基频信息；利用所述基频信息和所述采样频率提取所述待处理音频信号对应的功率谱。其中，所述利用所述基频信息和所述采样频率提取所述待处理音频信号对应的功率谱，又具体包括：利用窗函数对所述待处理音频信号进行截取，以将所述待处理音频信号分成不同的待处理音频帧，以便将一帧所述待处理音频帧作为一个所述待处理音频信号子段，其中，所述窗函数的窗长基于所述基频信息和所述采样频率确定；提取各个所述待处理音频帧对应的功率谱，得到所述待处理音频信号对应的功率谱。基于所述采样频率和所述基频信息对所述待处理音频信号进行分帧，可以提高分帧的准确率，从而提高清浊音检测的正确率。

也即，先提取所述待处理音频信号的基频信息，利用所述基频信息和所述采样频率确定出窗函数的窗长，利用该窗函数对所述待处理音频信号进行截取，将所述待处理音频信号分成不同的待处理音频帧，提取各个所述待处理音频帧对应的功率谱，得到所述待处理音频信号对应的功率谱。该窗函数可以为布莱克曼窗函数，其中，所述布莱克曼窗函数的窗长基于所述采样频率和基频确定，具体的，所述布莱克曼窗函数的窗长为3t0(t0＝fs/f0)，其中，fs为所述采样频率，f0为所述基频信息中的基频，此外，所述布莱克曼窗函数的窗长还可以是2t0，或是4t0。布莱克曼窗函数相对汉明窗和汉宁窗等其他窗，有着更高的傍瓣衰减，所以利用所述布莱克曼窗函数和3t0作为窗长可以最大程度的保留所有频谱分布，抑制频谱泄露。

也即，以3t0为窗长，添加布莱克曼窗函数，利用所述布莱克曼窗函数对所述待处理音频信号进行分帧，一帧待处理音频帧为一个待处理音频信号子段，提取各帧待处理音频帧对应的功率谱，各帧待处理音频帧对应的功率谱组成所述待处理音频信号对应的功率谱。也即，在待处理音频信号中以当前时间点为中心，以3t0为窗长，5ms秒为间隔，添加布莱克曼窗函数，布莱克曼窗函数可以将所述待处理音频信号划分成多个长度为3t0的待处理音频帧，两个相连的待处理音频帧之间间隔为5ms，然后提取各个待处理音频帧的功率谱，各帧待处理音频帧对应的功率谱组成所述待处理音频信号对应的功率谱。

在一种具体的实施过程中，当前计算机设备可以先获取待处理音频，然后对所述待处理音频进行采样，得到所述待处理音频对应的待处理音频信号，再对所述待处理音频信号进行基频提取，得到所述待处理音频信号对应的基频信息。其中，当前计算机设备获取所述待处理音频包括通过自身输入单元获取所述待处理音频，如当前计算机设备通过语音采集模块采集所述待处理音频，或者当前计算机设备从音频库中获取所述待处理音频。当前计算机设备也可以通过网络(可以是有线网络或者是无线网络)获取其他设备发送的待处理音频，当然，本申请实施例中并不限定其他设备(如其他计算机设备)获取所述待处理音频的方式。例如，其他设备(如终端)可以接收用户通过语音输入模块输入的待处理音频。

在对所述待处理音频信号进行基频提取时，可以参考为world的harvest+stonemask算法进行基频提取，harvest的提取得到的基频序列最大程度的提取到信号的有效基频信息，在确定的清音或静音段，基频为0。这样可以最大程度地提取出所述待处理信号的有效基频信息，提高最终清浊音检测的正确率。当然，在基频提取过程中，也可以采取其他的基频提取方法，在此不对具体的基频提取方法做出限定。

在一种具体的实施过程中，当前计算机设备可以通过网络直接获取其他设备发送的、对待处理音频进行初步处理之后得到的所述待处理音频信号以及所述待处理音频信号对应的基频信息、采样频率，当前计算机设备在获取到所述待处理音频信号、所述基频信息、采样频率之后，便可以进行后续的处理。在此并不限定其他设备(如其他计算机设备)获取所述待处理音频信号、所述基频信息、采样频率的方式。例如，其他设备(如终端)可以从预设的音频信号集中获取所述待处理音频信号。

步骤s12：基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段。

可理解的是，在确定出所述功率谱之后，便可以基于所述功率谱确定出所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段。所述浊音频段通常为100hz～4000hz，清音频段通常为4000hz～8000hz，所以所述清浊音频段通常为100hz～8000hz。在上述利用所述窗函数对所述待处理音频信号进行分帧之后，一个待处理音频信号子段也即一帧待处理音频帧。

也即，浊音信号能量主要集中在低频段，其中，人声发声主要频段为300hz～3400hz，为此通过计算频段能量比判断当前帧是否为浊音帧。当能量集中在浊音频段(100hz～4000hz)时视为浊音片段。参见图4所示，为功率谱示意图。

基于所述功率谱确定出所述待处理音频信号中任一个待处理音频信号子段(也即待处理音频帧)的第一能量比，可以包括：基于该待处理音频信号子段(也即待处理音频帧)的功率谱确定该待处理音频信号子段的第一能量比。

具体的，基于所述功率谱确定出所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，可以根据第一运算公式确定出所述第一能量比，所述第一运算公式为：

其中，renergy(t)表示一帧待处理音频帧的第一能量比，f表示频率，p(f,t)表示功率。参见图5所示，为所述第一能量比对应的比率曲线图。其中，图中横坐标表示时间，纵坐标所述第一能量比，t_e1，t_e2表示不同的预设能量比阈值。

步骤s13：根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。

可以理解的是，在确定出所述第一能量比之后，便可以根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。

所述根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段，包括：将所述第一能量比不小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段；将所述第一能量比小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

具体的，确定出所述待处理音频信号中各个待处理音频信号子段的第一能量比之后，便可以判断各个待处理音频信号子段的所述第一能量比是否大于或等于预设能量比阈值，如果所述第一能量比大于或等于预设能量比阈值，则将当前待处理音频信号子段确定为浊音子段，将连续多个所述浊音子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段。如果所述第一能量比小于预设能量比阈值，则将当前待处理音频信号子段确定为清音子段，将连续多个所述清音子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。其中，所述多个待处理音频信号子段也即大于或等于2个待处理音频信号子段。如果只有一个浊音子段，没有多个连续的浊音子段，则直接将这个浊音子段确定为一个浊音片段。例如，所述待处理音频信号包括20个待处理音频信号子段，其中，第1到10个判定为浊音子段，第11个判定为清音子段，第12到20个判定为浊音子段，则将第1到10个作为一个浊音片段，第11个作为清音片段，第12到第20个作为一个浊音片段，由此便可以确定出所述待处理音频信号中的浊音片段和清音片段。

也即，根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的任一个待处理音频信号子段(也即待处理音频帧)为清音子段，还是浊音子段，包括：判断该待处理音频信号子段(也即待处理音频帧)的第一能量比是否大于或等于预设能量比阈值，如果所述第一能量比大于或等于预设能量比阈值，则将该待处理音频信号子段(也即待处理音频帧)确定为浊音子段。如果所述第一能量比小于预设能量比阈值，则将该待处理音频信号子段(也即待处理音频帧)判定为清音子段。

参见6所示，为基于所述第一能量比进行清浊音检测结果图。其中，图中横坐标表示时间，纵坐标所述第一能量比，图中第一能量比为0的片段为清音片段，第一能量比不为0的片段为浊音片段。

在具体的实施过程中，根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段，包括：将所述待处理音频信号中基频为0的连续多个待处理音频信号子段确定为第一清音片段；将所述待处理音频信号中基频为不0的连续多个待处理音频信号子段确定为疑似浊音片段；根据所述第一能量比和预设能量比阈值确定出所述疑似浊音片段中的第二清音片段和浊音片段。其中，所述根据所述第一能量比和预设能量比阈值确定出所述疑似浊音片段中的第二清音片段和浊音片段，包括：将所述疑似浊音片段中的所述第一能量比不小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个浊音片段，以确定所述疑似浊音片段中的浊音片段；将疑似浊音片段中的所述第一能量比小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个清音片段，以确定所述疑似浊音片段中的第二清音片段。

参见图7所示，本申请实施例公开了一种具体的清浊音检测方法，该方法包括：

步骤s21：提取待处理音频信号对应的功率谱。

步骤s22：基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段。

步骤s21和步骤s22的具体实施过程可以参考前述实施例中公开的具体内容，在此不再进行赘述。

步骤s23：将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比，其中，所述加权后功率谱为利用基于所述采样频率确定出的权重对所述功率谱进行加权得到的功率谱，所述目标频段的频段宽度不小于预设频段宽度阈值。

在确定出所述第一能量比之后，还需要将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比。其中，所述加权后功率谱为利用基于所述采样频率确定出的权重对所述功率谱进行加权得到的功率谱，所述目标频段的频段宽度不小于预设频段宽度阈值。也即，将各个所述待处理音频帧对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频帧对应的第二能量比。

对于特殊类型声音信号，比如喷麦，能量也集中在低频段，但不具有周期性，所以同样为清音信号，所以需要通过谐波周期性判断当前待处理音频帧是否为浊音，所以在得到所述第一能量比之后，还需要将各个所述待处理音频帧对应的所述加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频帧对应的第二能量比。且所述目标频段的频段宽度不小于预设频段宽度阈值，通常所述目标频段的频段宽度不小于8khz。

在将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比之前，还包括：基于所述采样频率构造频域上的目标周期信号；基于所述目标周期信号确定所述功率谱中各个频率对应的权重；利用所述权重对所述功率谱进行加权，得到加权后功率谱。

具体的，就是先基于所述采样频率构造频域上的目标周期信号，其中，所述目标周期信号可以如下所示：

其中，wcos(f)表示所述目标周期信号，t0＝fs/f0，其中，fs为所述采样频率，f0为所述基频信息中的基频。

确定出所述目标周期信号之后，便可以基于所述目标周期信号确定出所述功率谱中各个频率对应的权重。也即，可以计算所述目标周期信号在各个频率点的值，便可以得到所述功率谱中对应的各个频率对应的权重。

在确定出所述权重之后，便可以利用所述权重对所述功率谱进行加权，得到加权后功率谱。也即，将所述功率谱中各个频率点上的功率值乘以所述权重，得到加权功率谱。

在确定出所述加权功率谱之后，便可以将加权后功率谱在目标频段内的能量和所述功率谱在所述目标频段内的能量的比值确定为第二能量比。具体的，可以根据第二运算公式确定出所述第二能量比，其中，所述第二运算公式为：

其中，rperiodicity(t)表示一帧待处理音频帧的所述第二能量比。

在实际过程中，采样频率一般会大于或等于16khz，所以所述目标频段取0到采样频率的一半可以保证频段宽度大于或等于8khz。

步骤s24：判断所述第一能量比是否不小于第一预设能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值；如果是，则判定当前待处理音频信号子段为浊音子段，将连续多个所述浊音子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段，如果否，则判定当前待处理音频信号子段为清音子段，将连续多个所述清音子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

相应地，在确定出所述第二能量比之后，便可以根据所述第一能量比和所述第二能量比确定出所述待处理音频信号中的清音片段和浊音片段。具体的，就是判断所述第一能量比是否不小于第一预设能量比阈值，且所述第二能量比是否不小于预设第二能量比阈值。如果是，则判定当前待处理音频信号子段为浊音子段，将连续多个所述浊音子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段，如果否，则判定当前待处理音频帧为清音子段，将连续多个所述清音子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

在实际的实施过程中，可以判断所述第一能量比是否不小于所述第一预设能量比阈值中的第一个能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值中的第一个能量比阈值。或，判断所述第一能量比是否不小于所述第一预设能量比阈值中的第二个能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值中的第二个能量比阈值。

具体的，所述第一预设能量比阈值可以包括多个能量比阈值，所述第二预设能量比阈值也可以包括多个能量比阈值。当所述第一预设能量比阈值包括两个能量比阈值，所述第二预设能量比阈值也包括两个能量比阈值时，则判断所述第一能量比是否不小于所述第一预设能量比阈值中的第一个能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值中的第一个能量比阈值。或者，判断所述第一能量比是否不小于所述第一预设能量比阈值中的第二个能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值中的第二个能量比阈值。

其中，所述第一预设能量比阈值中的第一个能量比阈值可以大于所述第一预设能量比阈值中的第二个能量比阈值，所述第二预设能量比阈值中的第一个能量比阈值可以小于所述第二预设能量比阈值中的第二个能量比阈值。

当所述第一能量比不小于所述第一预设能量比阈值中的第一个能量比阈值，且所述第二能量比不小于第二预设能量比阈值中的第一个能量比阈值时，则判定当前待处理音频信号子段(待处理音频帧)为浊音子段。或者，当所述第一能量比不小于所述第一预设能量比阈值中的第二个能量比阈值，且所述第二能量比不小于第二预设能量比阈值中的第二个能量比阈值时，则判定当前待处理音频信号子段(待处理音频帧)为浊音子段。当以上两种情况都不满足时，则判定当前待处理音频信号子段(待处理音频帧)为清音子段。

在实际的实施过程中，当所述第一预设能量比阈值包括两个能量比阈值，所述第二预设能量比阈值也包括两个能量比阈值时。所述第一预设能量比阈值可以包括te1和te2，所述第二预设能量比阈值可以包括tp1和tp2，例如，根据经验值可取te1＝0.9,tp1＝0.72，te2＝0.6,tp2＝0.75。

在实际过程中，会出现所述第一能量比小于第一预设能量比阈值中的第一个能量比阈值，但是第二能量比大于所述第二预设能量比阈值中的第一个能量比阈值的浊音，所以根据实际情况，将所述第一预设能量比阈值中的能量比阈值设置为多个，以及将所述第二预设能量比阈值中的能量比阈值设置为多个，可以进一步提高清浊音检测的准确率。

参见图8所示，为第二能量比对应的比率曲线图。其中，图中横坐标表示时间，纵坐标所述第二能量比，t_p1，t_p2表示不同的第二预设能量比阈值。

参见图9所示，为基于所述第一能量比、所述第二能量比进行清浊音检测结果图。其中，图中横坐标表示时间，纵坐标能量比，图中能量比为0的片段为清音片段，能量比不为0的片段为浊音片段。

参见图10所示，为基于基频是否为0对前述的图4进行清浊音检测的结果示意图。其中，方框内的片段实际上为清音，却被误检为浊音。参见图11所示，为基于所述第一能量比和所述第二能量比进行清浊音检测的结果示意图。相比于单纯的基于基频是否为0进行检测时，可以将误检的片段检测出来，提高检测的正确率。

参见图12所示，为音频合成示意图。其中，图中从上往下看，第一部分为原始音频，第二部分为基于基频是否为0对原始音频进行清浊音检测之后，得到的清音检测结果和浊音检测结果，并基于所述清音检测结果和浊音检测结果进行音频合成之后得到的音频。第三部分为基于所述第一能量比和所述第二能量比进行清浊音检测之后，得到的清音检测结果和浊音检测结果，并进行音频合成之后得到的结果。可以看到图中圆圈部分和原始音频相差较大，也即，在仅仅基于基频是否为0进行清浊音检测时，造成了音频失真。

在具体的实施过程中，在得到所述第二能量比之后，还可以对所述第二能量比对应的比率曲线进行平滑处理。其中，平滑处理的方法包括但不限于样条卷积、移动平均、无延迟低通滤波等。这样可以避免基于所述第二能量比判断所述待音频处理信号中的各个待处理音频信号子段是否为浊音片段时，由于细微波动带来的误检，提升基于周期性来判断清浊音的鲁棒性。

参见图13所示，为对所述图8所示的第二能量比对应的比例曲线进行平滑处理之后，得到的平滑后第二能量比曲线图。其中，横轴表示时间，纵轴表示所述第二能量比。

在实际过程中，在得到所述待处理音频信号时，可以以较低的采样频率进行采样，这样可以增加采样间隔，减少所述待处理音频信号中包括的数据，降低运算量，提高处理速度。

下面以某款k歌app对用户演唱歌曲进行修音的过程为例，对本申请中的技术方案进行说明。

假设这款k歌app通过安装该款k歌app的智能设备的语音输入模块采集到用户演唱的待处理歌曲音频《天下》，该k歌app对待处理歌曲音频《天下》进行采样以及基频提取处理，得到待处理音频信号以及所述待处理音频信号对应的基频信息。然后便可提取所述待处理音频信号对应的功率谱，以及基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段。根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。

然后基于检测出的清音片段和浊音片段对所述待处理歌曲音频《天下》进行修音，然后在用户点击重新播放录音之后，可以将修音之后的用户演唱歌曲《天下》播放出来。

参见图14所示，本申请实施例公开了一种清浊音检测装置，包括：

功率谱提取模块201，用于提取待处理音频信号对应的功率谱；

能量比确定模块202，用于基于所述功率谱确定所述待处理音频信号中各个待处理音频信号子段的第一能量比，其中，各个所述待处理音频信号子段为基于所述待处理音频信号的采样频率对所述待处理音频信号进行划分得到的，所述第一能量比为各个所述待处理音频信号子段中的浊音频段内的能量与清浊音频段内的能量的比值，所述清浊音频段包括所述浊音频段和清音频段；

清浊音检测模块203，用于根据所述第一能量比和预设能量比阈值确定出所述待处理音频信号中的清音片段和浊音片段。

进一步的，所述清浊音检测模块203，具体用于：

将所述第一能量比不小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段；

将所述第一能量比小于预设能量比阈值的连续多个所述待处理音频信号子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

具体的，所述功率谱提取模块201，用于：

提取所述待处理音频信号的基频信息；

利用所述基频信息和所述采样频率提取所述待处理音频信号对应的功率谱。

具体的，所述功率谱提取模块201，用于：

利用窗函数对所述待处理音频信号进行截取，以将所述待处理音频信号分成不同的待处理音频帧，以便将一个所述待处理音频帧作为一个所述待处理音频信号子段，其中，所述窗函数的窗长基于所述基频信息和所述采样频率确定；

提取各个所述待处理音频帧对应的功率谱，得到所述待处理音频信号对应的功率谱。

进一步的，所述清浊音检测模块203，具体用于：

将各个所述待处理音频信号子段对应的加权后功率谱在目标频段内的能量和对应的所述功率谱在所述目标频段内的能量的比值确定为各个所述待处理音频信号子段对应的第二能量比；所述加权后功率谱为利用基于所述采样频率确定出的权重对所述功率谱进行加权得到的功率谱，所述目标频段的频段宽度不小于预设频段宽度阈值；

判断所述第一能量比是否不小于第一预设能量比阈值，且所述第二能量比是否不小于第二预设能量比阈值；如果是，则判定当前待处理音频信号子段为浊音子段，将连续多个所述浊音子段作为一个浊音片段，以确定所述待处理音频信号中的浊音片段，如果否，则判定当前待处理音频信号子段为清音子段，将连续多个所述清音子段作为一个清音片段，以确定所述待处理音频信号中的清音片段。

进一步的，所述清浊音检测模块203，具体用于：

具体的，所述清浊音检测模块203，具体用于：

基于所述采样频率构造频域上的目标周期信号；

基于所述目标周期信号确定所述功率谱中各个频率对应的权重；

利用所述权重对所述功率谱进行加权，得到加权后功率谱。

进一步的，所述清浊音检测装置，还包括：

平滑处理模块，用于对所述第二能量比对应的比率曲线进行平滑处理。

参见图15所示，为本申请实施例提供的一种电子设备30的结构示意图，该用户终端具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的电子设备30包括：处理器31和存储器32。

其中，处理器31可以包括一个或多个处理核心，比如四核心处理器、八核心处理器等。处理器31可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程们阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件来实现。处理器31也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器31可以集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中，处理器31可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器32可以包括一个或多个计算机可读存储介质，计算机可读存储介质可以是非暂态的。存储器32还可以包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器32至少用于存储以下计算机程序321，其中，该计算机程序被处理器31加载并执行之后，能够实现前述任一实施例中公开的清浊音检测方法步骤。

在一些实施例中，电子设备30还可包括有显示屏33、输入输出接口34、通信接口35、传感器36、电源37以及通信总线38。

本技术领域人员可以理解，图15中示出的结构并不构成对电子设备30的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述任一实施例中公开的清浊音检测方法。

其中，关于上述清浊音检测方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种清浊音检测方法、装置、设备、介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张超鹏
技术所有人：腾讯音乐娱乐科技(深圳)有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！