基于电力内网的音频端点检测及降噪方法与流程

文档序号:20154348发布日期:2020-03-24 20:24阅读:431来源:国知局

本发明涉及电力内网音频处理技术领域,具体涉及一种基于电力内网的音频端点检测及降噪方法。



背景技术:

随着移动互联网的高速发展,智能手机移动应用在各行各业爆发式增长,各种类型的用户交互方式层出不穷。但考虑到受使用人群年龄、文化水平、使用习惯、使用环境等各方面因素的限制,交互的准确性及便捷性还有很大的提升空间。尤其是在电力行业,作业人员在相对恶劣的操作环境中如何更方便、快速、高效的使用业务应用,成为行业面临的一项重大课题。

近年来,随着云计算、人工智能、网络通信技术迅猛发展,基于云服务的语音语义智能识别在理论研究和技术实践层面均取得关键性突破,远视音频质量对语音识别的准确率有很大影响,由于电力现场作业环境的特殊性,存在各种各样的背景噪声,这些噪声与语音叠加,会严重降低语音的质量从而对语音识别准确率产生很大影响。同时,语音中包含大量背景噪声,导致网络传输数据过大,浪费流量,因此需要研究一种基于电力内网的音频的端点检测、降噪和音频压缩技术,对原始音频进行优化处理,提高音频质量,保证语音识别准确率至关重要。



技术实现要素:

本发明为了克服以上技术的不足,提供了一种对原始音频进行语音截取、压缩机噪声滤除的基于电力内网的音频端点检测及降噪方法。

本发明克服其技术问题所采用的技术方案是:

一种基于电力内网的音频端点检测及降噪方法,包括如下步骤:

a)将电力内网中的音频信号进行长度为20-40ms分帧处理,帧与帧之间的重叠为10ms;

b)从每一帧音频信号中提取对数帧能量、过零率、线性预测的第一个系数以及先与预测的误差的对数;

c)在一个已知语音和静默信号区域的数据帧集合上训练一个分类器;

d)通过语音信号特征均值和方差的贝叶斯分类器对音频信号的未知的分帧数据进行分类,判断其属于语音信号还是静默信号;

e)采用感知编码算法,对音频信号中1000-5000hz范围内的声音进行编码,小于1000hz及大于5000hz的声音信号进行删除;

f)将分帧后的音频信号按照帧的先后顺序进行分组,对每组包含背景噪声的数据帧使用傅里叶变换得到其频谱,将各个频谱求平均后得到背景噪声的频谱。

还包括在步骤a)中将音频信号通过一个高通滤波器,高通滤波器的截止频率为200hz,将音频信号中的直流偏置分量和低频噪声进行移除,移除后将音频信号进行长度为20-40ms分帧处理。

步骤e)中采用子带替换编码方式进行编码。

本发明的有益效果是:通过对将音频信号进行分帧处理后提取每一帧数据的对数帧能量、过零率、线性预测的第一个系数以及线性预测误差的对数,之后在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,完成语音端点的检测。之后再进行音频压缩和降噪处理,使电力内网中的音频噪声大大降低,提高音频质量,确保语音识别的准确性。

具体实施方式

下面对本发明做进一步说明。

一种基于电力内网的音频端点检测及降噪方法,包括如下步骤:

a)将电力内网中的音频信号进行长度为20-40ms分帧处理,帧与帧之间的重叠为10ms。这一步的目的是移除信号当中的直流偏置分量和一些低频噪声。如果我们的音频信号采样率为16khz,取窗口大小为25ms,这种情况下,每一帧数据的所包含的数据点为:0.025∗16000=400采样点。令帧之间重叠为10ms来计算,第一帧的数据起始点为sample0,第二帧数据的起始点为sample160。

b)从每一帧音频信号中提取对数帧能量、过零率、线性预测的第一个系数以及先与预测的误差的对数。

c)在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,训练分类器需要足够的带标签数据,这就要求人们进行人工标注数据。在训练数据当中的背景噪声要尽量与测试数据当中的背景噪声相匹配,否则会引起噪声失配问题。如果你无法对训练和测试数据当中的噪声类型进行确定,那么尽量使用多种噪声和多种snr(信噪比)数据对分类器进行训练。

d)通过语音信号特征均值和方差的贝叶斯分类器对音频信号的未知的分帧数据进行分类,判断其属于语音信号还是静默信号。为了对一个未知数据帧进行分类,我们计算该数据帧来自每一个标签数据的似然,假设数据分布服从多变量高斯分布。然后,选择最大似然所对应的模型作为该数据帧的标签。

e)采用感知编码算法,对音频信号中1000-5000hz范围内的声音进行编码,小于1000hz及大于5000hz的声音信号进行删除;音视频编解码算法大多是有损的,因为忍受一些少量信息的丢失,往往可以换来压缩率的大幅提升,音频信号的压缩编码采用了数据编码中的一些技术,本专利采用感知编码,相对于其他的编码算法,感知编码基于人耳听觉的一些特性(心理声学),去除音频信号中的冗余,从而达到音频压缩的目的。相对于其他的音频编码算法(无损的),在人耳没有感觉到明显失真的条件下,可以达到10倍以上的较大压缩率。

采用感知编码算法,只对1000-5000hz范围内的声音进行编码,删除被屏蔽的信号或分量。具体采用子带替换编码方式。子带是指一个频率范围,频谱位于这个范围内的信号可以用一个单一频率的分量来代替。

一般等价的频率取子带的中心频率,振幅取子带内个频率分量振幅的加权和,本专利采用将各频率分量的振幅直接相加,作为等价信号的振幅的方式。设一个信号的频谱频率最低值为w0,最大值为w1。子带编码就是将w0-w1之间的频率范围划分成若干子带,每个子带范围内的分量用一个等价的频率分量来替换。音频压缩总体原理为:一个信号经过一组三角滤波器(等同于一组子带)后,被精简为数量很少的频率分量。然后考察这些频率分量,能量或者说振幅位于可听度阈值曲线之下的直接删除该分量。再考察余下的两两相邻的频率分量,如果其中一个被旁边的频率屏蔽,也删除掉。经过以上的处理,一个复杂信号的频谱所含有的频率分量得到简化,语音数据所占空间减小。

f)将分帧后的音频信号按照帧的先后顺序进行分组,对每组包含背景噪声的数据帧使用傅里叶变换得到其频谱,将各个频谱求平均后得到背景噪声的频谱。在降噪的过程中对使用的噪声频谱做及时修正,以得到较好的降噪效果。修正噪声频谱的方法是使用后继音频中的静音,重复噪声频谱提取算法,得到新的噪声频谱,并将之用于修正降噪所用的噪声频谱。

通过对将音频信号进行分帧处理后提取每一帧数据的对数帧能量、过零率、线性预测的第一个系数以及线性预测误差的对数,之后在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,完成语音端点的检测。之后再进行音频压缩和降噪处理,使电力内网中的音频噪声大大降低,提高音频质量,确保语音识别的准确性。

进一步的,还包括在步骤a)中将音频信号通过一个高通滤波器,高通滤波器的截止频率为200hz,将音频信号中的直流偏置分量和低频噪声进行移除,移除后将音频信号进行长度为20-40ms分帧处理。虽然在低于200hz的部分仍然有部分语音信息,但是不会对语音信号造成很大的影响。

优选的,步骤e)中采用子带替换编码方式进行编码。

优选的,步骤f)中组的数量大于等于5,每组中帧数为10。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1