一种基于机器学习的空号识别方法与流程

文档序号:20204394发布日期:2020-03-27 20:59阅读:334来源:国知局
一种基于机器学习的空号识别方法与流程

本发明涉及音频识别技术领域,具体而言,涉及一种基于机器学习的空号识别方法。



背景技术:

空号识别是拨号音分析或者号码状态识别,也叫空号检测。原理就是通过分析拨打电话接通之前的声音,一般有几种类型:长嘟的回铃音、短嘟嘟的忙音、彩铃、通话中、空号、无人接听和关机等交换机给出的各种提示。机器想要识别空号状态,需要分析声音的频率和特征,可以识别出现回铃音、忙音、彩铃、空号,关机,无人接听等交换机给出的被叫状态。

目前解决这个问题的方案一般是,把振铃阶段的音频做语音识别(asr),再把语音识别的结果,跟关键词做对比,看命中什么关键词就判断出是哪种对应的空号状态。现有的语音识别具有以下缺点:(1)传统的语音识别服务较复杂,使用成本较高;(2)响应速度慢,传统的通过语音识别进行空号识别的方案,由于语音识别模型比较复杂,且响应速度会随着语音的增长而变慢,所以按照此方案进行的空号识别的响应速度比较慢;(3)配置关键词复杂,由于有多种空号状态,所以配置的关键词必须要是其他空号状态所没有的,而且彩铃阶段的空号识别结果,也容易不小心命中所配的关键词,导致识别率降低,所以关键词的配置需要每个都通过人为筛选和优化,此过程比较复杂。



技术实现要素:

为解决上述问题,本发明的目的在于提供一种基于机器学习的空号识别方法,不仅能简化识别的流程,还能提高识别的响应速度,保证较高的识别准确率。

本发明提供了一种基于机器学习的空号识别方法,包括:

步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:

步骤101,将采样好的音频数据进行预处理,去除静音片段;

步骤102,将预处理后的音频数据进行mfcc特征提取;

步骤103,将提取出来的音频特征归一化处理;

步骤104,将归一化后的数据进行smote算法处理;

步骤105,将步骤104得到的每条数据进行pca降维处理;

步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型;

步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识别结果:

步骤201,将新增的音频数据进行预处理,去除静音片段;

步骤202,将预处理后的音频数据进行mfcc特征提取;

步骤203,将提取出来的音频特征归一化处理;

步骤204,将归一化后的数据进行pca降维处理;

步骤205,将降维处理后的数据送入步骤106中训练好的随机森林分类模型,得到最后的空号识别结果。

作为本发明进一步的改进,所述步骤101和所述步骤201的方法具体为:将采样好的每条音频数据分别转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。

作为本发明进一步的改进,所述步骤102和所述步骤202的方法具体为:选取音频的倒数第24000帧到倒数500帧,提取mfcc的窗口大小为0.025秒,步长为0.01秒,特征维度选取13维,并把提取到的特征水平铺开。

作为本发明进一步的改进,所述步骤103和所述步骤203中归一化的公式如下:

x′=(x-x_min)/(x_max-x_min)

式中,x′为一个样本的每一维特征归一化后得到的结果,x为一个样本的每一维特征归一化前的值,x_min为一个样本的所有维度特征的最小值,x_max为一个样本的所有维度特征的最大值;

归一化后,音频特征的每一个维度的范围都是(-1,1)。

作为本发明进一步的改进,所述步骤104中,通过smote算法处理,将音频数据中数量少的类别的数据通过已有数据生成的方式,人工合成数量少类别的数据,使得每个类别的数据总个数一致。

作为本发明进一步的改进,所述步骤105和所述步骤204中,在降维前,音频数据的维度是3808维,降维后的维度为200维。

作为本发明进一步的改进,所述步骤106替换为:将降维处理后的数据送入xgboost分类器或svm分类器,训练分类模型,得到xgboost分类模型或svm分类模型。

本发明的有益效果为:

本发明的一种基于机器学习的空号识别方法,识别流程更为简单,与传统的识别方式相比,识别模型更为精确,能在保证较高识别准确率的同时提高识别的响应速度。

附图说明

图1为本发明实施例所述的一种基于机器学习的空号识别方法的流程示意图

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

本发明实施例所述的一种基于机器学习的空号识别方法,分为两个阶段,第一阶段是模型的训练阶段,利用采样音频数据作为训练数据,得到训练模型;第二阶段是模型的使用阶段,利用训练好的模型,把每一条新的音频数据分类到具体的空号类别中,得出空号识别结果。

如图1所示,本发明实施例所述的一种基于机器学习的空号识别方法,包括:

步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:

步骤101,将采样好的音频数据进行预处理,去除静音片段。具体的,将采样好的20000条8000采样率的音频数据中的每一条都转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。其中,在对数据进行分类别时,可以将采样的数据人工标记为7种号类型(长嘟的回铃音、短嘟嘟的忙音、彩铃、通话中、空号、关机、无人接听)中的一类。

步骤102,将预处理后的音频数据进行mfcc特征提取。梅尔频率倒谱系数(mfcc)特征提取的步骤按照以下流程:把音频数据的数组,进过预加重、分帧、加窗、快速傅立叶变换、mel滤波器组、对话运算、离散余弦变换的操作,提取出mfcc特征,此mfcc特征可以简单代表在这段时间内音频的基本变化规律。具体到本实施例中,选取音频的倒数第24000帧到倒数500帧(也即最后3秒时间,去除最后0.0625秒,共2.9375秒内的数据),提取mfcc的窗口大小为0.025秒,步长为0.01秒,特征维度选取13维,并把提取到的特征水平铺开。

步骤103,将提取出来的音频特征归一化处理。归一化的公式如下:

x′=(x-x_min)/(x_max-x_min)

式中,x′为一个样本的每一维特征归一化后得到的结果,x为一个样本的每一维特征归一化前的值,x_min为一个样本的所有维度特征的最小值,x_max为一个样本的所有维度特征的最大值;比如音频为一个3808维的向量,最小值需要在3808个特征中选取,最大值也同样需要在3808个特征中选取。

归一化后,音频特征的每一个维度的范围都是(-1,1)。

步骤104,将归一化后的数据进行smote算法处理。进行smote算法处理是为了解决数据类别不平衡的问题,如果数据集中存在某一类样本,其数量远多于或远少于其他类样本,会导致机器学习模型失效。本发明需要采用smote算法,将音频数据中数量少的类别的数据通过已有数据生成的方式,人工合成数量少类别的数据,使得每个类别的数据总个数一致。其中,每个新数据点的计算公式如下:

式中,x为少数样本中每一个样本的特征向量,为另一个少数样本的特征向量。新的样本的选取方式为,通过计算x与其他少数样本的欧氏距离得到的k近邻中随机选择的样本。

步骤105,将步骤104得到的每条数据进行pca降维处理。在降维前,音频数据的维度是3808维,降维后的维度为200维。而之所以设置为200维,是因为实测结果降到200维,分类的准确率是最好的。

步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型。

步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识别结果:

步骤201,将新增的音频数据进行预处理,去除静音片段。具体的,将采样好的20000条8000采样率的音频数据中的每一条都转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。

步骤202,将预处理后的音频数据进行mfcc特征提取。梅尔频率倒谱系数(mfcc)特征提取的步骤按照以下流程:把音频数据的数组,进过预加重、分帧、加窗、快速傅立叶变换、mel滤波器组、对话运算、离散余弦变换的操作,提取出mfcc特征,此mfcc特征可以简单代表在这段时间内音频的基本变化规律。具体到本实施例中,选取音频的倒数第24000帧到倒数500帧(也即最后3秒时间,去除最后0.0625秒,共2.9375秒内的数据),提取mfcc的窗口大小为0.025秒,步长为0.01秒,特征维度选取13维,并把提取到的特征水平铺开。

步骤203,将提取出来的音频特征归一化处理。归一化的公式如下:

x′=(x-x_min)/(x_max-x_min)

式中,x′为一个样本的每一维特征归一化后得到的结果,x为一个样本的每一维特征归一化前的值,x_min为一个样本的所有维度特征的最小值,x_max为一个样本的所有维度特征的最大值;

归一化后,音频特征的每一个维度的范围都是(-1,1)。

步骤204,将归一化后的数据进行pca降维处理。在降维前,音频数据的维度是3808维,降维后的维度为200维。而之所以设置为200维,是因为实测结果降到200维,分类的准确率是最好的。

步骤205,将降维处理后的200维向量数据送入步骤106训练好的随机森林分类模型,得到最后的空号识别结果。

上述步骤中,步骤106可以替换为:将降维处理后的数据送入xgboost分类器或svm分类器,训练分类模型,得到xgboost分类模型或svm分类模型。xgboost是一种提升树模型,它是将许多树模型集成在一起,形成一个很强的分类器。svm支持向量机,是一种按监督学习方式对数据进行二元分类的广义线性分类器,也可进行优化实现多分类。当然也还可以采用其他相似的分类机器学习模型。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1