建立语音声学模型的方法和装置与流程

文档序号:12036179阅读:584来源:国知局
建立语音声学模型的方法和装置与流程

本发明涉及信息处理领域,尤指一种建立语音声学模型的方法和装置。



背景技术:

机器学习目前已经成为信息行业内最热门的数据分析方法之一,它可以使分析模型的建立自动化,通过算法迭代从已有数据中不断优化算法并形成最优化模型,机器学习使得计算机有了“大脑”,让它们可以不通过显式编程而洞察那些隐藏在深处的数据。尽管各式各样的机器学习算法已存在已久,但是从过去的信息闭塞发展到现在的数据爆炸时代,各领域的数据量和数据规模都呈指数上涨模式,这种数据规模的爆炸式增长带来了巨大的机遇和变革潜力,可以利用这些数据的完整性等优势在各行各业帮助我们更好的作出决策,在为科学研究中转变为数据驱动的研究提供了很好的范例,所以对于机器学习与大数据的结合就变得尤为重要,我们追求计算越来越快,越来越准,模型越来越精确。

在大数据下的机器学习大大提升了样本数量,这就使得很多问题的分类都有了丰富的样本量作为支撑,这是大数据的优势所在。然而庞大的数据量也会对机器学习带来一定的困扰,数据之间的关系,有效数据的筛选等问题会大大影响机器学习模型训练的准确度和训练时间。所以从体量巨大、结构繁多的数据中挖掘出潜藏在数据中的规律和我们所需要信息,从而使数据发挥最大化的价值,是大数据技术的一个核心目标。

预测称,未来的几年内,在互联网上搜索信息将越来越依靠语音输入,而不是键盘输入,这代表着建立语音声学模型的这一传统机器学习的崛起,正是因为深度学习的引入和大数据的帮助使得建立语音声学模型的准确度和智能型不断提高,如何提高建立一个准确度高的语音声学模型是亟待解决的问题。



技术实现要素:

为了解决上述技术问题,本发明提供了一种建立语音声学模型的方法,能够建立准确度高的语音声学模型。

为了达到本发明目的,本发明提供了一种建立语音声学模型的方法,包括:

获取语音数据的音频信号;

对音频信号进行特征提取,得到音频信号的频谱图;

对所述频谱图进行图像识别,得到识别结果;

根据识别结果与该语音数据的实际声音数据,建立语音声学模型。

其中,所述对所述频谱图进行图像识别,得到识别结果,包括:

利用深层卷积网络中的多个卷积层依次对频谱图进行处理,得到识别结果。

其中,所述对所述频谱图进行图像识别,得到识别结果,还包括:

在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。

其中,对所述频谱图进行图像识别,得到识别结果之前,所述方法还包括:获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;利用所述权重矩阵对频谱的数据进行处理。

其中,所述方法还包括:对声学模型中的声音数据进行有效数据的标记。

一种建立语音声学模型的装置,包括:

信号获取模块,用于获取语音数据的音频信号;

提取模块,用于对音频信号进行特征提取,得到音频信号的频谱图;

识别模块,用于对所述频谱图进行图像识别,得到识别结果;

确定模块,用于根据识别结果与该语音数据的实际声音数据,建立语音声学模型。

其中,所述识别模块具体用于:

利用深层卷积网络中的多个卷积层依次对频谱图进行处理,得到识别结果。

其中,所述识别模块还用于:

在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。

其中,所述装置还包括:

矩阵获取模块,用于在利用卷积层进行处理过程中,获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;

处理模块,用于利用所述权重矩阵对频谱的数据进行处理。

其中,所述装置还包括:

标记模块,用于对声学模型中的声音数据进行有效数据的标记。

本发明提供的实施例,通过获取音频信号的频谱信息,对频谱信息的图像进行图像识别,将音频信号作为图像数据来处理,更加准确度的确定语音的声音信息,提高语音声学模型的准确度高。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为本发明提供的建立语音声学模型的方法的流程图;

图2为本发明提供的建立语音声学模型的流程示意图;

图3为本发明提供的深层卷积神经网络处理音频频谱图像的流程示意图;

图4为本发明提供的建立语音声学模型的装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明提供的建立语音声学模型的方法的流程图。图1所示方法包括:

步骤101、获取语音数据的音频信号;

步骤102、对音频信号进行特征提取,得到音频信号的频谱图;

步骤103、对所述频谱图进行图像识别,得到识别结果;

步骤104、根据识别结果与该语音数据的实际声音数据,建立语音声学模型。

本发明提供的方法实施例,通过获取音频信号的频谱信息,对频谱信息的图像进行图像识别,将音频信号作为图像数据来处理,更加准确度的确定语音的声音信息,提高语音声学模型的准确度高。。

下面对本发明提供的方法实施例作进一步说明:

本发明利用深层卷积网络(deepconvolutionalneuralnetworks,deepcnn)中的多个卷积层依次对频谱图进行处理,得到识别结果。

利用深层卷积神经网络算法应用在建立语音声学模型的中,将语音信号的频谱当做图像处理,利用卷积的不变形克服语音信号本身的多样性,可以大幅提升建立语音声学模型的准确度。

其中,所述对所述频谱图进行图像识别,得到识别结果,还包括:

在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。

在卷积层处理后,再利用池化层进行处理,减小卷积核的尺寸,能够训练更深的、效果更好的卷积神经网络模型,从而提升识别准确度。

在实际应用中,不同的时间和频率对应点的重要性可能不同,比如,当前时刻对应的帧的重要性要比前后几帧高一些,所以,需引入权重矩阵,对每一层做卷积操作之前首先和这个矩阵进行元素智能相乘,相当于根据重要性进行加权,其中权重的初始化值为1。

具体的,对所述频谱图进行图像识别,得到识别结果之前,所述方法还包括:

获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;利用所述权重矩阵对频谱的数据进行处理。

其中,在大数据层面,利用大数据分析筛选出的有效数据(带或不带标识)对模型进行监督或非监督训练,同时校准模型,提升模型精准度,即提升语音识别准确度。

本发明提供的方法实施例,将深层卷及神经网络技术应用于语音识别声学建模中,大幅度提升语音识别的准确度。借鉴了图像识别在近些年的成果,以及语音与图像在利用cnn模型训练的共通性,相较于工业界现有的卷积神经网络结合深度神经网络技术,错误率相对降低10%。目前很多基于数据集的算法在大数据时可能会失效,所以同时需要利用大数据技术,对模型进行调参和矫正。

下面对本发明提供的方法实施例作进一步说明:

图2为本发明提供的建立语音声学模型的流程示意图。图2所示流程包括:

对输入信号的信号处理和特征提取,对原始的音频信号进行降噪和信道失真处理,将信号从时域转化到频域,为后面的声学模型提取特征向量。

在建立语音声学模型的中的核心公式如下,它的核心是要找到w,使得p(w)和p(x|w)都大。p(w)代表建立语音声学模型的中的语言模型,也就是这一串词或字本身有多“像话”;p(x|w)代表建立语音声学模型的中的声学模型,即这句话有多大的可能发成这串音。使得这两个值最大就是建立语音声学模型的提升准确度的核心任务,解码搜索综合声学模型分数与语言模型分数的结果,将总体输出分数最高的词序列当做识别结果。

建立语音声学模型的建模是需要对语音信号和文字内容间的关系建模。通常情况下,建立语音声学模型的都是基于时频分析后的语音频谱完成的,而其中语音时频谱是具有结构特点的。如果要提高建立语音声学模型的率,就是需要克服语音信号所面临各种各样的多样性(如各地方言,各种语言,连读,变音等等),环境的多样性(如噪声干扰)。

图3为本发明提供的深层卷积神经网络处理音频频谱图像的流程示意图,具体实现方法如下:

使用卷积神经网络,由于其局部连接(每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。)和权重共享的特点,使得其具有很好的平移不变性。将卷积神经网络的思想应用到建立语音声学模型的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性多,同时层卷积之后再接pooling层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的cnn模型。从这个角度来看,则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行识别。同时,在模型结构中,deepcnn帮助模型具有很好的时域上的平移不变性,从而使模型具有更好地抗噪性。

对于卷积层的频谱输入,不同的时间和频率对应点的重要性可能不同(当前时刻对应的帧的重要性要比前后几帧高一些),引入权重矩阵(权重的初始化值为1),对每一层做卷积操作之前首先和这个矩阵进行元素智能相乘,相当于根据重要性进行加权。

同时大数据对语料的标注和分析及对模型的校准和训练能辅助提升在deepcnn技术下的建立语音声学模型的准确度。

由上可以看出,通过deepcnn算法的引入和大数据对训练语料的分析,将图像识别中广泛运用的deepcnn算法应用在建立语音声学模型的中,将语音信号的频谱当做图像处理,利用卷积的不变形克服语音信号本身的多样性,可以大幅提升建立语音声学模型的准确度。

通过两方面提升建立语音声学模型的准确度,首先是在算法提升方面,将普遍应用于图像识别的卷积神经网络技术应用于建立语音声学模型的,将整个语音信号分析得到的频谱当作一张图像一样来处理,可以大大提高建立语音声学模型的准确度。其次是在大数据层面,利用大数据分析筛选出的有效数据(带或不带标识)对模型进行监督或非监督训练,同时校准模型,提升模型精准度,即提升建立语音声学模型的准确度。

图4为本发明提供的建立语音声学模型的装置的结构图。图4所示装置包括:

信号获取模块401,用于获取语音数据的音频信号;

提取模块402,用于对音频信号进行特征提取,得到音频信号的频谱图;

识别模块403,用于对所述频谱图进行图像识别,得到识别结果;

建立模块404,用于根据识别结果与该语音数据的实际声音数据,建立语音声学模型。

其中所述识别模块403,具体用于:

利用深层卷积网络中的多个卷积层依次对频谱图进行处理,得到识别结果。

其中,所述识别模块403还用于在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。

矩阵获取模块,用于在利用卷积层进行处理之前,获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;

处理模块,用于利用所述权重矩阵对频谱的数据进行处理。

可选的,所述装置还包括:

标记模块,用于对声学模型中的声音数据进行有效数据的标记。

本发明提供的装置实施例,通过获取音频信号的频谱信息,对频谱信息的图像进行图像识别,将音频信号作为图像数据来处理,更加准确度的确定语音的声音信息,提高语音声学模型的准确度高。

虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1