一种在线增量的语音获得与识别方法

文档序号：2828012阅读：235来源：国知局

一种在线增量的语音获得与识别方法
【专利摘要】一种在线增量的语音获得与识别方法，包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、无法实现在线增量、这种方式不符合人的认知习惯由此导致使用很不方便的缺陷。
【专利说明】一种在线増量的语音获得与识别方法

【技术领域】
[0001] 本发明属于语音获得与识别【技术领域】，具体涉及一种在线增量的语音获得与识别方法。

【背景技术】
[0002] 传统的语音识别算法多从统计的角度出发，通过训练大量的数据，从而得出概率相关的模型。若有新的输入语音数据，得出概率相关的模型必须重新进行训练，所述的模型的训练需要耗费大量的时间，而且这种方式不符合人的认知习惯，由此导致使用很不方便。

【发明内容】

[0003] 本发明的目的提供一种在线增量的语音获得与识别方法，包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、这种方式不符合人的认知习惯由此导致使用很不方便的缺陷。
[0004] 为了克服现有技术中的不足，本发明提供了一种在线增量的语音获得与识别方法的解决方案，具体如下：
[0005] 一种在线增量的语音获得与识别方法，步骤如下：
[0006] 步骤1 :首先，用于处理语音数据的终端接收到外部输入的语音数据；
[0007] 步骤2 :用于处理语音数据的终端接收到外部输入的语音数据后，就进入初始化阶段，所述的初始化阶段具体如下：
[0008] 1)构建基准点集合A = IL1, L2}，其中第一基准点L1，第二基准点L2是从外部输入的语音数据中选取的两个随机数据；
[0009] 2)构建边集合C ，其初始值为空集，即第一基准点L 1，第二基准点1^2之间没有初始连接；
[0010] 3)构建第一基准点1^的激活数Mii = 0，构建第二基准点1^2的激活数= O ;
[0011] 4)构建第一基准点L1的作用范围的阈值气= WvtoncKLl,L2)，构建第二基准点L2的作用范围的阈值仏=ifotaru'c'(L pL2),所述的dis tan ce(.，.）为相似性距离算法函数；
[0012] 步骤3 :进入针对语音数据的输入与竞争阶段，所述的针对语音数据的输入与竞争阶段的具体方法如下：
[0013] 1)从外部对用于处理语音数据的终端输入一个新的语音数据样本ξ e rd，其中 Rd表示D维实数向量，D表示自然数；
[0014] 2)找出A中与ξ最相似的两个基准点，所述的最相似的两个基准点分别为胜者基准点S1和亚军基准点S 2，所述的胜者基准点S1和亚军基准点S 2分别由如下所示公式所求得：

【权利要求】
1. 一种在线增量的语音获得与识别方法，其特征在于，步骤如下：步骤1 :首先，用于处理语音数据的终端接收到外部输入的语音数据；步骤2 :用于处理语音数据的终端接收到外部输入的语音数据后，就进入初始化阶段，所述的初始化阶段具体如下： 1) 构建基准点集合A=ILpL2I，其中第一基准点L1，第二基准点1^2是从外部输入的语音数据中选取的两个随机数据； 2) 构建边集合Cgdxd，其初始值为空集，即第一基准AL1，第二基准点L2之间没有初始连接； 3) 构建第一基准点L1的激活数& = 〇，构建第二基准点1^2的激活数=O 4) 构建第一基准AL1的作用范围的阈值I1 =Aitance(Z^jL2)，构建第二基准点L2 的作用范围的阈值rZ2 =ifotaiW(AJ2)，所述的distance(.，.）为相似性距离算法函数；步骤3 :进入针对语音数据的输入与竞争阶段，所述的针对语音数据的输入与竞争阶段的具体方法如下： 1) 从外部对用于处理语音数据的终端输入一个新的语音数据样本ξeRD，其中Rd表示D维实数向量，D表示自然数； 2) 找出A中与ξ最相似的两个基准点，所述的最相似的两个基准点分别为胜者基准点S1和亚军基准点S2，所述的胜者基准点S1和亚军基准点S2分别由如下所示公式所求得： ,S11 = argmindistan€￡{ξ,χ) xeA S2 = arg mindistance(^^x). 步骤4 :接着进入基准点更新阶段，所述的基准点更新阶段具体如下： D如果&tan?<h)>；rsi或者也tanCe(^)>rs2成立，就为基准点集合A生成一个新的基准点ξ，令A=AU{ξ}，其中表示针对胜者基准点Sl的作用范围的阈值，L2表示针对亚军基准点s2的作用范围的阈值，然后跳转至步骤3中继续执行； 2) 如果胜者基准点S1和亚军基准点s2间不存在连接，令C=CU{(si，S2)}即为胜者基准点S1和亚军基准点s2建立连接，然后令《办V、,=0，即刷新边（S1,S2)的连接年龄； 3) 如果（S1山）eC，则喂eM) =flgeMa +l，即与胜者基准点81相连的所有边连接年龄增加1，其中1^表示基准点集合A中与胜者基准点si有边相连的所有节点； 4) ' =? +1，即把胜者基准点81的激活数 '增加丄； 5) 将胜者基准点S1和输入的新的语音数据样本ξ变形到相等的长度，即 (AY) =Zrawfrom(S1^Msi),其中Sl'为调整后的新的胜者基准点，而ξ'为调整后的新的语音数据样本，所述的&〃《#0--(81石^^)为变形转化函数； 6) 更新胜者基准As1 =? +^Mii ，其中)=+，即执行胜者基准点S1向输入的新的语音数据样本ξ移动操作； 7) 检查所有连接（Li,Lj)eC当前的连接年龄0^^^,卜如果，就从边集合C中移除该连接，其中agemax是预先定义的连接年龄的阈值参数；步骤5 :然后进入作用范围的阈值更新阶段，所述的作用范围的阈值更新阶段包括将胜者基准点S1的作用范围的阈值？；和亚军基准点S2的作用范围的阈值7；:分别如下式所示来更新为与胜者基准点S1和亚军基准点S2的相邻基准点的最大距离，其中X分别表示基准点集合A中与胜者基准点S1有边相连的所有节点和基准点集合A中与亚军基准点s2有边相连的所有节点：
步骤6 :最后进入去噪阶段，所述的去噪阶段包括如果当前输入的语音数据的样本总数是λ的整数倍，λ即为一个学习周期，检查整个基准点集合A，如果存在只有一个相邻基准点的基准点，并且该基准点的激活数小于设定的激活数的阈值，就在基准点集合A中删去该基准点，然后跳转至步骤3中执行，等到训练用的语音数据样本全部输入完毕后，就能得到所需的语音数据的基准点集合A以及基准点之间的连接C。
2.根据权利要求1所述的在线增量的语音获得与识别方法，其特征在于所述的dis tance(.，.）表示的相似性距离度量算法函数是一种衡量两个长度不同的语音数据的相似度的方法，其函数参数为两个长度不同的语音数据，distance(.，.）表示的相似性距离度量算法函数通过把语音数据进行缩短和延伸，来计算两个语音数据之间的相似程度，dis tance(.，.）表示的相似性距离度量算法函数的具体步骤如下所示： 1) 首先对distance(.，.）表示的相似性距离算法函数输入两个语音数据参数，所述的两个语音数据参数分别为第一语音数据参数X和第二语音数据参数y; 2) 构造一个IXI*IyI的网格，其中IXI是第一语音数据参数X的长度，IyI是第二语音数据参数y的长度； 3) 接着将网格的初始分辨率设置为最粗，即只有1*1个格子； 4) 设定n*m表示网格当前的分辨率，从网格的左下角的坐标path(1，1)开始，到网格的右上角的坐标path(n,m)结尾，distance(.，.）表示的相似性距离度量算法函数按照网格的坐标递增的顺序通过路径规整化确定的相似性距离为 k^K ifetoce=Z伽(Path(k，I)，path(k,2)),相似性距离最短的规整化的路径就是distan ce(.，.）表示的相似性距离度量算法函数所得到的规整路径path，n、K、k和m均为自然数，其中K表示规整化的路径经过的格子数； 5) 将网格的分辨率加倍，即一个格子变成四个格子； 6) 将所述的规整路径投影到分辨率加倍后的网格上； 7) 在所述的规整路径投影到分辨率加倍后的网格上投影区域内找出新的规整路径，设定P*q表示网格当前的分辨率，从网格的左下角的坐标path(l，l)开始，到网格的右上角的坐标path(p，q)结尾，并且所经过的网格的坐标都必须在所述的规整路径投影到分辨率加倍后的网格上投影区域内，distance(.，.）表示的相似性度量距离算法函数按照网格的坐标递增的顺序通过路径规整化确定的相似性度量距离为 = (k，I)，path(k, 2)),相似性度量距离最短的规整化的路径就是distan ce(.，.）表示的相似性距离度量算法函数所得到的规整路径path，p、S、k和q均为自然数，其中S表示规整化的路径经过的格子数； 8) 若网格的分辨率达到原始值，即网格变成|x|*|y|，|x|是第一语音数据参数X的长度，IyI是第二语音数据参数y的长度，则终止distance(.，.）表示的相似性距离度量算法的过程，否则跳转至4)中执行。
3.根据权利要求2所述的在线增量的语音获得与识别方法，其特征在于所述的 )表示的变形转化函数，其具体执行步骤如下： 1) 首先对第一变量i初始化赋值为1，对第二变量Ien初始化赋值为最终的规整路径的长度，把调整后的新的胜者基准点s/初始化为空，把调整后的新的语音数据样本ξ'初始化为空； 2) 若最终的规整路径中的胜者基准点S1+维坐标对应于输入的语音数据样本ξ的多维坐标，转到3)中执行，若最终的规整路径中的胜者基准点S1多维坐标对应于输入的语音数据样本ξ的一维坐标，转到4)中执行，若最终的规整路径中的胜者基准点81-维坐标对应于输入的语音数据样本ξ的一维坐标，转到5)中执行； 3) 对调整后的新的胜者基准点S1'和调整后的新的语音数据样本ξ'分别增加 cnt/义+1维数据，其中Sl'增加的数据值为所述的胜者基准点Sl的第i维数据，ξ'是将 ξ对应的cnt维数据合并为1+cnt/'维，然后转到6)中执行，所述的cnt为最终的规整路径中的胜者基准点Sl-维坐标对应的输入的语音数据样本ξ的多维坐标的维数； 4) 对调整后的新的胜者基准点S1'和调整后的新的语音数据样本ξ'分别增加 cnt-cnt/.、维数据，其中ξ'增加的数据值为所述的语音数据样本ξ的第i维数据，Sl'是将胜者基准点S1对应的cnt维数据合并为cnt-cnt/义维，然后转到6)中执行，所述的cnt 为最终的规整路径中的胜者基准点81多维坐标对应于输入的语音数据样本ξ的一维坐标中的最终的规整路径中的胜者基准点S1多维坐标的维数； 5) 对调整后的新的胜者基准点S1'和调整后的新的语音数据样本ξ'分别增加1维数据，其中s/增加的数据值为所述的胜者基准点S1的第i维数据，ξ'增加的数据值为所述的语音数据样本ξ的第i维数据，设置cnt为1，转到6)中执行； 6) 第一变量i赋值为i+cnt，如果第一变量i的值小于第二变量Ien的值，返回2)中执行，否则返回所述的步骤4中执行。
【文档编号】G10L15/02GK104464721SQ201410634670
【公开日】2015年3月25日申请日期:2014年11月12日优先权日:2014年11月12日
【发明者】申富饶, 许浩然, 赵金熙申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申富饶;许浩然;赵金熙;
技术所有人：南京大学;
我是此专利的发明人

上一篇：一种进行快速视频标记的装置制造方法
上一篇：一种基于语音识别的私人车位系统的制作方法