语音信号的处理方法、装置、设备及介质与流程

文档序号:31468191发布日期:2022-09-09 22:16阅读:79来源:国知局
语音信号的处理方法、装置、设备及介质与流程

1.本公开一般涉及自然语言处理领域,具体涉及一种语音信号的处理方法、装置、设备及介质。


背景技术:

2.随着人工智能算法以及ai芯片等硬件技术的发展,智能设备已经在日常生活中被广泛应用。如智能家居语音控制系统、智能音箱、智能会议系统等。语音交互在智能设备中的应用极为广泛且日益成熟。在传统的语音交互场景中,最初为通过点击按钮,例如按下录音键的方式来唤醒设备,才能和设备进行交互,为了进一步提升人机交互体验,语音唤醒技术应运而生。
3.目前语音唤醒主要有三种方式:基于模板匹配的唤醒技术;基于隐马尔可夫模型的唤醒技术;基于深度学习的唤醒技术。其中,应用最为广泛的便为基于深度学习的方法语音识别唤醒方法。但是,相关唤醒技术都存在模型的参数量较大,需要配置在云端进行运算,导致唤醒响应速度慢、用户体验不佳的问题。


技术实现要素:

4.鉴于现有技术中的上述缺陷或不足,期望提供一种语音信号的处理方法、装置、设备及介质,能够提供更快速的语音识别响应,提高用户体验。
5.第一方面,本技术实施例提供了一种语音信号的处理方法,包括:
6.获取从环境中采集到的语音信号;
7.对所述语音信号进行语音特征提取,得到所述语音信号对应的语音特征;
8.对所述语音特征进行卷积混合处理,得到浅层语音识别特征;
9.对所述浅层语音识别特征进行基于多层感知的混合处理,得到深层语音识别特征;
10.根据所述深层语音识别特征,得到对所述语音信号的识别结果;
11.根据所述识别结果,执行所述识别结果对应的响应策略。
12.在一些实施例中,所述对所述语音特征进行卷积混合处理,得到浅层语音识别特征,包括:
13.利用卷积混合模型对所述语音特征进行卷积混合处理,
14.其中,所述卷积混合模型包括空间位置卷积混合模块和通道位置卷积混合模块,所述空间位置卷积混合模块的混合结果与所述空间位置卷积混合模块的输入通过残差连接输入至所述通道位置卷积混合模块。
15.在一些实施例中,所述空间位置卷积混合模块包括深度可分离卷积层、第一激励函数层和第一归一化层,所述通道位置卷积混合模块包括逐点卷积层、第二激励函数层和第二归一化层。
16.在一些实施例中,所述对所述浅层语音识别特征进行基于多层感知的混合处理,
得到深层语音识别特征,包括:
17.采用多层感知混合模型对所述浅层语音识别特征进行卷积混合处理,
18.其中,多层感知混合模型包括空间感知混合模块和通道感知混合模块,所述空间感知混合模块对转置后的特征信息进行空间感知混合并将混合结果再次转置后输入至所述通道感知混合模块进行通道感知混合。
19.在一些实施例中,所述空间感知混合模块包括第一全连接层、第三激活函数层和第二全连接层,所述通道感知混合模块包括第三全连接层、第四激活函数层和第四全连接层。
20.在一些实施例中,在所述对所述语音特征进行卷积混合处理,得到浅层语音识别特征之前,还包括:
21.采用特征嵌入模块对所述语音特征进行下采样;
22.其中,所述特征嵌入模块包括特征嵌入层、第五激活函数层和第三归一化层。
23.在一些实施例中,所述对所述语音信号进行语音特征提取,得到所述语音信号对应的语音特征,包括:
24.采用梅尔频率倒谱系数对所述语音信号进行语音特征提取,得到所述语音信号对应的语音特征。
25.第二方面,本技术实施例提供了一种语音信号的处理装置,包括:
26.获取模块,用于获取采集到的语音信号;
27.语音特征提取模块,用于对所述语音信号进行语音特征提取,得到所述语音信号对应的语音特征;
28.卷积混合模型,用于对所述语音特征进行卷积混合处理,得到浅层语音识别特征;
29.多层感知混合模型,用于对所述浅层语音识别特征进行基于多层感知的混合处理,得到深层语音识别特征;
30.分类模块,用于根据所述深层语音识别特征,得到对所述语音信号的识别结果;
31.执行模块,用于根据所述识别结果,执行所述识别结果对应的响应策略。
32.第三方面,本技术实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本技术实施例描述的方法。
33.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本技术实施例描述的方法。
34.本技术实施例提出的语音信号的处理方法,通过对语音信号提取的语音特征进行卷积混合操作和基于多感知的混合处理,能够在有效识别语音指令的情况下,降低了语音识别模型的参数量,使得执行语音信号的处理装置能够更好的配置在终端设备上,提高终端设备对语音指令的响应效率。
35.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
36.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它
特征、目的和优点将会变得更明显:
37.图1为相关技术中的系统架构;
38.图2为本技术实施例提出的语音信号处理方法的应用场景图;
39.图3为本技术一个实施例中语音信号的处理方法的流程示意图;
40.图4为本技术一个实施例提出的卷积混合模型的结构示意图;
41.图5为本技术一个实施例突出的多层感知混合模型的结构示意图;
42.图6为本技术另一个实施例中语音信号的处理方法的流程示意图
43.图7为与图6对应的模型结构示意图;
44.图8为本技术一个实施例中语音信号的处理装置的方框示意图;
45.图9为本技术另一个实施例中语音信号的处理装置的方框示意图
46.图10示出了适于用来实现本技术实施例的电子设备或服务器的计算机系统的结构示意图。
具体实施方式
47.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
48.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
49.随着人工智能算法以及ai芯片等硬件技术的发展,智能设备已经在日常生活中被广泛应用。如智能家居语音控制系统、智能音箱、智能会议系统等。这些智能语音控制系统在执行语音控制策略之前,需要被唤醒,即,唤醒设备。相关技术中,最初的唤醒方式为人工按下录音键进行语音输入,后来例如基于深度学习模型的唤醒技术逐渐成型,形成了如图1所示的系统架构,即,客户端实时采集用户的语音信息,然后通过无线网路发送至云端服务器,通过配置在云端服务器上的深度学习模型对语音信息进行解析,得到语音识别结果或根据语音识别结果得到语音控制指令,云端服务器将语音识别结果或语音控制指令返回至客户端,客户端根据返回的语音识别结果或语音控制指令执行相应的响应策略,例如响应于唤醒语句给予用户回应,或者执行控制指令相应的控制方案。可见,由于终端无法自行进行语音识别,导致在网络不畅通时就无法实现语音识别的操作,影响用户对语音控制设备的使用体验。
50.基于此,本技术提出一种语音信号的处理方法,具有较小的模型参数量,能够配置终端设备中,确保离线状态下的用户语音控制体验。
51.图2为本技术实施例提出的语音信号处理方法的应用场景图。参照图1,该应用场景中包括声音采设备20和语音信号的处理装置10。
52.其中,语音采集设备20和语音信号的处理装置10共同设置在终端设备上,终端设备可为智能语音控制设备,例如智能语音控制设备、具有语音控制功能的家电设备、智能手机、平板电脑、笔记本电脑、穿戴式设备等中的至少一种。
53.声音采集设备20是用于采集语音数据的设备,例如麦克风阵列。语音信号的处理装置10与声音采集设备20相连,用于执行本技术提出的语音信号的处理方法,以对声音采
集设备20采集到的语音信号进行识别得到识别结果并控制语音控制设备执行识别结果对应的响应策略。
54.图3为本技术一个实施例中语音信号的处理方法的流程示意图。
55.如图3所示,本技术实施例提出的语音信号的处理方法,包括以下步骤:
56.步骤301,获取从环境中采集到的语音信号。
57.其中,环境由各种自然因素组成。环境可以包括真实环境和虚拟环境,真实环境存在于真实生活中的环境,虚拟环境是通过仿真真实环境得到的环境。
58.也就是说,可以直接从声音采集设备中获取声音采集设备从环境中采集到的语音信号,也可从声音采集设备中获取声音采集设备基于从环境中采集到的语音信号进行处理后的语音信号。其中,声音采集设备对语音信号的处理包括但不限于声源定位、增强语音、语音端点检测等。
59.步骤302,对语音信号进行语音特征提取,得到语音信号对应的语音特征。
60.可选的,采用梅尔频率倒谱系数对语音信号进行语音特征提取,得到语音信号对应的语音特征。
61.也就是说,对语音信号进行语音特征提取得到的语音特征为语音的梅尔特征。
62.具体地址,对语音信号进行分帧处理,得到多个音频帧。其中,分帧处理指的是将语音信号分成大小固定的语音信号段,而每一段语音信号被称为一帧,一般帧长为10-30ms。在进行分帧处理时,可以采用交叠分段的方法,且帧移与帧长的比值范围为0-1/2,其中,帧移为前一帧和后一帧的叫爹部分。通过利用信号的短时平稳性,使帧与帧之间平滑过渡,保持其连续性,同时可以避免时间窗的边界导致信息遗漏的问题。在本技术实施例中,帧长为25ms,帧移为10ms,语音信号的采样频率为16000/s,语音信号长度为1s。
63.可选的,在对语音信号进行分帧处理之前,还可包括对语音信号进行预加重处理,以增强语音信号中的高频信号,以及在对语音信号进行分帧处理之后进行加窗处理,以消除各个帧两端可能会造成的信号不连续性。
64.然后,对每个音频帧进行傅里叶变换,得到每个音频对应的频谱信息。其中,傅里叶变换用于将时域信号转换为频域信号,傅里叶变换可采用快速傅里叶变换方式。利用梅尔滤波器对每个音频帧对应的频谱信息进行滤波处理,得到每个音频帧的频谱特征。其中,梅尔滤波器可为三角滤波器组。通过梅尔滤波器进行滤波处理,能够使得到的频谱特征更加符合人耳听觉特性。
65.可选的,对三角滤波器组中所有的滤波器输出做对数运算,然后在进行离散余弦变换(discrete cosine transform,dct),最终得到mfcc(mel frequency cepstrum coefficient,mfcc)特征向量。在本技术实施例中,mfcc特征向量的长度为40,即,在本技术实施例中,对语音信号进行语音特征提取后,得到一个98
×
40的二维特征向量,类似一个长为98,宽为40,通道数为1的图像。
66.步骤303,对语音特征进行卷积混合处理,得到浅层语音识别特征。
67.在一个或多个实施例中,采用卷积混合模型对语音特征进行卷积混合处理。
68.其中,卷积混合模型包括空间位置卷积混合模块和通道位置卷积混合模块,空间位置卷积混合模块的混合结果与空间位置卷积混合模块的输入通过残差连接输入至通道位置卷积混合模块。
69.也就是说,本技术实施例先利用卷积混合模型中的空间位置卷积混合模块来混合语音特征中的空间位置特征,然后再利用卷积混合模块中的通道位置卷积混合模块来混合语音特征中的通道位置特征。
70.进一步地,如图4所示,空间位置卷积模块可包括深度可分离卷积层、第一激励函数层和第一归一化层,通道位置卷积混合模块包括逐点卷积层、第二激励函数层和第二归一化层。其中,第一激励函数层和第二激励函数层可均采用格鲁函数gelu作为激励函数,能够增加矩阵的非线性,进一步有利于对不同维度的相关性进行提取。
71.可选的,卷积混合模型可为convmixer模型,该模型可以实现基于语音特征的语音识别,且相较于传统的全卷积模型具有更小的模型参数量,能够更好的配置的终端设备上。
72.可选的,在对语音特征进行卷积混合处理时,可以根据终端的运算能力或语音识别的需求,连续设置多个卷积混合模型,本技术在此不做具体限定。
73.步骤304,对浅层语音特征进行基于多层感知的混合处理,得到深层语音识别特征。
74.在一个或多个实施例中,可采用多层感知混合模型对浅层语音识别特征进行卷积混合处理。
75.其中,多层感知混合模型包括空间感知混合模块和通道感知混合模块,空间感知混合模块对转置后的特征信息进行空间感知混合并将混合结果再次转置后输入至通道混合感知模型进行通道感知混合。
76.也就是说,空间感知混合模块具有转置层,转置层用于将特征矩阵进行转置操作,即,将行特征转换为列特征后基于列特征进行空间特征的混合,然后再次利用转置层将混合后的列特征转置回行特征,以便于对基于行特征进行通道特征的混合。
77.具体而言,如图5所示,多层感知混合模型包括第四归一化层、空间感知混合模块(token-mixing mlp)、转置层、第五归一化层和通道感知混合模块(channel-mixing mlp)。浅层语音识别特征经第四归一化层后得到基于通道的行向量特征,转置层将行向量特征转置为列向量特征,然后输入至空间感知混合层中进行混合,得到混合后的列向量特征,转置层再将混合后的列向量特征进行转置得到行向量特征,行向量特征输入至第五归一化层进行归一化处理,将归一化处理后的特征输入至通道感知混合层进行混合,得到深层语音识别特征。其中,第五归一化层和转置层之间采用跳连接,通道感知混合模块采用残差连接。
78.其中,空间感知混合模块包括第一全连接层、第三激活函数层和第二全连接层,通道感知混合模块包括第三全连接层、第四激活函数层和第四全连接层。第三激活函数和第四激励函数层可均采用格鲁函数gelu作为激励函数。
79.应当理解的是,在本技术实施例中,在通过空间感知混合模块进行特征混合时,所有列共享空间感知混合模块中的参数,在通过通道感知混合模块进行特征混合时,所有行共享列空间感知混合模块中的参数。两种类型的感知混合模块交替执行能够促进两个维度间的信息交互。
80.可选的,在对浅层语音识别特征进行基于多层感知的混合处理时,可以根据终端的运算能力或语音识别的需求,连续设置多个基于多层感知混合模型,本技术在此不做具体限定。
81.还应当理解的是,通过多层感知混合模型对浅层语音特征进行卷积混合处理得到
深层语音识别特征,能够进一步提高语音特征之间的空间混合效果和通道混合效果,从而有效提高语音特征的表达效果,进而提高基于语音特征的语音识别效果。
82.步骤305,根据深层语音识别特征,得到语音信号的识别结果。
83.需要说明的是,本技术通过分类器对语音识别特征进行分类,以得到语音信号的识别结果。
84.具体地,将语音识别特征输入至2d平均池化层,然后经过采用softmax激活函数的全连接层,即可得到一个n+2分类的输出结果。其中,n为语音信号的处理装置通过训练得到的唤醒词或命令词的个数,2代表静音(silence)和未知(unknow),唤醒词包括但不限于“小x小x”、“你好小x”等,命令词包括但不限于“打开空调”、“增加音量”、“调高亮度”等。
85.在一个或多个实施例中,本技术用于对语音特征进行处理的模型通过训练后可转换成tflite格式,以通过java或者c++语言直接在智能手机、平板电脑等智能终端上运行。
86.步骤306,根据识别结果,执行识别结果对应的响应策略。
87.举例来说,当识别结果为唤醒词时,则控制智能语音控制设备进行回应,例如“小x在呢”、“在呢”等,当识别结果为命令词时,则控制相应的智能终端执行控制命令,例如当命令词为“打开空调”时,可控制空调器打开并执行预设或上一次设置的控制策略,当命令词为“增加音量”时,则控制当前处于播放状态的播放器将音量调高一级,当命令词为“调高亮度”时,则控制当前处于照明状态的照明设备将亮度调高一级。
88.在一个或多个实施例中,在对语音特征进行卷积混合处理得到浅层语音特征之前,还包括:采用特征嵌入模块对语音特征进行下采样。
89.其中,特征嵌入模块包括特征嵌入层、第五激活函数层和第三归一化层。
90.其中,特征嵌入层为一个卷积核64、通道数为2的2d卷积层。因此,通过特征嵌入模块处理后输入至卷积混合模型的特征为是一个[batch size,49,20,64]的张量,特征嵌入模块进行的特征嵌入操作能够完成神经网络的所有下采样过程,有效降低了图片的分辨率,增加了感受野,方便卷积混合模型和基于多层感知的混合模型找到更远处的空间信息。
[0091]
作为一个具体实施例,如图6和图7所示,语音信号的处理方法,包括如下步骤:
[0092]
步骤601,获取从环境中采集到的语音信号。
[0093]
步骤602,采用梅尔频率倒谱系数对语音信号进行特征提取,得到语音特征。
[0094]
步骤603,将语音特征输入至特征嵌入模块,得到下采样后的语音特征。
[0095]
步骤604,将下采样后的语音特征输入至连续多个卷积混合模型,得到浅层语音识别特征。
[0096]
步骤605,将浅层语音识别特征输入至多层感知混合模型,得到深层语音识别特征。
[0097]
步骤606,将深层语音识别特征依次输入至平均池化层和全连接层,得到语音识别结果。
[0098]
步骤607,执行语音识别结果对应的响应策略。
[0099]
进一步地,本技术还利用本技术提出的语音信号的处理方法进行了有效性验证。
[0100]
具体地,利用google speech commands v2(gsc-v2)数据集对本技术实施例提出的语音信号的处理方法进行测试,gsc-v2包含105829条命令词,2618个说话人,包含'down'、'go'、'left'、'no'、'off'、'on'、'right'、'stop'、'up'、'yes'等35个命令词。采用
不同大小的卷积混合模型进行实验,如模型深度为8,隐藏层大小为64,称其为convmlp-mixer-s,模型深度为12,隐藏层大小为64,称其为convmlp-mixer-m,模型深度为12,隐藏层大小为128,称其为convmlp-mixer-l,实验过程中采用adamw优化器,warmup epoch为10,迭代步数为25000,学习率为0.02,batch size为256,结果如表1所示。
[0101]
表1
[0102][0103][0104]
可见,利用本技术实施例提出的语音信号的处理方法对应的convmlp-mixer-s模型仅用了96k的参数量就达到96.24的精度,而convmlp-mixer-l用了0.299m参数便达到97.77的精度,相比于基于mlp的模型和基于tansformer模型效果更好的同时,模型参数量更小。
[0105]
综上所述,本技术实施例提出的语音信号的处理方法,通过对语音信号提取的语音特征进行卷积混合操作和基于多感知的混合处理,能够在有效识别语音指令的情况下,降低了语音识别模型的参数量,使得执行语音信号的处理装置能够更好的配置在终端设备上,提高终端设备对语音指令的响应效率。
[0106]
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。
[0107]
图8为本技术一个实施例中语音信号的处理装置的方框示意图。
[0108]
如图8所示,本技术实施例的语音信号的处理装置10,包括:
[0109]
获取模块11,用于获取采集到的语音信号;
[0110]
语音特征提取模块12,用于对所述语音信号进行语音特征提取,得到所述语音信号对应的语音特征;
[0111]
卷积混合模型13,用于对所述语音特征进行卷积混合处理,得到浅层语音识别特征;
[0112]
多层感知混合模型14,用于对所述浅层语音识别特征进行基于多层感知的混合处理,得到深层语音识别特征;
[0113]
分类模块15,用于根据所述深层语音识别特征,得到对所述语音信号的识别结果;
[0114]
执行模块16,用于根据所述识别结果,执行所述识别结果对应的响应策略。
[0115]
在一些实施例中,卷积混合模型13包括空间位置卷积混合模块和通道位置卷积混合模块,所述空间位置卷积混合模块的混合结果与所述空间位置卷积混合模块的输入通过残差连接输入至所述通道位置卷积混合模块。
[0116]
在一些实施例中,所述空间位置卷积混合模块包括深度可分离卷积层、第一激励函数层和第一归一化层,所述通道位置卷积混合模块包括逐点卷积层、第二激励函数层和第二归一化层。
[0117]
在一些实施例中,多层感知混合模型14包括空间感知混合模块和通道感知混合模块,所述空间感知混合模块对转置后的特征信息进行空间感知混合并将混合结果再次转置后输入至所述通道感知混合模块进行通道感知混合。
[0118]
在一些实施例中,所述空间感知混合模块包括第一全连接层、第三激活函数层和第二全连接层,所述通道感知混合模块包括第三全连接层、第四激活函数层和第四全连接层。
[0119]
在一些实施例中,如图9所示,语音信号的处理装置10还包括:特征嵌入模块17,特征嵌入模块17用于对语音特征进行下采样,其中,所述特征嵌入模块17包括特征嵌入层、第五激活函数层和第三归一化层。
[0120]
在一些实施例中,语音特征提取模块12,用于采用梅尔频率倒谱系数对所述语音信号进行语音特征提取,得到所述语音信号对应的语音特征。
[0121]
应当理解,装置10中记载的诸单元或模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置10及其中包含的单元,在此不再赘述。装置10可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置10中的相应单元可以与电子设备中的单元相互配合以实现本技术实施例的方案。
[0122]
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0123]
综上所述,本技术实施例提出的语音信号的处理装置,通过对语音信号提取的语音特征进行卷积混合操作和基于多感知的混合处理,能够在有效识别语音指令的情况下,降低了语音识别模型的参数量,使得执行语音信号的处理装置能够更好的配置在终端设备上,提高终端设备对语音指令的响应效率。
[0124]
下面参考图10,图10示出了适于用来实现本技术实施例的电子设备或服务器的计算机系统的结构示意图,
[0125]
如图10所示,计算机系统包括中央处理单元(cpu)1001,其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram1003中,还存储有系统的操作指令所需的各种程序和数据。cpu1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0126]
以下部件连接至i/o接口1005;包括键盘、鼠标等的输入部分1006;包括诸如阴极
射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0127]
特别地,根据本技术的实施例,上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的系统中限定的上述功能。
[0128]
需要说明的是,本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0129]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0130]
描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、语音特征提取模块、卷积混合模型、多层感知混合模型、分类模
块和执行模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块,还可以被描述为“获取采集到的语音信号”。
[0131]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或多个程序,当上述程序被一个或者一个以上的处理器用来执行描述于本技术的语音信号的处理方法。
[0132]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1