本发明涉及语音识别,还涉及一种语音识别方法及装置。
背景技术:
1、当前主流自动语音识别系统普遍采用全段语音直接处理模式,未对原始语音流做精细化分段与无效筛选,需处理包含大量静音、噪声、无关杂音的完整长语音,无效数据占比可达30%至60%,大幅占用算力、内存与带宽;另外,噪声、冗余片段会干扰声学模型特征提取,破坏上下文语义连贯性,导致错字、漏字、断句错误频发,嘈杂环境、远场语音场景下字错误率较高,识别完成后需人工剔除无效文本、修正断句错误,处理效率和工作量较大。
技术实现思路
1、本发明要解决的技术问题是提供一种语音识别方法及装置,以提高语音识别的效率和准确性。
2、为解决上述技术问题,本发明的技术方案如下:
3、本发明的第一个方面,提供了一种语音识别方法,包括:
4、获取原始语音数据;
5、对所述原始语音数据进行信号预处理,得到预处理语音数据;
6、根据所述预处理语音数据,得到目标特征数据;所述目标特征数据包括短时能量和短时零交叉率;
7、根据预设提取条件和所述目标特征数据对所述预处理语音数据进行有效语音数据提取,得到有效语音数据;
8、对所述有效语音数据进行有效特征数据提取,得到有效特征数据;
9、根据所述有效特征数据进行语音识别,得到文本序列;
10、根据所述文本序列进行文本拼接处理,得到语音识别结果。
11、可选的,对所述原始语音数据进行信号预处理,得到预处理语音数据,包括:
12、对所述原始语音数据进行预加重处理,得到预加重语音数据;
13、对所述预加重语音数据进行加窗处理,得到加窗语音数据;
14、对所述加窗语音数据进行降噪处理,得到预处理语音数据。
15、可选的,根据所述预处理语音数据,得到目标特征数据,包括:
16、根据得到短时能量;
17、根据得到短时零交叉率;
18、根据所述短时能量和所述短时零交叉率,得到目标特征数据。
19、可选的,根据预设提取条件和所述目标特征数据对所述预处理语音数据进行有效语音数据提取,得到有效语音数据,包括:
20、获取预设提取条件;所述预设提取条件包括:短时能量符合预设能量高阈值,且短时零交叉率符合预设人声阈值,且连续有效语音帧时长符合预设时长阈值;
21、根据所述目标特征数据与所述预设提取条件的对比结果,对所述预处理语音数据进行有效语音数据提取,得到有效语音数据。
22、可选的,根据所述有效语音数据中语音帧的线性频谱和预设数据提取参数,得到有效特征数据,包括:
23、根据得到第一特征数据;
24、根据得到第二特征数据;
25、根据得到第三特征数据;
26、对所述第一特征数据、所述第二特征数据和所述第三特征数据进行特征数据拼接,得到有效特征数据;
27、其中,为第j维第一特征数据,m为预设数据提取参数中的滤波器总数,为第m个滤波器输出的对数能量,,为有效语音数据中的语音帧傅里叶变换后的线性频谱,为第m个滤波器的频率响应,f为快速傅里叶变换的采样总点数,为第n维第二特征数据,k为预设数据提取参数中的差分窗口大小,为第j+k帧的第一特征数据,为第j-k帧的第一特征数据,为第j维第三特征数据,为第j+k帧的第二特征数据,为第j-k帧的第二特征数据。
28、可选的,根据所述有效特征数据进行语音识别,得到文本序列,包括:
29、根据所述有效特征数据进行非线性变换,得到字符概率;
30、根据所述字符概率,得到文本序列全局概率;
31、按照预设搜索策略和所述文本序列全局概率,得到初始文本数据;
32、对所述初始文本数据进行修正,得到文本序列。
33、可选的,根据所述文本序列进行文本拼接处理,得到语音识别结果,包括:
34、按照时间顺序对所述文本序列进行文本拼接处理,得到文本拼接结果;
35、对所述文本拼接结果进行校正,得到语音识别结果。
36、本发明的第二个方面,提供了一种语音识别装置,包括:
37、获取模块,用于获取原始语音数据;
38、处理模块,用于对所述原始语音数据进行信号预处理,得到预处理语音数据;根据所述预处理语音数据,得到目标特征数据;所述目标特征数据包括短时能量和短时零交叉率;根据预设提取条件和所述目标特征数据对所述预处理语音数据进行有效语音数据提取,得到有效语音数据;对所述有效语音数据进行有效特征数据提取,得到有效特征数据;根据所述有效特征数据进行语音识别,得到文本序列;根据所述文本序列进行文本拼接处理,得到语音识别结果。
39、本发明的第三个方面,提供了一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如第一个方面所述的方法。
40、本发明的第四个方面,提供了一种计算机可读存储介质,存储有指令,当所述指令在计算机上运行时,使得计算机执行如第一个方面所述的方法。
41、本发明的上述方案至少包括以下有益效果:
42、本发明的上述方案,通过获取原始语音数据,并对所述原始语音数据进行信号预处理,得到预处理语音数据,再根据所述预处理语音数据,得到目标特征数据,所述目标特征数据包括短时能量和短时零交叉率,然后根据预设提取条件和所述目标特征数据对所述预处理语音数据进行有效语音数据提取,得到有效语音数据,根据所述有效语音数据中语音帧的线性频谱和预设数据提取参数,得到有效特征数据,再根据所述有效特征数据进行语音识别,得到文本序列,最后根据所述文本序列进行文本拼接处理,得到语音识别结果,能够剔除无效语音,以及噪音,提高语音识别的准确性,减少人工后处理与质检工作量,降低语音识别成本。
1.一种语音识别方法,其特征在于,包括:
2.根据权利要求1所述的语音识别方法,其特征在于,对所述原始语音数据进行信号预处理,得到预处理语音数据,包括:
3.根据权利要求1所述的语音识别方法,其特征在于,根据所述预处理语音数据,得到目标特征数据,包括:
4.根据权利要求1所述的语音识别方法,其特征在于,根据预设提取条件和所述目标特征数据对所述预处理语音数据进行有效语音数据提取,得到有效语音数据,包括:
5.根据权利要求1所述的语音识别方法,其特征在于,根据所述有效语音数据中语音帧的线性频谱和预设数据提取参数,得到有效特征数据,包括:
6.根据权利要求1所述的语音识别方法,其特征在于,根据所述有效特征数据进行语音识别,得到文本序列,包括:
7.根据权利要求1所述的语音识别方法,其特征在于,根据所述文本序列进行文本拼接处理,得到语音识别结果,包括:
8.一种语音识别装置,其特征在于,包括:
9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。