语音识别方法、装置、计算机设备及存储介质与流程

文档序号：35389309发布日期：2023-09-09 13:39阅读：69来源：国知局

本申请涉及计算机领域，具体涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术：

1、在特定人孤立词语音识别中，常采用动态时间规整算法(dynamic time warping，以下简称dtw)，该算法是一种模板匹配算法，它利用动态规划(dp)的方法有效解决了语音信号特征参数的帧长度不等(在语音识别领域表现为人的语速变化导致的发音时间长短不一)的问题，计算测试语音信号和参考语音信号的最小距离，这就需要在测试语音信号和参考语音信号构成的全区域内搜索最小路径。

2、相关技术中，通过限定搜索范围，减小dtw的运算量，常见的有平行四边形区域约束法(如图1中阴影部分)和人工经验设定的带状区域约束法，然而，采用带状区域约束法搜索最小路径时存在有运算量过大、内存占用过多、运算时间过长等技术问题，影响了动态时间规整算法在语音识别过程中的识别效率。

技术实现思路

1、本申请实施例提供一种语音识别方法、装置、计算机设备及存储介质，以解决由于经验确定搜索区域导致动态规整算法存在不必要的计算，使得计算量大，影响语音识别效率的技术问题。

2、一方面，本申请提供一种语音识别方法，包括：

3、获取待识别的测试语音数据的测试模板，所述测试模板包括测试语音特征数据及测试时长，所述测试语音特征数据是从原始测试语音特征数据中截取的有效的语音特征数据；

4、获取目标对象的参考语音数据的参考模板，所述参考模板包括参考语音特征数据及参考时长，所述参考语音特征数据是从原始参考语音特征数据中截取的有效的语音特征数据；

5、获取所述原始测试语音特征数据中无效的语音特征数据的第一时长，以及所述第一时长的测试时长初始值；

6、获取所述原始参考语音特征数据中无效的语音特征数据的第二时长，以及所述第二时长的参考时长初始值；

7、根据所述测试时长、所述参考时长、所述第一时长、所述测试时长初始值、所述第二时长、所述参考时长初始值确定所述测试模板与所述参考模板构成的目标搜索区域；

8、确定所述目标搜索区域中的测试模板与参考模板之间的语音匹配度，并根据所述语音匹配度、预设匹配度阈值确定所述测试模板的语音识别结果。

9、一方面，本申请提供一种语音识别装置，包括：

10、第一获取模块，用于获取待识别的测试语音数据的测试模板，所述测试模板包括测试语音特征数据及测试时长，所述测试语音特征数据是从原始测试语音特征数据中截取的有效的语音特征数据；

11、第二获取模块，用于获取目标对象的参考语音数据的参考模板，所述参考模板包括参考语音特征数据及参考时长，所述参考语音特征数据是从原始参考语音特征数据中截取的有效的语音特征数据；

12、第三获取模块，用于获取所述原始测试语音特征数据中无效的语音特征数据的第一时长，以及所述第一时长的测试时长初始值；

13、第四获取模块，用于获取所述原始参考语音特征数据中无效的语音特征数据的第二时长，以及所述第二时长的参考时长初始值；

14、确定模块，用于根据所述测试时长、所述参考时长、所述第一时长、所述测试时长初始值、所述第二时长、所述参考时长初始值确定所述测试模板与所述参考模板构成的目标搜索区域；

15、识别模块，用于确定所述目标搜索区域中的测试模板与参考模板之间的语音匹配度，并根据所述语音匹配度、预设匹配度阈值确定所述测试模板的语音识别结果。

16、一方面，本申请提供一种计算机设备，计算机设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述语音识别方法中的步骤。

17、一方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述语音识别方法中的步骤。

18、本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质，该方法通过获取待识别的测试语音数据的测试模板，所述测试模板包括测试语音特征数据及测试时长，所述测试语音特征数据是从原始测试语音特征数据中截取的有效的语音特征数据；获取目标对象的参考语音数据的参考模板，所述参考模板包括参考语音特征数据及参考时长，所述参考语音特征数据是从原始参考语音特征数据中截取的有效的语音特征数据；获取所述原始测试语音特征数据中无效的语音特征数据的第一时长，以及所述第一时长的测试时长初始值；获取所述原始参考语音特征数据中无效的语音特征数据的第二时长，以及所述第二时长的参考时长初始值；根据所述测试时长、所述参考时长、所述第一时长、所述测试时长初始值、所述第二时长、所述参考时长初始值确定所述测试模板与所述参考模板构成的目标搜索区域；确定所述目标搜索区域中的测试模板与参考模板之间的语音匹配度，并根据所述语音匹配度、预设匹配度阈值确定所述测试模板的语音识别结果，实现了自适应调整目标搜索区域，使得目标搜索区域与测试模板、参考模板更加适配，提高了目标搜索区域的完整性和准确性，减少了不必要的计算量，确定目标搜索区域中的测试模板与参考模板之间的语音匹配度，并根据语音匹配度、预设匹配度阈值确定测试模板的语音识别结果，实现了对测试模板的语音识别，由于目标搜索区域的确定，提升了搜索性能，减少了不必要的计算量，从而提高了语音识别的效率。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.如权利要求1所述的语音识别方法，其特征在于，所述原始测试语音特征数据中无效的语音特征数据包括位于所述原始测试语音特征数据前端的首部测试语音数据以及位于所述原始测试语音特征数据末端的尾部测试语音数据，所述第一时长包括所述首部测试语音数据的第一首部时长以及所述尾部测试语音数据的第一尾部时长，所述第一时长的测试时长初始值为所述第一首部时长的预设初始值；所述原始参考语音特征数据中无效的语音特征数据包括位于所述原始参考语音特征数据前端的首部参考语音数据以及位于所述原始参考语音特征数据末端的尾部参考语音数据，所述第二时长包括所述首部参考语音数据的第二首部时长以及所述尾部参考语音数据的第二尾部时长，所述第二时长的参考时长初始值为所述第二首部时长的预设初始值；

3.如权利要求2所述的语音识别方法，其特征在于，所述第一截距包括第一横轴截距和第一纵轴截距；

4.如权利要求2所述的语音识别方法，其特征在于，所述第二截距包括第二横轴截距和第二纵轴截距；

5.如权利要求3所述的语音识别方法，其特征在于，所述调整后的第一截距包括调整后的第一横轴截距和调整后的第一纵轴截距；

6.如权利要求4所述的语音识别方法，其特征在于，所述调整后的第二截距包括调整后的第二横轴截距和调整后的第二纵轴截距；

7.如权利要求1至6任一项所述的语音识别方法，其特征在于，所述确定所述目标搜索区域中的测试模板与参考模板之间的语音匹配度，并根据所述语音匹配度、预设匹配度阈值确定所述测试模板的语音识别结果，包括：

8.一种语音识别装置，其特征在于，所述语音识别装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。

技术总结
本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质，该方法通过获取测试模板、参考模板，并根据测试模板的测试时长、原始测试语音特征数据中无效的语音特征数据的第一时长、第一时长的测试时长初始值、参考模板的参考时长、原始参考语音特征数据中无效的语音特征数据的第二时长、第二时长的参考时长初始值，确定测试模板与参考模板构成的目标搜索区域，确定目标搜索区域中的测试模板与参考模板之间的语音匹配度，并根据语音匹配度、预设匹配度阈值确定测试模板的语音识别结果，实现了自适应调整目标搜索区域，提高了目标搜索区域的完整性和准确性，减少了不必要的计算量，从而提高了语音识别效率。

技术研发人员：余小琴,杨张辉,高可攀
受保护的技术使用者：深圳市潮流网络技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余小琴杨张辉高可攀
技术所有人：深圳市潮流网络技术有限公司
我是此专利的发明人

上一篇：酒店入住业务一体化办理设备的制作方法
下一篇：一种药品用软包装复合膜处理复合装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！