语音识别方法、装置、计算机设备及存储介质与流程

文档序号：45049374发布日期：2026-03-27 23:05阅读：2来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及信息处理，尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术：

1、语音识别技术，作为人工智能领域的一个重要分支，旨在将人类语音转换为文本或指令，实现人与机器之间的自然交互。

2、现有的语音识别中，通常由于对语音信号的处理识别等，准确性低。

技术实现思路

1、本发明实施例的目的在于提出一种语音识别方法、装置、计算机设备及存储介质，以解决现有的语音识别中，通常由于对语音信号的处理识别等，准确性低的问题。

2、为了解决上述技术问题，本发明提供一种语音识别方法，采用了如下所述的技术方案，包括：

3、获取语音信号；

4、根据所述语音信号，对所述语音信号进行特征提取；

5、根据对所述语音信号进行特征提取后的语音信号特征，建立语音特征与发音单元之间的映射关系；

6、根据语音特征与发音单元之间的映射关系，进行语言建模，通过语言建模捕捉语言中的统计规律，预测给定上下文中下一个词或短语出现的概率；

7、根据声学模型和语言模型的输出，通过搜索算法获取文本序列。

8、优选地，所述获取语音信号的步骤具体包括：

9、根据不同的应用场景，选择符合灵敏度、噪声、频带要求的麦克风；

10、布置麦克风阵列采集语音信号；

11、对语音信号进行存储。

12、优选地，所述根据所述语音信号，对所述语音信号进行特征提取的步骤具体包括：

13、对所述语音信号进行预处理；

14、对经过预处理后的所述语音信号中提取出对语音识别有用的特征参数。

15、优选地，所述根据对所述语音信号进行特征提取后的语音信号特征，建立语音特征与发音单元之间的映射关系的步骤具体包括：

16、建立标注语音数据的数据库，标记内容包括每个发音单元的起止时间、对应的文本或音素；

17、基于提取的特征参数和标注数据，训练一个或多个分类器或回归器，以学习语音特征与发音单元之间的映射关系。

18、对于待识别的语音信号，重复特征提取步骤，获得对应的特征序列；

19、将提取的特征序列输入到训练好的模型中，模型根据学习到的映射关系，预测出每个时间帧对应的发音单元。

20、优选地，所述根据语音特征与发音单元之间的映射关系，进行语言建模，通过语言建模捕捉语言中的统计规律，预测给定上下文中下一个词或短语出现的概率的步骤具体包括：

21、采用统计语言模型，基于统计频率的方法，通过计算连续n个词或词素共同出现的概率来预测下一个词，其中n为大于1的自然数；

22、利用神经网络学习语言中的长距离依赖和上下文信息，生成概率分布；

23、结合历史对话、地理位置、时间外部信息，构建语言模型。

24、优选地，所述根据声学模型和语言模型的输出，通过搜索算法获取文本序列的步骤具体包括：

25、采用维特比算法，在给定状态和转移概率的情况下，通过动态规划找到最优状态序列；

26、采用束搜索方式，在神经网络解码中，通过维护一个固定大小的候选列表或者候选束，逐步扩展并保留得分最高的路径；

27、采用连接主义时间分类方法，直接对序列进行建模，无需对齐训练数据中的输入和输出序列，简化训练和解码过程。

28、优选地，在所述根据声学模型和语言模型的输出，通过搜索算法获取文本序列的步骤之后还包括：

29、通过分析所述语音信号中的情感信息，实现对说话者情绪状态的判断。

30、为了解决上述技术问题，本发明还提供一种语音识别装置，采用了如下所述的技术方案，包括：

31、获取模块，用于获取语音信号；

32、特征提取模块，用于根据所述语音信号，对所述语音信号进行特征提取；

33、映射模块，用于根据对所述语音信号进行特征提取后的语音信号特征，建立语音特征与发音单元之间的映射关系；

34、建模模块，用于根据语音特征与发音单元之间的映射关系，进行语言建模，通过语言建模捕捉语言中的统计规律，预测给定上下文中下一个词或短语出现的概率；

35、文本模块，用于根据声学模型和语言模型的输出，通过搜索算法获取文本序列。

36、为了解决上述技术问题，本发明还提供一种计算机设备，采用了如下所述的技术方案，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的语音识别方法的步骤。

37、为了解决上述技术问题，本发明还提供一种计算机可读存储介质，采用了如下所述的技术方案，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的语音识别方法的步骤。

38、与现有技术相比，本发明主要有以下有益效果：通过首先获取语音信号；然后根据语音信号，对语音信号进行特征提取；再根据对语音信号进行特征提取后的语音信号特征，建立语音特征与发音单元之间的映射关系；再根据语音特征与发音单元之间的映射关系，进行语言建模，通过语言建模捕捉语言中的统计规律，预测给定上下文中下一个词或短语出现的概率；最后根据声学模型和语言模型的输出，通过搜索算法获取文本序列；提高语音识别的准确性、鲁棒性及实时性。

技术特征：

1.一种语音识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，所述获取语音信号的步骤具体包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述语音信号，对所述语音信号进行特征提取的步骤具体包括：

4.根据权利要求1所述的语音识别方法，其特征在于，所述根据对所述语音信号进行特征提取后的语音信号特征，建立语音特征与发音单元之间的映射关系的步骤具体包括：

5.根据权利要求1所述的语音识别方法，其特征在于，所述根据语音特征与发音单元之间的映射关系，进行语言建模，通过语言建模捕捉语言中的统计规律，预测给定上下文中下一个词或短语出现的概率的步骤具体包括：

6.根据权利要求1所述的语音识别方法，其特征在于，所述根据声学模型和语言模型的输出，通过搜索算法获取文本序列的步骤具体包括：

7.根据权利要求1至6任意一项所述的语音识别方法，其特征在于，在所述根据声学模型和语言模型的输出，通过搜索算法获取文本序列的步骤之后还包括：

8.一种语音识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。

技术总结
本发明属于信息处理技术领域，涉及一种语音识别方法、装置、计算机设备及存储介质，所述方法包括获取语音信号；根据所述语音信号，对所述语音信号进行特征提取；根据对所述语音信号进行特征提取后的语音信号特征，建立语音特征与发音单元之间的映射关系；根据语音特征与发音单元之间的映射关系，进行语言建模，通过语言建模捕捉语言中的统计规律，预测给定上下文中下一个词或短语出现的概率；根据声学模型和语言模型的输出，通过搜索算法获取文本序列。提高语音识别的准确性、鲁棒性及实时性。

技术研发人员：王玮,王鹏,邵流河
受保护的技术使用者：深圳市亿威尔信息技术股份有限公司
技术研发日：
技术公布日：2026/3/26

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王玮,王鹏,邵流河
技术所有人：深圳市亿威尔信息技术股份有限公司
我是此专利的发明人

上一篇：一种基于FPGA的数据通信方法、装置、计算机设备与流程
下一篇：一种通信方法、装置和系统与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！