语音识别方法、装置、设备、存储介质及程序产品与流程

文档序号：43352010发布日期：2025-10-14 17:45阅读：36来源：国知局

本公开涉及语音识别，尤其涉及一种语音识别方法、装置、设备、存储介质及程序产品。

背景技术：

1、随着语音识别技术的广泛应用，语音交互系统已被普遍应用于智能助手、客服机器人、智能家居、车载导航、语音搜索、会议转录、实时字幕生成等多种场景中。然而，在实际应用中，待识别音频有时会包含特定领域术语、专有名词、人名、品牌名称或者新兴词汇。这些词语通常在语音识别模型的训练数据中出现频率较低，甚至未被覆盖，导致语音识别模型将其识别为发音相近的常见词语，从而得到错误的语音识别结果。

技术实现思路

1、本公开提供一种语音识别方法、装置、设备、存储介质及程序产品，以解决相关技术中的不足。

2、根据本公开实施例的第一方面，提出一种语音识别方法，该方法包括：

3、对预定义词语进行语义提取，得到所述预定义词语的文本语义特征，以及，对待识别音频进行语义提取，得到所述待识别音频的音频语义特征；

4、将文本语义特征与所述音频语义特征相匹配的预定义词语确定为提示词；

5、基于所述提示词，对所述待识别音频进行语音识别，得到语音识别结果。

6、可选的，所述对待识别音频进行语义提取，得到所述待识别音频的音频语义特征，包括：

7、将所述待识别音频划分成多个音频帧，针对每一音频帧进行语义提取，得到每一音频帧的第一音频语义特征；

8、基于多个第一音频语义特征之间的语义关联关系，对所述多个第一音频语义特征进行上下文语义融合处理，得到至少一个第二音频语义特征；

9、所述将文本语义特征与所述音频语义特征相匹配的预定义词语确定为提示词，包括：将文本语义特征与任一第二音频语义特征相匹配的预定义词语确定为所述提示词。

10、可选的，所述基于多个第一音频语义特征之间的语义关联关系，对所述多个第一音频语义特征进行上下文语义融合处理，得到至少一个第二音频语义特征，包括：

11、对于每一所述第一音频语义特征，基于所述第一音频语义特征与邻域第一音频语义特征之间的语义关联关系，对所述第一音频语义特征与邻域第一音频语义特征进行上下文语义融合处理，得到所述每一音频帧的第二音频语义特征；

12、其中，所述邻域第一音频语义特征，是在时序上位于所述第一音频语义特征的邻域范围内的至少一个第一音频语义特征。

13、可选的，所述基于多个第一音频语义特征之间的语义关联关系，对所述多个第一音频语义特征进行上下文语义融合处理，得到至少一个第二音频语义特征，包括：

14、基于所述多个第一音频语义特征之间的语义关联关系，对所述多个第一音频语义特征进行分组，同一组内的第一音频语义特征在时序上连续；

15、将同一组内的第一音频语义特征进行语义融合处理，得到各组分别对应的第二音频语义特征。

16、可选的，所述对预定义词语进行语义提取，得到所述预定义词语的文本语义特征，以及，对待识别音频进行语义提取，得到所述待识别音频的音频语义特征，包括：

17、通过音频语言对齐模型，分别对所述预定义词语和所述待识别音频进行语义提取，得到所述预定义词语的文本语义特征和所述待识别音频的音频语义特征；

18、其中，所述音频语言对齐模型被训练为将同一词语的文本语义特征与音频语义特征在向量空间中对齐。

19、可选的，所述音频语言对齐模型的训练过程包括：

20、获取样本训练数据，所述样本训练数据包括样本音频以及所述样本音频对应的样本语句中预定义的样本词语；

21、通过所述音频语言对齐模型，分别对所述样本词语和所述样本音频进行语义提取，得到所述样本词语的文本语义特征和所述样本音频的音频语义特征；

22、确定所述文本语义特征与所述样本音频的音频语义特征的局部相似度中的最大局部相似度，其中，所述样本音频的音频语义特征的数量为多个，所述局部相似度为所述文本语义特征与任一音频语义特征的相似度；

23、基于所述最大局部相似度，调整所述音频语言对齐模型的模型参数，以增大所述最大局部相似度。

24、可选的，所述样本训练数据还包括所述样本音频对应的样本语句；所述方法还包括：

25、通过所述音频语言对齐模型，对所述样本语句进行语义提取，得到所述样本语句的全局文本语义特征；

26、将所述样本音频的多个音频语义特征进行融合，得到全局音频语义特征；

27、确定所述样本语句的全局文本语义特征与所述全局音频语义特征的全局相似度；

28、所述基于所述最大局部相似度，调整所述音频语言对齐模型的模型参数，以增大所述最大局部相似度，包括：基于所述最大局部相似度和所述全局相似度，调整所述音频语言对齐模型的模型参数，以增大所述最大局部相似度和所述全局相似度。

29、可选的，所述基于所述提示词，对所述待识别音频进行语音识别，得到语音识别结果，包括：

30、将所述提示词和所述待识别音频输入语音识别模型，得到所述语音识别模型输出的语音识别结果，所述语音识别结果是根据所述提示词对所述待识别音频进行语音识别得到的。

31、可选的，所述基于所述提示词，对所述待识别音频进行语音识别，得到语音识别结果，包括：

32、对所述待识别音频进行语音识别，得到多个候选语音识别结果；

33、将包含所述提示词的候选语音识别结果确定为所述语音识别结果。

34、可选的，在所述对预定义词语进行语义提取之前，所述方法还包括以下至少一项：

35、将用户提供的词语确定为所述预定义词语；

36、根据当前语音识别所应用的业务场景，确定所述预定义词语；

37、根据当前语音识别的历史语音识别结果，确定所述预定义词语。

38、根据本公开实施例的第二方面，提出一种语音识别装置，所述装置包括：

39、特征提取模块，被配置为对预定义词语进行语义提取，得到所述预定义词语的文本语义特征，以及，对待识别音频进行语义提取，得到所述待识别音频的音频语义特征；

40、匹配模块，被配置为将文本语义特征与所述音频语义特征相匹配的预定义词语确定为提示词；

41、语音识别模块，被配置为基于所述提示词，对所述待识别音频进行语音识别，得到语音识别结果。

42、根据本公开实施例的第三方面，提出一种电子设备，包括：

43、处理器；

44、用于存储处理器可执行指令的存储器；

45、其中，所述处理器被配置为实现上述第一方面的实施例中所述的方法。

46、根据本公开实施例的第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面的实施例中所述方法的步骤。

47、根据本公开实施例的第五方面，提出一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述第一方面的实施例中所述方法的步骤。

48、本公开的实施例提供的技术方案可以包括以下有益效果：

49、由上述实施例可知，通过在语音识别之前，先将待识别音频的音频语义特征与预定义词语的文本语义特征进行对比，判断该待识别音频中是否包含某一预定义词语，并在包含某一预定义词语的情况下，将该预定义词语作为提示词引导后续语音识别结果。该技术方案打破了传统语音识别中先语音识别、后理解的串行模式，构建了“语义预判→上下文引导→精准识别”的新型处理模式。

50、相较于传统方法，本方案无需对语音识别模型进行结构修改或重新训练，仅通过动态配置预定义词语即可实现对特定领域术语、专有名词、人名、品牌名称以及新兴词汇等特定词语的识别增强。无论面对不同应用场景，还是应对各领域专业术语及新兴词汇随时间持续演进的实际需求，系统均可通过更新预定义词语列表快速适应，显著提升了语音识别的准确性与场景适应能力。该方法不仅有效降低了语音识别模型的开发成本、训练开销与维护复杂度，还具备良好的灵活性与可扩展性，能够及时响应实际应用中的场景变化，有利于在多样化业务场景中的快速部署与广泛推广，具有突出的实用性与产业化价值。

51、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔凡,孔玉祥,郭理勇,范利春,丁翰林
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

上一篇：一种电表箱外板连接件折弯装置的制作方法
下一篇：一种三合一手电筒射灯透镜的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！