基于人工智能的语音识别与自然语言处理方法与流程

文档序号：42650557发布日期：2025-08-05 18:35阅读：38来源：国知局

本发明涉及人工智能，更具体地，本发明涉及一种基于人工智能的语音识别与自然语言处理方法。

背景技术：

1、随着人工智能技术的快速发展，语音识别与自然语言处理在众多领域得到了广泛应用，如智能语音助手、语音翻译、语音控制等。目前，语音识别技术主要通过采集语音信号，提取语音特征，再利用相关模型进行识别，将语音内容转换为文本。在语音信号采集过程中，通常会受到背景噪声的干扰，影响语音特征的准确提取，进而降低语音识别的准确率。为了提高语音识别性能，现有技术中常采用一些降噪方法，如基于谱减法、维纳滤波等的噪声抑制技术，以及通过语音增强算法对语音信号进行预处理，以增强语音信号的可识别性。在语音特征提取方面，通常会提取语音信号的梅尔频率倒谱系数（mfcc）等特征，然后利用隐马尔可夫模型（hmm）、深度神经网络（dnn）等模型进行语音识别。然而，这些方法在处理复杂背景噪声时效果有限，且对语音信号的起始和结束时刻的判断不够精准，导致语音识别的准确性和效率有待提高。

2、在实现本发明实施例过程中，发明人发现现有技术中至少存在如下问题或缺陷：现有技术在处理背景噪声时，无法有效区分背景噪声与语音信号，导致语音特征提取不准确，影响语音识别效果；现有技术对语音信号的起始和结束时刻的判断不够精准，容易出现误判，导致语音识别的准确性和效率降低；现有技术在语音特征提取和预处理过程中，缺乏对语音信号上下文信息的有效建模，无法充分利用语音信号的上下文信息来提高语音识别的准确性。

技术实现思路

1、本发明提供了一种基于人工智能的语音识别与自然语言处理方法，包括：

2、采集背景噪声数据，当检测到语音触发信号时，采集语音信号的完整数据；

3、基于所述背景噪声数据和完整数据提取语音特征向量，对所述语音特征向量进行预处理后得到归一化特征向量；

4、基于所述归一化特征向量通过深度学习模型进行语音识别，确定语音内容并转换为文本。

5、进一步地，所述当检测到语音触发信号时，采集语音信号的完整数据，包括：

6、当检测到语音开始触发信号时，开始采集语音信号的完整数据；

7、当检测到语音结束触发信号时，停止采集语音信号的完整数据；

8、其中，完整数据为语音信号从初始采样时刻开始沿设定的时间间隔采样设定时长的语音数据；将语音信号采样设定时长作为一个采集周期。

9、进一步地，所述语音特征向量包括起始帧特征向量和结束帧特征向量，所述基于所述背景噪声数据和完整数据提取语音特征向量具体为：

10、若为语音开始时的完整数据，则抽取该完整数据中起始帧特征，并抽取背景噪声数据中相应采样时刻的起始帧特征；将背景噪声数据相应起始帧特征减去完整数据起始帧特征后，得到起始帧特征向量；

11、若为语音结束时的完整数据，则抽取该完整数据中结束帧特征，并抽取背景噪声数据中相应采样时刻的结束帧特征；将背景噪声数据相应结束帧特征减去完整数据结束帧特征后，得到结束帧特征向量；

12、其中，将语音开始时语音信号中最先被检测到的特征帧作为起始帧，将语音结束时语音信号中最后被检测到的特征帧作为结束帧；背景噪声数据为无语音信号时语音设备沿设定的时间间隔采样一周采集的语音数据。

13、进一步地，对所述语音特征向量进行预处理后得到归一化特征向量，具体为：

14、基于设定的第一阈值对所述语音特征向量进行二值化处理后，对处理后的语音特征向量进行滤波操作，进而通过特征增强将幅度小于幅度阈值的特征置零，得到第一特征数据；

15、对所述第一特征数据进行降维处理得到第二特征数据；

16、基于特征融合对所述第二特征数据进行上下文建模，得到第三特征数据；

17、将所述第三特征数据中各个采样时刻对应的各特征维度数据进行累加，得到归一化特征向量。

18、进一步地，对所述第一特征数据进行降维处理得到第二特征数据，具体为：对所述第一特征数据进行主成分分析（pca），得到第四特征数据；基于设定的第二阈值对所述第四特征数据进行二值化处理，得到第二特征数据。

19、进一步地，归一化特征向量包括起始帧归一化特征和结束帧归一化特征；基于起始帧归一化特征获取语音开始时刻；基于结束帧归一化特征获取语音结束时刻。

20、进一步地，所述基于起始帧归一化特征获取语音开始时刻，具体为：

21、若起始帧归一化特征中各数据均小于设定的第三阈值，则对应的完整数据不存在有效语音，获取语音开始时下一采集周期的完整数据的起始帧归一化特征重新进行判断；

22、若起始帧归一化特征中各数据均大于等于设定的第三阈值，则对应的完整数据在各个采样时刻均存在有效语音，将对应的完整数据的初始采样时刻作为语音开始时刻；

23、否则确定起始帧归一化特征中第一个满足下述条件的数据作为第一临界数据：该数据大于等于设定的第三阈值且在起始帧归一化特征中该数据的前若干个数据均小于第三阈值；进而根据该第一临界数据获取语音开始时刻。

24、进一步地，所述根据该第一临界数据获取语音开始时刻，具体为：

25、确定起始帧归一化特征中最后一个大于等于设定的第三阈值的数据作为第二临界数据，得到第一临界数据与第二临界数据之间的数据数量；并确定起始帧归一化特征中在第一临界数据前的数据数量和在第二临界数据后的数据数量；

26、当第一临界数据前的数据数量大于等于第四阈值时，

27、若第一临界数据前的数据数量大于等于第四阈值且第一临界数据与第二临界数据之间的数据数量大于等于第五阈值，则将该第一临界数据的采样时刻作为语音开始时刻；

28、若第一临界数据前的数据数量大于等于第四阈值且第一临界数据与第二临界数据之间的数据数量小于第五阈值，则对应的完整数据不存在有效语音或存在异常，获取语音开始时下一采集周期的完整数据重新进行判断；

29、否则，对应的完整数据在初始采样时刻已存在有效语音，将该初始采样时刻作为语音开始时刻；

30、当第一临界数据前的数据数量小于第四阈值时，

31、若第一临界数据前的数据数量等于第四阈值且第一临界数据与第二临界数据之间的数据数量大于等于第五阈值，则将该第一临界数据的采样时刻作为语音开始时刻；

32、若第一临界数据前的数据数量等于第四阈值且第一临界数据与第二临界数据之间的数据数量小于第五阈值，则对应的完整数据不存在有效语音或存在异常，获取语音开始时下一采集周期的完整数据重新进行判断；

33、否则，对应的完整数据在初始采样时刻已存在有效语音，将该初始采样时刻作为语音开始时刻；

34、其中，第五阈值为第二临界数据后的数据数量和长度阈值的最小值。

35、进一步地，所述基于结束帧归一化特征获取语音结束时刻，具体为：

36、若结束帧归一化特征中各数据均小于设定的第三阈值，则对应的完整数据不存在有效语音，将对应的完整数据的初始采样时刻作为语音结束时刻；

37、若结束帧归一化特征中各数据均大于等于设定的第三阈值，则对应的完整数据在各个采样时刻均存在有效语音，获取语音结束时下一采集周期的完整数据重新进行判断；

38、否则，确定结束帧归一化特征中最后一个满足下述条件的数据作为第三临界数据：该数据满足大于等于设定的第三阈值且在结束帧归一化特征中该数据的后若干个数据均小于第三阈值；进而根据该第三临界数据获取语音结束时刻。

39、进一步地，所述根据该第三临界数据获取语音结束时刻，具体为：

40、确定结束帧归一化特征中第一个大于等于设定的第三阈值的数据作为第四临界数据，得到第三临界数据与第四临界数据之间的数据数量；并确定结束帧归一化特征中在第三临界数据后的数据数量和在第四临界数据前的数据数量；

41、当第三临界数据后的数据数量大于等于第六阈值时，

42、若第三临界数据后的数据数量大于等于第六阈值且第三临界数据与第四临界数据之间的数据数量大于等于第七阈值，则将该第三临界数据的采样时刻作为语音结束时刻；

43、若第三临界数据后的数据数量大于等于第六阈值且第三临界数据与第四临界数据之间的数据数量小于第七阈值，则对应的完整数据不存在有效语音或存在异常，将对应的完整数据的初始采样时刻作为语音结束时刻；

44、否则，对应的完整数据在各个采样时刻均存在有效语音，获取语音结束时下一采集周期的完整数据重新进行判断；

45、当第三临界数据后的数据数量小于第六阈值时，

46、若第三临界数据后的数据数量等于第六阈值且第三临界数据与第四临界数据之间的数据数量大于等于第七阈值，则将该第三临界数据的采样时刻作为语音结束时刻；

47、若第三临界数据后的数据数量等于第六阈值且第三临界数据与第四临界数据之间的数据数量小于第七阈值，则对应的完整数据不存在有效语音或存在异常，将对应的完整数据的初始采样时刻作为语音结束时刻；

48、否则，对应的完整数据在各个采样时刻均存在有效语音，获取语音结束时下一采集周期的完整数据重新进行判断；

49、其中，第七阈值为第四临界数据前的数据数量和长度阈值的最小值。

50、根据本发明的上述实施例至少具有以下有益效果：本发明通过采集背景噪声数据并结合语音信号的完整数据进行特征提取，可以有效去除背景噪声的干扰，提高语音特征向量的质量。在语音特征向量的预处理过程中，采用二值化处理、滤波操作、特征增强、降维处理和上下文建模等一系列优化方法，可以进一步提升特征向量的准确性和代表性，从而为深度学习模型提供更优质的输入数据，显著提高语音识别的准确率。此外，通过精确判断语音的起始和结束时刻，可以避免无效语音数据的干扰，减少误判，进一步提升语音识别的效率和可靠性。

51、同时，本发明在语音信号处理的各个环节均进行了优化和创新。例如，在语音特征提取阶段，通过对比背景噪声数据和语音信号数据来生成起始帧和结束帧特征向量，可以更精准地捕捉语音信号的关键特征。在语音开始和结束时刻的判断过程中，采用多阈值判断机制和临界数据分析方法，可以有效应对复杂语音信号和噪声环境，确保语音识别系统的鲁棒性。这些改进不仅可以提升语音识别的性能，还可以为后续的自然语言处理任务提供更准确的文本输入。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋毅
技术所有人：华葳（上海）文化发展有限公司
我是此专利的发明人

上一篇：一种路面排水清堵设备的制作方法
下一篇：一种新型搅拌桶用运输装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！