一种基于AI大模型的音响交互意图识别与智能决策方法与流程

文档序号：42371034发布日期：2025-07-08 20:58阅读：46来源：国知局

本发明涉及智能语音交互，特别是一种基于ai大模型的音响交互意图识别与智能决策方法。

背景技术：

1、近年来，智能语音交互系统在声学信号处理与自然语言理解领域取得显著进展。在语音信号处理方面，基于webrtc噪声抑制(ns)算法及其改进方案已成为主流降噪技术，通过频域滤波有效抑制环境噪声，并结合mel滤波器组提取符合人耳听觉特性的声学特征。同时，预训练语言模型(如roberta)在文本分句与语义理解任务中展现出高精度，通过上下文编码实现复杂标点场景的语义边界识别。在多模态融合领域，注意力机制与动态权重分配技术被广泛用于声学-文本特征对齐，而基于高斯投影的近似最近邻搜索(ann)方法在历史记忆检索中提升了实时性。

2、然而，现有技术仍面临以下挑战：跨模态特征因声学信号噪声干扰、文本语义分割误差及历史记忆时效性不足，导致多模态特征融合对齐度低，进而降低意图识别的准确性。

技术实现思路

1、鉴于上述现有存在的问题，提出了本发明。

2、因此，本发明提供了一种基于ai大模型的音响交互意图识别与智能决策方法解决复杂声学环境下多模态特征因噪声干扰与语义分割偏差导致的融合对齐度不足的问题。

3、为解决上述技术问题，本发明提供如下技术方案：

4、第一方面，本发明提供了一种基于ai大模型的音响交互意图识别与智能决策方法，其包括，

5、通过声学传感器采集语音信号并进行降噪处理和声学特征提取，同时捕获文本指令进行语义分句和文本特征提取，将声学特征向量与文本特征向量拼接形成多模态数据包；

6、对声学特征向量和文本特征向量分别执行频带能量优选和tf-idf权重筛选，通过注意力机制融合特征并叠加设备状态动态调整权重，生成强化融合特征向量；

7、基于强化融合特征向量检索历史记忆库生成记忆上下文向量，通过两阶段意图推理模型识别主意图类别并解析操作参数，输出结构化意图指令；

8、对结构化意图指令进行参数合法性校验、设备状态验证及安全风险评估，修正异常参数后封装为可执行指令集。

9、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述降噪处理包括以下步骤，

10、采集模拟语音信号并进行分帧处理，生成频谱矩阵；

11、基于改进型webrtc ns算法分析频谱矩阵，计算实时信噪比估计值；

12、根据动态阈值规则映射实时信噪比估计值，并对频谱矩阵执行频域滤波，通过逆傅里叶变换重构去噪音频帧，生成纯净声学波形数据流。

13、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述声学特征提取包括以下步骤，

14、对纯净声学波形数据流分帧并进行快速傅里叶变换，计算功率谱能量分布，并执行非线性频率尺度转换，生成对数mel频谱；

15、对连续多帧对数mel频谱执行时间维度平均及归一化，构成声学特征向量。

16、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述文本特征提取包括以下步骤，

17、对原始文本字符串预处理后输入roberta分句模型，生成分句概率分布序列并识别候选语义边界，生成语义单元序列；

18、提取语义单元首字符的roberta词嵌入向量，通过层归一化生成标准化文本特征向量。

19、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述通过注意力机制融合特征包括以下步骤，

20、基于声学特征向量的频带能量占比生成声学特征优选掩码矩阵，筛选关键频带特征；

21、基于文本特征向量的tf-idf值生成二值掩码矩阵，筛选核心语义特征；

22、将关键频带特征作为查询向量，核心语义特征作为键值向量，计算注意力分数并进行优化，生成优化后的注意力图谱；

23、实时读取设备cpu负载及网络延迟数据生成调整因子，动态修正初始融合权重与优化后的注意力图谱融合，通过全局平均池化生成强化融合特征向量。

24、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述生成记忆上下文向量包括以下步骤，

25、基于随机投影哈希将强化融合特征向量映射为哈希码，并检索相似记录；

26、对候选记录计算余弦相似度，结合时间衰减权重生成综合权重，并与增强融合特征向量加权求和，输出记忆上下文向量。

27、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述两阶段意图推理包括以下步骤，

28、将记忆上下文向量与强化融合特征向量拼接，输出主意图类别概率分布；

29、基于类别概率分布中的主意图提取频段能量变化率，计算幅度百分比；

30、从历史记录中提取最近操作的设备id，整合方向、幅度及设备参数，生成结构化意图指令。

31、作为本发明所述基于ai大模型的音响交互意图识别与智能决策方法的一种优选方案，其中：所述封装为可执行指令集包括以下步骤，

32、基于结构化意图指令中的目标设备功放参数迭代预测电压增量；

33、当预测电压超过失真阈值则触发告警，同时统计用户历史拒绝率，并将校验通过的指令封装为可执行指令集。

34、第二方面，本发明提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述计算机程序被处理器执行时实现如本发明第一方面所述的基于ai大模型的音响交互意图识别与智能决策方法的任一步骤。

35、第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序被处理器执行时实现如本发明第一方面所述的基于ai大模型的音响交互意图识别与智能决策方法的任一步骤。

36、本发明有益效果为：采用改进型webrtc ns算法，通过非均匀子带合并与动态信噪比阈值自动切换降噪模式，使dsp计算负载降低；基于roberta-base的分句模型通过字符级概率分布预测与分层回溯策略，将长文本分句准确率提升；基于松弛的声学频带优选掩码与tf-idf累积权重截断的文本语义优选掩码，通过频带能量占比与词项重要性评分的双重筛选，使声学-文本特征尺度差异降低；结合设备状态感知的注意力权重动态调整，将融合权重偏移误差降低。

技术特征：

1.一种基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：包括，

2.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述降噪处理包括以下步骤，

3.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述声学特征提取包括以下步骤，

4.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述文本特征提取包括以下步骤，

5.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述通过注意力机制融合特征包括以下步骤，

6.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述生成记忆上下文向量包括以下步骤，

7.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述两阶段意图推理包括以下步骤，

8.如权利要求1所述的基于ai大模型的音响交互意图识别与智能决策方法，其特征在于：所述封装为可执行指令集包括以下步骤，

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1～8任一所述的基于ai大模型的音响交互意图识别与智能决策方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1～8任一所述的基于ai大模型的音响交互意图识别与智能决策方法的步骤。

技术总结
本发明公开了一种基于AI大模型的音响交互意图识别与智能决策方法，涉及智能语音交互技术领域，包括，通过声学传感器采集语音信号并进行降噪处理和声学特征提取，同时捕获文本指令进行语义分句和文本特征提取，将声学特征向量与文本特征向量拼接形成多模态数据包；基于强化融合特征向量检索历史记忆库生成记忆上下文向量，通过两阶段意图推理模型识别主意图类别并解析操作参数，输出结构化意图指令；对结构化意图指令进行参数合法性校验、设备状态验证及安全风险评估，修正异常参数后封装为可执行指令集。本发明通过频带能量占比与词项重要性评分的双重筛选，使声学‑文本特征尺度差异降低。

技术研发人员：张婧,丁思睿
受保护的技术使用者：张婧
技术研发日：
技术公布日：2025/7/7

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张婧,丁思睿
技术所有人：张婧
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！