本发明涉及生物信息学,尤其涉及一种基于语音识别的智能魔镜交互方法及系统。
背景技术:
1、智能交互魔镜是指一种集成了显示、触摸、语音识别、人工智能等多种技术的现代化智能家居设备,智能交互魔镜的主要目的是为用户提供便捷、个性化的交互体验,同时通过集成智能家居控制系统,成为家庭智能生活的一个重要组成部分。
2、目前,智能交互魔镜主要依赖于基础的语音识别技术,用户通过直接对镜子发出指令来获取信息或执行操作,这种方式存在一些局限性:首先,它对用户的语音指令识别较为简单,无法有效区分不同用户的声音,导致无法提供个性化的服务体验,从而导致魔镜的交互不够智能。
技术实现思路
1、本发明提供一种基于语音识别的智能魔镜交互方法及系统,其主要目的在于提高智能魔镜的交互效果性。
2、为实现上述目的,本发明提供的一种基于语音识别的智能魔镜交互方法,包括:
3、识别智能魔镜的魔镜结构参数,基于所述魔镜结构参数,构建所述智能魔镜的多麦克风模块,计算所述多麦克风模块的远场语音识别系数,根据所述远场语音识别系数,对所述多麦克风模块进行优化,得到目标多麦克风模块;
4、通过所述目标多麦克风模块采集所述智能魔镜的语音信号,对所述语音信号进行噪声抑制,得到噪声抑制语音信号,提取所述噪声抑制语音信号的语音信号声纹,计算所述语音信号声纹和预设的魔镜声纹库的声纹匹配度;
5、基于所述声纹匹配度,确定所述智能魔镜的目标语音信号和目标语音用户,计算所述目标语音用户的用户位置,并利用训练好的多语言意图识别模型识别所述目标语音信号的用户意图,识别所述用户意图的意图阶数,当所述意图阶数不满足预设条件时,计算所述用户意图的意图优先级,根据所述意图优先级,确定所述目标语音用户的序列意图任务;
6、基于所述序列意图任务,构建所述智能魔镜的镜面交互指令,当所述镜面交互指令需要语音播报时,基于所述用户位置,定义所述智能魔镜的语音交互指令;
7、基于所述镜面交互指令和所述语音交互指令,确定在执行所述序列意图任务过程中的交互行为,根据所述交互行为,构建所述目标语音用户与所述智能魔镜中交互镜面的交互页面。
8、可选地,所述基于所述魔镜结构参数,构建所述智能魔镜的多麦克风模块,包括:
9、确定所述智能魔镜的语音采集功能指标;
10、基于所述语音采集功能指标,定义所述智能魔镜的目标麦克风;
11、根据所述魔镜结构参数和所述语音采集功能指标,构建所述智能魔镜的多麦克风布局;
12、计算所述多麦克风布局对应目标麦克风的声音接收效率;
13、当所述声音接收效率符合预设的声音接收效率阈值时,构建所述智能魔镜的多麦克风模块。
14、可选地,所述计算所述多麦克风布局对应目标麦克风的声音接收效率,包括:
15、分析所述多麦克风布局对应目标麦克风的麦克风参数;
16、基于所述麦克风参数,计算所述目标麦克风的信号接受强度;
17、根据所述信号接受强度和所述麦克风参数,利用下述公式计算所述目标麦克风的声音接收效率:
18、
19、其中,ρ表示目标麦克风的声音接收效率,rssia表示第a个麦克风的信号接受强度,rssimax,a表示第a个麦克风的最大信号接受强度,sa表示麦克风参数中第a个麦克风的指向因子,dfa表示麦克风参数中第a个麦克风的衰减传输因子,n表示目标麦克风的数量,a表示第a个麦克风。
20、可选地,所述计算所述多麦克风模块的远场语音识别系数,包括:
21、定义所述多麦克风模块的声源远场条件;
22、基于所述声源远场条件,构建所述多麦克风模块的声源模型和环境模型;
23、通过所述声源模型和环境模型,建立所述多麦克风模块的声学模型;
24、基于所述声学模型,分析所述多麦克风模块对应声源场景的声源分布;
25、根据所述声源分布,计算所述多麦克风模块对应目标麦克风的声压级;
26、基于所述声压级,分析所述多麦克风模块对应目标麦克风在所述声源远场条件下的语音识别率;
27、通过所述语音识别率,计算所述多麦克风模块的远场语音识别系数。
28、可选地,所述对所述语音信号进行噪声抑制,得到噪声抑制语音信号,包括:
29、对所述语音信号进行时域处理,得到时域处理信号;
30、对所述时域处理信号进行频域处理,得到频域处理信号;
31、构建所述频域处理信号的稀疏表示字典;
32、通过所述稀疏表示字典,标记所述频域处理信号的稀疏表示;
33、根据所述稀疏表示,确定所述频域处理信号的信号噪声;
34、对所述信号噪声进行抑制,得到所述频域处理信号的噪声抑制语音信号。
35、可选地,所述提取所述噪声抑制语音信号的语音信号声纹,包括:
36、标记所述噪声抑制语音信号的活跃部分;
37、根据所述活跃部分,对所述噪声抑制语音信号的进行增强,得到增强语音信号;
38、将所述增强语音信号进行分割,得到短时帧语音信号;
39、提取所述短时帧语音信号的声纹特征;
40、识别所述声纹特征的特征贡献,并基于所述特征贡献,确定所述声纹特征中的目标声纹特征;
41、将所述目标声纹特征聚合为固定长度特征向量;
42、基于所述固定长度特征向量,确定所述短时帧语音信号的语音信号声纹。
43、可选地,所述提取所述短时帧语音信号的声纹特征,包括:
44、对所述短时帧语音信号进行预处理,得到频谱图;
45、利用预设的梅尔滤波器输出频谱图的功率谱;
46、基于所述梅尔滤波器输出频谱图的功率谱,利用下述公式计算所述短时帧语音信号的梅尔频率倒谱系数:
47、
48、其中,mfcc(r)表示短时帧语音信号第r个的梅尔频率倒谱系数,f(v)表示短时帧语音信号第v个梅尔滤波器输出的功率谱,v表示梅尔滤波器的索引,m表示梅尔滤波器的数量,cos表示余弦函数,π表示圆周率,r表示梅尔频率倒谱系数的索引,log表示自然对数函数;
49、基于所述梅尔频率倒谱系数,提取所述短时帧语音信号的声纹特征。
50、可选地,所述利用训练好的多语言意图识别模型识别所述目标语音信号的用户意图,包括:
51、构建所述目标语音信号的多语言模型;
52、基于所述多语言模型对所述目标语音信号进行标注,得到标注语音信号;
53、提取所述标注语音信号的语言特征;
54、基于所述语言特征,利用所述多语言意图识别模型识别所述标注语音信号的初始用户意图;
55、计算所述初始用户意图的有效性;
56、当所述有效性符合预设的有效阈值时,将所述初始用户意图作为用户意图。
57、可选地,所述通过根据所述交互行为,构建所述目标语音用户与所述智能魔镜中交互镜面的交互页面,包括:
58、识别所述目标语音用户对所述交互行为的响应交互信息;
59、基于所述响应交互信息,分析所述智能魔镜的交互意图;
60、通过所述交互意图,确定所述智能魔镜的交互逻辑;
61、根据所述交互逻辑,构建所述目标语音用户与所述智能魔镜中交互镜面的交互页面。
62、为了解决上述问题,本发明还提供一种基于语音识别的智能魔镜交互系统,所述系统包括:
63、多麦克风模块构建模块,用于识别智能魔镜的魔镜结构参数,基于所述魔镜结构参数,构建所述智能魔镜的多麦克风模块,计算所述多麦克风模块的远场语音识别系数,根据所述远场语音识别系数,对所述多麦克风模块进行优化,得到目标多麦克风模块;
64、声纹匹配模块,用于通过所述目标多麦克风模块采集所述智能魔镜的语音信号,对所述语音信号进行噪声抑制,得到噪声抑制语音信号,提取所述噪声抑制语音信号的语音信号声纹,计算所述语音信号声纹和预设的魔镜声纹库的声纹匹配度;
65、意图任务识别模块,用于基于所述声纹匹配度,确定所述智能魔镜的目标语音信号和目标语音用户,计算所述目标语音用户的用户位置,并利用训练好的多语言意图识别模型识别所述目标语音信号的用户意图,识别所述用户意图的意图阶数,当所述意图阶数不满足预设条件时,计算所述用户意图的意图优先级,根据所述意图优先级,确定所述目标语音用户的序列意图任务;
66、交互指令构建模块,用于基于所述序列意图任务,构建所述智能魔镜的镜面交互指令,当所述镜面交互指令需要语音播报时,基于所述用户位置,定义所述智能魔镜的语音交互指令;
67、交互页面生成模块,用于基于所述镜面交互指令和所述语音交互指令,确定在执行所述序列意图任务过程中的交互行为,根据所述交互行为,构建所述目标语音用户与所述智能魔镜中交互镜面的交互页面。
68、本发明基于所述魔镜结构参数,构建所述智能魔镜的多麦克风模块可以构建一个高效、稳定且用户友好的智能魔镜多麦克风模块,从而高效的采集语音信号;本发明计算所述多麦克风模块的远场语音识别系数可以作为优化麦克风布局的依据,从而提高麦克风的语音接收能力,从而提高用户的体验感;进一步地,本发明通过根据所述远场语音识别系数,对所述多麦克风模块进行优化,得到目标多麦克风模块可以对多麦克风模块进行优化,以提高其在远场条件下的语音识别性能,进一步地,本发明对所述语音信号进行噪声抑制,得到噪声抑制语音信号能够有效地分离噪声和语音,得到高质量的噪声抑制语音信号,从而提高了后期的语音识别效果,进一步地,本发明通过提取所述噪声抑制语音信号的语音信号声纹可以为后期的声纹匹配提供基础,紧接着,本发明利用训练好的多语言意图识别模型识别所述目标语音信号的用户意图满足不同语言用户的需求,提供更好的用户体验,本发明识别所述用户意图的意图阶数,当所述意图阶数不满足预设条件时,计算所述用户意图的意图优先级,根据所述意图优先级,确定所述目标语音用户的序列意图任务能够适应多任务的用户场景和需求,从而提高了用户的体验感,最后,本发明通过根据所述交互行为,构建所述目标语音用户与所述智能魔镜中交互镜面的交互页面可以实现所述智能魔镜的智能交互。因此,本发明可提高智能魔镜的交互效果。