本发明属于人机交互领域,特别涉及一种用于多功能展示柜的智能人机交互方法及系统。
背景技术:
1、在传统的多功能展示柜中,交互形式较为单一,主要依赖静态展示和简单的触摸屏操作,此模式难以吸引观众的持续关注,也无法满足不同用户群体多样化的交互需求。
2、在展示效果上,传统展示柜较为单一,缺乏沉浸感和互动性,难以提升观众的参与感和兴趣,无法充分发挥展示柜的功能优势,这些问题都限制了展示效果和用户体验的提升。
3、同时,传统展示方式在信息传递方面效率较低,无法根据观众的具体需求提供个性化的内容,导致信息传递的针对性和有效性不足。此外,展示柜通常需要大量工作人员进行讲解和引导,尤其是在多语种环境下,人力成本显著增加,而人工讲解的效率和质量也难以保证一致性。
4、因此,以上问题亟待解决。
技术实现思路
1、发明目的:为了克服以上不足,本发明的目的是提供一种用于多功能展示柜的智能人机交互方法及系统,通过设计了多任务联合训练模块,直接建立语音信号与结构化语义标签的映射关系,完全绕过传统asr所需的文本转写环节,避免了asr错误导致标注不准确的情况出现,且通过共享编码器提升了鲁棒性;同时,设计了推荐模块,根据语义标签进行精准推荐,并拓展推荐范围进一步丰富展示内容,通过语音交互和实时推荐相结合,为用户提供了沉浸式的体验。
2、技术方案:为了实现上述目的,本发明提供了一种用于多功能展示柜的智能人机交互方法,包括:
3、s1):对各展示柜及其行列进行标序,并构建商品所在位置与展示柜及其行列序号的对应关系;构建对应关系能够快速准确地找到商品在展示柜中的具体位置,提高商品查找效率,方便顾客和销售人员快速定位商品;
4、s2):收集历史语音交互信息,并调用数据处理模块进行清洗与标注;通过清洗和标注,可以去除噪声数据和无效信息,提高数据的质量,从而提升模型训练的效果;
5、s3):调用多任务联合训练模块训练,得到推理模型;多任务联合训练使模型学习到了更通用的特征表示,增强了模型对不同语音指令和语义场景的适应能力,提高了模型的泛化性能;
6、s301):搭建多任务联合训练模型;所述多任务联合训练模型包括特征提取器、共享编码器、asr解码器和nlu解码器;所述特征提取器与共享编码器连接;所述共享编码器同时与asr解码器和nlu解码器连接;共享编码器能够将提取到的特征信息有效地传递给asr解码器和nlu解码器,保证了信息的共享和利用,提高了模型的整体效率;
7、s302):将asr解码器和nlu解码器的损失函数加权组合,模型在训练阶段同时优化两个任务,实现相互增强;通过共享编码器,提取的底层特征可以同时服务于asr和nlu任务,减少了特征冗余,提高了模型的效率和学习能力;
8、s4):调用多任务联合训练模块使用推理模型,并调用语音输入模块收集实时语音,根据实时语音输入进行语义提取,得出语义标签;实现了语音输入与语义提取的无缝衔接,提高了人机交互的效率,使用户能够更加自然地进行交互;
9、s5):调用推荐模块根据语义标签进行匹配,快速筛选出与之匹配的商品,并得到匹配度排列靠前的若干商品,调用播报模块一同进行播报。通过快速筛选和播报匹配度高的商品,能够引导用户快速找到所需商品,提高了销售效率。
10、进一步的,所述s301)中特征提取器使用预训练的声谱图提取工具进行声谱图提取作为特征表示,并输出特征序列x,公式如下:
11、x={x1,x2,...,xt}
12、其中,t为时间步长;预训练的声谱图提取工具能够提供高质量的特征表示,包含了丰富的声学信息,有助于提升后续解码器的性能;
13、所述s301)中共享编码器使用transformer编码器将输出特征序列x编码为隐藏状态序列h,公式如下:
14、h=transformerencoder(x·wemb+pe)
15、其中,wemb为嵌入权重矩阵,随模型训练自动生成;pe为位置编码,由transformer编码器自动生成;与传统的rnn不同,transformer编码器可以同时考虑整个输入序列的信息,通过自注意力机制,transformer编码器能够动态地分配权重给不同位置的元素,从而更好地捕捉全局上下文信息,有助于模型更全面地理解输入序列的语义内容;
16、所述s301)中asr解码器将隐藏状态序列h解码并得到文本序列yasr,公式如下:
17、ysar=argmaxyp(y|x)
18、其中,p(y∣h)表示在给定隐藏状态序列h的条件下,文本序列y的生成概率;argmax为数学函数,用于找到使给定函数达到最大值的参数值;asr解码器能够高效地将语音信号转换为高质量的文本输出,不仅提高了转录的准确性,还使得生成的文本更加自然和易于理解;且asr解码器支持多种语言的识别,大大提高了用户服务的范围。
19、所述s301)中nlu解码器将隐藏状态序列h直接解码得到语义标签ynlu,公式如下:
20、ynlu=decoder(h,attention(h))
21、其中,attention为注意力机制计算;decoder为解码器,由一个神经网络模型实现。注意力机制允许解码器在生成每个语义标签时,动态地关注隐藏状态序列h中的不同部分,解码器能够更准确地捕捉到与当前生成任务最相关的信息,而不仅仅是依赖于固定的隐藏状态,提升语义理解的准确性。
22、进一步的,所述s302)中采用基于梯度的动态加权实现对asr解码器和nlu解码器的损失函数加权组合,公式如下:
23、ltotal=αlasr+βlnlu
24、
25、其中,α和β是加权系数,θ为模型参数;和分别是asr和nlu损失函数相对于模型参数θ的梯度;ltotal为总损失函数;lasr为asr解码器的损失函数;lnlu为nlu解码器的损失函数。动态加权只需要记录不同训练步骤的损失值,而不需要手动调整权重,这简化了优化过程,减少了对人工干预的需求,避免了手动调整权重的复杂性和不确定性;同时,基于梯度的动态加权可以根据每个任务在训练过程中的表现动态调整权重,实现了动态适应任务难度的变化,使得模型在训练过程中始终保持最佳的学习状态。
26、进一步的,所述s4)在推理时,nlu解码器直接从共享编码器进行解码,得出语义标签。通过直接从共享编码器的隐藏状态进行解码,nlu解码器可以绕过asr阶段可能出现的错误,从而减少误差传播,提高语义理解的准确性和鲁棒性;同时,由于减少了中间步骤和计算资源的消耗,可以更快地响应用户的语音指令,提供更流畅的交互体验。
27、进一步的,所述s2包括如下步骤:
28、s201):预设语义框架;所述语义框架覆盖目标场景的语义槽位和意图;由于语义框架已经明确了槽位和意图的定义,标注人员在进行人工标注时可以依据这个框架进行操作,从而保证标注结果的一致性和准确性;
29、s202):对少量数据进行人工标注;与对大量数据进行人工标注相比,仅对少量数据进行人工标注显著降低了标注成本;
30、s203):基于预训练语言模型与人工标注数据完成对剩余数据的标注,构建含标注的数据集。预训练语言模型已经学习了大量的语言知识和语义信息,能够根据人工标注的少量数据,学习到标注规则和语义特征,并将其应用到剩余数据的标注中,从而提高标注的准确性和一致性;同时实现快速对剩余数据进行初步标注,大大提高了数据标注的效率,缩短了整个数据标注的时间周期。
31、进一步的,所述s5)中通过余弦相似度来计算语义标签与商品数据的文本相似性进行匹配。通过余弦相似度计算,能够快速筛选出与语义标签最匹配的商品,从而提供精准的推荐,大大了提升用户的满意度和购物体验。
32、本发明还提供了一种用于多功能展示柜的智能人机交互系统,用于实现一种用于多功能展示柜的智能人机交互方法,包括数据处理模块、多任务联合训练模块、推荐模块、若干语音输入模块、若干播报模块和若干信号传输模块;所述数据处理模块与多任务联合训练模块连接;所述数据处理模块用于对历史语音交互信息进行清洗与标注,并得到含标注的数据集;所述多任务联合训练模块与推荐模块连接;所述多任务联合训练模块用于训练含标注的数据集,并得到推理模型;所述推荐模块通过信号传输模块与语音输入模块和播报模块连接,且用于进行推荐和拓展推荐;所述语音输入模块和播报模块均设于展示柜上,用于实现人机交互;所述数据处理模块、多任务联合训练模块和推荐模块均设于计算机可读存储介质上。
33、进一步的,本系统配备了语音输入模块和播报模块,支持语音交互,满足了不同用户的需求,尤其是对于那些不擅长使用触摸屏或阅读文字的用户,语音交互的加入使得人机交互更加自然流畅,增强了用户的参与感和满意度;推荐模块能够根据用户的实时输入快速进行推荐和拓展推荐,用户可以即时获得反馈,使得用户能够更深入地探索展示内容,增强了用户与展示柜之间的互动性。
34、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时用于实现一种用于多功能展示柜的智能人机交互方法中的步骤和一种用于多功能展示柜的智能人机交互系统中的模块。
35、上述技术方案可以看出,本发明具有如下有益效果:
36、1、本发明一种用于多功能展示柜的智能人机交互方法及系统,通过设计了多任务联合训练模块,直接建立语音信号与结构化语义标签的映射关系,完全绕过传统asr所需的文本转写环节,避免了asr错误导致标注不准确的情况出现,且通过共享编码器提升了鲁棒性;
37、2、本发明一种用于多功能展示柜的智能人机交互方法及系统,设计了推荐模块,根据语义标签进行精准推荐,并拓展推荐范围进一步丰富展示内容,;
38、3、本发明一种用于多功能展示柜的智能人机交互方法及系统,整合了若干展示柜,用户仅需与其中之一进行交互即可满足需求,通过语音交互和实时推荐相结合,为用户提供了沉浸式的体验;
39、4、本发明一种用于多功能展示柜的智能人机交互方法及系统,智能人机交互系统能够自动完成讲解和引导工作,减少了对人工讲解员的依赖,尤其在多语种环境下,提高了用户服务的质量。