一种基于Bert模型的智能机器人语音交互方法及其系统与流程

文档序号：37907379发布日期：2024-05-09 21:56阅读：31来源：国知局

本发明涉及智能机器人，具体而言，涉及一种基于bert模型的智能机器人语音交互方法及其系统。

背景技术：

1、bert（bidirectional encoder representation from transformers）是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（mlm），以致能生成深度的双向语言表征。由于bert模型强大的语言表征能力，越来越多的机器人开始使用bert模型实现与人的语音交互。

2、专利文献1（cn117354591a）公开了一种语音交互式有线电视视频推荐方法，包括以下步骤：s1：获取待识别的音频信号，对音频信号进行预处理，提取预处理后的声学特征，基于声学特征构建声学模型，并对其进行训练输出文本信息；s2：基于输出的文本信息，利用bert模型进行意图分析，通过对bert模型进行预训练、调整，识别文本信息的意图；s3：基于文本意图识别、数据画像的分析，推荐与文本信息的意图相匹配的电视视频。

3、专利文献2（cn115547313a）公开了一种基于驾驶员语音控制行驶车辆急停的方法，包括如下步骤：获取驾驶车辆的驾驶员的语音信息；采用bert-l模型对驾驶员的语音信息向量化；将向量化的词向量群与车载终端预存储的向量词库进行匹配，以确认是否存在停车指令；若匹配成功，则获得停车指令，且检测车辆的车速达到预设速度时，执行停车指令，控制行驶车辆紧急停车。

4、专利文献3（cn116303920a）公开了一种对话系统中的小样本商品规格信息识别和提取方法，包括以下步骤：s100：通过对话系统获取包括有商品规格信息的多个原始样本语料；s200：对所述原始样本语料进行数据扩充和增强，生成扩充增强样本语料，并进行预标注；s300：分别提取所述扩充增强样本语料的语音稀疏特征，每个token在预训练bert特征向量的预训练稠密特征，以及所述token对应的查找表稀疏特征；s400：将所述语音稀疏特征、预训练稠密特征、查找表稀疏特征进行特征融合，得到ner模型；s500：对所述ner模型训练得到烟草规格信息识别模型，通过所述烟草规格信息识别模型对烟草信息进行识别。

5、可见，已经有较多的现有技术将bert模型应用于语音交互领域中，但是现有的语音交互仅关注于交互意图的分析及应答，较少考虑交互人员的语言表达特点，尤其是交互语言的中断特点，导致语音交互效果较差。

技术实现思路

1、对此，本发明提供了一种基于bert模型的智能机器人语音交互方法、系统、电子设备及计算机存储介质，以解决上述技术问题。

2、本发明公开了一种基于bert模型的智能机器人语音交互方法，所述方法包括如下步骤：

3、控制智能机器人对所处场景进行检测，获得所处场景中的区域场景属性信息、人物对象信息；

4、通过将所述区域场景属性信息与所述人物对象信息进行匹配计算，确定若干目标人物对象；

5、对各所述目标人物对象的说话特征进行跟踪获取，并根据所述说话特征确定与所述目标人物对象关联的语音监听时长；

6、在智能机器人与所述目标人物对象进行语音交互的过程中，以所述语音监听时长为周期获取所述目标人物对象的交互语音；

7、将所述交互语音输入bert模型以确定其交互意图，根据所述交互意图合成并输出应答语音。

8、在一些实施例中，所述控制智能机器人对所处场景进行检测，获得所处场景中的区域场景属性信息、人物对象信息，包括：

9、对所处场景进行全景图像摄取，从摄取的全景图像中确定得出若干标识信息以及人物对象信息；

10、对所述标识信息进行语义分析以确定出与各个所述标识信息对应的区域场景属性信息。

11、在一些实施例中，所述通过将所述区域场景属性信息与所述人物对象信息进行匹配计算，确定若干目标人物对象，包括：

12、根据所述人物对象信息对各人物对象进行轨迹跟踪，根据所述轨迹与各区域场景的交叉关系确定出对应的各中间区域场景；其中，所述交叉关系包括交叉点信息和交叉时长信息；

13、根据与所述中间区域场景对应的所述区域场景属性信息分析得出各所述中间区域场景的行为终止概率；其中，所述行为终止概率指的是人物对象从中间区域场景直接离开所处场景的概率；

14、将所述行为终止概率高于指定阈值的所述中间区域场景确定所述目标区域场景，将位于所述目标区域场景外的人物对象确定为目标人物对象。

15、在一些实施例中，所述对各所述目标人物对象的说话特征进行跟踪获取，并根据所述说话特征确定与所述目标人物对象关联的语音监听时长，包括：

16、跟踪获取所述目标人物对象在与智能机器人进行语音交互之前的说话语音，将所述说话语音转换为语音文本；所述语音文本包含文本内容及嵌入其中的多个标点符号，以及与各标点符号对应的时刻；

17、基于标点符号将所述语音文本划分为多个子文本，根据所述子文本的起讫时刻确定所述子文本的第一说话时长；

18、根据各所述第一说话时长拟合得出第一概率分布曲线，将所述第一概率分布曲线与预存的各第二概率分布曲线进行匹配计算，获得命中的所述第二概率分布曲线；

19、根据命中的所述第二概率分布曲线的峰值点确定得出第二说话时长，将所述第二说话时长确定为与所述目标人物对象关联的所述语音监听时长。

20、在一些实施例中，所述在智能机器人与所述目标人物对象进行语音交互的过程中，以所述语音监听时长为周期获取所述目标人物对象的交互语音，包括：

21、在智能机器人与所述目标人物对象进行语音交互的过程中，以所述语音监听时长为周期获取所述目标人物对象的第一交互语音；

22、在获取所述第一交互语音的过程中，同步获取所述目标人物对象的眼部动特征数据；

23、基于所述眼部动特征数据确定监听延长指数，将所述监听延长指数与所述语音监听时长相乘，获得新的所述语音监听时长；

24、以新的所述语音监听时长为周期获取所述目标人物对象的交互语音。

25、在一些实施例中，所述眼部动特征数据包括眼睛视线方向、眼周肌肉运动数据；则所述基于所述眼部动特征数据确定监听延长指数，包括：

26、调用ai分析模块对所述眼睛视线方向和所述眼周肌肉运动数据进行同步处理，获得表达障碍评估概率值，根据所述表达障碍评估概率值确定得出所述监听延长指数。

27、本发明还公开了一种基于bert模型的智能机器人语音交互系统，应用于远程智能监控终端，所述系统包括语音监听模组、摄像模组、处理模组、存储模组，所述处理模组分别与所述存储模组、所述语音监听模组、所述摄像模组电连接；

28、所述语音监听模组，用于监听目标人物对象的语音，并传输给所述处理模组；

29、所述摄像模组，用于获取智能机器人所处场景的图像及目标人物对象的图像，并传输给所述处理模组；

30、所述存储模组，用于存储计算机程序；

31、所述处理模组，用于调取并执行所述存储模组中的计算机程序，以执行如前任一所述的方法，以确定目标人物对象的交互意图，并根据所述交互意图合成并输出应答语音。

32、本发明还公开了一种电子设备，包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现如前述实施例所述的方法。

33、本发明还公开了一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如前任一所述的方法。

34、本发明还公开了一种计算机程序产品，当计算机程序产品在终端上运行时，使得终端执行时以实现如前任一所述的方法。

35、本发明的有益效果在于：

36、本发明中的智能机器人可以事先对所处场景内的人物对象进行综合分析，以确定存在与其进行语音交互概率的目标人物对象，然后对这些目标人物对象的说话特征进行跟踪获取，从而可以确定出针对该目标人物对象的语音监听时长，智能机器人便可以按照该语音监听时长来监听目标人物对象在与智能机器人进行语音交互过程中的单次语音交互内容，从而在确保目标人物对象语音交互内容完整的基础上提升语音应答效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张楚俊,潘豪格,金迪
技术所有人：联众智慧科技股份有限公司
我是此专利的发明人

上一篇：一种体育锻炼用教学装置
上一篇：用于光伏组件生产的工艺智能控制方法及系统与流程