虚拟现实中多模态人机对话系统和方法与流程

文档序号：19187717发布日期：2019-11-20 01:40阅读：715来源：国知局

本发明涉及数据处理技术领域，尤其涉及虚拟现实(vr)中多模态人机对话学习系统、方法及设备。

背景技术：

本发明主要基于两个方面的背景，一是真人外教资源稀缺或者费用高昂，当前1对1北美外教模式最大的痛点是规模不经济，很多公司随着规模的扩大，亏损也在扩大。当今在线语培行业试图通过ai虚拟老师授课解决“师资成本过高”和“供给稀缺”的瓶颈；二是现今主流的外语人机对话学习系统，主要通过标准句子要求用户进行跟读和复述，从语音评测系统给跟读出来的句子打分，这类学习模式只是能理解别人说的，对听力和口语发音有所提升，但是并不能很好的进行主观表达。

技术实现要素：

近年来，随着语音识别、语音对话系统、语音评测模型、语音合成以及虚拟现实技术的发展，人与计算机的自然对话已经获得很大的进步，计算机已经能够理解用户查询天气的需求，回答用户购物的问题，也可以查询票务信息等等，甚至还可以对语音识别不准确的问题进行追问，并按照需要以符合角色的各式音色回答。然而，发明人经过长期的观察和实验发现，应用于外语在线教学的技术至少还存在以下不足之处：

一、在手机或pad移动端，通过富文本形式试图创造真实语言语境，然而外教纯正发音搭配图片、音效的模式仍难以产生令人满意的沉浸感。

二、善用vr虚拟现实的效果，可创造浸入式外语学习环境，然而现有的在线教学vr系统局限于通过固定的模式发送程式化的vr影音资料，须知一个人的语言能力不仅仅指他能否造出合乎语法规则的句子，而是具备适当、得体地使用语言的能力，这种能力需要通过高频率的自然交互对话过程培养语感，提高外语综合能力，因此缺少人机对话功能的vr系统，对用户的外语能力帮助有限。

三、在外语教学的人机交互以单通道语音为主，然而人在说话时的头部动作、手势、肢体动作、情绪变化等都是自然对话中重要的信息反馈，学术上多模态人机对话技术也有初步探索，但以人脸识别技术，用摄像机或摄像头采集人脸的图像或视频流，来得到用户情绪的信息，在vr课堂中无法适用。

有鉴于现有技术的上述缺陷，本发明提供一种虚拟现实中多模态人机对话学习系统、方法及设备，让学生用户可以通过多种交互方式直观地与计算机进行交互，在三维空间中随着学生用户的操作和意图动态变化，对各种感官以及交互方式有所解释，通过数据融合能更好的实现情境理解。在此基础上给予对话者拟人的反馈，从而达到更好的人机自然语言外语学习的练习效果。

一方面，本发明提供一种多模态人机对话系统，包括：虚拟现实设备，虚拟现实设备被配置为能够营造虚拟空间并操控虚拟影像；信息获取模块，信息获取模块被配置为能够通过虚拟现实设备采集并接收来自用户的用户信息；信息处理模块，信息处理模块被配置为能够将接收到的用户信息进行融合，以产生多模态协同对话内容；以及信息输出模块，信息输出模块被配置为能够将多模态协对话内容输出至虚拟现实设备，以在虚拟空间中相应地操控虚拟影像。

在一些实施例中，可选的，虚拟现实设备包括以下一个或多个设备：虚拟现实头显、虚拟现实基站、手持控制器、体感设备、主机、显示屏幕、传感器、音频采集装置、音频播放装置；以及用户信息包括以下一种或多种通道信号：用户语音、情感分析、头部追踪、凝视交互、空间定位、手柄和手势信号、体感。

在一些实施例中，可选的，信息处理模块进一步被配置为能够将用户信息中的不同的通道信号在不同的时序上进行融合。

在一些实施例中，可选的，信息处理模块进一步被配置为能够根据其他特征与语音的不同时序关系和/或约束关系，对用户信息中的不同的通道信号进行融合，以得到多模态协同对话内容。

在一些实施例中，可选的，约束关系包括以下一种或多种关系：交替关系、互补关系、增强关系；其中，交替关系指不同的通道信号之间的语义信息表示相似，和/或能够相互替代；互补关系指对话过程中的语音内容需要其他通道信号作为补充，以构成完整的语义；以及增强关系指不同的通道信号之间表示的语义信息相对独立，和/或能够增强其他通道信号的表达效果。

在一些实施例中，可选的，当不同的通道信号对语义的理解有歧义时，信息处理模块进一步被配置为能够：若通道间的信息是交替关系，则根据语音内容做出对话响应；若通道间的信息是互补关系，则结合具有互补关系的通道的信息以消除歧义；若通道间的信息是增强关系，则根据语音内容加上情绪强度做出对话响应；以及若无法消除歧义，则根据当前对话过程的上下文内容进行提示性的询问，以进一步获取来自用户的反馈。

在一些实施例中，可选的，信息处理模块进一步被配置为能够在用户与系统的对话过程中根据用户和系统的提问或发问在用户和系统之间切换对话控制权。

另一方面，本申请还提供一种多模态人机对话方法，包括以下步骤：接收来自用户的用户信息，用户信息包括多通道信号；根据时序关系和/或约束关系融合多通道信号，以产生多模态协同对话内容；以及输出多模态协对话内容至虚拟现实设备，以在虚拟空间中相应地操控虚拟影像。

在一些实施例中，可选的，融合步骤包括：若多通道信号只包括语音信息，则根据语音内容做出对话响应；若多通道信号对语义的理解有歧义时，则根据约束关系对多通道信号进行融合；以及若无法消除歧义，则根据当前对话过程的上下文内容进行提示性的询问，以进一步获取来自用户的反馈。

在一些实施例中，可选的，在用户与系统的对话过程中，根据用户和系统的提问或发问在用户和系统之间改变对话控制权。

与现有技术相比，本发明的有益效果至少包括：

第一、本发明结合多模态交互技术和虚拟现实技术,所开发的新型人机对话系统,使学生用户更加能做到浸入式的学习活动，整个交互过程生动逼真，从而大大提高学生的学习兴趣，并达到学习迁移的目的。

第二、本发明的技术有助于提高人机对话的自然性。通过在语音、头姿、手势和情感等多通道信号进行融合处理的基础上构建的多模态对话系统，能够向计算机提供更多的信息力，从而使学生用户在整个对话过程获得更为自然的体验。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

当结合附图阅读以下详细说明时，本发明将变得更易于理解，在整个附图中，相同的附图标记代表相同的零件，其中：

图1为本发明的一个实施例的功能模块结构示意图。

图2为本发明的一个实施例的程序模块结构示意图。

图3为本发明的一个实施例的对话策略逻辑图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

多模态人机对话学习系统及设备可以包括情景教室和多模态人机对话学习系统。情景教室内设置有主机vr头显、vr基站、手持控制器、体感设备及电脑主机等虚拟现实设备。主机vr头显还可以包含显示屏幕、传感器、音频采集装置、音频播放装置。vr基站和手持控制器能把一个房间变成三维空间，在虚拟世界中允许用户能四处走动，并能使用运动追踪的手持控制器来操纵虚拟影像。电脑主机安装有多模态人机对话学习系统，分别与vr头显、体感设备连接。

图1为本发明的一个实施例的功能模块结构示意图。如图1所示，本发明提供的多模态人机对话系统，除虚拟现实设备之外，还可以包括信息获取模块、信息处理模块和信息输出模块。虚拟现实设备能够营造虚拟空间并操控虚拟影像，可以包括以下一个或多个设备：虚拟现实头显、虚拟现实基站、手持控制器、体感设备、主机、显示屏幕、传感器、音频采集装置、音频播放装置。信息获取模块能够通过虚拟现实设备采集并接收来自用户的用户信息，用户信息可以包括以下一种或多种通道信号：用户语音、情感分析、头部追踪、凝视交互、空间定位、手柄和手势信号、体感。信息处理模块能够将接收到的用户信息进行融合，以产生多模态协同对话内容。信息输出模块能够将多模态协对话内容输出至虚拟现实设备，以在虚拟空间中相应地操控虚拟影像。

在一些实施例中，信息获取模块通过主机vr头显输入设备接收来自用户的语音、语音情绪、头部追踪、空间定位、手柄信号和体感信号等不同通道的信息，然后借助信息处理模块，产生多模态协同对话内容。信息输出模块，将虚拟现实场景中虚拟角色的语音回答和搭配的视觉、动作交互，同步输出到主机vr头显设备。

图2为本发明的一个实施例的程序模块结构示意图。如图2所示，通过采用这种技术方案，学生用户在情景教室戴上vr头盔，进入多模态人机对话学习系统。可以先通过新手指导模块，让学生用户熟悉语音录音、头部和空间定位、手柄按钮等操作，然后系统进入学习目标模块，学生用户了解故事的背景以及所需要完成的学习任务。接下来的用户表述模块，系统显示场景顺序标签为1的虚拟场景,并显示虚拟场景中可显示的虚拟角色，系统虚拟角色根据功能脚本的故事线和学生用户开展人机对话。

在用户与系统的对话过程中，信息处理模块还可以根据用户和系统的提问或发问在用户和系统之间切换对话控制权。在一些实施例中，在多模态人机对话学习系统中，功能脚本的故事线采用混合主导模式，也就是说用户和系统都能掌握对话的控制权，用户和系统都可以提问或者发问，对话过程中的对话控制权是随着对话过程改变的，使得多模态人机对话更像真实人类对话的交互方式。

通过采用这种技术方案，在人机对话中，需要处理对话过程中不同通道信号在不同时序上的融合。在一些实施例中，例如在英语教学场景中，本发明的技术方案可以以语音为主，根据其他特征与语音的不同时序关系和约束关系，在对话主导和对话控制策略上进行融合反馈，是提高多模态人机对话的自然度的关键。

在一些实施例中，信息处理模块能够将用户信息中的不同的通道信号在不同的时序上进行融合，并且能够根据其他特征与语音的不同时序关系和/或约束关系，对用户信息中的不同的通道信号进行融合，以得到多模态协同对话内容。

约束关系可以包括以下一种或多种关系：交替关系、互补关系、增强关系。交替关系指不同的通道信号之间的语义信息表示相似，和/或能够相互替代；互补关系指对话过程中的语音内容需要其他通道信号作为补充，以构成完整的语义；增强关系指不同的通道信号之间表示的语义信息相对独立，和/或能够增强其他通道信号的表达效果。

在一些实施例中，在多模态人机对话学习系统中，不同通道信号可以包括：用户语音、情感分析、头部追踪、凝视交互、空间定位、手柄和手势信号和体感。不同通道对语音交互有不同的影响，可以根据信息交替关系、信息互补关系、信息增强关系等，信息融合出多模态协同对话内容。

通过采用这种技术方案，对话管理模块考虑了不同通道信号在语义上的关联性，实现了在不同层次上的融合处理，根据教学目标制定多种对话策略，能有效提高人机对话的自然度，并且让学生用户学习到在该场景下合适的语言表达语句，最后在语音合成模块，通过虚拟角色传递对话的信息。

图3为本发明的一个实施例的对话策略逻辑图。如图3所示，在接受到多通道信号输入后，当有多个通道信号且对语义的理解有歧义时，若通道间的信息是交替关系，由于词义可以相互替代，故根据语音内容做出对话响应；若通道间的信息是互补关系，由于语音内容需要与其它通道信息作为补充才能构成完整的语义，故结合互补关系通道的信息以消除歧义；若通道间的信息是增强关系，则可增强语音通道的表达效果，故根据语音内容加上情绪强度做出对话响应；若尚无法消除歧义，则根据当前对话过程的上下文内容进行一些提示性的询问，要求用户进行反馈。

本发明还提供一种多模态人机对话方法，包括以下步骤：接收来自用户的用户信息，用户信息包括多通道信号；根据时序关系和/或约束关系融合多通道信号，以产生多模态协同对话内容；以及输出多模态协对话内容至虚拟现实设备，以在虚拟空间中相应地操控虚拟影像。

在一些实施例中，若多通道信号只包括语音信息，则根据语音内容做出对话响应；若多通道信号对语义的理解有歧义时，则根据约束关系对多通道信号进行融合；以及若无法消除歧义，则根据当前对话过程的上下文内容进行提示性的询问，以进一步获取来自用户的反馈。在用户与系统的对话过程中，根据用户和系统的提问或发问在用户和系统之间改变对话控制权。

在一些实施例中，多模态人机对话学习系统及设备，其包括：情景教室和多模态人机对话学习系统。实践中，其工作过程如下：

学生用户在情景教室戴上vr头盔，进入多模态人机对话学习系统，如图2程序模块结构示意图所示。先通过新手指导模块，让学生用户熟悉语音录音、头部和空间定位、手柄按钮等操作，然后系统进入学习目标模块，学生用户了解故事的背景以及所需要完成的学习任务，如：在一个侦探的故事背景下，要表达出what,who问句。接下来的用户表述模块，系统显示场景顺序标签为1的虚拟场景,并显示虚拟场景中可显示的虚拟角色，系统虚拟角色根据功能脚本的故事线和学生用户开展人机对话。故事线可以是学生用户角色扮演侦探来警局协助办案，和虚拟角色的警察通过对话来找出嫌疑犯是谁。

在多模态信息融合模块，同时接受到语音信号和头部追踪信号，在语音通道学生用户针对问题“areyouthefamousdetective？”回答“yes.”，且头部追踪信号收到点头，对话管理模块根据信息为交替关系的对话策略，将回答视为肯定的回复，为了让学生用户学习到在该场景下合适的语言表达语句，如初次见面应该主动介绍自己，可以在语音合成模块，通过虚拟角色询问“mayiknowyourname？”。

在有些实例中还包括：在多模态信息融合模块，同时接受到语音信号和手柄信号，学生用户针对问题“whoisthesuspect？”回答“ithinkheisthesuspect.”并用手柄指向某一张照片，对话管理模块根据信息为补充关系的对话策略，结合互补关系通道的信息，能理解句子的he就是指手柄指向的照片人物，当融合了多通道信息，歧义就消除了。

在有些实例中还包括：在多模态信息融合模块，同时接受到语音信号和空间定位信号，当学生用户说“what'sthisbesidesthedead？”时还向后退了几步，在情绪分析中惊讶、害怕的情绪上升，对话管理模块根据信息为增强关系的对话策略，根据语音内容加上情绪强度做出对话响应，理解学生用户对该物品产生了惊讶、害怕的情绪，可以通过虚拟角色做些安抚的话语。

在一些实施例中，上述的各种方法、流程、模块、装置、设备或系统可以在一个或多个处理装置(例如，数字处理器、模拟处理器、被设计成用于处理信息的数字电路、被设计成用于处理信息的模拟电路、状态机、计算设备、计算机和/或用于以电子方式处理信息的其他机构)中被实现或执行。该一个或多个处理装置可以包括响应于以电子方式存储在电子存储介质上的指令来执行方法的一些或所有操作的一个或多个装置。该一个或多个处理装置可以包括通过硬件、固件和/或软件被配置而专门设计成用于执行方法的一项或多项操作的一个或多个装置。以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

本发明的实施方式可以在硬件、固件、软件或其各种组合中进行。还可以作为存储在机器可读介质上的且可以使用一个或多个处理装置读取和执行的指令来实现本发明。在一个实施方式中，机器可读介质可以包括用于存储和/或传输呈机器(例如，计算装置)可读形式的信息的各种机构。例如，机器可读存储介质可以包括只读存储器、随机存取存储器、磁盘存储介质、光存储介质、快闪存储器装置以及用于存储信息的其他介质，并且机器可读传输介质可以包括多种形式的传播信号(包括载波、红外信号、数字信号)以及用于传输信息的其他介质。虽然在执行某些动作的特定示例性方面和实施方式的角度可以在以上公开内容中描述固件、软件、例程或指令，但将明显的是，这类描述仅出于方便目的并且这类动作实际上由机器设备、计算装置、处理装置、处理器、控制器、或执行固件、软件、例程或指令的其他装置或机器产生。

本说明书使用示例来公开本发明，其中的一个或多个示例被描述或者图示于说明书及其附图之中。每个示例都是为了解释本发明而提供，而不是为了限制本发明。事实上，对于本领域技术人员而言显而易见的是，不脱离本发明的范围或精神的情况下可以对本发明进行各种修改和变型。例如，作为一个实施例的一部分的图示的或描述的特征可以与另一个实施例一起使用，以得到更进一步的实施例。因此，其意图是本发明涵盖在所附权利要求书及其等同物的范围内进行的修改和变型。以上所述，仅为本发明的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王鑫;许昭慧
技术所有人：上海乂学教育科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。