基于虚拟人行为标准的交互方法及系统与流程

文档序号:16895689发布日期:2019-02-15 23:36阅读:278来源:国知局
基于虚拟人行为标准的交互方法及系统与流程

本发明涉及人工智能领域,具体地说,涉及一种基于虚拟人行为标准的交互方法及系统。



背景技术:

机器人多模态交互系统的开发致力于模仿人类对话,以试图在上下文之间模仿人类之间的交互。但是,目前来说,对于虚拟人相关的机器人多模态交互系统的开发还不太完善,尚未出现进行多模态交互的虚拟人,更为重要的是,尚无基于虚拟人自身行为标准进行交互的交互产品。

因此,本发明提供了一种基于虚拟人行为标准的交互方法及系统。



技术实现要素:

为解决上述问题,本发明提供了一种基于虚拟人行为标准的交互方法,所述虚拟人通过智能设备展示,在处于交互状态时启动语音、情感、视觉以及感知能力,所述方法包含以下步骤:

获取多模态交互数据,对所述多模态交互数据进行解析,得到用户的交互意图;

根据所述交互意图生成多模态回应数据以及与所述多模态回应数据匹配的虚拟人技能数据,其中,所述虚拟人技能数据通过虚拟人的面部表情以及肢体动作展现虚拟人的技能;

配合所述虚拟人技能数据输出所述多模态回应数据。

根据本发明的一个实施例,根据所述交互意图生成多模态回应数据以及与所述多模态回应数据匹配的虚拟人技能数据的步骤中,还包含以下步骤:

根据所述交互意图以及交互的上下文环境确定当前虚拟人的技能参数;

依据所述技能参数生成与所述多模态回应数据匹配的所述虚拟人技能数据。

根据本发明的一个实施例,所述技能参数包含展示参数、讲解参数以及教学参数。

根据本发明的一个实施例,依据所述技能参数生成与所述多模态回应数据匹配的所述虚拟人技能数据的步骤中,包含以下步骤:

生成与所述技能参数匹配的虚拟人面部表情数据以及虚拟人肢体动作数据,其中,所述虚拟人面部表情数据以及所述虚拟人肢体动作数据属于所述虚拟人技能数据。

根据本发明的一个实施例,所述肢体动作数据包含头部动作数据、手部动作数据、四肢动作数据以及躯干动作数据中的任一项或任几项的组合。

根据本发明的一个实施例,当所述技能为舞蹈技能,配合所述虚拟人技能数据输出所述多模态回应数据的步骤中,包含以下步骤:

当所述技能参数为展示参数时,输出表情以及嘴部动作表达舞蹈动作中包含的情感;

当所述技能参数为讲解参数时,在输出语言的同时配合肢体动作表达舞蹈动作,其中,肢体动作包含胯部动作、腿部动作以及手部动作;

当所述技能参数为教学参数时,输出转身动作以及行走动作配合舞蹈动作的表达。

根据本发明的一个实施例,在交互过程中,通过语言、表情或肢体动作表达对用户的认可以及鼓励。

根据本发明的另一个方面,还提供了一种基于虚拟人行为标准的交互装置,所述装置包含:

交互意图获取模块,其用于获取多模态交互数据,对所述多模态交互数据进行解析,得到用户的交互意图;

生成模块,其用于根据所述交互意图生成多模态回应数据以及与所述多模态回应数据匹配的虚拟人技能数据,其中,所述虚拟人技能数据通过虚拟人的面部表情以及肢体动作展现虚拟人的技能;

输出模块,其用于配合所述虚拟人技能数据输出所述多模态回应数据。

根据本发明的另一个方面,还提供了一种程序产品,其为虚拟人运行程序,用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面,还提供了一种基于虚拟人行为标准的交互系统,所述系统包含:

智能设备,其上装载有虚拟人,用于获取多模态交互数据,并具备语音、情感、表情和动作输出的能力,所述智能设备包含全息设备;

云端大脑,其用于对所述多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算,以决策所述虚拟人输出多模态回应数据

本发明提供的基于虚拟人行为标准的交互方法及系统提供了一种虚拟人,虚拟人具备预设形象和预设属性,能够与用户进行多模态的交互。并且,本发明提供的基于虚拟人行为标准的交互方法及系统还能够在输出多模态回应数据时配合输出虚拟人技能数据,展示虚拟人的技能,对用户进行技能的教学和指导,使得用户与虚拟人之间能够进行流畅的交流,并使得用户享受拟人的交互体验。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:

图1显示了根据本发明的一个实施例的基于虚拟人行为标准的交互系统的交互示意图;

图2显示了根据本发明的一个实施例的基于虚拟人行为标准的交互系统的结构框图;

图3显示了根据本发明的一个实施例的基于虚拟人行为标准的交互系统的模块框图;

图4显示了根据本发明的另一个实施例的基于虚拟人行为标准的交互系统的结构框图;

图5显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法流程图;

图6显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法中生成虚拟人技能数据的流程图;

图7显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法中输出多模态回应数据的流程图;

图8显示了根据本发明的一个实施例的技能参数与技能数据匹配的示意图;

图9显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法的另一流程图;以及

图10显示了根据本发明的一个实施例的在用户、智能设备以及云端大脑三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰,需要在实施例前进行如下说明:

本发明提到的虚拟人搭载于支持感知、控制等输入输出模块的智能设备;以高仿真3d虚拟人物形象为主要用户界面,具备显著人物特征的外观;支持多模态人机交互,具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等ai能力;可配置社会属性、人格属性、人物技能等,使用户享受智能化及个性化流畅体验的虚拟人物。

虚拟人所搭载的智能设备为:具备非触摸、非鼠标键盘输入的屏幕(全息、电视屏、多媒体显示屏、led屏等),并携带有摄像头的智能设备,同时,可以是全息设备、vr设备、pc机。但并不排除其他智能设备,如:手持平板、裸眼3d设备、甚至智能手机等。

虚拟人在系统层面与用户进行交互,所述系统硬件中运行操作系统,如全息设备内置系统,如pc则为windows或macos。

虚拟人为系统应用程序,或者可执行文件。

虚拟机器人基于所述智能设备的硬件获取用户多模态交互数据,在云端大脑的能力支持下,对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算,以完成决策输出的过程。

所提到的云端大脑为提供所述虚拟人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端,实现与用户的交互,以决策所述虚拟人的输出多模态回应数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于虚拟人行为标准的交互系统的交互示意图。如图1所示,进行多模态交互需要用户101、智能设备102、虚拟人103以及云端大脑104。其中,与虚拟人交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人,另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此,在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。

另外,智能设备102包括显示区域1021以及硬件支持设备1022(实质为核心处理器)。显示区域1021用于显示虚拟人103的形象,硬件支持设备1022与云端大脑104配合使用,用于交互过程中的数据处理。虚拟人103需要屏显载体来呈现。因此,显示区域1021包括:全息屏、电视屏、多媒体显示屏以及led屏等。

图1中虚拟人与用户101之间交互的过程为:

交互所需的前期准备或是条件有,虚拟人搭载并运行在智能设备102上,并且虚拟人具备特定的形象特征。虚拟人具备自然语言理解、视觉感知、触摸感知、语言输出、情感表情动作输出等ai能力。为了配合虚拟人的触摸感知功能,智能设备上也需要安装有具备触摸感知功能的部件。根据本发明的一个实施例,为了提升交互的体验,虚拟人在被启动后就显示在预设区域内。

在此需要说明的是,虚拟人103的形象以及装扮不限于一种模式。虚拟人103可以具备不同的形象以及装扮。虚拟人103的形象一般为3d高模动画形象。虚拟人103可以具备不同的外貌以及装饰。每种虚拟人103的形象还会对应多种不同的装扮,装扮的分类可以依据季节分类,也可以依据场合分类。这些形象以及装扮可以存在于云端大脑104中,也可以存在于智能设备102中,在需要调用这些形象以及装扮时可以随时调用。

虚拟人103的社会属性、人格属性以及人物技能也不限于一种或是一类。虚拟人103可以具备多种社会属性、多种人格属性以及多种人物技能。这些社会属性、人格属性以及人物技能可以分别搭配,并不固定于一种搭配方式,用户可以根据需要进行选择与搭配。

具体来说,社会属性可以包括:外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性;人格属性可以包括:性格、气质等属性;人物技能可以包括:唱歌、跳舞、讲故事、培训等专业技能,并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中,虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

以下为多模态交互过程,首先,获取多模态交互数据,对多模态交互数据进行解析,得到用户的交互意图。获取多模态交互数据的接收装置均安装或是配置于智能设备102上,这些接收装置包含接收文本的文本接收装置,接收语音的语音接收装置,接收视觉的摄像头以及接收感知信息的红外线设备等。

接着,根据交互意图生成多模态回应数据以及与多模态回应数据匹配的虚拟人技能数据,其中,虚拟人技能数据通过虚拟人的面部表情以及肢体动作表现虚拟人当前的技能。

最后,配合虚拟人技能数据输出多模态回应数据。

根据本发明的一个实施例,在交互过程中,通过语言、表情或肢体动作表达对用户的认可以及鼓励。

图2显示了根据本发明的一个实施例的基于虚拟人行为标准的交互系统的结构框图。如图2所示,通过系统完成多模态交互需要:用户101、智能设备102以及云端大脑104。其中,智能设备102包含接收装置102a、处理装置102b、输出装置102c以及连接装置102d。云端大脑104包含通信装置104a。

在本发明提供的基于虚拟人行为标准的交互系统需要在用户101、智能设备102以及云端大脑104之间建立通畅的通信通道,以便能够完成用户101与虚拟人的交互。为了完成交互的任务,智能设备102以及云端大脑104会设置有支持完成交互的装置以及部件。与虚拟人交互的对象可以为一方,也可以为多方。

智能设备102包含接收装置102a、处理装置102b、输出装置102c以及连接装置102d。其中,接收装置102a用于接收多模态交互数据。接收装置102a的例子包括用于语音操作的麦克风、扫描仪、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。智能设备102可以通过以上提到的输入设备来获取多模态交互数据。输出装置102c用于输出虚拟人与用户101交互的多模态应答数据,与接收装置102a的配置基本相当,在此不再赘述。

处理装置102b用于处理交互过程中由云端大脑104传送的交互数据。连接装置102d用于与云端大脑104之间的联系,处理装置102b处理接收装置102a预处理的多模态交互数据或由云端大脑104传送的数据。连接装置102d发送调用指令来调用云端大脑104上的机器人能力。

云端大脑104包含的通信装置104a用于完成与智能设备102之间的通信联系。通信装置104a与智能设备102上的连接装置102d之间保持通讯联系,接收智能设备102发来的请求,并发送云端大脑104发出的处理结果,是智能设备102以及云端大脑104之间沟通的介质。

图3显示了根据本发明的一个实施例的基于虚拟人行为标准的交互系统的模块框图。如图3所示,系统包含交互意图获取模块301、生成模块302以及输出模块303。其中,交互意图获取模块301包含文本采集单元3011、音频采集单元3012、视觉采集单元3013、感知采集单元3014以及解析单元3015。生成模块302包含技能参数确定单元3021以及技能数据生成单元3022。输出模块303包含配合输出单元3031。

交互意图获取模块301用于获取多模态交互数据,对多模态交互数据进行解析,得到用户的交互意图。虚拟人103通过智能设备102展示,在处于交互状态时启动语音、情感、视觉以及感知能力。文本采集单元3011用来采集文本信息。音频采集单元3012用来采集音频信息。视觉采集单元3013用来采集视觉信息。感知采集单元3014用来采集感知信息。以上采集单元的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备,如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态交互数据。多模态交互可以包含文本、音频、视觉以及感知数据中的一种,也可以包含多种,本发明不对此作出限制。

生成模块302用于根据交互意图生成多模态回应数据以及与多模态回应数据匹配的虚拟人技能数据,其中,虚拟人技能数据通过虚拟人的表情以及肢体动作表现虚拟人当前的技能。

技能参数确定单元3021用于根据交互意图以及交互的上下文环境确定当前虚拟人的技能参数。其中,虚拟人的技能参数包含展示情绪参数、讲解参数以及教学参数。

技能数据生成单元3022用于依据技能参数生成与多模态回应数据匹配的虚拟人技能数据。根据本发明的一个实施例,生成与技能参数匹配的虚拟人面部表情数据以及虚拟人肢体动作数据,其中,虚拟人面部表情数据以及虚拟人肢体动作数据属于虚拟人技能数据。

另外,肢体动作数据包含头部动作数据、手部动作数据、四肢动作数据以及躯干动作数据中的任一项或任几项的组合。

输出模块303用于配合虚拟人技能数据输出多模态回应数据。配合输出单元3031用于在输出多模态回应数据时在合适的时刻以及位置配合输出虚拟人技能数据。

图4显示了根据本发明的另一个实施例的基于虚拟人行为标准的交互系统的结构框图。如图4所示,完成交互需要用户101、智能设备102以及云端大脑104。其中,智能设备102包含人机界面401、数据处理单元402、输入输出装置403以及接口单元404。云端大脑104包含语义理解接口1041、视觉识别接口1042、认知计算接口1043以及情感计算接口1044。

本发明提供的基于虚拟人行为标准的交互系统包含智能设备102以及云端大脑104。虚拟人103在智能设备102中运行,且虚拟人103具备预设形象和预设属性,在处于交互状态时可以启动语音、情感、视觉和感知能力。

在一个实施例中,智能设备102可以包括:人机界面401、数据处理单元402、输入输出装置403以及接口单元404。其中,人机界面401在智能设备102的预设区域内显示处于运行状态的虚拟人103。

数据处理单元402用于处理用户101与虚拟人103进行多模态交互过程中产生的数据。所用的处理器可以为数据处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是终端的控制中心,利用各种接口和线路连接整个终端的各个部分。

智能设备102中包含存储器,存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能设备102的使用所创建的数据(比如音频数据、浏览记录等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入输出装置403用于获取多模态交互数据以及输出交互过程中的输出数据。接口单元404用于与云端大脑104展开通信,通过与云端大脑104中的接口对接来调取云端大脑104中的虚拟人能力。

云端大脑104包含语义理解接口1041、视觉识别接口1042、认知计算接口1043以及情感计算接口1044。以上这些接口与智能设备102中的接口单元404展开通信。并且,云端大脑104还包含与语义理解接口1041对应的语义理解逻辑、与视觉识别接口1042对应的视觉识别逻辑、与认知计算接口1043对应的认知计算逻辑以及与情感计算接口1044对应的情感计算逻辑。

如图4所示,多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明:

语义理解接口1041,其接收从接口单元404转发的特定语音指令,对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口1042,可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别,给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能;

其中,图像预处理功能可以是对获取的视觉采集数据进行基本处理,包括颜色空间转换、边缘提取、图像变换和图像阈值化;

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息;

决策功能可以是对特征信息,按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用,如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口1043,其接收从接口单元404转发的多模态数据,认知计算接口1043用以处理多模态数据进行数据采集、识别和学习,以获取用户画像、知识图谱等,以对多模态输出数据进行合理决策。

情感计算接口1044,其接收从接口单元404转发的多模态数据,利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分,情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面,通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态,也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态,且并不局限于此。在本实施例中,优选采用二者结合的方式来监控情绪。

情感计算接口1044是在进行视觉情绪识别时,通过使用图像采集设备收集人类面部表情图像,而后转换成可分析数据,再利用图像处理等技术进行表情情绪分析。理解面部表情,通常需要对表情的微妙变化进行检测,比如脸颊肌肉、嘴部的变化以及挑眉等。

图5显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法流程图。如图5所示,首先,在步骤s501中,获取多模态交互数据,对多模态交互数据进行解析,得到用户的交互意图。在多模态交互过程中,虚拟机器人通过智能设备上的接收装置获取多模态交互数据。多模态交互数据中可以包含文本数据、语音数据、感知数据以及动作数据等。

接着,在步骤s502中,根据交互意图生成多模态回应数据以及与多模态回应数据匹配的虚拟人技能数据,其中,虚拟人技能数据通过虚拟人的面部表情以及肢体动作表现虚拟人当前的技能。在一个实施例中,面部表情可以包含眼神数据、嘴部数据以及眉毛数据等。肢体动作数据可以包含头部数据、四肢数据以及躯干数据等。

最后,在步骤s503中,配合虚拟人技能数据输出多模态回应数据。为了使得虚拟人达到更加拟人效果,需要在与用户交互时输出自己具备的技能数据。技能数据可以配合多模态回应数据输出,用于展现虚拟人的技能,带给用户更加真实拟人的交互体验。

此外,本发明提供的基于虚拟人的视觉交互系统还可以配合一种程序产品,其包含用于执行完成基于虚拟人行为标准的交互方法步骤的一系列指令。程序产品能够运行计算机指令,计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,程序产品不包括电载波信号和电信信号。

图6显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法中生成虚拟人技能数据的流程图。

如图6所示,在步骤s601中,根据交互意图以及交互的上下文环境确定当前虚拟人的技能参数。其中,技能参数包含展示参数、讲解参数以及教学参数。

在步骤s602中,依据技能参数生成与多模态回应数据匹配的虚拟人技能数据。在一个实施例中,生成与技能参数匹配的虚拟人面部表情数据以及虚拟人肢体动作数据,其中,所虚拟人面部表情数据以及虚拟人肢体动作数据属于虚拟人技能数据。肢体动作数据包含头部动作数据、手部动作数据、四肢动作数据以及躯干动作数据中的任一项或任几项的组合。

图7显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法中输出多模态回应数据的流程图。

首先,当技能为舞蹈技能时,判断技能参数的类别。根据不同的技能参数输出不同的技能数据,展现虚拟人的技能,更加贴合人类。

当技能参数为展示参数时,输出表情以及嘴部动作表达舞蹈动作中包含的情感。当技能参数为讲解参数时,在输出语言的同时配合肢体动作表达舞蹈动作,其中,肢体动作包含胯部动作、腿部动作以及手部动作。当技能参数为教学参数时,输出转身动作以及行走动作配合舞蹈动作的表达。

图8显示了根据本发明的一个实施例的技能参数与技能数据匹配的示意图。如图8所示,技能参数包含展示参数、讲解参数以及教学参数等。每个技能参数有又有与之匹配的面部表情数据以及肢体动作数据。这些数据配合进行输出的时候,能够使得虚拟人具备如人类般的即能展现,更加拟人。

如图8所示,当虚拟人的情绪参数为展示参数时,虚拟人的面部动作可以是带有表情的,还可以包含嘴部动作,用来展现舞蹈中包含的情绪。

如图8所示,当虚拟人的情绪参数为讲解参数时,虚拟人的头部动作、手部动作、四肢动作可以是相应的舞蹈动作。虚拟人的肢躯干动作可以是带有跨步动作的舞蹈动作。

如图8所示,当虚拟人的情绪参数为教学参数时,虚拟人的四肢动作可以是行走。虚拟人的躯干动作可以是转身。

其实,虚拟人的技能参数不局限于以上列举的三种,还可以包含更加丰富的技能参数。与技能参数对应的面部表情数据以及肢体动作数据也不唯一如图8所示。在某一技能参数下,虚拟人可以有多种更加细分的面部表情数据以及肢体动作数据。凡是能够展现虚拟人技能的表现形式都可以运用到本发明的实施例中,本发明不对此做出限制。

图9显示了根据本发明的一个实施例的基于虚拟人行为标准的交互方法的另一流程图。

如图9所示,在步骤s901中,智能设备102向云端大脑104发出请求。之后,在步骤s902中,智能设备102一直处于等待云端大脑104回复的状态。在等待的过程中,智能设备102会对返回数据所花费的时间进行计时操作。

在步骤s903中,如果长时间未得到返回的应答数据,比如,超过了预定的时间长度5s,则智能设备102会选择进行本地回复,生成本地常用应答数据。然后,在步骤s904中,输出与本地常用应答配合的动画,并调用语音播放设备进行语音播放。

图10显示了根据本发明的一个实施例的在用户、智能设备以及云端大脑三方之间进行通信的流程图。

为了实现智能设备102与用户101之间的多模态交互,需要用户101、智能设备102以及云端大脑104之间建立起通信连接。这种通信连接应该是实时的、通畅的,能够保证交互不受影响的。

为了完成交互,需要具备一些条件或是前提。这些条件或是前提包含,智能设备102中装载并运行虚拟人,并且智能设备102具备感知以及控制功能的硬件设施。虚拟人在处于交互状态时启动语音、情感、视觉以及感知能力。

完成前期准备后,智能设备102开始与用户101展开交互,首先,智能设备102获取多模态交互数据。多模态交互数据中可以包含多种形式的数据,例如,多模态交互数据中可以包含文本数据、语音数据、感知数据以及动作数据等。智能设备102中配置有接收多模态交互数据的相应设备,用来接收用户101发送的多模态交互数据。此时,展开数据传递的两方是用户101与智能设备102,数据传递的方向是从用户101传向智能设备102。

接着,智能设备102向云端大脑104发送请求。请求云端大脑104对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算,以帮助用户进行决策。此时,对多模态交互数据进行解析,得到用户的交互意图。并根据交互意图生成多模态回应数据以及与多模态回应数据匹配的虚拟人技能数据,其中,虚拟人技能数据通过虚拟人的面部表情以及肢体动作表现虚拟人当前的情绪。接着,云端大脑104将回复数据传送至智能设备102。此时,展开通信的两方是智能设备102以及云端大脑104。

最后,当智能设备102接收到云端大脑104传输的数据后,智能设备102会通过配合虚拟人技能数据输出多模态回应数据。此时,展开通信的两方为智能设备102与用户101。

本发明提供的基于虚拟人行为标准的交互方法及系统提供了一种虚拟人,虚拟人具备预设形象和预设属性,能够与用户进行多模态的交互。并且,本发明提供的基于虚拟人行为标准的交互方法及系统还能够在输出多模态回应数据时配合输出虚拟人技能数据,展示虚拟人的技能,对用户进行技能的教学和指导,使得用户与虚拟人之间能够进行流畅的交流,并使得用户享受拟人的交互体验。

应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1