基于虚拟人的视觉交互方法及系统与流程

文档序号:15557084发布日期:2018-09-29 01:22阅读:261来源:国知局

本发明涉及人工智能领域,具体地说,涉及一种基于虚拟人的视觉交互方法及系统。



背景技术:

机器人多模态交互系统的开发致力于模仿人类对话,以试图在上下文之间模仿人类之间的交互。但是,目前来说,对于虚拟人相关的机器人多模态交互系统的开发还不太完善,尚未出现进行多模态交互的虚拟人,更为重要的是,尚无针对肢体,尤其针对手势交互,且对肢体、尤其手势交互有响应的基于虚拟人的视觉交互产品。

因此,本发明提供了一种基于虚拟人的视觉交互方法及系统。



技术实现要素:

为解决上述问题,本发明提供了一种基于虚拟人的视觉交互方法,所述虚拟人通过智能设备展示,在处于交互状态时启动语音、情感、视觉以及感知能力,所述方法包含以下步骤:

通过所述虚拟人输出多模态数据;

接收用户针对所述多模态数据提供的多模态交互数据;

解析所述多模态交互数据,其中:通过视觉能力检测并提取所述多模态交互数据中的手部框型动作作为交互意图;

通过所述虚拟人按照所述交互意图进行多模态交互输出。

根据本发明的一个实施例,在通过视觉能力检测到所述手部框型动作时,在判断周期内,如果用户的手部动作包含:左手大拇指指腹与右手食指指腹闭合,左手食指指腹与右手大拇指指腹闭合,以上四个手指形成一个封闭的四边形,其余手指自然蜷缩,则识别所述手部动作为手部框型动作。

根据本发明的一个实施例,在通过视觉能力检测并提取所述多模态交互数据中的手部框型动作作为交互意图的步骤中,还包括:

当识别所述手部框型动作在第一识别周期内仅出现了一次,则将所述交互意图识别为拍照意图,则依据该意图开启该智能设备摄像头并启动拍照;

或,

当识别所述手部框型动作在第一识别周期内出现了不止一次,且相邻两次的时间间隔不大于第二预设时间,则将所述交互意图识别为录制意图,则依据该意图开启该智能设备摄像头并启动摄像。

根据本发明的一个实施例,所述虚拟人接收来自多个用户的针对所述多模态数据提供的多模态交互数据,识别出所述多个用户中的主要用户,并对所述主要用户的手部动作进行检测;

或,

采集当前全部或部分用户的手部动作,按照预设的用户采集比例确定被采集用户的交互意图。

根据本发明的一个实施例,当所述多模态交互数据中包含语音数据或表情数据时,依据所述手部框型动作作为交互意图,以上步骤还包含:

检测并提取所述多模态交互数据中的语音数据或表情数据;

解析所述语音数据或所述表情数据,判断所述语音数据或所述表情数据与所述手部框型动作的意图是否符合;

若符合,则根据解析的结果结合所述手部框型动作作为交互意图;

若不符合,则所述手部框型动作作为交互意图。

根据本发明的一个实施例,通过所述虚拟人按照所述交互意图进行多模态交互输出,包括:通过所述虚拟人按照所述手部框型动作对应的交互意图启动所述智能设备硬件,并展示多模态交互输出,所述多模态交互输出包括:拍照意图和/或录制意图对应的响应结果数据。

根据本发明的另一个方面,还提供了一种程序产品,其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面,还提供了一种虚拟人,所述虚拟人具备特定的虚拟形象和预设属性,采用如上任一项所述的方法进行多模态的交互。

根据本发明的另一个方面,还提供了一种基于虚拟人的视觉交互系统,所述系统包含:

智能设备,其上装载有如上所述的虚拟人,用于获取多模态交互数据,并具备语音、情感、表情和动作输出的能力;

云端大脑,其用于对所述多模态交互数据进行自然语言理解、视觉识别、认知计算以及情感计算,以决策所述虚拟人输出多模态交互数据。

本发明提供的基于虚拟人的视觉交互方法及系统提供了一种虚拟人,虚拟人具备预设形象和预设属性,能够与用户进行多模态的交互。并且,本发明提供的虚拟人的视觉交互方法及系统还能够通过手部的框型动作判断用户的意图,与用户展开交互,使得用户与虚拟人之间能够进行流畅的交流,并使得用户享受拟人的交互体验。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:

图1显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图;

图2显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图;

图3显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的模块框图;

图4显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的结构框图;

图5显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统进行视觉交互的示意图;

图6显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的流程图;

图7显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图;

图8显示了根据本发明的另一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图;

图9显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的另一流程图;以及

图10显示了根据本发明的一个实施例的在用户、智能设备以及云端大脑三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰,需要在实施例前进行如下说明:

本发明提到的虚拟人搭载于支持感知、控制等输入输出模块的智能设备;以高仿真3d虚拟人物形象为主要用户界面,具备显著人物特征的外观;支持多模态人机交互,具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等ai能力;可配置社会属性、人格属性、人物技能等,使用户享受智能化及个性化流畅体验的虚拟人物。

虚拟人所搭载的智能设备为:具备非触摸、非鼠标键盘输入的屏幕(全息、电视屏、多媒体显示屏、led屏等),并携带有摄像头的智能设备,同时,可以是全息设备、vr设备、pc机。但并不排除其他智能设备,如:手持平板、裸眼3d设备、甚至智能手机等。

虚拟人在系统层面与用户进行交互,所述系统硬件中运行操作系统,如全息设备内置系统,如pc则为windows或macos。

虚拟人为系统应用程序,或者可执行文件。

虚拟机器人基于所述智能设备的硬件获取用户多模态交互数据,在云端大脑的能力支持下,对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算,以完成决策输出的过程。

所提到的云端大脑为提供所述虚拟人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端,实现与用户的交互,以决策所述虚拟人的输出多模态交互数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图。如图1所示,进行多模态交互需要用户101、智能设备102、虚拟人103以及云端大脑104。其中,与虚拟人交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人,另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此,在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。

另外,智能设备102包括显示区域1021以及硬件支持设备1022(实质为核心处理器)。显示区域1021用于显示虚拟人103的形象,硬件支持设备1022与云端大脑104配合使用,用于交互过程中的数据处理。虚拟人103需要屏显载体来呈现。因此,显示区域1021包括:全息屏、电视屏、多媒体显示屏以及led屏等。

图1中虚拟人与用户101之间交互的过程为:

交互所需的前期准备或是条件有,虚拟人搭载并运行在智能设备102上,并且虚拟人具备特定的形象特征。虚拟人具备自然语言理解、视觉感知、触摸感知、语言输出、情感表情动作输出等ai能力。为了配合虚拟人的触摸感知功能,智能设备上也需要安装有具备触摸感知功能的部件。根据本发明的一个实施例,为了提升交互的体验,虚拟人在被启动后就显示在预设区域内,避免用户等待的时间过长。

在此需要说明的是,虚拟人103的形象以及装扮不限于一种模式。虚拟人103可以具备不同的形象以及装扮。虚拟人103的形象一般为3d高模动画形象。虚拟人103可以具备不同的外貌以及装饰。每种虚拟人103的形象还会对应多种不同的装扮,装扮的分类可以依据季节分类,也可以依据场合分类。这些形象以及装扮可以存在于云端大脑104中,也可以存在于智能设备102中,在需要调用这些形象以及装扮时可以随时调用。

虚拟人103的社会属性、人格属性以及人物技能也不限于一种或是一类。虚拟人103可以具备多种社会属性、多种人格属性以及多种人物技能。这些社会属性、人格属性以及人物技能可以分别搭配,并不固定于一种搭配方式,用户可以根据需要进行选择与搭配。

具体来说,社会属性可以包括:外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性;人格属性可以包括:性格、气质等属性;人物技能可以包括:唱歌、跳舞、讲故事、培训等专业技能,并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中,虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

以下为多模态交互过程,首先,通过虚拟人输出多模态数据。在虚拟人103与用户101交流时,虚拟人103首先输出多模态数据,以等待用户101对于多模态数据的回应。在实际运用当中,虚拟人103可能输出一段话、一段音乐或一段视频。

接着,接收用户针对多模态数据提供的多模态交互数据。多模态交互数据可以包含文本、语音、视觉以及感知信息等多种模态的信息。获取多模态交互数据的接收装置均安装或是配置于智能设备102上,这些接收装置包含接收文本的文本接收装置,接收语音的语音接收装置,接收视觉的摄像头以及接收感知信息的红外线设备等。

然后,解析多模态交互数据,其中:通过视觉能力检测并提取多模态交互数据中的手部框型动作作为交互意图。在通过视觉能力检测手部框型动作时,在判断周期内,如果用户的手部动作包含:左手大拇指指腹与右手食指指腹闭合,左手食指指腹与右手大拇指指腹闭合,以上四个手指形成一个封闭的四边形,其余手指可自然蜷缩,则识别手部动作为手部框型动作。

最后,通过虚拟人按照交互意图进行多模态交互输出。

另外,虚拟人103还可以接收来自多个用户的针对多模态数据提供的多模态交互数据,识别出多个用户中的主要用户,并对主要用户的手部动作进行检测。或者,虚拟人103采集当前全部或部分用户的手部动作,按照预设的用户采集比例确定被采集用户的交互意图。

根据本发明的另一个实施例,一种虚拟人,虚拟人具备特定的虚拟形象和预设属性,采用基于虚拟人的视觉交互方法进行多模态的交互。

图2显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图。如图2所示,通过系统完成多模态交互需要:用户101、智能设备102以及云端大脑104。其中,智能设备102包含接收装置102a、处理装置102b、输出装置102c以及连接装置102d。云端大脑104包含通信装置104a。

在本发明提供的基于虚拟人的视觉交互系统需要在用户101、智能设备102以及云端大脑104之间建立通畅的通信通道,以便能够完成用户101与虚拟人的交互。为了完成交互的任务,智能设备102以及云端大脑104会设置有支持完成交互的装置以及部件。与虚拟人交互的对象可以为一方,也可以为多方。

智能设备102包含接收装置102a、处理装置102b、输出装置102c以及连接装置102d。其中,接收装置102a用于接收多模态交互数据。接收装置102a的例子包括用于语音操作的麦克风、扫描仪、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。智能设备102可以通过以上提到的输入设备来获取多模态交互数据。输出装置102c用于输出虚拟人与用户101交互的多模态输出数据,与接收装置102a的配置基本相当,在此不再赘述。

处理装置102b用于处理交互过程中由云端大脑104传送的交互数据。连接装置102d用于与云端大脑104之间的联系,处理装置102b处理接收装置102a预处理的多模态交互数据或由云端大脑104传送的数据。连接装置102d发送调用指令来调用云端大脑104上的机器人能力。

云端大脑104包含的通信装置104a用于完成与智能设备102之间的通信联系。通信装置104a与智能设备102上的连接装置102d之间保持通讯联系,接收智能设备102发来的请求,并发送云端大脑104发出的处理结果,是智能设备102以及云端大脑104之间沟通的介质。

图3显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的模块框图。如图3所示,系统包含交互模块301、接收模块302、解析模块303以及决策模块304。其中,接收模块302包含文本采集单元3021、音频采集单元3022、视觉采集单元3023以及感知采集单元3024。

交互模块301用于通过虚拟人输出多模态数据。虚拟人103通过智能设备102展示,在处于交互状态时启动语音、情感、视觉以及感知能力。在一轮交互中,虚拟人103首先输出多模态数据,以等待用户101对于多模态数据的回应。根据本发明的一个实施例,交互模块301包含输出单元3011。输出单元3011能够输出多模态数据。

接收模块302用于接收多模态交互数据。其中,文本采集单元3021用来采集文本信息。音频采集单元3022用来采集音频信息。视觉采集单元3023用来采集视觉信息。感知采集单元3024用来采集感知信息。接收模块302的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备,如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态交互数据。多模态交互可以包含文本、音频、视觉以及感知数据中的一种,也可以包含多种,本发明不对此作出限制。

解析模块303用于解析多模态交互数据,其中:通过视觉能力检测并提取多模态交互数据中的手部框型动作作为交互意图。其中,解析模块303包含检测单元3031以及提取单元3032。检测单元3031用于通过视觉能力检测多模态交互数据中的手部框型动作。检测过程可以是,首先检测多模态交互数据中是否包含手部动作。如果多模态交互数据中包含手部动作,则继续检测手部动作中是否含有用户101发出的手部框型动作。

如果检测单元3031检测到多模态交互数据中存在手部框型动作,则提取单元3032提取手部框型动作,并将手部框型动作作为交互意图。根据本发明的一个实施例,交互意图分为两类,分别为拍照意图以及录制意图。判断交互意图的类别的过程可以是:当识别手部框型动作在第一识别周期内仅出现了一次,则将交互意图识别为拍照意图,则依据该意图开启该智能设备摄像头并启动拍照。或者,当识别手部框型动作在第一识别周期内出现了不止一次,且相邻两次的时间间隔不大于第二预设时间,则将交互意图识别为录制意图,则依据该意图开启该智能设备摄像头并启动摄像。

输出模块304用于通过虚拟人按照交互意图进行多模态交互输出。通过解析模块303确定交互意图后,输出模块304会输出符合交互意图的多模态交互输出。输出模块304包含输出数据单元3041,其能够根据交互意图确定需要输出的多模态交互输出,并通过虚拟人将多模态交互输出展示给用户101。

图4显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的结构框图。如图4所示,完成交互需要用户101、智能设备102以及云端大脑104。其中,智能设备102包含人机界面401、数据处理单元402、输入输出装置403以及接口单元404。云端大脑104包含语义理解接口1041、视觉识别接口1042、认知计算接口1043以及情感计算接口1044。

本发明提供的基于虚拟人的视觉交互系统包含智能设备102以及云端大脑104。虚拟人103在智能设备102中运行,且虚拟人103具备预设形象和预设属性,在处于交互状态时可以启动语音、情感、视觉和感知能力。

在一个实施例中,智能设备102可以包括:人机界面401、数据处理单元402、输入输出装置403以及接口单元404。其中,人机界面401在智能设备102的预设区域内显示处于运行状态的虚拟人103。

数据处理单元402用于处理用户101与虚拟人103进行多模态交互过程中产生的数据。所用的处理器可以为数据处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是终端的控制中心,利用各种接口和线路连接整个终端的各个部分。

智能设备102中包含存储器,存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能设备102的使用所创建的数据(比如音频数据、浏览记录等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入输出装置403用于获取多模态交互数据以及输出交互过程中的输出数据。接口单元404用于与云端大脑104展开通信,通过与云端大脑104中的接口对接来调取云端大脑104中的虚拟人能力。

云端大脑104包含语义理解接口1041、视觉识别接口1042、认知计算接口1043以及情感计算接口1044。以上这些接口与智能设备102中的接口单元404展开通信。并且,云端大脑104还包含与语义理解接口1041对应的语义理解逻辑、与视觉识别接口1042对应的视觉识别逻辑、与认知计算接口1043对应的认知计算逻辑以及与情感计算接口1044对应的情感计算逻辑。

如图4所示,多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明:

语义理解接口1041,其接收从接口单元404转发的特定语音指令,对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口1042,可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别,给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能;

其中,图像预处理功能可以是对获取的视觉采集数据进行基本处理,包括颜色空间转换、边缘提取、图像变换和图像阈值化;

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息;

决策功能可以是对特征信息,按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用,如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口1043,其接收从接口单元404转发的多模态数据,认知计算接口1043用以处理多模态数据进行数据采集、识别和学习,以获取用户画像、知识图谱等,以对多模态输出数据进行合理决策。

情感计算接口1044,其接收从接口单元404转发的多模态数据,利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分,情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面,通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态,也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态,且并不局限于此。在本实施例中,优选采用二者结合的方式来监控情绪。

情感计算接口1044是在进行视觉情绪识别时,通过使用图像采集设备收集人类面部表情图像,而后转换成可分析数据,再利用图像处理等技术进行表情情绪分析。理解面部表情,通常需要对表情的微妙变化进行检测,比如脸颊肌肉、嘴部的变化以及挑眉等。

图5显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统进行视觉交互的示意图。如图5所示,解析多模态交互数据,其中:通过视觉能力检测并提取多模态交互数据中的手部框型动作作为交互意图。智能设备102上配置能够进行视觉能力检测的硬件设备,用来监测用户的手部动作,实时检测用户的手势动作是否为手部框型动作。

在本发明的一个实施例中在通过视觉能力检测到手部框型动作时,在判断周期内,如果用户的手部动作包含:左手大拇指指腹与右手食指指腹闭合,左手食指指腹与右手大拇指指腹闭合,以上四个手指形成一个封闭的四边形,其余手指自然蜷缩,则识别手部动作为手部框型动作。

当识别手部框型动作在第一识别周期内仅出现了一次,则将交互意图识别为拍照意图,则依据该意图开启该智能设备摄像头并启动拍照。当识别手部框型动作在第一识别周期内出现了不止一次,且相邻两次的时间间隔不大于第二预设时间,则将交互意图识别为录制意图,则依据该意图开启该智能设备摄像头并启动摄像。

例如,智能设备102正在播放一段音乐,虚拟人配合音乐进行舞动。此时,如果用户在第一识别周期内摆出了一次手部框型动作,则表明用户需要开启智能设备摄像头并启动拍照。相应的,如果用户在第一识别周期内摆出了不止一次手部框型动作,且相邻两次的时间间隔不超过第二预设时间,则表明用户需要开启智能设备摄像头并启动摄像。根据本发明的一个实施例,第一识别周期可以为10s,第二预设时间可以为1s。

另外,根据本发明的一个实施例,在拍照模式下,手部框型动作还可以作智能设备进行拍照的触发动作,即在拍照模式下,用户手部摆出框型动作,智能设备识别出框型动作后,触发拍照操作,为用户进行拍照。

相应的,根据本发明的一个实施例,在录制模式下,手部框型动作还可以作智能设备进行录制的触发或停止动作,即在录制模式下,用户手部在2s内摆出两个框型动作,智能设备识别出框型动作后,触发录制开始或录制结束的操作,为用户进行视频拍摄。需要说明的是,2s以及两个都不是固定的,可以根据实际情况进行调整,本发明不对此做出限制。

通过虚拟人按照交互意图进行多模态交互输出,包括:通过虚拟人按照手部框型动作对应的交互意图启动智能设备硬件,并展示多模态交互输出,多模态交互输出包括:拍照意图和/或录制意图对应的响应结果数据。例如:在拍照意图以及录制意图下,用户可以选择与虚拟人合影或录像,也可以选择自己单独拍照或录像。此时需要启动智能设备的摄像头以及画面处理功能。拍照或录像的姿势以及画面效果也可以由用户进行选择。

需要说明的是,手部框型动作的空间位置不限,能够处在被智能设备捕捉到的区域内即可。另外,手部框型动作的手掌心的正反也不限,手心朝内与手心朝外都可以被识别为手部框型动作,本发明不对此做出限制。

图6显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的流程图。

如图6所示,在步骤s601中,通过虚拟人输出多模态数据。在本步骤中,智能设备102中的虚拟人103向用户101输出多模态数据,以期在一轮交互中与用户101展开对话或其他交互。虚拟人103输出的多模态数据可以是一段话、一段音乐或一段视频。

在步骤s602中,接收用户针对多模态数据提供的多模态交互数据。在本步骤中,智能设备102会获取多模态交互数据,智能设备102会配置有获取多模态交互数据的相应装置。多模态交互数据可以是文本输入、音频输入以及感知输入等形式的输入。

在步骤s603中,解析多模态交互数据,其中:通过视觉能力检测并提取多模态交互数据中的手部框型动作作为交互意图。多模态交互数据中可能会包含手部动作,也可能不包含手部动作,为了确定交互意图,需要检测多模态交互数据中是否包含手部动作。在通过视觉能力检测手部框型动作时,在判断周期内如果用户的手部动作包含:左手大拇指指腹与右手食指指腹闭合,左手食指指腹与右手大拇指指腹闭合,以上四个手指形成一个封闭的四边形,其余手指自然蜷缩,则识别手部动作为手部框型动作。

在本步骤中,首先检测多模态交互数据中是否包含手部框型动作,如果多模态交互数据中包含手部框型动作,那么将手部框型动作作为本轮交互的交互意图。如果多模态交互数据中不包含手部框型动作,那么将根据多模态交互数据中的其他数据作为交互意图。

在本发明的一个实施例中,交互意图分为拍照意图以及录制意图。当识别手部框型动作在第一识别周期内仅出现了一次,则将交互意图识别为拍照意图,则依据该意图开启该智能设备摄像头并启动拍照。当识别手部框型动作在第一识别周期内出现了不止一次,且相邻两次的时间间隔不大于第二预设时间,则将交互意图识别为录制意图,则依据该意图开启该智能设备摄像头并启动摄像。

最后,在步骤s604中,通过虚拟人按照交互意图进行多模态交互输出。确定了交互意图后,虚拟人103就可以根据确认的交互意图输出相应的多模态交互输出。

此外,本发明提供的基于虚拟人的视觉交互系统还可以配合一种程序产品,其包含用于执行完成虚拟人的视觉交互方法步骤的一系列指令。程序产品能够运行计算机指令,计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,程序产品不包括电载波信号和电信信号。

图7显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图。

在步骤s701中,解析多模态交互数据,其中:通过视觉能力检测并提取多模态交互数据中的手部框型动作作为交互意图。在本步骤中,需要对多模态交互数据进行解析,多模态交互数据包含多种形式的数据。为了获知交互意图,需要检测多模态交互数据中是否包含手部框型动作。当检测到多模态交互数据中包含手部框型动作后,需要提取出检测到的手部框型动作,并以手部框型动作作为交互意图。

根据本发明的一个实施例,交互意图分为两类,分别是拍照意图以及录制意图。在步骤s702中,当识别手部框型动作在第一识别周期内仅出现了一次,则将交互意图识别为拍照意图,则依据该意图开启该智能设备摄像头并启动拍照。

同时,在步骤s703中,当识别手部框型动作在第一识别周期内出现了不止一次,且相邻两次的时间间隔不大于第二预设时间,则将交互意图识别为录制意图,则依据该意图开启该智能设备摄像头并启动摄像。最后,在步骤s704中,通过虚拟人按照交互意图进行多模态交互输出。

图8显示了根据本发明的另一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图。

在步骤s801中,检测并提取多模态交互数据中的语音数据或表情数据。在多模态交互数据中包含多种形式的数据,这些数据都可能包含用户101当前的交互意愿。在本步骤中,检测多模态交互数据中是否包含语音数据或是表情数据,以为确定交互意图做出参考。

接着,在步骤s802中,解析语音数据或表情数据。如果多模态交互数据中包含语音数据或是表情数据,在本步骤中,解析语音数据或表情数据,获知语音数据或表情数据中用户的交互意愿,得到解析结果。

然后,在步骤s803中,判断语音数据或表情数据与手部框型动作的意图是否符合。如果语音数据或表情数据与手部框型动作的意图符合,则进入步骤s804,根据解析的结果结合手部框型动作作为交互意图。如果语音数据或表情数据与手部框型动作的意图不符合,则进入步骤s805,将手部框型动作作为交互意图。

图9显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的另一流程图。

如图9所示,在步骤s901中,智能设备102向云端大脑104发出请求。之后,在步骤s902中,智能设备102一直处于等待云端大脑104回复的状态。在等待的过程中,智能设备102会对返回数据所花费的时间进行计时操作。

在步骤s903中,如果长时间未得到返回的应答数据,比如,超过了预定的时间长度5s,则智能设备102会选择进行本地回复,生成本地常用应答数据。然后,在步骤s904中,输出与本地常用应答配合的动画,并调用语音播放设备进行语音播放。

图10显示了根据本发明的一个实施例的在用户、智能设备以及云端大脑三方之间进行通信的流程图。

为了实现智能设备102与用户101之间的多模态交互,需要用户101、智能设备102以及云端大脑104之间建立起通信连接。这种通信连接应该是实时的、通畅的,能够保证交互不受影响的。

为了完成交互,需要具备一些条件或是前提。这些条件或是前提包含,智能设备102中装载并运行虚拟人,并且智能设备102具备感知以及控制功能的硬件设施。虚拟人在处于交互状态时启动语音、情感、视觉以及感知能力。

完成前期准备后,智能设备102开始与用户101展开交互,首先,智能设备102通过虚拟人103输出多模态数据。多模态数据可以是在一轮交互中,虚拟人输出的一段话、一段音乐或视频。此时,展开通信的两方是智能设备102与用户101,数据传递的方向是从智能设备102传向用户101。

然后,智能设备102接收多模态交互数据。多模态交互数据是用户针对多模态数据提供的回应。多模态交互数据中可以包含多种形式的数据,例如,多模态交互数据中可以包含文本数据、语音数据、感知数据以及动作数据等。智能设备102中配置有接收多模态交互数据的相应设备,用来接收用户101发送的多模态交互数据。此时,展开数据传递的两方是用户101与智能设备102,数据传递的方向是从用户101传向智能设备102。

接着,智能设备102向云端大脑104发送请求。请求云端大脑104对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算,以帮助用户进行决策。此时,通过视觉能力检测并提取多模态交互数据中的手部框型动作作为交互意图。然后,云端大脑104将回复数据传送至智能设备102。此时,展开通信的两方是智能设备102以及云端大脑104。

最后,当智能设备102接收到云端大脑104传输的数据后,智能设备102会通过虚拟人按照交互意图进行多模态交互输出。此时,展开通信的两方为智能设备102与用户101。

本发明提供的基于虚拟人的视觉交互方法及系统提供了一种虚拟人,虚拟人具备预设形象和预设属性,能够与用户进行多模态的交互。并且,本发明提供的虚拟人的视觉交互方法及系统还能够通过手部的框型动作判断用户的意图,与用户展开交互,使得用户与虚拟人之间能够进行流畅的交流,并使得用户享受拟人的交互体验。

应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1