虚拟人交互方法、装置、电子设备及存储介质与流程

文档序号：32351519发布日期：2022-11-26 13:29阅读：139来源：国知局

1.本技术涉及人工智能领域，尤其涉及一种虚拟人交互方法、装置、电子设备及存储介质。

背景技术：

2.数字虚拟人是指具有数字化外形的虚拟人物，与实体机器人不同，数字虚拟人依赖显示设备存在。在虚拟人交互领域，通过智能系统自动读取并解析识别用户语音，根据解析结果决策虚拟人的答复内容，驱动人物模型生成相应的语音与动作来实现虚拟人与用户的互动。
3.现有的虚拟人与用户交互过程中，仅仅实现了对话交互，但是对于虚拟人与用户之间的视线，并未体现交互效果，导致虚拟人与用户交互过程的真实感较低，影响用户与虚拟人的交互体验。

技术实现要素：

4.基于上述现有技术的缺陷和不足，本技术提出一种虚拟人交互方法、装置、电子设备及存储介质，能够提高虚拟数字人在交互过程中的交互性和拟人效果。
5.本技术第一方面提供了一种虚拟人交互方法，包括：通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定所述目标对象的视线轨迹特征和所述目标对象的情感状态；根据所述目标对象的情感状态，以及所述目标对象对应的虚拟形象的当前情感状态，预测确定所述虚拟形象的下一时刻情感状态；根据所述目标对象的视线轨迹特征、所述目标对象的情感状态、所述虚拟形象的下一时刻情感状态、所述虚拟形象在当前时刻的交互状态参数，以及所述虚拟形象的视线轨迹特征，预测确定所述虚拟形象在下一时刻的交互状态参数，所述交互状态参数至少包括视线方向。
6.可选的，通过对目标对象的音视频数据进行视线追踪处理，确定所述目标对象的视线轨迹特征，包括：从目标对象的音视频数据中提取得到目标视频数据，所述目标视频数据为所述音视频数据中当前时刻的视频帧之前预设时长内的视频数据；基于所述目标视频数据进行视线追踪处理，确定所述目标对象的视线轨迹特征。
7.可选的，基于所述目标视频数据进行视线追踪处理，确定所述目标对象的视线轨迹特征，包括：通过提取所述目标视频数据中各个视频帧对应的视线特征，得到所述目标视频数据对应的第一视线轨迹特征；根据所述第一视线轨迹特征，预测未来预设时长内的第二视线轨迹特征；将所述第一视线轨迹特征和所述第二视线轨迹特征的组合作为所述目标对象的
视线轨迹特征。
8.可选的，通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定所述目标对象的视线轨迹特征和所述目标对象的情感状态，包括：将目标对象的音视频数据中的视频数据流输入预先训练的视线追踪网络，得到所述目标对象的视线轨迹特征；以及，将目标对象的音视频数据输入预先训练的情感分析网络，得到所述目标对象的情感状态。
9.可选的，根据所述目标对象的视线轨迹特征、所述目标对象的情感状态、所述虚拟形象的下一时刻情感状态、所述虚拟形象在当前时刻的交互状态参数，以及所述虚拟形象的视线轨迹特征，预测确定所述虚拟形象在所述下一时刻的交互状态参数，包括：根据所述目标对象的情感状态和所述虚拟形象的下一时刻情感状态，确定交互规律，所述交互规律至少包括视线交互规律；基于所述交互规律，由所述目标对象的视线轨迹特征、所述虚拟形象在当前时刻的交互状态参数，以及所述虚拟形象的视线轨迹特征，预测得到所述虚拟形象在所述下一时刻的交互状态参数。
10.可选的，基于所述交互规律，由所述目标对象的视线轨迹特征、所述虚拟形象在当前时刻的交互状态参数，以及所述虚拟形象的视线轨迹特征，预测得到所述虚拟形象在所述下一时刻的交互状态参数，包括：将所述目标对象的视线轨迹特征、所述虚拟形象在当前时刻的交互状态参数，以及所述虚拟形象的视线轨迹特征，输入目标参数预测模型，得到所述虚拟形象在所述下一时刻的交互状态参数；所述目标参数预测模型用于根据所述目标对象处于第一情感状态以及所述虚拟形象处于第二情感状态时的交互规律，预测所述虚拟形象的交互状态参数，其中，所述第一情感状态为所述目标对象的情感状态，所述第二情感状态为所述虚拟形象的下一时刻情感状态。
11.可选的，所述方法还包括：根据目标对象的音视频数据，判断所述目标对象是否处于与所述目标对象对应的虚拟形象进行交互的状态；若所述目标对象不处于与所述目标对象对应的虚拟形象进行交互的状态，则确定所述虚拟形象在下一时刻的交互状态参数为预设的静息状态参数。
12.可选的，根据所述目标对象的情感状态，以及所述目标对象对应的虚拟形象的当前情感状态，预测确定所述虚拟形象的下一时刻情感状态，包括：若所述目标对象处于与所述目标对象对应的虚拟形象进行交互的状态，则根据所述目标对象的情感状态，以及所述目标对象对应的虚拟形象的当前情感状态，预测确定所述虚拟形象的下一时刻情感状态。
13.可选的，所述交互状态参数还包括表情参数和/或头部姿态参数。
14.本技术第二方面提供了一种虚拟人交互装置，包括：第一确定模块，用于通过对目标对象的音视频数据进行视线追踪处理和情感分析
处理，确定所述目标对象的视线轨迹特征和所述目标对象的情感状态；第二确定模块，用于根据所述目标对象的情感状态，以及所述目标对象对应的虚拟形象的当前情感状态，预测确定所述虚拟形象的下一时刻情感状态；交互状态参数确定模块，用于根据所述目标对象的视线轨迹特征、所述目标对象的情感状态、所述虚拟形象的下一时刻情感状态、所述虚拟人在当前时刻的交互状态参数，以及所述虚拟形象的视线轨迹特征，预测确定所述虚拟形象在下一时刻的交互状态参数，所述交互状态参数至少包括视线方向。
15.本技术第三方面提供了一种电子设备，包括：存储器和处理器；其中，所述存储器与所述处理器连接，用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现上述虚拟人交互方法。
16.本技术第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述虚拟人交互方法。
17.本技术提出的虚拟人交互方法，通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定目标对象的视线轨迹特征和目标对象的情感状态；根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态；根据目标对象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测确定虚拟形象在下一时刻的交互状态参数，交互状态参数至少包括视线方向。采用本技术的技术方案，可以基于目标对象的情感状态与虚拟形象的情感状态，根据用户的视线轨迹特征进行虚拟形象的视线交互预测，实现了虚拟形象与目标对象在不同情感状态下的视线交互，提高了虚拟形象与目标对象交互过程的真实感和交互体验。
附图说明
18.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
19.图1是本技术实施例提供的一种虚拟人交互方法的流程示意图；图2是本技术实施例提供的确定目标对象的视线轨迹特征的处理流程示意图；图3是本技术实施例提供的预测虚拟形象在下一时刻的交互状态参数的处理流程示意图；图4是本技术实施例提供的另一种虚拟人交互方法的流程示意图；图5是本技术实施例提供的一种虚拟人交互装置的结构示意图；图6是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
20.本技术实施例技术方案适用于数字虚拟人的应用场景，尤其适用于虚拟人交互的应用场景。采用本技术实施例技术方案，能够提高虚拟形象与目标对象交互过程的真实感和交互体验。
21.随着近年来数字虚拟人技术的不断发展，在数字虚拟人驱动领域已有一部分的技术探索与应用，例如，通过分析语音和唇形的运动规律，可实现虚拟人的实时口唇驱动；通过分析用户输入指令和对应动作的关系，可实现虚拟人的实时运动驱动等。数字虚拟人在进行交互时，通常利用智能系统自动读取并解析识别与该数字虚拟人进行交互的目标对象的语音，根据解析结果决策该数字虚拟人的答复内容，驱动该数字虚拟人的人物模型生成相应的语音与动作来实现数字虚拟人与目标对象的互动。
22.在虚拟人交互领域，在人与人日常对话交互时，必然会产生视线交互，因此视线交互对于数字虚拟人拟人化尤为重要，但是现有的数字虚拟人交互，虚拟人仅仅只是根据进行交互的目标对象的语音反馈对应的语音与动作，对于虚拟人与目标对象之间的视线，并未体现交互效果，导致虚拟人与目标对象交互过程的真实感较低，影响目标对象与虚拟人的交互体验。
23.鉴于上述的现有技术的不足以及现实存在的虚拟人与目标对象交互过程的真实感较低，影响目标对象与虚拟人的交互体验的问题，本技术发明人经过研究和试验，提出一种虚拟人交互方法，该方法能够实现虚拟形象与目标对象在不同情感状态下的视线交互，提高虚拟形象与目标对象交互过程的真实感和交互体验。
24.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
25.本技术实施例提出一种虚拟人交互方法，参见图1所示，该方法包括：s101、通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定目标对象的视线轨迹特征和目标对象的情感状态。
26.具体的，当交互设备检测到与虚拟人进行交互的目标对象时，需要利用交互设备上设置的视频采集组件（例如，摄像头）采集目标对象的视频数据流，利用交互设备上设置的音频采集组件（例如，麦克风）采集目标对象的音频数据流，将采集到的音频数据流和视频数据流作为该目标对象的音视频数据。其中，交互设备可以为手机、电脑或者交互式一体机等。
27.本实施例通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定目标对象的视线轨迹特征和目标对象的情感状态。视线追踪处理仅仅只需要利用视频数据流即可，因此在进行视线追踪处理时，需要先从目标对象的音视频数据的视频数据流中提取一定时间范围内的视频数据作为进行视线追踪的目标视频数据，然后通过对目标视频数据进行视线追踪处理，确定目标对象的视线轨迹特征。本实施例可以通过分析目标视频数据的各个视频帧中目标对象的视线方向，从而确定目标对象的视线轨迹特征；还可以利用预先训练的视线追踪网络，确定目标对象的视线轨迹特征。
28.利用预先训练的视线追踪网络，确定目标对象的视线轨迹特征，主要是将目标对象的音视频数据中的视频数据流输入到预先训练的视线追踪网络，得到目标对象的视线轨迹特征，也可以将从目标对象的音视频数据的视频数据流中提取到的目标视频数据输入到视线追踪网络，得到目标对象的视线轨迹特征。本实施例中，视线追踪网络可以采用自回归模型，然后利用预先采集携带视线轨迹特征的样本视频数据对自回归模型进行训练，即，将
预先采集的样本视频数据输入到自回归模型中，利用该自回归模型确定该样本视频数据对应的样本视线轨迹特征，通过计算该样本视线轨迹特征与样本视频数据携带的视线轨迹特征之间的损失函数，对自回归模型进行参数调整，并将训练完成的自回归模型作为视线追踪网络。其中，自回归模型不仅可以确定样本视频数据所处时间范围内的视线轨迹特征，还可以预测未来一定时长内的视线轨迹特征，因此样本视线轨迹特征包括样本视频数据所处时间范围内的视线轨迹特征和预测出的未来一定时长内的视线轨迹特征，样本视频数据携带的视线轨迹特征也包括样本视频数据所处时间范围内实际的视线轨迹特征和未来一定时长内实际的视线轨迹特征。那么，利用预先训练的视线追踪网络确定的目标对象的视线轨迹特征也包括输入到视线追踪网络的视频数据所处时间范围内的视线轨迹特征和预测出的未来一定时间范围内的视线轨迹特征。
29.对于情感分析处理，本实施例可以预先训练情感分析网络，然后将目标对象的音视频数据输入到该情感分析网络中，得到该目标对象的情感状态，本实施例还可以从目标对象的音视频数据中采集最近一定时间范围内的音视频数据，并对音视频数据中的音频帧和视频帧进行对齐后输入到情感分析网络中，得到目标对象的情感状态。其中，该情感分析网络可以利用预先采集的携带情感状态的样本音视频数据训练得到，即，将预先采集的样本音视频数据输入到情感分析网络中，得到该样本音视频数据对应的样本情感状态，然后通过计算样本情感状态与样本音视频数据携带的情感状态之间的损失函数，利用该损失函数对情感分析网络进行参数调整。
30.本实施例还可以对目标对象的音视频数据中的音频数据流和视频数据流分别进行情感状态分析，根据音频数据流确定目标对象的音频情感状态，根据视频数据流确定目标对象的视频情感状态，然后再根据音频情感状态和视频情感状态分析出最终的情感状态。其中，根据视频数据分析目标对象情感以及根据音频数据分析目标对象情感均是现有的技术手段，本实施例不再具体阐述。
31.s102、根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态。
32.具体的，交互设备中存储有虚拟形象的情感状态，即存储了虚拟形象各个时间范围内情感状态，例如，在第一时刻到第二时刻内虚拟形象的情感状态为a，在第二时刻虚拟形象的情感状态变为b一直到当前时刻，那么交互设备中存储的虚拟形象的情感状态则为第一时刻到第二时刻为情感状态a，第二时刻到当前时刻为情感状态b。
33.本实施例根据目标对象的情感状态，以及目标对象进行交互的虚拟形象的当前情感状态，预测该虚拟形象的下一时刻情感状态。其中，虚拟形象当前情感状态即为交互设备中存储的当前时刻虚拟形象的情感状态。本实施例中可以根据实际交互中交互双方的情感状态变化规律，预先建立目标对象的情感状态与虚拟形象的当前情感状态之间的各种情感组合，分别与虚拟形象的下一时刻情感状态之间的对应关系，例如记录目标对象的a情感状态与虚拟对象的a情感状态之间的情感组合对应的虚拟形象下一时刻情感状态为a情感状态、目标对象的b情感状态与虚拟对象的a情感状态之间的情感组合对应的虚拟形象下一时刻情感状态为b情感状态等。然后从预先建立的各种情感组合与虚拟形象的下一时刻情感状态之间的对应关系中，查询目标对象的情感状态与虚拟形象的当前情感状态之间的情感组合所对应的虚拟形象下一时刻情感状态。
34.另外，本实施例还可以预先训练虚拟人情感分析网络，以使该虚拟人情感分析网络学习到情感状态的变化规律，将目标对象的情感状态和虚拟形象的当前情感状态输入到虚拟人情感分析网络中，得到虚拟形象的情感变化数据，然后对情感变化数据以及预先设置的情感变化范围进行对比，根据对比结果确定虚拟形象的下一时刻情感状态。例如，当情感变化数据处于第一情感变化范围时，可以确定虚拟形象的下一时刻情感状态为a情感状态，当情感变化数据处于第二情感变化范围时，可以确定虚拟形象的下一时刻情感状态为b情感状态等。对于虚拟人情感分析网络的训练，本实施例可以利用携带情感变化数据的目标对象的情感状态与虚拟形象的情感状态的情感组合作为训练样本对虚拟人情感分析网络进行训练。
35.s103、根据目标对象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测确定虚拟形象在下一时刻的交互状态参数。
36.具体的，交互设备中实时存储虚拟形象的每一帧动作中虚拟形象的视线方向，从而形成了虚拟形象的视线轨迹特征，本实施例需要获取预先存储的虚拟形象的视线轨迹特征，并且该虚拟形象的视线轨迹特征需要与获取的目标对象的视线轨迹特征涉及的时间范围相同。例如，如果目标对象的视线轨迹特征是根据当前时刻的前一秒内的视频数据流确定的，那么提取的虚拟形象的视线轨迹特征也需要是当前时刻的前一秒内的视线轨迹特征，并且，如果目标对象的视线轨迹特征如果还包括预测出的未来一秒内的视线轨迹特征，那么本实施例也需要根据虚拟形象当前时刻的前一秒内的视线轨迹特征预测出该虚拟形象未来一秒内的视线轨迹特征，并将虚拟形象当前时刻的前一秒内的视线轨迹特征与预测出的该虚拟形象未来一秒内的视线轨迹特征组合作为该虚拟形象的视线轨迹特征。对虚拟形象未来一定时间范围内的视线轨迹特征的预测可以采用预测目标对象未来一定时间范围内的视线轨迹特征的方式，例如利用自回归模型进行预测。
37.本实施例根据目标对象的情感状态与虚拟形象的下一时刻情感状态对应的情感组合场景，利用目标对象的视线轨迹特征、虚拟形象的视线轨迹特征，以及虚拟形象在当前时刻的交互状态参数，预测出该虚拟形象在下一时刻的交互状态参数。其中，交互状态参数至少包括视线方向。即，根据目标对象的视线轨迹特征、虚拟形象的视线轨迹特征，以及虚拟形象在当前时刻的视线方向，预测下一时刻在目标对象的情感状态与虚拟形象的下一时刻情感状态的情感组合情况下，虚拟形象的视线方向。为了实现虚拟形象与目标对象的视线交互，根据目标对象的视线轨迹特征中包括的预测到的未来一定时间范围内的视线轨迹特征，以及虚拟形象当前的视线方向，可以预测出虚拟形象当前时刻的视线方向与目标对象下一时刻的视线方向产生交互的视线方向变化量，然后根据该视线方向变化量对虚拟形象的视线方向进行调整，即可得到虚拟形象在下一时刻的视线方向，并实现虚拟形象与目标对象的视线交互。虚拟形象与目标对象的视线交互可以提高交互过程中的真实感，从而提高目标对象的交互体验。
38.本实施例中，目标对象与虚拟形象的情感组合不同，那么在预测出的虚拟形象的下一时刻交互状态参数也不同，因为，不同的情感组合，在目标对象与虚拟形象进行视线交互时的规律也不同，例如，如果目标对象的情感状态表示愤怒，而虚拟形象的下一时刻情感状态表示讨好，那么虚拟形象与目标对象之间的视线需要实时交互，如果目标对象的情感
状态表示愤怒，而虚拟形象的下一时刻情感状态表示委屈，那么虚拟形象与目标对象之间的视线并不是实时交互的，可能只是偶尔交互，如果目标对象的情感状态表示开心，而虚拟形象的下一时刻情感状态表示委屈，那么虚拟形象与目标对象之间的视线可能并不是实时交互，也不是偶尔交互，而是大部分时间交互、偶尔不交互。因此，本实施例需要根据目标对象的情感状态与虚拟形象的下一时刻情感状态对应的情感组合场景，来对虚拟形象在下一时刻的交互状态参数进行预测，以使预测出的交互状态参数可以使虚拟形象在与目标对象进行视线交互时更加符合当前的情感组合场景，提高交互过程中的真实感，从而提高目标对象的交互体验。
39.进一步地，本实施例中交互状态参数还包括表情参数和/或头部姿态参数，在虚拟形象与目标对象交互过程中，随着情感状态的变化，虚拟形象的头部姿态也会随着视线方向的变化而变化，表情系数也会随着头部姿态的变化以及情感状态的变化产生变化，因此本实施例还可以预测表情参数和/或头部姿态参数的变化量，从而根据虚拟形象当前时刻的表情参数和/或头部姿态参数，以及表情参数和/或头部姿态参数的变化量，确定虚拟形象在下一时刻的表情参数和/或头部姿态参数，从而提高虚拟形象与目标对象交互过程中的真实感和目标对象的交互体验。
40.通过上述介绍可见，本技术实施例提出的虚拟人交互方法，通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定目标对象的视线轨迹特征和目标对象的情感状态；根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态；根据目标对象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟人在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测确定虚拟形象在下一时刻的交互状态参数，交互状态参数至少包括视线方向。采用本实施例的技术方案，可以基于目标对象的情感状态与虚拟形象的情感状态，根据用户的视线轨迹特征进行虚拟形象的视线交互预测，实现了虚拟形象与目标对象在不同情感状态下的视线交互，提高了目标对象与虚拟形象交互过程的真实感和交互体验。
41.作为一种可选的实施方式，参见图2所示，本技术另一实施例公开了，步骤s101中，通过对目标对象的音视频数据进行视线追踪处理，确定目标对象的视线轨迹特征，包括：s201、从目标对象的音视频数据中提取得到目标视频数据。
42.具体的，为了减少数据处理，保证对目标对象进行视线追踪的效率以及交互设备的性能，在提取目标对象的视线轨迹特征时，无需将目标对象以往所有的视线轨迹特征均提取出来，仅需要提取最近一定时长范围内的视线轨迹特征即可，因此，本实施例需要从目标对象的音视频数据中提取所需的目标视频数据，并且针对虚拟形象与目标对象交互的实时性，当前时刻虚拟形象与目标对象进行交互，那么需要提取的目标视频数据也是目标对象的音视频数据中，当前时刻的视频帧之前预设时长内的视频数据（包含当前时刻的视频帧）。
43.s202、基于目标视频数据进行视线追踪处理，确定目标对象的视线轨迹特征。
44.具体的，本实施例根据从目标对象的音视频数据中提取出的目标视频数据，对目标视频数据中的目标对象进行视线追踪，即根据目标视频数据中的目标对象的视线方向的变换，确定目标对象的视线轨迹特征，具体步骤如下：第一，通过提取目标视频数据中各个视频帧对应的视线特征，得到目标视频数据
对应的第一视线轨迹特征。
45.本实施例对目标视频数据中的各个视频帧进行分析，确定各个视频帧中的目标对象的视线特征，即各个视频帧中的目标对象的视线方向，并将各个目标对象的视线特征按照各个视频帧的顺序进行组合，得到由所有视频帧中目标对象的视线特征组成的矩阵，并将该矩阵作为目标视频数据对应的第一视线轨迹特征。
46.第二，根据第一视线轨迹特征，预测未来预设时长内的第二视线轨迹特征。
47.目标视频数据对应的第一视线轨迹特征为目标对象在当前时刻对应的预设时长内实际产生的视线轨迹，本实施例需要根据第一视线轨迹特征，预测未来预设时长内的第二视线轨迹特征。
48.第三，将第一视线轨迹特征和第二视线轨迹特征的组合作为目标对象的视线轨迹特征。
49.本实施例需要将目标对象实际产生的第一视线轨迹特征和预测到的第二视线轨迹特征进行拼接，将拼接后的视线轨迹特征作为目标对象的视线轨迹特征。
50.进一步地，在对目标对象的音视频数据进行情感分析处理时，为了减少数据处理，保证对目标对象进行情感分析的效率以及交互设备的性能，也可以从目标对象的音视频数据中提取一定时间范围的音视频数据来进行情感分析处理即可，并且为了保证情感分析的准确性，需要提取与当前时刻时间较近的音视频数据，因此，可以从目标对象的音视频数据中，提取当前时刻的音视频帧之前预设时长内的音视频数据（包含当前时刻的音视频帧）。
51.作为一种可选的实施方式，参见图3所示，本技术另一实施例公开了，步骤s103，根据目标对象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测确定虚拟形象在下一时刻的交互状态参数，包括：s301、根据目标对象的情感状态和虚拟形象的下一时刻情感状态，确定交互规律。
52.具体的，在人与人的实际交互中，情感状态的不同，交互的规律也不相同，例如，在交互的两人的情感状态都比较兴奋或者积极时，两人的视线交互更为频繁，表情变化更为丰富，在交互的两人情感状态比较消极或者伤心时，两人的视线交互较少，表情变化也较为细微。因此，为了提高目标对象与虚拟形象之间交互的真实感，也需要根据目标对象的情感状态以及虚拟形象的下一时刻情感状态，确定目标对象与虚拟形象在下一时刻的交互规律。本实施例可以汇总人与人的真实交互场景中，两者处于不同的情感状态时的交互规律，记录各种情感状态组合对应的交互规律。然后从记录的所有交互规律中，选取与目标对象的情感状态和虚拟形象的下一时刻情感状态的情感状态组合相符的交互规律，作为目标对象与虚拟形象在下一时刻的交互规律。其中，交互规律至少包括视线交互规律。
53.例如，如果目标对象的情感状态表示愤怒，而虚拟形象的下一时刻情感状态表示讨好，那么虚拟形象与目标对象之间的视线需要实时交互，如果目标对象的情感状态表示愤怒，而虚拟形象的下一时刻情感状态表示委屈，那么虚拟形象与目标对象之间的视线并不是实时交互的，可能只是偶尔交互，如果目标对象的情感状态表示开心，而虚拟形象的下一时刻情感状态表示委屈，那么虚拟形象与目标对象之间的视线可能并不是实时交互，也不是偶尔交互，而是大部分时间交互、偶尔不交互。因此，视线交互规律中可以包括视线交互的频率以及在视线不交互时视线的偏移情况，例如视线不交互时，视线方向可以偏移到
目标对象的脸部或者身体上，还可以记录不同情感状态组合时，在视线不交互的情况下，视线偏移的范围等。
54.另外，交互规律还可以包括表情交互规律，例如，当虚拟形象与目标对象的情感状态均为比较积极的情感状态时，虚拟形象的表情变化可以进行幅度较大的变化，当虚拟形象与目标对象的情感状态均为比较消极的情感状态时，虚拟形象的表情变化可以进行较小的幅度变化，而虚拟形象与目标对象的情感状态中有一个比较消极的情感状态时，虚拟形象的表情变化可以进行中等幅度的变化等。
55.s302、基于交互规律，由目标对象的视线轨迹特征、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测得到虚拟形象在下一时刻的交互状态参数。
56.具体的，本实施例确定了目标对象与虚拟形象在下一时刻的交互规律后，基于视线交互规律，由目标对象的视线轨迹特征、虚拟形象的视线轨迹特征以及虚拟形象在当前时刻的视线方向，预测得到虚拟形象在下一时刻的视线方向偏移量，根据虚拟形象在当前时刻的视线方向和在下一时刻的视线方向偏移量，确定虚拟形象在下一时刻的视线方向；和/或基于视线交互规律，由目标对象的视线轨迹特征、虚拟形象的视线轨迹特征以及虚拟形象在当前时刻的头部姿态参数，预测得到虚拟形象在下一时刻的头部姿态偏移量，根据虚拟形象在当前时刻的头部姿态参数和在下一时刻的头部姿态偏移量，确定虚拟形象在下一时刻的头部姿态参数；和/或基于表情交互规律，由虚拟形象在当前时刻的表情参数，预测得到虚拟形象在下一时刻的表情变化量，根据虚拟形象在当前时刻的标签参数和在下一时刻的表情变化量，确定虚拟形象在下一时刻的表情参数。
57.另外，本实施例也可以利用参数预测模型学习不同情感状态组合的交互规律，从而得到各种不同情感状态组合对应的参数预测模型，然后根据目标对象的情感状态和虚拟形象的下一时刻情感状态之前的情感状态组合，从所有参数预测模型中，选取相符的目标参数预测模型。然后将目标对象的视线轨迹特征、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，输入目标参数预测模型，以使目标参数预测模型预测虚拟形象在下一时刻的交互状态参数变化量，并根据虚拟形象在当前时刻的交互状态参数和虚拟形象在下一时刻的交互状态参数变化量，得到虚拟形象在下一时刻的交互状态参数。其中，该目标参数预测模型是根据目标对象处于第一情感状态以及虚拟形象处于第二情感状态时的交互规律，预测得到虚拟形象在下一时刻的交互状态参数的，且第一情感状态为目标对象的情感状态，第二情感状态为虚拟形象的下一时刻情感状态，第一情感状态与第二情感状态可以相同，也可以不同。
58.目标对象的情感状态为第一情感状态、虚拟形象的情感状态为第二情感状态对应的情感状态组合对应的参数预测模型的训练过程如下：获取样本对象的情感状态为第一情感状态，虚拟形象的情感状态为第二情感状态，样本对象与虚拟对象进行交互时，样本对象的第一视频数据，并根据样本对象的第一视频数据进行视线追踪处理，得到样本对象的视线轨迹特征。
59.再获取在第一视频数据所处时刻虚拟形象的视线轨迹特征和交互状态参数，以及在第一视频数据所处时刻的下一时刻虚拟形象的交互状态参数，并计算在第一视频数据所处时刻虚拟形象的交互状态参数与在第一视频数据所处时刻的下一时刻虚拟形象的交互状态参数之间的实际变化量。
60.将样本对象的视线轨迹特征、在第一视频数据所处时刻虚拟形象的视线轨迹特征和交互状态参数均输入到参数预测模型中，参数预测模型输出样本变化量，通过参数预测模型输出样本变化量与实际变化量之间的损失函数，对参数预测模型进行参数调整。
61.作为一种可选的实施方式，参见图4所示，本技术另一实施例公开了，虚拟人交互方法还包括：s402、根据目标对象的音视频数据，判断目标对象是否处于与目标对象对应的虚拟形象进行交互的状态。
62.具体的，本实施例需要通过对目标对象的音视频数据进行分析，判断目标对象是否处于与目标对象对应的虚拟形象进行交互的状态。对于目标对象的音视频数据中的视频数据，具体分析视频数据中的目标对象的面部朝向是否朝向虚拟形象、视线方向是否为虚拟形象，对于目标对象的音视频数据中的音频数据，具体分析音频数据是否存在交互语音等。例如，对于仅仅是路过交互设备的对象、仅仅是站在交互设备面前并未说话的对象，以及交互设备面前并不存在对象却采集到了路人说话的语音等情况，均表示目标对象不处于与目标对象对应的虚拟形象进行交互的状态。
63.本实施例还可以预先训练交互状态分析网络，将目标对象的音视频数据输入到预先训练的交互状态分析网络中，得到确定目标对象是否处于与目标对象对应的虚拟形象进行交互的状态的输出结果，其中，可以利用1和0作为输出结果，0表示目标对象不处于与目标对象对应的虚拟形象进行交互的状态，1表示目标对象处于与目标对象对应的虚拟形象进行交互的状态。交互状态分析网络可以采用分类模型，利用携带有交互状态标签的样本音视频数据对该分类模型进行训练，根据输出结果与携带的交互状态标签之间的损失函数对分类模型进行参数调整，将训练好的分类模型作为交互状态分析网络。
64.进一步地，在对目标对象的音视频数据进行交互状态分析时，为了减少数据处理，保证对目标对象进行交互状态分析的效率以及交互设备的性能，也可以从目标对象的音视频数据中提取一定时间范围的音视频数据来进行交互状态分析处理，并且为了保证交互状态分析的准确性，需要提取与当前时刻时间较近的音视频数据，因此，可以从目标对象的音视频数据中，提取当前时刻的音视频帧之前预设时长内的音视频数据（包含当前时刻的音视频帧）。
65.s403、若目标对象不处于与目标对象对应的虚拟形象进行交互的状态，则确定虚拟形象在下一时刻的交互状态参数为预设的静息状态参数。
66.如果判断出目标对象不处于与目标对象对应的虚拟形象进行交互的状态，则确定虚拟形象在下一时刻的交互状态参数为预设的静息状态参数，驱动虚拟形象在下一时刻恢复为静息状态。其中，可以设置虚拟形象无表情，头部姿态和视线方向均为正前方时为静息状态，那么静息状态参数可以包括静息状态时虚拟形象的头部姿态参数、表情参数和视线方向。
67.s404、若目标对象处于与目标对象对应的虚拟形象进行交互的状态，则根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态。
68.图4中的步骤s401与图1中的步骤s101相同，图4中的步骤s404-s405与图1中的步骤s102-s103相同，本实施例不再具体阐述步骤s401、s404-s405。步骤s402和步骤s403可以
在步骤s101之前执行，也可以在步骤s102之前执行，也可以在步骤s103之前执行，本实施例不进行限定。
69.与上述的虚拟人交互方法相对应的，本技术实施例还提出一种虚拟人交互装置，参见图5所示，该装置包括：第一确定模块100，用于通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定目标对象的视线轨迹特征和目标对象的情感状态；第二确定模块110，用于根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态；交互状态参数确定模块120，用于根据目标对象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟人在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测确定虚拟形象在下一时刻的交互状态参数，交互状态参数至少包括视线方向。
70.本技术实施例提出的虚拟人交互装置，第一确定模块100通过对目标对象的音视频数据进行视线追踪处理和情感分析处理，确定目标对象的视线轨迹特征和目标对象的情感状态；第二确定模块110根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态；交互状态参数确定模块120根据目标对象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟人在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测确定虚拟形象在下一时刻的交互状态参数，交互状态参数至少包括视线方向。采用本实施例的技术方案，可以基于目标对象的情感状态与虚拟形象的情感状态，根据用户的视线轨迹特征进行虚拟形象的视线交互预测，实现了虚拟形象与目标对象在不同情感状态下的视线交互，提高了目标对象与虚拟形象交互过程的真实感和交互体验。。
71.作为一种可选的实现方式，本技术另一实施例还公开了，第一确定模块100包括：视频提取单元和视线追踪单元。
72.视频提取单元，用于从目标对象的音视频数据中提取得到目标视频数据，目标视频数据为音视频数据中当前时刻的视频帧之前预设时长内的视频数据；视线追踪单元，用于基于目标视频数据进行视线追踪处理，确定目标对象的视线轨迹特征。
73.作为一种可选的实现方式，本技术另一实施例还公开了，视线追踪单元，具体用于：通过提取目标视频数据中各个视频帧对应的视线特征，得到目标视频数据对应的第一视线轨迹特征；根据第一视线轨迹特征，预测未来预设时长内的第二视线轨迹特征；将第一视线轨迹特征和第二视线轨迹特征的组合作为目标对象的视线轨迹特征。
74.作为一种可选的实现方式，本技术另一实施例还公开了，第一确定模块100，具体用于：将目标对象的音视频数据中的视频数据流输入预先训练的视线追踪网络，得到目标对象的视线轨迹特征；以及，
将目标对象的音视频数据输入预先训练的情感分析网络，得到目标对象的情感状态。
75.作为一种可选的实现方式，本技术另一实施例还公开了，交互状态参数确定模块120，包括：交互规律确定单元和参数预测单元。
76.交互规律确定单元，用于根据目标对象的情感状态和虚拟形象的下一时刻情感状态，确定交互规律，交互规律至少包括视线交互规律；参数预测单元，用于基于交互规律，由目标对象的视线轨迹特征、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，预测得到虚拟形象在下一时刻的交互状态参数。
77.作为一种可选的实现方式，本技术另一实施例还公开了，参数预测单元，具体用于：将目标对象的视线轨迹特征、虚拟形象在当前时刻的交互状态参数，以及虚拟形象的视线轨迹特征，输入目标参数预测模型，得到虚拟形象在下一时刻的交互状态参数；目标参数预测模型用于根据目标对象处于第一情感状态以及虚拟形象处于第二情感状态时的交互规律，预测虚拟形象的交互状态参数，其中，第一情感状态为目标对象的情感状态，第二情感状态为虚拟形象的下一时刻情感状态。
78.作为一种可选的实现方式，本技术另一实施例还公开了，虚拟人交互装置还包括：交互状态判断模块和静息模块。
79.交互状态判断模块，用于根据目标对象的音视频数据，判断目标对象是否处于与目标对象对应的虚拟形象进行交互的状态；静息模块，用于若目标对象不处于与目标对象对应的虚拟形象进行交互的状态，则确定虚拟形象在下一时刻的交互状态参数为预设的静息状态参数。
80.作为一种可选的实现方式，本技术另一实施例还公开了，第二确定模块110，具体用于：若目标对象处于与目标对象对应的虚拟形象进行交互的状态，则根据目标对象的情感状态，以及目标对象对应的虚拟形象的当前情感状态，预测确定虚拟形象的下一时刻情感状态。
81.作为一种可选的实现方式，本技术另一实施例还公开了，交互状态参数还包括表情参数和/或头部姿态参数。
82.本实施例提供的虚拟人交互装置，与本技术上述实施例所提供的虚拟人交互方法属于同一申请构思，可执行本技术上述任意实施例所提供的虚拟人交互方法，具备执行该虚拟人交互方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术上述实施例提供的虚拟人交互方法的具体处理内容，此处不再加以赘述。
83.本技术另一实施例还公开了一种电子设备，参见图6所示，该设备包括：存储器200和处理器210；其中，所述存储器200与所述处理器210连接，用于存储程序；所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的虚拟人交互方法。
84.具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备
240。
85.处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：总线可包括一通路，在计算机系统各个部件之间传送信息。
86.处理器210可以是通用处理器，例如通用中央处理器（cpu）、微处理器等，也可以是特定应用集成电路（application-specific integrated circuit，asic），或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器（dsp）、专用集成电路（asic）、现成可编程门阵列（fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
87.处理器210可包括主处理器，还可包括基带芯片、调制解调器等。
88.存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器（read-only memory，rom）、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器（random access memory，ram）、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
89.输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
90.输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。
91.通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网（ran），无线局域网(wlan)等。
92.处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本技术实施例所提供的虚拟人交互方法的各个步骤。
93.本技术另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的虚拟人交互方法的各个步骤。
94.对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
95.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
96.本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
97.本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
98.本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显
示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
99.作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
100.另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。
101.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
102.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器（ram）、内存、只读存储器（rom）、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
103.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
104.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江昊宸何山殷兵刘聪周良胡金水
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：加热器组件和包括该加热器组件的气溶胶生成装置的制作方法
上一篇：一种植物空心胶囊生产用成型设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。