虚拟人物形象的生成方法及装置、电子设备及存储介质与流程

文档序号：33619302发布日期：2023-03-25 10:40阅读：28来源：国知局

1.本发明属于虚拟动画展示技术领域，尤其涉及一种虚拟人物形象的生成方法及装置、电子设备及存储介质。

背景技术：

2.随着家用车辆的普及，有越来越多的车主把自己的座驾当做居家空间的延伸，与此同时，当然也对车内空间的使用体验提出了更高的要求。例如对于配备有车机的车辆，以往单调的可视化交互界面已经无法满足要求，相应地，虚拟人物形象的应用能够很好地弥补这种不足。
3.虚拟人物形象是近年兴起的一种动画展示技术，通过设计某种人物形象来实现电子设备与用户的拟人化交互，通常是以配有声音的动画形象来进行展示，而电子设备接受用户指令并形成的处理结果通过虚拟人物形象拟人化的动作、表情或声音反馈给用户，形成良好的互动，提高了交互的体验。
4.不过，正因为车内空间的私人化属性越来越凸显，以往千篇一律的脸谱化虚拟人物形象也已经无法满足车主的需求。

技术实现要素：

5.本发明要解决的技术问题是为了克服现有技术中，车机内的虚拟人物形象由于缺乏个性化导致用户体验不佳的缺陷，提供一种虚拟人物形象的生成方法及装置、电子设备及存储介质。
6.本发明是通过下述技术方案来解决上述技术问题：
7.本发明提供了一种虚拟人物形象的生成方法，所述生成方法应用于车机，包括如下步骤：
8.采集车内人员视频，所述车内人员视频包括车内人员的头像视频信息；
9.基于所述车内人员视频，提取所述车内人员的人脸图像；
10.根据所述人脸图像，生成所述虚拟人物形象。
11.本发明还提供了一种虚拟人物形象的生成装置，所述生成装置包括：显示单元、图像采集单元、一个或多个处理单元以及存储单元，所述显示单元、所述图像采集单元和所述存储单元分别和所述处理单元通信连接；所述存储单元被配置成存储指令，当所述存储指令被所述一个或多个处理单元执行时，使所述一个或多个所述处理单元执行如下步骤：
12.控制所述图像采集单元，采集车内人员视频，所述车内人员视频包括车内人员的头像视频信息；
13.基于所述车内人员视频，提取所述车内人员的人脸图像；
14.根据所述人脸图像生成所述虚拟人物形象，以在所述显示单元进行展示。
15.本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的虚拟人物形象的
生成方法。
16.本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的虚拟人物形象的生成方法。
17.本发明的积极进步效果在于：本发明的虚拟人物形象的生成方法及装置、电子设备及存储介质通过采集包括车内人员的头像视频信息的车内人员视频，提取车内人员的人脸图像，进而生成虚拟人物形象，能够有效地根据车主的形象来量身定制虚拟人物形象，避免以往缺少个性化的千人一面的展示效果，增加了娱乐性和趣味性，令用户感到更为亲切，获得更好的使用体验。
附图说明
18.图1为本发明的实施例1的虚拟人物形象的生成方法的流程示意图。
19.图2为本发明的实施例2的虚拟人物形象的生成装置的模块示意图。
20.图3为本发明的实施例3的电子设备的结构示意图。
具体实施方式
21.下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。
22.实施例1
23.参见图1，本实施例具体提供了一种虚拟人物形象的生成方法，生成方法应用于车机，包括如下步骤：
24.s1.采集车内人员视频，车内人员视频包括车内人员的头像视频信息；
25.s2.基于车内人员视频，提取车内人员的人脸图像；
26.s3.根据人脸图像，生成虚拟人物形象。
27.本实施例中所指的虚拟人物形象的生成方法应用于车机，即安装于车辆内部的车载信息娱乐产品设备，其具有实现人与车、车与外界信息通讯的功能。
28.步骤s1采集车内人员的视频，由于本步骤采集的车内人员视频的目的在于为虚拟人物形象的人脸生成提供依据，因此视频包含车内人员的头像视频信息，当然，车内人员可以是驾驶员或乘客。
29.具体地，可以通过车辆内部的摄像头进行采集，例如当车主上车后，抓取车主的头部图像，获取车主头部特征。视频采集可以设置预设的时长，例如采集时间为一分钟。可以在后视镜位置、座位靠枕背面位置设置摄像头，采集驾驶员或乘客的包括头像视频信息在内的视频。当然也可以通过其他方式，例如由车内人员将包含有头像视频信息的视频发送至车机。此外，车机的显示屏可以设置相应提示信息，让用户通过可视化界面来选择或确认车内人员视频。
30.步骤s2基于上述采集的车内人员视频，提取车内人员的人脸图像。步骤s2获取视频中的若干帧人脸图像，在处理过程中，可以基于直方图均衡化等技术进行预处理，利用图像统计特性方法剔除特定区域以获取人脸图像；此外，根据多帧图像中的人脸位置和速度跟踪人脸，通过快速离散傅里叶变换判断人脸的清晰度，选择具有最佳清晰度的人脸。
31.步骤s3根据获取的人脸图像生成虚拟人物形象，即在启动虚拟形象前，根据获得
的车主等车内人员的脸部形象特征产生虚拟人物形象的人脸并予以展示。
32.作为较佳的实施方式，步骤s2基于采集的车内人员视频提取车内人员的人脸图像具体包括步骤：
33.提取车内人员视频的至少一帧待处理图像；
34.对待处理图像进行人脸检测处理，获取人脸关键点信息；
35.基于人脸关键点信息进行人脸姿态估计处理，获得估计参数，
36.若估计参数符合预设条件，则将待处理图像设为人脸图像。
37.本实施方式是对于视频中提取人脸图像的一种较佳实现。首先，根据视频的帧率分别得到若干帧分幅图像，当然在资源允许的情况下可以是视频的每一帧图像，继而分别对其进行人脸检测处理。
38.人脸检测是指对于任意一幅给定的输入图像，采用一定的计算方法对其进行搜索以确定其中是否含有人脸以及人脸在输入图像中的位置。人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸图像，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等；关键点的集合通常称作形状，形状包含了关键点的位置信息，而位置信息一般可以用关键点的位置相对于整张图像或关键点的位置相对于人脸框进行表示，前者即绝对形状，后者即相对形状，两种形状可以通过人脸框来做转换。
39.人脸关键点检测方法通常包括asm(active shape model，主动形状模型)算法、aam(active appearnce model，主动外观模型)算法；基于级联形状回归的方法；基于深度学习的方法等。其中asm算法、aam算法属于参数化方法，而级联回归和深度学习方法属于非参数化方法。其中，asm算法通过对外形相似的物体如人脸等的几何形状通过若干关键点的坐标依次串联形成一个形状向量来表示。asm算法需要通过人工标定的方法先标定训练集，经过训练获得形状模型，再通过关键点的匹配实现特定物体的匹配。aam算法是对asm算法的改进，其不仅采用形状约束，而且加入整个脸部区域的纹理特征，同样分为两个阶段即模型建立阶段和模型匹配阶段。其中模型建立阶段包括对训练样本分别建立形状模型和纹理模型，然后将两个模型进行结合，形成aam模型。当然当然，精度相对更高的还是基于深度学习的方法，多种有效的深度学习模型均可取得人脸关键点检测的良好效果，如face++版深度卷积神经算法等。当然本领域技术人员可知，本实施方式所采用的包括但不限于上述列举的人脸关键点检测方法。
40.在获得人脸关键点信息的基础上，基于人脸关键点信息进行人脸姿态估计处理，获得估计参数，若估计参数符合预设条件，则将待处理图像设为人脸图像。
41.由于需要作为虚拟人物形象脸部参考的图像，因此，在较佳的实施方式中，获取人脸的正面图像有助于后期进行分析处理。可以通过对于人脸姿态估计处理，基于对估计参数的分析有选择地得到符合要求的正面人脸图像。
42.较佳地，估计参数包括俯仰角角度、偏航角角度、滚转角角度；其中，俯仰角角度用于表征人脸姿态对应的抬头角度，偏航角角度用于表征人脸姿态对应的摇头角度，滚转角角度用于表征人脸姿态对应的转头角度。若俯仰角角度、偏航角角度、滚转角角度均符合预设条件，则将待处理图像设为人脸图像。例如，将俯仰角角度、偏航角角度、滚转角角度的预设条件均设为-5
°
～5
°
；从而当符合该预设条件时候，可以认为获得的是正面人脸图像。
43.作为较佳的实施方式，步骤s3包括：
44.将人脸图像输入生成对抗网络模型，以获得虚拟人物头像信息；
45.根据虚拟人物头像信息，生成虚拟人物形象。
46.首先，将上述步骤中获得的人脸图像输入生成对抗网络模型，以获得虚拟人物头像信息。gan(生成式对抗网络,generative adversarial networks)模型是一种深度学习模型，通过对抗过程来估计生成模型的新框架。在gan模型框架中，生成模型与判别模型进行非合作零和博弈。模型通过框架中至少两个模块即生成模型和判别模型的互相博弈学习产生输出。生成模型捕捉真实数据样本的潜在分布生成新的数据样本；判别模型是一个二分类器，判别输入是真实数据还是生成的样本；生成模型与判别模型均可以使用深度学习模型。通过gan网络模型能够有效地生成最为契合人脸图像特征的虚拟人物头像信息。
47.facs(facial action coding system，人脸运动编码系统)是一种人脸面部表情运动的描述方法，根据面部肌肉的类型和运动特征定义au(action unit，形变单元)，人脸面部的各种表情最终能分解对应到各个au上来，分析表情特征信息，就是分析面部au的变化情况，通常定义的是对应于六种基本情感即愤怒、高兴、悲伤、惊讶、厌恶和恐惧的六种表情。表情识别即在上述图像获取和预处理的基础上，进行特征提取处理。图像的预处理包括但不限于图像大小处理、灰度归一化、头部姿态矫正等，从而改善图像质量，消除噪声，统一图像灰度值及尺寸，为后序特征提取和分类识别打好基础。
48.特征提取处理即将点阵转化成更高级别图像表述—如形状、运动、颜色、纹理、空间结构等,在尽可能保证稳定性和识别率的前提下对图像数据进行降维处理。特征提取方法包括但不限于：提取几何特征、统计特征、频率域特征和运动特征等。通过特征提取处理，能够有效地获得人脸状态编码序列，并基于此生成虚拟人物头像。
49.本实施方式中，通过gan网络模型生成与车内人员相似的卡通或人脸，根据车内人员的人脸状态特征序列，生成对应的人脸au特征编码序列如表情、唇动、头部姿态等人脸状态编码特征，由此驱动卡通或人脸来做相应的人脸姿态变化，能够将车内人员的个性化面部特征直观有效地呈现于虚拟人物形象，让用户感到量身定制的亲切体验。
50.作为较佳的实施方式，获得虚拟人物头像信息的步骤之后还包括：
51.生成提示信息，提示信息用于提示用户采用虚拟人物形象；
52.若检测到用户对于提示信息的确认指令，则采用虚拟人物形象。
53.本实施方式在获得虚拟人物头像之后生成提示信息，即给予用户选择权，由用户来决定是否采用生成的虚拟人物形象。当然，提示信息中可以包括确认提示，较佳地，还可以直接展示虚拟人物形象，让用户直观地看到，并决定是否采用。如果检测到用户对提示信息的确认指令则采用该虚拟人物形象，可以理解，例如替换当前使用的虚拟人物形象。
54.本实施方式在获得虚拟人物头像信息后，通过对用户进行相关提示，能够使虚拟人物形象最终呈现给用户之前经过用户的确认，从而提高用户体验。
55.作为较佳的实施方式，步骤s3之后还包括：
56.若检测到更新指令，则执行采集车内人员视频的步骤；
57.其中，更新指令用于表征重新生成新的虚拟人物形象。
58.本实施方式在生成虚拟人物形象后，保持对于用户更新的响应，如果检测到用户意图更新虚拟人物形象的更新指令，则重新启动采集车内人员视频。考虑到虚拟人物形象的设计初衷即包含有较大的娱乐性成分，因此通常用户会产生重新更换一个虚拟人物形象
的意愿，本实施方式基于该应用场景，响应用户的更新请求，可以随时重新采集视频，并生成新的虚拟人物形象，满足用户的要求。
59.作为较佳的实施方式，步骤s3之前还包括：采集车内人员声音信息；对声音信息进行语音合成处理，以生成虚拟人物声音信息；
60.步骤s3包括：根据虚拟人物声音信息和人脸图像，生成虚拟人物形象。
61.本实施方式中，对于最终的虚拟人物形象生成不仅考虑其呈现的画面信息，同时还进一步对于车内人员的声音信息进行采集，对声音进行语音合成处理后，使得生成的虚拟人物形象还具有用户对应的声音特征。
62.语音数据采集分为常见的两种语音数据采集类型，即语音识别数据和语音合成；语音合成即tts(text to speech，文本转语音)技术，是由文字形成的计算机语音。传统tts技术主要是通过组合多个模块构成流水线来实现的，整个系统可以大致分为前端和后端，可以看作是一个序列对序列的问题，包括文本分析和语音合成阶段，其中文本分析与一般的自然语言处理步骤相似，通常包括句子分割、单词分割、语音部分，输出的音素(grapheme-to-phoneme，字音转换)也是第二阶段的输入，第二阶段语音合成中将第一级的输出生成波形。可以理解，本实施方式生成虚拟人物形象的声音信息包括但不限于语音合成tts技术。
63.基于上述获得的声音信息驱动虚拟人物形象语音发声，当然为了让用户体验更为真实和丰富，也可以基于用户的音素生成不同音色、音调，让用户挑选声音，并和虚拟人物形象予以匹配。
64.本实施例的虚拟人物形象的生成方法通过采集包括车内人员的头像视频信息在内的车内人员视频，提取车内人员的人脸图像，进而生成虚拟人物形象，能够有效地根据车主的形象来量身定制虚拟人物形象，避免以往缺少个性化的千人一面的展示效果，增加了娱乐性和趣味性，令用户感到更为亲切，获得更好的使用体验。
65.实施例2
66.参见图2所示，本实施例具体提供了一种虚拟人物形象的生成装置，包括：显示单元21、图像采集单元22、一个或多个处理单元23以及存储单元24，显示单元21、图像采集单元22和存储单元24分别和处理单元23通信连接；存储单元24被配置成存储指令，当存储指令被一个或多个处理单元执行时，使一个或多个处理单元23执行如下步骤：
67.s1’.控制图像采集单元22采集车内人员视频，车内人员视频包括车内人员的头像视频信息；
68.s2’.基于车内人员视频，提取车内人员的人脸图像；
69.s3’.根据人脸图像生成虚拟人物形象，以在显示单元21进行展示。
70.本实施例中所指的虚拟人物形象的生成方法应用于车机，即安装于车辆内部的车载信息娱乐产品设备，具有实现人与车、车与外界信息通讯的功能。
71.步骤s1’采集车内人员的视频，由于本步骤采集的车内人员视频的目的在于为虚拟人物形象的人脸生成提供依据，因此视频包含车内人员的头像视频信息，当然，车内人员可以是驾驶员或乘客。
72.具体地，可以通过图像采集单元22进行采集，例如当车主上车后，抓取车主的头部图像，获取车主头部特征。视频采集可以设置预设的时长，例如采集时间为一分钟。可以在
后视镜位置、座位靠枕背面位置设置摄像头，采集驾驶员或乘客的包括头像视频信息在内的视频。当然也可以通过其他方式，例如由车内人员将包含有头像视频信息的视频发送至车机。此外，车机的显示屏可以设置相应提示信息，让用户通过可视化界面来选择或确认车内人员视频。
73.步骤s2’基于上述采集的车内人员视频，提取车内人员的人脸图像。步骤s2’获取视频中的若干帧人脸图像，在处理过程中，可以基于直方图均衡化等技术进行预处理，利用图像统计特性方法剔除特定区域以获取人脸图像；此外，根据多帧图像中的人脸位置和速度跟踪人脸，通过快速离散傅里叶变换判断人脸的清晰度，选择具有最佳清晰度的人脸。
74.步骤s3’根据获取的人脸图像生成虚拟人物形象，即在启动虚拟形象前，根据获得的车主等车内人员的脸部形象特征产生虚拟人物形象的人脸并在显示单元21予以展示。
75.作为较佳的实施方式，虚拟人物形象的生成装置还包括声音采集单元25；
76.存储单元24被配置成存储指令，当存储指令被一个或多个处理单元执行时，使一个或多个处理单元23执行如下步骤：
77.控制图像采集单元22采集车内人员视频，车内人员视频包括车内人员的头像视频信息；
78.基于车内人员视频，提取车内人员的人脸图像；
79.控制声音采集单元25采集车内人员声音信息；
80.对声音信息进行语音合成处理，以生成虚拟人物声音信息；
81.根据虚拟人物声音信息和人脸图像生成虚拟人物形象，以在显示单元21进行展示。
82.本实施方式中，对于最终的虚拟人物形象生成不仅考虑其呈现的画面信息，同时通过设置声音采集单元25采集车内人员声音信息，对声音进行语音合成处理后，基于上述获得的声音信息驱动虚拟人物形象语音发声，使得生成的虚拟人物形象还具有用户对应的声音特征。
83.本实施例的虚拟人物形象的生成装置通过采集包括车内人员的头像视频信息在内的车内人员视频，提取车内人员的人脸图像，进而生成虚拟人物形象，能够有效地根据车主的形象来量身定制虚拟人物形象，避免以往缺少个性化的千人一面的展示效果，增加了娱乐性和趣味性，令用户感到更为亲切，获得更好的使用体验。
84.实施例3
85.参见图3所示，本实施例提供了一种信息处理装置30，包括处理器31以及与其连接的存储器32，处理器31执行存储在存储器32上的计算机程序时实现如实施例1中的虚拟人物形象的生成方法。图3显示的电子设备30仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
86.电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
87.总线33包括数据总线、地址总线和控制总线。
88.存储器32可以包括易失性存储器，例如随机存取存储器(ram)321和/或高速缓存存储器322，还可以进一步包括只读存储器(rom)323。
89.存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
90.处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1中的虚拟人物形象的生成方法。
91.电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器36通过总线33与模型生成的设备30的其它模块通信。可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
92.应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
93.实施例4
94.本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1中的虚拟人物形象的生成方法中的步骤。
95.其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
96.在可能的实施方式中，本公开还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1中的虚拟人物形象的生成方法中的步骤。
97.其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
98.虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢申汝李少君王明裴峥李明丁云
技术所有人：博泰车联网（南京）有限公司
我是此专利的发明人

上一篇：一种吸油烟机及其控制方法与流程
上一篇：一种媒体流处理方法、装置及设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。