数字人视频生成方法、装置、设备及存储介质与流程

文档序号：33190798发布日期：2023-02-04 08:22阅读：194来源：国知局

1.本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，具体涉及一种数字人视频生成方法、装置、设备及存储介质。

背景技术：

2.当前，虚拟数字人产品被广泛应用于新闻播报类行业、银行服务类行业。在生成虚拟数字人时，需要预先对模特(所需的数字人形象)进行拍摄得到一段底板视频，然后基于得到的底板视频生成预设的虚拟数字人。在用户使用虚拟数字人产品时，可以通过人工智能物联网(artificial intelligence&internet of things，aiot)设备采集用户语音，并由aiot设备将采集到的用户语音发送到数字人服务器，从而数字人服务器对用户语音进行解析得到语音数据。进一步的，数字人服务器可基于语音数据生成用户语音对应的应答内容，再基于应答内容和预设的虚拟数字人生成多帧图像，并将多帧图像编码得到数字人视频流推送到流媒体服务器，以便aiot设备拉取对应的数字人视频流进行播放，实现了通过虚拟数字人为用户进行服务。

技术实现要素：

3.本公开提供了一种数字人视频生成方法、装置、设备及存储介质。
4.根据本公开的第一方面，提供了一种数字人视频生成方法，包括：
5.电子设备在接收到用户输入的目标语音时，可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的pcm数据，并从目标数据库中检索pcm数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇形图片帧，将每个唇形图片帧分别与预先录制得到的底板视频进行融合，从而得到每个唇形图片帧对应的数字人视频帧。最终，显示每个唇形图片帧对应的数字人视频帧。
6.根据本公开的第二方面，提供了一种数字人视频生成装置，包括：检索单元，用于从目标数据库中检索目标语音对应的应答内容，目标语音为用户在电子设备中输入的语音，目标数据库为电子设备的本地数据库；处理单元，用于生成应答内容对应的脉冲编码调制pcm数据；检索单元，还用于从目标数据库中检索pcm数据对应的多个唇形图片帧；处理单元，还用于针对多个唇形图片帧中的每个唇形图片帧，将每个唇形图片帧分别与预先录制得到的底板视频进行融合，得到每个唇形图片帧对应的数字人视频帧；显示单元，用于显示每个唇形图片帧对应的所述数字人视频帧。
7.根据本公开的第三方面，提供了一种电子设备，包括：
8.至少一个处理器；以及
9.与至少一个处理器通信连接的存储器；其中，
10.存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。
11.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储
介质，包括：
12.计算机指令用于使计算机执行第一方面中的任一项方法。
13.根据本公开的第五方面，提供了一种计算机程序产品，包括：
14.计算机程序，计算机程序在被处理器执行第一方面中的任一项方法。
15.根据本公开的技术解决了电子设备与服务器之间进行数据交互时，严重依赖网络，并且人机交互的等待时延较长的问题。进一步的，本公开的技术方案还可以降低更新数字人形象时的周期及成本。
16.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
17.附图用于更好地理解本方案，不构成对本公开的限定。其中：
18.图1是本公开实施例提供的一种数字人视频生成方法的流程示意图；
19.图2是本公开实施例提供的另一种数字人视频生成方法的流程示意图；
20.图3是本公开实施例提供的又一种数字人视频生成方法的流程示意图；
21.图4是本公开实施例提供的又一种数字人视频生成方法的流程示意图；
22.图5是本公开实施例提供的一种唇形关键点的实例图；
23.图6是本公开实施例提供的又一种数字人视频生成方法的流程示意图；
24.图7是本公开实施例提供的一种数字人视频生成装置的结构示意图；
25.图8是本公开实施例提供的一种数字人视频生成方法的电子设备的框图。
具体实施方式
26.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
27.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
28.在对本公开实施例的数字人视频生成方法进行详细介绍之前，先对本公开实施例的应用场景进行介绍。
29.首先，对本公开实施例的应用场景进行介绍。
30.近年来，虚拟数字人产品被广泛应用于新闻播报类行业、银行服务类行业。在相关技术中，制作虚拟数字人时，首先提前录制底板视频，基于底板视频可生成预设的虚拟数字人。之后，在用户使用虚拟数字人产品时，aiot设备可通过与数字人服务器配合实现与用户间的问答交互流程。
31.但是，在相关技术中，需要通过aiot设备和数字人服务器交互配合，才能生成用户输入的语音所对应的应答内容的数字人视频流，以在aiot设备上播放，实现人机交互流程。在这种情况下，aiot设备与数字人服务器的数据交互严重依赖网络，并且人机交互的等待时延较长，即用户输入语音后，需较长时间才能得到aiot设备的反馈。
32.另外，底板视频是预先拍摄的，当需要更换数字人形象时，需要重新对新的模特(新的数字人形象)进行拍摄得到新的底板视频之后，才能基于新得到的底板视频，再通过aiot设备与数字人服务器之间的数据交互，生成新的数字人形象对应的数字人视频流，从而更新数字人形象时的周期长，成本高。
33.为了解决上述问题，本公开实施例提供一种数字人视频生成方法，应用于生成数字人视频的应用场景中。在该方法中，电子设备在接收到用户输入的目标语音时，可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的pcm数据，并从目标数据库中检索pcm数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇形图片帧，将每个唇形图片帧分别与预先录制得到的底板视频进行融合，从而得到每个唇形图片帧对应的数字人视频帧。最终，显示每个唇形图片帧对应的数字人视频帧。
34.可以理解的是，在电子设备本地的目标数据库中可以存储有多种语音内容对应的应答内容，当电子设备接收到用户输入的目标语音时，电子设备可以直接从本地的目标数据库中检索到目标语音对应的应答内容，从而可以提高获取目标语音对应的应答内容的效率，进而降低了人机交互的等待时延。并且还可以根据检索到的应答内容生成对应的pcm数据，以及从目标数据库中检索pcm数据对应的多个唇形图片帧，即在目标数据库中还可以保存有不同的pcm数据对应的唇形图片帧。进而，在从目标数据库中获取到pcm数据对应的多个唇形图片帧之后，电子设备可以进一步的针对多个唇形图片帧中的每个唇形图片帧，分别将每个唇形图片帧与预先录制得到的底板视频进行融合，从而得到每个唇形图片帧对应的数字人视频帧。最终，显示每个唇形图片帧对应的数字人视频帧。从而解决了电子设备与服务器之间进行数据交互时，严重依赖网络的问题，并且降低了人机交互的等待时延，提升了用户的使用体验。
35.需要说明的是，本公开实施例对电子设备不作限定。本公开实施例中的电子设备可以是自助服务终端(例如银行自助服务终端、医疗自助服务终端、售票自助服务终端等)、小度智能终端等，还可以是平板电脑、手机、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，pda)、增强现实(augmented reality，ar)\虚拟现实(virtual reality，vr)设备、车载设备等设备，本公开实施例对该电子设备的具体形态不作特殊限制。
36.本公开提供的数字人视频生成方法的执行主体可以为数字人视频生成装置，该执行装置可以为电子设备。同时，该执行装置还可以为该电子设备的中央处理器(central processing unit，cpu)，或者该电子设备中的用于生成数字人视频的控制模块。本公开实施例中以电子设备执行数字人视频生成方法为例，说明本公开实施例提供的数字人视频生成方法。
37.如图1所示，为本公开实施例提供的一种数字人视频生成方法，该方法包括：
38.s101、电子设备从目标数据库中检索目标语音对应的应答内容。
39.其中，目标语音为用户在电子设备中输入的语音，目标数据库为电子设备的本地数据库。
40.需要说明的是，本公开实施例中，当用户需要获取所需的信息(即应答内容)时，用户可以与电子设备进行语音交互，以在电子设备中输入目标语音，从而电子设备基于用户
输入的目标语音，输出对应的应答内容。
41.在一种应用场景中，当用户需要通过电子设备获取某问题的答案时，用户可以对电子设备上包括的人机交互控件进行操作，以触发电子设备开启电子设备的语音采集功能，之后，当用户需要获取今天的天气信息时，可以说出想要问的问题，如“今天天气怎么样？”，电子设备便可采集到用户输入的目标语音。在另一种应用场景中，在电子设备处于休眠状态的情况下，用户可以输入唤醒词，如“小度小度”，以触发电子设备开启其语音采集功能，此时用户可以说出想要问的问题，如“今天天气怎么样”，电子设备便可以通过麦克风采集到用户输入的语音。
42.在一种可能的实现方式中，目标数据库中可以包括多组第一对应关系，一组第一对应关系包括：一个语音数据和与其对应的应答内容。
43.基于此，在电子设备接收到用户输入的目标语音后，可以基于接收到的目标语音和目标数据库中保存的多组第一对应关系，从目标数据库中检索到与目标语音对应的应答内容。
44.作为一种示例，电子设备从目标数据库中检索目标语音对应的应答内容具体可以通过顺查法，按照从远到近的时间顺序依次查找目标数据库中保存的多组第一对应关系；或者，通过倒查法，按照逆时间顺序由近及远地回溯性依次查找目标数据库中保存的多组第一对应关系；或者，通过抽查法，针对某一时间段存储到目标数据库中的第一对应关系进行查找。
45.在另一种可能的实现方式中，目标数据库中可以包括多组第二对应关系，一组第二对应关系包括：一个或多个语义关键词和与其对应的应答内容。
46.基于此，在电子设备接收到用户输入的目标语音后，可以基于接收到的目标语音和目标数据库中保存的多组第二对应关系，从目标数据库中检索到与目标语音对应的应答内容。
47.作为一种示例，电子设备可以对目标语音进行语义解析处理，以从目标语音中解析得到多个语义关键词，从而基于多个语义关键词和上述多组第二对应关系，从目标数据库中检索目标语音对应的应答内容。
48.在又一种可能的实现方式中，目标数据库中可以包括多组第三对应关系，每组第三对应关系包括：一个文本数据和与其对应的应答内容。
49.基于此，如图2所示，上述s101具体可以包括：
50.s201、电子设备通过asr，将目标语音转化为文本数据。
51.s202、电子设备从目标数据库中检索文本数据对应的应答内容。
52.可选的，当用户触发电子设备开启语音采集功能后，电子设备可以调用自动语音识别技术(automatic speech recognition，asr)模块，对采集到的目标语音进行识别，并通过语音文本转化模块将目标语音转化为文本数据。
53.需要说明的是，电子设备在调用asr模块之后，能够“听写”出用户所说出的连续语音，实现“声音”到“文字”转换。通过采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息。asr模块的主要识别框架可以基于模式匹配的动态时间规整法(dynamic time warping，dtw)和基于统计模型的隐马尔可夫模型法(hidden markov model，hmm)得到。
54.具体的，电子设备在调用asr模块识别用户输入的目标语音的过程中，具体需要经过训练(training)、识别(recognition)、失真测度(distortion measures)的过程，通过训练(training)预先分析出语音特征参数，制作语音模板，并存放在语音参数库中。进一步的，通过识别(recognition)对待识语音经过与训练时相同的分析，得到语音参数。将语音参数与语音参数库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。然后通过失真测度(distortion measures)在进行比较时有个标准，计量语音特征参数矢量之间的“失真测度”。
55.在训练(training)阶段，用户可以将词汇表中的每一个单词通过语音输入至电子设备中，电子设备接收用户输入的训练语音，并通过调用asr模块基于dtw算法把每一个单词作为识别单元，提取特征后作为一个模板，存入模板库。
56.在识别(recognition)阶段，对每一个需要识别的单词同样提取特征，然后采用dtw算法和模板库中的每一个模板进行匹配，计算并求出最短距离，也就是识别出最相似的字，从而从目标数据库中检索到文本数据对应的应答内容。
57.电子设备在将目标语音转化为文本数据之后，可以从目标数据库中检索文本数据对应的应答内容。即电子设备可以基于目标语音对应的文本数据和目标数据库中保存的多组第三对应关系，从目标数据库中检索到目标语音对应的应答内容。
58.需要说明的是，在一种可能的实现方式中，上述多组第一对应关系，第二对应关系或第三对应关系可以为用户预先录入上述目标数据库的。如，用户可预先将多个语音数据及其对应的应答内容对应存储在目标数据库中。在另一种可能的实现方式中，上述多组第一对应关系，第二对应关系或第三对应关系也可以为电子设备预先通过网络下载并保存在目标数据库中的。
59.示例性的，结合上述示例，电子设备获取到用户输入的语音“今天天气怎么样？”。电子设备在接收到用户输入的语音之后，可以从目标数据库中检索到“今天天气怎么样？”所对应的应答内容，如电子设备检索到的应答内容为“今天天气晴，温度8到22度，东南风3到4级”。
60.在本公开实施例中，电子设备通过asr将目标语音转化为文本数据，从而基于文本数据从目标数据库中检索对应的应答内容，以文本内容为基础可以提高从目标数据库中检索目标语音对应的应答内容的准确度。
61.s102、电子设备生成应答内容对应的pcm数据，并从目标数据库中检索pcm数据对应的多个唇形图片帧。
62.其中，如图3所示，上述s102中的“电子设备生成应答内容对应的pcm数据”具体可以包括：
63.s301、电子设备通过tts生成应答内容对应的pcm数据。
64.可以理解，在电子设备从目标数据库中检索目标语音对应的应答内容之后，电子设备可以调用语音合成技术(text to speech，tts)模块基于应答内容生成对应的脉冲编码调制(pulse code modulation，pcm)数据。
65.需要说明的是，tts是通过神经网络的设计，把文字智能地转化为自然语音流的技术。tts对文本文件进行实时转换，转换时间短。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。
tts还具有英文接口，自动识别中文、英文，还支持中英文混读。所有声音采用普通话为标准发音，实现了120-150个汉字/分钟的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。
66.pcm是一种对模拟信号数字化的取样技术，是将模拟语音信号变换为数字信号的编码方式，pcm对信号每秒钟取样8000次；每次取样为8个位，总共64kb。pcm对连续变化的模拟信号进行抽样、量化和编码产生的数字信号。抽样过程将连续时间模拟信号变为离散时间、连续幅度的抽样信号，量化过程将抽样信号变为离散时间、离散幅度的数字信号，编码过程将量化后的信号编码成为一个二进制码组输出。所谓量化，就是把经过抽样得到的瞬时值将其幅度离散，即用一组规定的电平，把瞬时抽样值用最接近的所谓编码，就是用一组二进制码组来表示每一个有固定电平的量化值。pcm的优点就是音质好。pcm可以提供用户从2m到155m速率的数字数据专线业务，也可以提供话音、图像传送、远程教学等其他业务。pcm是最常用、最简单的波形编码。是一种直接、简单地把语音经抽样、a/d转换得到的数字均匀量化后进行编码的方法。
67.在电子设备调用tts模块基于应答内容生成对应的pcm数据后，便可根据生成的pcm数据从目标数据库中检测pcm数据对应的多个唇形图片帧。
68.在本公开实施例中，电子设备可以通过tts生成应答内容对应的pcm数据，通过进一步将文本内容转化为pcm数据，从而基于pcm数据可以提高获取唇形图片帧的准确性，降低后期获取到的唇形图片帧与应答内容不匹配的概率。
69.其中，如图4所示，上述s102中的“从目标数据库中检索pcm数据对应的多个唇形图片帧”具体可以包括：
70.s401、电子设备将pcm数据输入至预设的深度学习网络模型中，得到pcm数据对应的多个语素数据。
71.其中，多个语素数据用于指示唇形参数。
72.s402、电子设备从目标数据库中检索多个语素数据对应的多个唇形图片帧。
73.其中，一个语素数据对应一个唇形图片帧。
74.在一种可能的实现方式中，预设的深度学习网络模型可以为：深度神经网络(deep neural network，dnn)、循环神经网络(recurrent neural network，rnn)、卷积神经网络(convolution neural network，cnn)。本公开对预设的深度学习网络模型不做具体限定。
75.需要说明的是，语素数据是指语言中最小的音义结合体。一个语言单位须同时满足三个条件——“最小、有音、有义”才能被称作语素。最小，是指单位的大小，是相对于词、词组等高级的音义结合单位而言；有义，是指语素的意义内容(符号的所指方面)，包括词汇意义或语法意义。有音，是指语素的语音形式(也即符号的能指方面)。音节，作为基本的语音单位，也常常是描述语素的语音形式时用到的参照单位。根据语素-音节的匹配关系，语言可以有单音节语、双音节语、三音节语、x音节语的划分。就以单音节语素为主体的汉语而言，单音节的语言单位可以直接运用语素的定义进行判定，双音节和多音节的语言单位可以使用替代法，即用已知语素替代有待确定是不是语素的语言单位。
76.示例性的，在pcm数据对应的内容为：啊(a)、爱(ai)、呆(dai)的情况下，将这些pcm数据输入至预设的深度学习网络模型中，可以分别得到“啊”对应的一个语素“a”、“爱”对应的两个语素“a和i”、“呆”对应的三个语素“d、a、i”。进一步的，电子设备可以基于每个语素
确定每个语素对应的唇形关键点，如图5所示，为“a”对应的唇形关键点，从而电子设备可以基于每个语素对应的唇形关键点，从目标数据库中检索每个语素数据对应的多个唇形图片帧。
77.在本实施例中，结合上述示例，电子设备在获取到“今天天气怎么样？”的应答内容“今天天气晴，温度8到22度，东南风3到4级”之后，可以通过tts模块基于应答内容“今天天气晴，温度8到22度，东南风3到4级”，生成对应的pcm数据，例如，今(jin)、天(tian)、气(qi)、晴(qing)等pcm数据。进一步的，电子设备将生成的pcm数据输入至预设的深度学习网络模型中，得到pcm数据对应的多个语素数据。例如，根据今(jin)、天(tian)、气(qi)、晴(qing)等pcm数据，得到“j”、“i”、“n”、“t”、“a”、“q”、“g”等语素数据。最终，电子设备根据得到的语素数据，从目标数据库中检索到对应的唇形图片帧。
78.在本公开实施例中，电子设备通过预设的深度学习网络模型，得到pcm数据对应的多个语素数据，进而基于每个语素数据指示的唇形参数，从目标数据库中检索每个语素数据对应的唇形图片帧。如此，基于语素数据可以提高获取到的唇形图片帧的准确性。
79.s103、针对多个唇形图片帧中的每个唇形图片帧，电子设备将每个唇形图片帧分别与预先录制得到的底板视频进行融合，得到每个唇形图片帧对应的数字人视频帧。
80.在一种可能的实现方式中，将唇形图片帧与预先录制得到的底板视频进行融合，具体可以使用glsl shader来做，通过利用图形处理器(graphics processing unit，gpu)的高性能，可以在较低端的电子设备上做到1080p的画质效果。
81.需要说明的是，借助glsl shader可以将唇形图片帧与预先录制得到的底板视频的融合操作运行在gpu上，一方面可以借助gpu的高并发性来提升融合的速度，另一方面可以减少对中央处理器(central processing unit,cpu)的占用，以在电子设备上做到更高的画质。
82.示例性的，在电子设备根据得到的每个语素数据，从目标数据库中检索到每个语素数据对应的唇形图片帧之后，通过使用glsl shader利用gpu的高性能，将“j”、“i”、“n”、“t”、“a”、“q”、“g”对应的唇形图片帧分别与预先录制得到的底板视频进行融合，从而得到底板视频中的数字人发出“j”、“i”、“n”、“t”、“a”、“q”、“g”对应语音的唇形视频帧(即得到每个唇形图片帧对应的数字人视频帧)。
83.如图6所示，为本公开实施例提供的另一种数字人视频生成方法，上述s103，具体可以包括：
84.s501、电子设备将每个唇形图片帧、预先录制得到的底板视频和目标人物图像三者进行融合，得到每个唇形图片帧对应的数字人视频帧。
85.在一种应用场景中，当需要更换数字人形象时，电子设备还可以预先获取所需更换的数字人形象对应的目标人物图像，从而在将每个唇形图片帧与预先录制得到的底板视频进行融合的过程中，将目标人物图像与唇形图片帧、预先录制得到的底板视频三者进行融合，从而通过目标人物图像替换预先录制得到的底板视频中的数字人形象。
86.在一种可能的实现方式中，可以通过端对端的序列学习模型处理目标人物图像与预先录制得到的底板视频，得到目标人物的人脸特征参数；从而根据目标人物的人脸特征参数将目标人物图像融合到预先录制得到的底板视频上，得到换脸后的图像。
87.需要说明的是，上述端对端的序列学习模型可以是端到端的文本语音转换模型，
比如：fast speech模型或者基于深度神经网络的端到端文本语音转换模型，其中，fast speech模型是采用基于transformer和一维卷积中自注意力机制的前馈网络，形成的序列学习模型。
88.需要说明的是，针对多个唇形图片帧中的每个唇形图片帧，电子设备需要分别执行s103中的步骤，从而得到多个唇形图片帧中的每个唇形图片帧对应的数字人视频帧。
89.在本公开实施例中，可以在需要更换数字人形象的场景中，通过将唇形图片帧、预先录制得到的底板视频和目标人物的图像三者进行融合，便可直接生成所需的数字人形象对应的数字人视频流。而无需重新对新的数字人形象进行拍摄得到新的底板视频之后，才能进一步的得到所需的数字人形象对应的数字人视频流。因此，可以进一步的提高生成虚拟数字人视频流的效率，还可以降低生成数字人视频流的周期和成本。
90.s104、电子设备显示每个唇形图片帧对应的数字人视频帧。
91.在一种可能的实现方式中，电子设备可以依次显示每个唇形图片帧对应的数字人视频帧，从而形成数字人视频流在屏幕中进行播放，以完成与用户之间的人机交互。
92.在另一种可能的实现方式中，电子设备还可以将每个唇形图片帧对应的数字人视频帧进行合成，得到数字人视频流，并显示数字人视频流。
93.在本公开实施例中，在得到每个唇形图片帧对应的数字人视频帧之后，可以通过视频合成技术将数字人视频帧进行合成得到数字人视频流。
94.进一步的，在得到数字人视频流之后，电子设备可以直接在屏幕中进行播放，以完成与用户之间的人机交互。
95.在一种可能的实现方式中，得到的数字人视频流还可以对应区块链中的非同质化通证(non-fungible token，nft)，nft具有唯一性，是基于区块链技术，使得到的数字人视频流从诞生时起就与特定的数字商品建立唯一的映射关系，nft可以作为数字商品在特定区块链上对应的、且唯一的权利证明，在nft限量发售状态下，将拥有区块链上序列号彼此不同的作品，同时在交易的过程中，该唯一的权利证明的交易信息会通过智能合约记录存储在区块链上，能够实现可信追溯。一个nft仅在当前特定区块链上具有唯一性。
96.在本实施例中，电子设备可以独立完成上述技术方案中的全部步骤，无需与服务器进行数据交互，即可实现电子设备与用户之间的人机交互功能。或者，电子设备可以结合服务器，通过服务器完成上述技术方案中的部分步骤(例如，通过服务器执行上述s102和s103等步骤中的内容)，以结合服务器事项电子设备与用户之间的人机交互功能。具体方案可以根据具体应用场景而定，本公开不做具体限定。
97.基于上述技术方案，电子设备可以基于用户输入的目标语音，从本地目标数据库中获取对应的应答内容，并生成应答内容对应的pcm数据，以基于pcm数据从本地目标数据库中获取对应的多个唇形图片帧，进而通过将唇形图片帧和预设的底板视频进行融合，得到所需的数字人视频流。本公开可以基于电子设备的本地数据库，获得用户输入的目标语音对应的应答内容的多个唇形图片帧，之后融合获得的唇形图片帧和预设的底板视频，即可在本地生成所需的数字人视频流，无需与数字人服务器进行数据交互，因此无需依赖网络，提高了生成虚拟数字人视频流的效率，降低了人机交互的等待时延。并且，进一步的，在需要更换数字人形象的场景中，通过将唇形图片帧、预先录制得到的底板视频和目标人物的图像三者进行融合，便可直接生成所需的数字人形象对应的数字人视频流。可以进一步
的提高生成虚拟数字人视频流的效率，还可以降低生成数字人视频流的成本。
98.上述主要从计算机设备的角度对本公开实施例提供的方案进行了介绍。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本公开所公开的实施例描述的各示例的数字人视频生成方法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。
99.本公开实施例可以根据上述方法示例对数字人视频生成方式进行功能模块或者功能单元的划分，例如，可以对应各个功能划分各个功能模块或者功能单元，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块或者功能单元的形式实现。其中，本公开实施例中对模块或者单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
100.如图7所示，为本公开实施例提供的一种数字人视频生成装置的结构示意图。数字人视频生成装置可以包括：检索单元701、处理单元702和显示单元703。
101.检索单元701，用于从目标数据库中检索目标语音对应的应答内容，目标语音为用户在电子设备中输入的语音，目标数据库为电子设备的本地数据库；处理单元702，用于生成应答内容对应的脉冲编码调制pcm数据；检索单元701，还用于从目标数据库中检索pcm数据对应的多个唇形图片帧；处理单元702，还用于针对多个唇形图片帧中的每个唇形图片帧，将每个唇形图片帧分别与预先录制得到的底板视频进行融合，得到每个唇形图片帧对应的数字人视频帧；显示单元703，用于显示每个唇形图片帧对应的数字人视频帧。
102.可选的，处理单元702，具体用于通过自动语音识别技术asr，将目标语音转化为文本数据；检索单元701，具体用于从目标数据库中检索文本数据对应的应答内容。
103.可选的，处理单元702，具体用于通过语音合成技术tts生成应答内容对应的pcm数据。
104.可选的，处理单元702，具体用于将pcm数据输入至预设的深度学习网络模型中，得到pcm数据对应的多个语素数据，多个语素数据用于指示唇形参数；检索单元701，具体用于从目标数据库中检索多个语素数据对应的多个唇形图片帧，一个语素数据对应一个唇形图片帧。
105.可选的，处理单元702，具体用于将每个唇形图片帧、预先录制得到的底板视频和目标人物图像三者进行融合，得到每个唇形图片帧对应的数字人视频帧。
106.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
107.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
108.如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
109.设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
110.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数字人视频生成方法。例如，在一些实施例中，数字人视频生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的数字人视频生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数字人视频生成方法。
111.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
112.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
113.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
114.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
115.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
116.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
117.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开所公开的技术方案所期望的结果，本文在此不进行限制。
118.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张演龙李彤辉杨尊程
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种基于数据采集的串行运行的方法与流程
上一篇：一种套筒表面处理工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。