计算机生成的头部的制作方法

文档序号：2827277阅读：190来源：国知局

计算机生成的头部的制作方法
【专利摘要】本发明涉及计算机生成的头部。一种动画制作计算机生成头部的方法，头部具有根据要由头部输出的语音动作的嘴部，方法包括：提供与要由嘴唇动作输出的语音相关的输入；将输入分成声音单元序列；为输入文本选择表情特性；使用统计模型将声音单元序列转换为图像矢量序列，其中模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，图像矢量包括定义头部的脸部的多个参数；以及将图像矢量序列输出为视频，这样头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音其中将选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，其中按簇提供参数，并且每个簇包括至少一个子簇。
【专利说明】计算机生成的头部
【技术领域】
[0001]本文一般性描述的本发明的实施例涉及计算机生成的头部和用于动画制作这种头部的方法。
【背景技术】
[0002]计算机生成的会说话的头部能够用在若干不同的情况下。例如，用于通过公共地址系统提供信息，用于提供信息给计算机的用户，等等。这种计算机生成的动画头部还可以用于计算机游戏，以及使计算机生成的图形“说话”。
[0003]然而，一直都有让这种头部看起来更为真实的需求。

【发明内容】

[0004]在一个实施例中，提供了一种用于动画制作计算机生成头部的方法，所述头部具有根据要由头部输出的语音动作的嘴部，
[0005]所述方法包括:
[0006]提供与要由嘴唇动作输出的语音相关的输入；
[0007]将所述输入分成声音单元序列；
[0008]为输入文本选择表情特性；
[0009]使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及
[0010]将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音。
[0011]其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取(retrieve)表情相关权值,其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值。
[0012]应该注意到所述嘴部意指嘴的任一部分，例如嘴唇、颚、舌头等。在另一实施例中，所述嘴唇动作以模仿所述输入的语音。
[0013]上述头部能够根据头部嘴唇的动作可视地输出语音。在另一实施例中，所述模型进一步配置为将所述声音单元转换为语音矢量，其中所述模型具有描述将声音单元与语音矢量相关的概率分布的多个模型参数，所述方法进一步包括将所述语音矢量序列输出为与头部的嘴唇动作同步的音频。因此，所述头部能够输出音频和视频。
[0014]所述输入可以是被分成声音单兀序列的文本输入。在另一实施例中，所述输入是作为音频输入的语音输入，所述语音输入被分成声音单元序列，并作为音频随头部视频输出。一旦划分成声音单元，能够运行所述模型以将从语音输入导出的声音单元与图像矢量相关联，这样能够生成所述头部以与音频语音信号一起可视地输出语音信号。
[0015]在一个实施例中，每个子簇可以包括至少一个决策树，所述决策树基于关于语言、语音或韵律差异中至少一种的问题。所述簇的决策树之间以及子簇内的树之间可能存在结构差异。可以从高斯分布、泊松分布、伽玛分布、学生_t分布或拉普拉斯分布中选择所述概率分布。
[0016]可以从不同情绪、口音或说话风格中的至少一种中选择所述表情特性。说话时语音的变化时常会导致说话者脸上显示的表情的微妙变化，而上述方法能用来捕捉这些变化以让头部显得自然。
[0017]在一个实施例中，选择表情特性包括提供输入以允许通过所述输入选择权重。而且，选择表情特性包括从要输出的语音预测应该使用的权重。在另一实施例中，选择表情特性包括从关于要输出的语音的外部信息来预测应该使用的权重。
[0018]所述方法还可以适配新的表情特性。例如，选择表情包括接收包含脸部的视频输入并改变权重以模拟所述视频输入的脸部的表情特性。
[0019]在输入数据为包含语音的音频文件的情况下，能够从音频语音输入获得用于控制头部的权重。
[0020]在另一实施例中，选择表情特性包括从多个预存的权重集中随机选择权重集，其中每个权重集包括用于所有子簇的权重。
[0021]所述图像矢量包括参数,所述参数允许从这些参数重建脸部。在一个实施例中，所述图像矢量包括允许从模式的加权之和构建脸部的参数，其中所述模式表示脸部或其部分的重建。在另一实施例中，所述模式包括表示脸部的形状及外观的模式。相同权重参数可以用于形状模式及其对应的外观模式。
[0022]所述模式可以用于表示脸部姿态、脸部区域的变形、眨眼等。可以用固定的形状和肌理给头部的静态特征建模。
[0023]在另一实施例中，提供了一种使用于呈现计算机生成的头部的系统适配新表情的方法，所述头部具有根据要由头部输出的语音动作的嘴部，
[0024]所述系统包括:
[0025]输入端，用于接收数据给要由嘴部动作输出的语音；
[0026]处理器，其被配置为:
[0027]将所述输入数据分成声音单元序列；
[0028]允许为输入文本选择表情特性；
[0029]使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及
[0030]将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，
[0031]其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值，[0032]所述方法包括:
[0033]接收新的输入视频文件；
[0034]计算施加给所述簇的权值，以最大化生成的图像与新视频文件之间的相似度。
[0035]以上方法还可以包括使用所述新视频文件的数据创建新簇；以及
[0036]计算施加给包含所述新簇的簇的权值，以最大化生成的图像与新视频文件之间的相似度。
[0037]在一个实施例中，提供了一种用于呈现计算机生成的头部的系统，所述头部具有根据要由头部输出的语音动作的嘴部，
[0038]所述系统包括:
[0039]输入端，用于接收数据给要由嘴部动作输出的语音；
[0040]处理器，其被配置为:
[0041]将所述输入数据分成声音单元序列；
[0042]允许为输入文本选择表情特性；
[0043]使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及
[0044]将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，
[0045]其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值。
[0046]在一个实施例中，提供了一种用于呈现计算机生成的头部的可适配系统，所述头部具有根据要由头部输出的语音动作的嘴部，所述系统包括:
[0047]输入端，用于接收数据给要由嘴部动作输出的语音；
[0048]处理器，其被配置为:
[0049]将所述输入数据分成声音单元序列；
[0050]允许为输入文本选择表情特性；
[0051]使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及
[0052]将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，
[0053]其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值，
[0054]所述系统进一步包括存储器，该存储器被配置为存储按簇及子簇提供的所述参数和用于所述子簇的权值，[0055]所述系统进一步被配置为接收新的输入视频文件；
[0056]所述处理器被配置为重新计算施加给所述子簇的权值，以最大化生成的图像与新视频文件之间的相似度。
[0057]可以用2D或3D呈现上述生成的头部。对于3D，图像矢量以三维定义所述头部。在3D中，在3D数据中补偿姿态变化。然而，可以如上所述处理眨眼和静态特征。
[0058]由于能由软件实现根据实施例的某些方法，某些实施例涵盖了任一适当载体介质上的供给通用计算机的计算机代码。所述载体介质能够包括任一存储介质，例如软盘、CDR0M，磁性装置或可编程存储装置，或者诸如任一信号的任何暂时性介质，比如电、光或微波信号。
【专利附图】

【附图说明】
[0059]现在，将参考附图来描述根据非限制性实施例的系统和方法:
[0060]图1为用于计算机生成头部的系统的示意图；
[0061]图2为表示根据本发明的实施例的用于呈现(render)动画制作生成的头部的基本步骤的流程图；
[0062]图3(a)为具有用户界面的生成的头部的图像，图3(b)为该界面的线条图；
[0063]图4为表示表情特性可以如何被选择的系统的示意图；
[0064]图5为图4系统的变型；
[0065]图6为图4系统的另一变型；
[0066]图7为高斯概率函数的示意图；
[0067]图8为根据本发明实施例的方法中所用的簇化数据排列的示意图；
[0068]图9为展示根据本发明实施例的训练头部生成系统的方法的流程图；
[0069]图10为根据本发明的实施例所用的决策树的示意图；
[0070]图11为表示根据本发明实施例的系统的适配的流程图；以及
[0071]图12为表示根据本发明另一实施例的系统适配的流程图；
[0072]图13为表示在分解权重的情况下训练用于头部生成系统的系统的流程图；
[0073]图14为详细表示图13流程图的步骤之一的子步骤的流程图；
[0074]图15为详细表示图13流程图的步骤之一的子步骤的流程图；
[0075]图16为表示参考图13描述的系统适配的流程图；
[0076]图17为能够与根据本发明实施例的方法及系统一起使用的图像模型；
[0077]图18(a)为图17模型的变型；
[0078]图18(b)为图18(a)模型的变型；
[0079]图19为表不训练图18(a)和(b)的I旲型的流程图；
[0080]图20为表不参考图19描述的训练基础的不意图；
[0081]图21(a)为误差相对于参考图17、18(a)和(b)描述的图像模型中所用的模式数目的曲线图，图21(b)为训练所用的句子数目相对于训练模型中测量到的误差的曲线图；
[0082]图22(a)到⑷为用于测试数据中显示的情绪的混淆矩阵；以及
[0083]图23为表示对图像模型变型的偏好(preference)的表。【具体实施方式】
[0084]图1为用于计算机生成能够说话的头部的系统的示意图。系统I包括执行程序5的处理器3。系统I进一步包括存储装置或存储器7。存储装置7存储了由程序5用来在显示器19上呈现头部的数据。文本到语音系统I进一步包括输入模块11和输出模块13。输入模块11连接到数据的输入端，该数据与将要由头部输出的语音和将要随文本输出的情绪或表情有关。输入数据的类型可以采取后面将更详述的许多形式。输入端15可以是允许用户直接输入数据的界面。另选地，该输入端可以是用于从外部存储介质或网络接收数据的接收器。
[0085]连接到输出模块13的输出端为视听输出端17。输出端17包括将显示生成的头部的显不器19。
[0086]在使用中，系统I通过数据输入端15接收数据。在处理器3上执行的程序5将输入数据转换为将要由头部输出的语音和头部将要显示的表情。该程序访问存储装置以基于输入数据选择参数。该程序呈现头部。所述头部在被动画制作时，根据将要输出的语音移动其嘴唇并显示期望的表情。所述头部还具有输出包含所述语音的音频信号的音频输出端。所述音频语音与头部的嘴唇动作同步。
[0087]图2为用于动画制作并呈现所述头部的基本过程的示意图。在步骤S201，接收与将要由说话的头部输出的语音相关的输入，该输入还会包含与在头部说文本时应该展现的表情相关的彳目息。
[0088]在这个特定的实施例中，与语音相关的输入为文本。在图2中，该文本与表情输入分离。然而，与语音相关的输入不一定是文本输入，它可以是使头部能够输出语音的任一类型信号。例如，能够从语音输入、视频输入、合成语音及视频输入中选择所述输入。另一可能的输入可以是与已经生成的脸部/语音集、或预定义的文本/表情相关的任意形式的索弓I，例如使系统说“请”或“对不起”的图标。
[0089]为免生疑问，应该注意到，通过输出语音，头部嘴唇根据要输出的语音而动作。然而，音频输出的音量可以静音。在一个实施例中，在通过嘴唇动作而在视觉上输出话语的情况下，就存在头部模仿单词发声的视觉表现。在另外的实施例中，这可以或不伴以话语的音频输出。
[0090]当文本作为输入而被接收时，其然后被转换为声音单元的序列，声音单元可以是音素、字素(grapheme)、上下文相关音素或字素以及单词或其部分。
[0091]在一个实施例中，在输入中给出额外信息以允许在步骤S205选择表情。接着，这允许在步骤S207导出表情权值(weight)，将结合图9更详细描述表情权值。
[0092]在某些实施例中，合并步骤S205和S207。这可以若干不同方式实现。例如，图3表示了用于选择表情的界面。此处，用户例如使用鼠标在屏幕上拖放点、使用键盘输入数字(figure)等来直接选择权重(weighting)。在图3(b)中，包括鼠标、键盘等的选择单元251使用显示器253选择权重。在这个实例中，显示器253具有显示权重的雷达图。用户能够使用选择单元251来通过雷达图改变各个簇的主导地位。本领域技术人员将理解可以在界面中使用其它显示方法。在某些实施例中，用户可以直接输入文本，情绪的权值，音高、速度(speed)及深度(depth)的权值。
[0093]当音高变得太高或太低且以类似的方式改变深度随大人和小孩的嗓音而变化时，脸部动作会不同，因此音高和深度能够影响脸部动作。通过持续时间分布修改被分配给每个模型的帧数，能够将速度作为额外参数进行控制。
[0094]图3(a)表示了具有生成的头部的整个单元。所述头部被部分显示为没有肌理的网状结构。正常使用时，所述头部将布满肌理。
[0095]在另一实施例中，所述系统设置有保存预定权重矢量集的存储器。每个矢量可以被设计为允许使用不同的表情通过头部输出文本。所述表情由头部显示，还在音频输出中体现。能从高兴、悲伤、中性(neutral)、愤怒、害怕、温和等中选择表情。在另外的实施例中，表情能够关于用户的说话风格，例如，低语、叫喊等，或者用户的口音。
[0096]图4示出了根据这一实施例的系统。此处，显示器253示出了可由选择单元251选择的不同表情。
[0097]在另一实施例中，用户没有单独输入关于表情的信息，此处，如图2所示，在S207中导出的表情权重是直接从步骤S203中的文本导出的。
[0098]图5显示了这一系统。例如，该系统可能需要经说话的头部输出对应于被识别为命令或问题的文本的语音。该系统可以被配置为输出电子书。该系统可以从文本(例如，从引号)识别何时相对于叙述者的书中角色在说某事，并改变权重以引入将要在输出中使用的新表情。类似地，该系统可以被配置为识别是否重复所述文本。在这一情形下，可以为第二输出改变嗓音(voice)特性。进一步，该系统可以被配置为识别所述文本是否指的是高兴时刻或焦急时刻，并使用适当的表情输出文本。步骤S211中示意性示出了这一情况:直接从文本预测表情权值。
[0099]在图5所示的上述系统中，提供了存储器261，其存储了要在文本中检查的属性和规则。所述输入文本由单元263提供给存储器261。检查所述文本的规则，接着将关于表情类型的信息传给选择单元265。选择单元265然后查找所选择的表情的权重。
[0100]在游戏中的角色说话的情况下，上述系统及注意事项还可以应用于计算机游戏中所用的系统。
[0101]在另一实施例中，该系统接收关于头部应该如何从另一个源输出语音的信息。图6示出了这一系统的实例。例如，在电子书的情况下，该系统可以接收指示文本的某些部分应该如何被输出的输入。
[0102]在计算机游戏中，该系统将能够从所述游戏判定正在说话的角色是否受伤，躲起来因此不得不低语，努力吸引某人的注意，成功完成了游戏的一个阶段，等等。
[0103]在图6的系统中，从单元271接收关于头部应该如何输出语音的进一步信息。单元271接着发送这一信息给存储器273。存储器273然后获取(retrieve)关于应该如何输出嗓音的信息，并将此发送给单元275。单元275接着获取用于头部期望输出的权重。
[0104]另一实施例中，在步骤209直接输入语音。此处，步骤S209可以包括三个子块:从所述语音中检测文本的自动语音识别器(ASR)，同步文本和语音的校准器(aligner)，以及自动表情识别器。在S207，将识别的表情转换为表情权值。所识别的文本接着流入文本输入203。这一安排允许音频输入到生成视听输出的说话头部系统。例如，这允许有真实表情的语音，并由此为它合成适合的脸部。
[0105]在另一实施例中，对应于语音的输入文本能够被用来通过去除或简化ASR子模块的工作来改进模块S209的性能。[0106]在步骤S213，将文本及表情权值输入到声音模型，其在这一实施例中为簇适配训练 HMM 或 CAT-HMM。
[0107]然后将文本转换为声音单元的序列。这些声音单元可以是音素或字素。这些单元可以是上下文相关的，例如三音素、五音素等，不仅要考虑已选择的音素，还要考虑前后音素、单词中音素的位置、音素所属单词中的音节数，等等。使用本领域公知的技术将文本转换为声音单元的序列，此处将不做进一步解释。
[0108]有许多可用于生成脸部的模型。就例如关键点/特征、肌肉结构等而言，其中的一些模型取决于脸部的参数化。
[0109]因此，能够根据这种脸部模型中所用参数的“脸部”矢量来定义脸部，以生成脸部。这类似于从语音矢量生成输出语音的语音合成的情形。在语音合成中，语音矢量具有与声音单元相关的概率，而不是一一对应。类似地，脸部矢量仅有与声音单元相关的概率。因此，能够以与对待语音矢量类似的方式操纵脸部矢量，以生成能够输出角色说话的语音及视觉表示的说话头部。因而，可以与对待语音矢量相同的方式处理脸部矢量，并根据相同数据训练它。
[0110]查找将声音单元与图像参数相关的概率分布。在这一实施例中，所述概率分布会是由均值和方差定义的高斯分布。但是可以使用其它分布，例如泊松、学生-t、拉普拉斯或伽玛分布，其中某些分布由均值及方差之外的变量定义。
[0111]在这一实施例中，起初只考虑图像处理，每个声音单元没有与使用本领域术语的“脸部矢量”或“观测(observation)”明确的一一对应。由参数矢量构成的所述脸部矢量，定义了在给定帧处的脸部姿态。许多声音单元以类似的方式发音，并受周围的声音单元、它们在单词或句子中位置的影响，或者取决于说话者的表情、情绪状态、口音、说话风格等以不同方式发音。因此，每个声音单元仅有与脸部矢量相关的概率，文本到语音系统计算许多概率，并在给定声音单元序列的情况下选择最有可能的观测序列。
[0112]图7示出了高斯分布。图7能被认为是与脸部矢量相关的声音单元的概率分布。例如，示为X的语音矢量具有对应于音素或其它声音单元的概率P1，其具有图7所示分布。
[0113]所述高斯的形状和位置由其均值和方差定义。这些参数在系统训练期间确定。
[0114]然后在步骤S213中将这些参数用在称作“头部模型”的模型中。“头部模型”为语音合成中所用的声音模型的视觉或视听版本。在本说明书中，所述头部模型为隐藏马尔可夫模型(HMM)。然而，还能够使用其它模型。
[0115]说话头部系统的存储器将存储许多概率密度函数，其将声音单元(即音素、字素、单词或其部分)与语音参数相关。由于通常使用高斯分布，这些概率密度函数通常称作高斯或分量。
[0116]在隐藏马尔可夫模型或其它类型的头部模型中，必须考虑关于特定声音单元的所有可能脸部矢量的概率。然后，考虑最有可能对应于声音单元序列的脸部矢量序列。这意味着序列的所有声音单元的全局优化要考虑两个单元相互影响的方式。因此，当考虑声音单元序列时，有可能用于特定声音单元的最有可能的脸部矢量不是最优的脸部矢量。
[0117]在图2的流程图中，示出了用于将图像矢量建模为“压缩表情视频模型”的一个流(stream)。在某些实施例中，会有多个分别用高斯建模的不同状态。例如，在一个实施例中，所述说话头部系统包括多个流。这些流可能表示仅用于嘴部，或仅用于舌头或眼睛等的参数。所述流还可以进一步划分成诸如静音(sil)、短停顿(Pau)和说话(spe)等的类。在一个实施例中，会使用HMM给每个流及类的数据建模。所述HMM可以包括不同数量的状态，例如，在一个实施例中，可以使用5态HMM给某些上述流及类的数据建模。为每个HMM状态确
定高斯分量。
[0118]上述集中在头部可视地输出话语。然而，除了所述可视输出外，所述头部还可以输出音频。返回图3，“头部模型”用于通过一个或多个流生成图像矢量，此外还通过一个或多个流生成语音矢量。图2、3中示出了音频流，其为频谱、LogR)和BAP /
[0119]簇适配训练为隐藏马尔可夫模型文本到语音(HMM-TTS)的扩展。HMM-TTS为语音合成的参数方法，其使用具有有限数量(通常为5)的发射状态的HMM对上下文相关语音单元(⑶SU)建模。连接(Concatenate)HMM并从中采样来生成参数集，该参数集然后能被重新合成为合成语音。通常，使用决策树来簇化CDSU以处理训练数据中的稀疏。对于任一给定的⑶SU，可以使用决策树查找要用在HMM中的均值和方差。
[0120]CAT使用多个决策树来捕获风格或情绪相关信息。在从步骤S207导出权重入的情况下,这通过根据加权参数之和表示每个参数来进行。如图8所示,合并所述参数。
[0121]因而，在一个实施例中，将具有(用于语音或脸部参数的)选择表情的高斯均值表示为高斯的独立均值的加权之和。
[0122]
【权利要求】
1.一种动画制作计算机生成头部的方法，所述头部具有根据要由头部输出的语音动作的嘴部，所述方法包括: 提供与要由嘴唇动作输出的语音相关的输入；将所述输入分成声音单兀序列；为输入文本选择表情特性；使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值。
2.根据权利要求1的方法，其中所述模型进一步配置为将所述声音单元转换为语音矢量，其中所述模型具有描述将声音单元与语音矢量关联的概率分布的多个模型参数，所述方法进一步包括将所述语音矢量序列输出为与头部的嘴唇动作同步的音频。
3.根据权利要求1的方法，其中所述输入为被分成声音单元序列的文本输入。
4.根据权利要求1的方法，其中所述输入为语音输入，该语音输入被分成声音单兀序列并作为音频随头部的视频输出。
5.根据权利要求1的方法，其中每个子簇包括至少一个决策树，所述决策树基于关于语言、语音或韵律差异中至少一种的问题。
6.根据权利要求1的方法，其中从不同情绪、口音或说话风格中的至少一种中选择表情特性。
7.根据权利要求1的方法，其中选择表情特性包括提供输入以允许通过所述输入选择权重。
8.根据权利要求1的方法，其中选择表情特性包括从要输出的语音预测应该使用的权重。
9.根据权利要求1的方法，其中选择表情特性包括从关于要输出的语音的外部信息预测应该使用的权重。
10.根据权利要求1的方法,其中选择表情包括接收包含脸部的视频输入,并改变所述权重以模拟所述视频输入的脸部的表情特性。
11.根据权利要求1的方法，其中选择表情特性包括接收包含要输出的语音的音频输入，以及从音频语音输入获得所述权重。
12.根据权利要求1的方法，其中选择表情特性包括从多个预存的权重集中随机选择权重集，其中每个权重集包括用于所有子簇的权重。
13.根据权利要求1的方法，其中所述图像矢量包括允许从模式的加权之和构建脸部的参数，并且其中所述模式表示脸部或其部分的重建。
14.根据权利要求13的方法，其中所述模式包括表示脸部的形状和外观的模式。
15.根据权利要求14的方法，其中相同权重参数用于形状模式及其对应的外观模式。
16.根据权利要求13的方法，其中至少一个模式表示脸部的姿态。
17.根据权利要求13的方法，其中多个模式表示脸部区域的变形。
18.根据权利要求13的方法，其中至少一个所述模式表示眨眼。
19.根据权利要求13的方法，其中用固定的形状和肌理给头部的静态特征建模。
20.一种使用于呈现计算机生成的头部的系统适配新表情的方法，所述头部具有根据要由头部输出的语音动作的嘴部，所述系统包括: 输入端，用于接收数据给要由嘴部动作输出的语音；处理器，其被配置为: 将所述输入数据分成声音单元序列；允许为输入文本选择表情特性；使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值，所述方法包括: 接收新的输入视频文件；计算施加给所述簇的权值，以最大化生成的图像与新视频文件之间的相似度。
21.根据权利要求20的方法，进一步包括: 使用所述新视频文件的数据创建新簇；以及计算施加给包含所述新簇的簇的权值，以最大化生成的图像与新视频文件之间的相似度。
22.一种用于呈现计算机生成的头部的系统，所述头部具有根据要由头部输出的语音动作的嘴部，所述系统包括: 输入端，用于接收数据给要由嘴部动作输出的语音；处理器，其被配置为: 将所述输入数据分成声音单元序列；允许为输入文本选择表情特性；使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值。
23.一种用于呈现计算机生成的头部的可适配系统，所述头部具有根据要由头部输出的语音动作的嘴部，所述系统包括: 输入端，用于接收数据给要由嘴部动作输出的语音；处理器，其被配置为: 将所述输入数据分成声音单元序列；允许为输入文本选择表情特性；使用统计模型将所述声音单元序列转换为图像矢量序列，其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数，所述图像矢量包括定义所述头部的脸部的多个参数；以及将所述图像矢量序列输出为视频，这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音，其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和，并且其中所用的权重为表情相关的，这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值，其中按簇提供所述参数，并且每个簇包括至少一个子簇，其中为每个簇获取所述表情相关权值，这样每个子簇有一个权值，所述系统进一步包括存储器，该存储器被配置为存储按簇及子簇提供的所述参数和用于所述子簇的权值，所述系统进一步被配置为接收新的输入视频文件；所述处理器被配置为重新计算施加给所述子簇的权值，以最大化生成的图像与新视频文件之间的相似度。
24.一种载体介质，包括被配置为使计算机执行权利要求1的方法的计算机可读代码。
25.—种载体介质，包括被配置为使计算机执行权利要求20的方法的计算机可读代码。
【文档编号】G10L21/10GK103971393SQ201410050837
【公开日】2014年8月6日申请日期:2014年1月29日优先权日:2013年1月29日
【发明者】J·拉多勒-马丁内兹, V·P·L·万, B·斯腾格尔, R·安德森, R·滋波拉申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·拉多勒-马丁内兹;V·P·L·万;B·斯腾格尔;R·安德森;R·滋波拉
技术所有人：株式会社东芝
我是此专利的发明人