人物动画的制作方法

文档序号：2822939阅读：616来源：国知局

专利名称：人物动画的制作方法
技术领域：
本发明涉及一种使用处理系统创建动画人物形象的方法以及用于创建动画人物形象的装置。具体地，本发明涉及一种使用输入数据制作代表个人如新闻阅读者、播音员、节目主持人等的人物动画的系统，其中，输入数据包括内容数据和表达数据。
近年来，已经使用基于计算机的系统实现人物动画。然而，在此种系统中，动画还是要艺术家预先确定，这需要很高的技巧和很大的工作量来产生所希望的外表。
自动人物动画制作也已经出现，通过把标准文本文件转换成言语，然后使用视位(viseme)来制作人物动画。然而，这些系统具有以下缺点人物表现的运动范围受到限制，并且具体地，此范围通常局限在表现视位所要求的运动。任何额外的人物运动都必须在后期手工添加，不能自动地插入进去。而且，人物只能演示对文本非常有限的线性响应。相应地，每次人物阅读文本时，人物的外表是相同的。此种系统的实例在US-A-5657426中描述。
因此，这不能表达非常人性化的外表，在非常人性化的外表中，人物的具体运动在每次阅读文本时都将发生变化。进而，当不阅读文本时，人物是静止的，这又导致缺少人物的人性魅力或特征。

发明内容
根据本发明的第一方面，提供一种用于创建动画人物形象的装置，本装置包括处理系统，此系统具有用于接收标记输入数据的输入，包括i.表示待表达言语的内容数据；以及ii.表示言语表达方式的表达数据；耦合到所述输入的处理器，用于根据定义的时基产生数据，所述数据包括i.根据内容数据产生的音素数据，以及ii.根据音素数据和表达数据产生的视位数据；所述处理器进一步适用于iii.根据音素数据产生音频数据；iv.根据视位数据产生图象数据；以及v.根据定义的时基对音频和图象数据的输出进行同步。
根据本发明的第二方面，提供一种使用处理系统创建动画人物形象的方法，本方法包括接收标记输入数据包括i.表示待表达言语的内容数据；以及ii.表示言语表达方式的表达数据；根据确定的时基产生数据，所述数据包括i.根据内容数据产生的音素数据；以及ii.根据音素数据和表达数据产生的视位数据；根据音素数据产生视频数据；根据视位数据产生图象数据；以及根据确定的时基对音频和图象数据的输出进行同步。
本发明提供用于创建动画人物形象的方法和装置。这通过使用包括内容数据和表达数据的标记数据来实现。随后，本系统使用此信息产生音素和视位数据，所述数据表现由人物表达的言语。通过提供表达数据，确保人物外表中的至少一部分变化将在视位数据要求人物表现出说话时自动地发生。这有助于动画人物具有非常逼真的外表。
标记数据输入到系统可由人工输入，例如通过在终端上键入文本而输入；或从数据源获得。这允许系统用来自新闻和数据资源等的信息实现自动表达。
处理器通常包括用于产生音素数据和音频数据的文本-言语处理器；用于产生视位数据和图象数据的动画处理器；以及具有以下用途的分析器分析接收到的标记数据；检测将以预定方式表达的预定内容数据；产生代表预定方式的表达数据；以及用产生的表达数据修改接收到的标记数据。
专业的文本-言语处理器和动画处理器的使用允许系统实时产生音频和图象数据，由此加速人物动画处理。如果需要的话，音频和图象数据可以在相同时间或不同的时间，和/或在不同的位置产生。应该理解，文本-言语和动画处理器可用单个处理器内的软件来实施，或者可替换地用单独的硬件组件来实施。
分析接收到的标记数据允许增加表达数据，这又允许本发明处理只具有最小标记或无标记的数据。这还允许以预定的方式表示预定的内容。进而，这允许动画人物重读某些单词，如数字、姓名、名词和否定词，但对于本发明这不是最本质的。
处理系统通常包括用于储存数据的存储器；耦合到存储器以从其获得预定内容数据指示的分析器。这允许增加的与标记有关的信息在中央储存，以便此信息可直接由分析器访问。可替换地，信息可通过通讯系统如LAN(局域网)等从远程存储器获得。
通常，所述装置包括语言处理器，语言处理器适用于分析内容数据；确定表示内容数据所需的音素；以及为每个音素产生音素时间基准，音素时间基准指示各个音素应结合时基表达的时刻。
优选使用音素产生将由动画人物表达的音频数据，因为这允许少量的基本声音单元表现需要由人物发出的大量声音，从而表达言语。另外，用于从文本确定音素的处理系统是众所周知的并且是易于实施的。
进一步地，音素时间基准的产生允许保持每个音素的临时位置并且能对程序中的剩余步骤进行同步。
通常，语言处理器进一步适用于分析表达数据；产生大量表示该表达数据的标志；以及为每个标志产生标志时间基准，标志时间基准指示各个标志应结合时基修改表达方式的时刻。
标志时间基准的使用允许相对于音素数据保持表达数据的临时位置。可替换地，可以使用其它同步化的数据。
通常，语言处理器耦合到存储器，以获得表达各个单词所需的音素的指示。在此情况下，此指示的形式通常为一组规定应如何从文本确定音素的规则。还可提供不适用于这些更一般规则的异常事件的词典。这提供一种基于接收到的数据获得音素的简单技术。然而，可使用本领域中的任何技术。
文本-言语处理器优选包括串接处理器，该串接处理器适用于确定表示每个音素的音素数据；以及根据音素时间基准串接音素数据，以产生表现言语的音频数据。
使用专业的串接处理器确保通常从存储器获得的音素数据易于组合形成所需的音频数据。
进而，串接处理器还适用于根据表达数据修改音频或音素数据。这允许结合人物的外表控制人物的可听音。因而例如，根据人物是否假定为愉快、悲伤或严肃等，在言语中可使用不同的语调、音调、和速度。然而可替换地，可听音保持不变，与人物的外表无关。另一个替换实例是在数据文件中规定单独的声音修改，此数据文件不依赖于表达数据。
动画处理器优选包括音素处理器，音素处理器适用于从语言处理器获得确定的音素以及相关的音素时间基准；确定与每个已确定的音素相应的视位；以及根据相应音素的音素时间基准，为每个视位确定视位时间基准。
由于只有有限数量的(大约48个)音素和有限数量的(大约20个)视位，因此，比较容易把每个音素转换成相应的视位。在此情况下，使用与音素时间基准相应的视位时间基准有利地保证视位与音素的同步。这又保证嘴唇运动与声音的产生同步，从而实现唇形同步。
动画处理器通常还包括耦合到存储器的视位处理器，视位处理器适用于根据已确定的视位从存储器获得视位数据，视位数据包括表示基本人物图象变化所需的大量参数，以表现各个视位。使用表现基本面容变化的数据允许实施大范围的面部形态，这无需从每个面部的草图产生表现所需的强大处理能力。这有助于加速处理时间，允许在人物“读”内容数据的同时实时产生图象数据。
优选地，动画处理器包括至少一个修改处理器，修改处理器适用于根据表达数据修改视位数据。通过修改视位数据，这有助于改变人物的外表，以使人物看起来更逼真。这一般通过根据从存储器得到的修改数据修改视位数据的参数来实现。
动画处理器通常包括至少一个修改处理器，修改处理器适用于修改至少一个规定的表情、行为和动作。这允许人物外表在不同的面貌之间变化。
优选地，实施分别修改行为、表情和动作的各个处理器。这允许单独控制更一般的外表，如全面的头部运动，以规定诸如微笑或皱眉等的外表。因而，在人物看起来难过的情况下，如嘴巴下撇等，那么总体外表是悲伤的。然而，规定的外表可以是大笑或微笑的，因而，即使人物的总体外表是悲伤的，也仍然允许产生微笑。相应地，这允许根据需要对人物外表进行详细的修改，因此有助于产生逼真的图象。
通过逐渐修改视位数据的参数来实现它，允许执行动作、表情和行为的修改，而不会出现不适当的复杂化。然而可替换地，表现视位、表情、动作和行为的单独图象序列可以产生，并在随后的阶段中组合。
通常，所述的或每个修改处理器进一步适用于根据伪随机数据修改视位数据。这允许在系统中包含随机的头部运动或面部表情，由此确保对于任何两个连续的动画，即使基于相同的输入数据文件，人物动画也是不相同的。这有助于减少某些单词、短语、外表组合的重复，从而，有助于增加动画人物的自然外表。
通常，动画处理器进一步包括插值处理器，插值处理器用于内插视位数据以确定在规定的视位之间的时间的人物的外表。这允许产生连续序列的图象。
着色处理器耦合到插值处理器，用于根据内插的视位数据产生图象数据，图象数据表现正在表达言语的人物，所述言语由内容数据定义。具体地，如果处理系统进一步包括视频处理器，着色处理器就形成视频处理器的一部分。这允许图象数据实时着色，而不会用光主处理器的资源，从而有助于实时执行本发明。可替换地，如果有足够的资源，着色处理器就可作为主处理器本身内部的软件来实施。
通常，视频处理器还产生表现动画人物序列的视频数据。当图象数据或视频数据允许动画人物在许多不同的显示器件上显示时，这就有利地显示动画人物。
可选地，本系统进一步包括通讯网络接口，此接口在使用时把计算器件耦合到通讯网络，由此允许动画人物形象传递到耦合到通讯网络的其它处理系统。
在此情况下，所述输入可适用于从通讯网络接收标记数据，允许在外部产生的标记文件用于动画人物序列的产生中。
通常，数据文件是XML(可扩展的标记语言)文件。当允许在XML文件中规定表达数据作为XML标记时，这尤其有利。相应地，用于控制人物外表的内容数据可注释有适当的元素，所述元素定义在说各个单词时应该执行的表达特性。
本系统可在弧立的处理系统上实施。可替换地，本系统可在通讯网络如互联网、局域网或广域网(LAN，WAN)等上实施，从而图象可在中央产生并且可远程观看。
在使用中，网卡7可耦合到通讯网络10，以便与辅助终端站N1、N2...Nn通讯。因此，通讯网络可以是任何形式的网络，如LAN、WAN、无线通讯网络、互联网等。
在处理器中使用的软件在图2中示意性地描述。如图所示，标记输入数据由处理器2接收并传递到分析器A1。运行分析器，以分析所述数据并把结果传递到扩展器A2，扩展器A2在把数据传递到文本-言语处理器B和动画处理器C之前又扩展数据。
如图所示，文本-言语处理器B包括语言处理器B1、串接处理器B2和音频处理器B3。
如图所示，动画处理器C包括顺序耦合在一起的音素处理器C1、视位处理器C2、表情处理器C3、行为处理器C4、动作处理器C5、插值处理器C6和着色处理器C7。运行文本-言语处理器B和动画处理器C分别产生音频和图象输出数据，所述数据然后从处理器2输出。
分析器、扩展器以及所述处理器能获得如图2所示的各种数据。所述输入数据在创建动画人物的过程中使用，这在下面进行详细解释。例如，所述输入数据可直接从键盘输入、从存储器4中的当地文件获得、或通过网络10从远程资源获得。
现在描述

图1和2所示系统的操作。
在使用中，处理器2使用标记数据以创建动画人物形象。标记数据可在I/O器件1上接收，如由I代表，或者可替换地，标记数据通过网络适配器7从网络10接收。另外，标记数据当然可以储存在存储器4中。然后，标记数据经总线8传递到处理器2。
标记数据一般以XML文件的形式提供给处理器2，XML文件包括表示将由人物讲的文字的内容数据以及表示言语表达方式的表达数据。在此情况下，内容数据通常为与将要讲的文字相应的文本形式，但也可使用数字或其它符号。
相反，表达数据包括几种不同的形式。表达数据的主要形式使用预定的元素或标志，以标记由动画人物讲的内容数据。因而，在此情况下，XML标志用于修改它们所涵盖的文本的表达方式。
除此之外，某些人物序列和某些单词也可用作标记数据。因而，例如，三阶段人物的存在使人物在运动到下一由内容数据表示的单词之前停顿。
表达数据一般包括但不限于以下元素上下文、语调、情绪、表情、动作、或其它的直觉事件。然而，除此之外，表达数据可指定其它的表达元素，如视听产品。
因而，例如，可定义表达参数，该表达参数适合于表达期间并在此期间保持不变。例如，输出图象尺寸可规定为表达参数。可替换地，使用与临时提示一致的表达事件，此提示在与内容数据中事件位置相关的时刻发生。例如，虚拟照相机视野的改变可作为表达事件。
相应地，输入数据可看作是一种形式的脚本，它包含内容和相关的提示，以便进行动画表达的制作。
此输入数据可以人工输入，可从数据源获得，或可结合人工和自动输入而获得。相似地，标记可由人工粘贴，或由外部系统产生。
实际使用的标记协议随着本发明的特定实施例而改变。然而，由当前实施例使用的标记方案的实例在附录A中示出，同时有阅读新闻故事的实例脚本。所示实例规定动画人物的各种动作和行为外表。然而，这些规定不是具体的，而是指示随后由处理器2执行的总体人物行为。
正如此实例所示出的，使用XML标志规定各种动作、事件和情绪，当阅读相关文本时表演所述人物。在此实例中，相关文本是由给定标志环绕着的文本。因而，在附录A的实例中，短语 “AmericanBeauty also received awards for best actor，screenplay andcinematography”(美国丽人还获得最佳男演员奖、最佳电影剧本奖、最佳摄影奖)将以愉快的方式表达，因为有“愉快”的情绪标志存在。
在使用中，如上所述，XML文件由分析器接收，分析器用于分析XML数据。分析器使用配置数据a1解释XML文件的内容并提供配置默认值。
这允许默认的表达数据适当地添加到文件中。这例如包括动画人物形象输出的位置指示或者输出的要求格式。还可添加与实际人物动画有关的更复杂的表达数据。
因而，例如，当某些单词由人物表达时，通常希望更加强调它们。具体地，诸如姓名、名词、否定词和数字的单词一般应重读，因为它们通常比文本中的其它单词更重要。因此，分析器适于检测这些单词并随后添加合适的表达数据，使得在表达这些单词时重读它们。
除此之外，如果文件包含一些或几乎不包含表达数据，分析器就能根据配置数据添加基本的表达数据。这确保即使接收到的文件不包含任何表达标记，动画人物也将仍然至少表演一些默认的特征。
随后，内容和表达数据传递到扩展器，扩展器可根据需要对数据进行各种置换和扩展。这用宏数据a2实现，这可规定数据所要求的任何变化。
一旦完成，输入数据就翻译成内容数据和表达数据或标志，其中内容数据表示将发表的言语的文本，表达数据或标志表示在言语中发生的状态变化。因而，表达数据不仅包括通常包含在XML文件中的标志，而且还包括表示外表状况的辅助标志，其中，通过某些符号或单词的存在来代表外表状况。
然后，内容数据和表达数据传递给文本-言语处理器B。此种系统的几个实施例在工业是可行的，但它们全部都以相同的方式工作。
首先，待表达的文字由语言处理器B1分解成给定时期内的基本声音单元或音素。当遇到每个音素时，注明音素临时位置相对于时基的时间基准。
通过扫描接收到的内容数据并用异常词典中的数据b1关联内容数据，确定将由人物表达的音素，这指出口头表达文字所要求的音素。
表达数据用于控制音素的表达方式。因而，可根据表达数据直接或间接地修改音量、音调和速度。表达数据也直接或间接地把间断或停顿引入到音频数据中。
因而例如，如果语调类型是 “有趣”，那么文字的讲说通常比语调类型为 “严肃”的更快。相应地，单个音素的时间基准将根据此信息而改变。
音调变化也设置在表达数据中。这经常应用于已被分析器作了标记的特定单词，如姓名、名词、否定词和数字。赋予每个音素的音调变化将根据所规定的语调类型而再次发生变化。因而，“有趣”语调类型将导致比“严肃”语调类型更加轻松的言语。
语言处理器还提供与在内容数据中遇到的语言特征，如从句边界，有关的反馈数据。
除了为每个音素提供时间基准以外，还为表示表达数据的每个标志和元素以及其它反馈数据产生时间基准。
随后，表示已确定的音素的数据、表达数据、所有反馈数据和相关的时间基准传递到动画处理器C中的音素处理器C1，这在以下将详细解释。
所述音素和它们的各个时间基准的指示传递到串接处理器B2。串接处理器访问表示每个音素的音素数据b2，并把此音素数据串接形成表示音素序列的数据，其中，音素序列将由人物表达。
在此实施例中，音素数据由采样的音频数据和适当的配置数据形成，但是，也可使用替代系统。
应该理解，要求对音素数据作一些修改，以确保所有的音素按次序装配在一起，并确保所有的表达数据被正确表达。
然后，此数据传递到用于产生音频数据的音频处理器B3，其中，当音频数据由音频重放系统表现时，音频数据对应于人物讲述的文字。音频处理器还把时间数据传递到插值处理器C6，这在以下详细描述。
音频数据从文本-言语处理器B输出，并传递到配置数据中指定的输出，这在以下详细描述。
动画处理器C用于创建动画人物的一系列图象。如上所述，表示已确定的音素的数据、表达数据、所有反馈数据和相关时间基准从语言处理器B1输出，由音素处理器C1接收。
音素处理器C1使用音素指示来确定有关的视位。一般而言，可识别的视位的数量比可识别的音素的数量少。大约10-20个视位就可提供可接受的结果，然而，需要超过40个的音素才行。因此，不同的音素导致相同视位的输出。
相应地，可使用音素-视位查找表(LUT)来规定与每个音素对应的视位。也可使用其它技术来减少为提供可接受结果所需的视位数量。
音素处理器C1访问音素-视位查找表(LUT)，并且为每个音素规定相应的视位。因此，音素处理器C1在产生的音素序列中用与每个音素相应的时间基准确定视位。
待用的视位指示传递到视位处理器C2。视位处理器使用此信息访问视位数据c2。视位数据一般为大量参数的形式，当表达各个视位时，视位数据确定人物的面部形态。这通常按照基本面部形态的变化来确定。
除了确定与用于构造待表达文字的音素相对应的视位以外，根据表达数据进一步修改面部形态。这允许人物演示由表达数据定义的动作、表情和其它行为特征。
这通过后述来实现使用视位和表达数据的时间基准确定哪个视位将根据哪个表达数据进行修改，从而表现适当的表情、行为或动作。
为了实现这个，视位数据被提供给表情处理器C3、行为处理器C4和动作处理器C5。这些处理器用于修改人物外表的各个面貌，以确保产生人物的逼真表现。在每个处理器C3、C4、C5中，表达数据用于访问各个表情、行为和动作词素数据c3、c4、c5，这些词素数据确定对人物外表的修改。
表达数据规定视觉外表的绝对或相对修改。因而，相对数据一般从现有水平规定视位数据中参数的修改，然而，绝对值将设置参数为特定的水平。
因而，表情标志与进一步定义人物面部形态的参数相关，所述参数一般按照基本面部形态的变化来定义。
总体表情可以根据基本情绪如快乐、悲伤、愤怒、恐惧、厌恶和惊讶的比例来确定。因而，例如，表情标志规定使人物表现出微笑的变化。表情标志规定一种水平作为参数，因此产生一定程度的微笑。
表达数据的元素可规定多个表达参数，使用相对稀疏的标记来实现复杂的表达控制。多个不同程度的表情可叠加，允许创建复杂的面部表情。这可创建许多种类的面部表情。因而，应该理解，用于每种声音的VISME将根据标记所规定快乐或悲伤等的程度而改变。
除了面部表情以外，表达数据还可规定由行为和动作处理器C4、C5实施的各种行为、动作或手势。这允许面部特征被单独操纵，例如，扬起眉毛或使人物眨眼。还可启动诸如头部和躯体运动的动作和手势，并且修改人物的元素取向，如头部的角度。
这些动作根据时间的变化而确定，使行为或表演的程度在人物中表现。动作可明确地由标记表达数据调用，由内容数据产生或自动地产生。
例如，在输入数据中规定眨眼动作的标志将使人物在待表达言语中的此刻出现眨眼。可替换地，重读单词如否定词的存在将使人物在待表达言语中的此刻轻微点头。
使用各种规则和策略，根据当前文本修改不同参数的应用。例如，如果人物的当前状态定义成一种愤怒，那么眨眼的速度就增加。由视位数据、表情数据、行为数据和动作数据修改的基本人物数据用于产生在特定时刻表现人物的图象数据。因而，例如，快乐的表情标志规定使人物出现微笑的变化。
如上所述，表情或动作也可根据一个或多个预定的单词的存在而修改，这些单词由分析器识别并被适当地标记。
除了以上概述的变化以外，表情、行为和动作处理器可执行伪随机行为。这有效地保证对于相同的输入数据，任何两个连续动画的人物外表可以是不同的，由此增加动画表达的外表自然性。
这可通过把一定程度的随机化增加到视位序列包含的参数中而实现。此种随机行为的水平控制在预定的水平内，以确保人物保持逼真。这在所述表达中保证一定程度的与输入数据无关的变化。
例如，定义的行为可以规定人物在一个句子之后停顿并间断一下。此行为可基于伪随机而修改，以便它不应用在每种情况中，从而观看者不会感觉到相同的程序一再地重复。
因此，特有的行为特征，如无意识的眨眼，可定期地启动。即使在人物不在讲话的时候，这些行为也可继续，产生更自然的外表。
内容数据、表达数据和自动行为的组合产生复杂的变化范围。从有限表达标记获得的效果组合导致实际上无限的可能的视觉序列。
除了与人物有关的标记，表达数据可规定表达的其它元素。这包括但不限于视听产品参数和事件。
表达参数适合于该表达期间并在此期间保持不变。例如，输出图象尺寸可规定为表达参数。
表达事件对应于临时提示，此提示在与内容数据中事件位置相关的时刻发生。例如，虚拟照相机视野的改变可作为表达事件。
视位数据一旦如上所述地修改，就传递至插值处理器C6。借助与每个视位有关的时间数据，人物的状态可结合待表达音素的时间来确定。随后，插值处理器C6使用视位数据参数在视位之间插值，并且计算表现在这些定义的视位中间的面部位置的视觉外表参数。相应地，这产生代表人物面部表情的参数序列，此序列随时间变化。
执行插值，以便根据或近似根据给定的时基或画面速度产生图象。通过内插随时间变化的人物数据修改，在表达中的任何时候都可确定人物的状态。
本领域技术人员应理解，根据从音频处理器获得的时间数据执行插值，以确保音素和视位在相应的时间产生，从而保证人物唇形的同步。
插值处理器对所有参数排序，产生单个动画序列，此序列传递到着色处理器C7以产生图象序列。
着色处理器中的图象产生使用在计算机动画中经常使用的标准过程和程序。因而，人物的表现一般储存为三维几何图形数据，但也可另外使用二维数据。这一般以黑白状态表现人物的抽象计算机模型。
几何图形数据一般根据视位、表情和动画数据，使用在计算机动画中常用的标准技术进行数学变换。
着色处理器可全部由在处理器2上执行的软件形成。然而，优选至少部一分的着色处理器在视频处理器5内执行。在此情况下，待着色的每幅图象所需的指令和几何图形由处理器2计算，并经总线8传递到视频处理器5。
然后，视频处理器进行操作，使用专为此目的设计的硬件对图象实时进行首色并使之具有条理或结构。用于实现此目的的各种图形加速器一般都可使用，允许实时、或根据硬件的性能和特定应用的要求比实时或早或晚地产生输出。
视频处理器5一般在内存中产生图象。图象数据可立即显示为图象，或储存为文件，或在通讯网络上发送用于立即或随后显示。
由文本-言语处理器B产生的音频数据也可经音频适配器6传递，直接从计算器件输出到连接的扬声器12。可替换地，音频数据可以储存在存储器4中，或者经网络传递用于以后重放。
应该意识到，在此情况下，处理器2可有利地适用于把音频数据与视频或图象数据结合在一起，产生包含动画和所附音频序列的单个文件。因而，例如，动画人物的数字视频文件能够产生，用于储存或传递给远程位置。
本领域中技术人员应理解，由于所述数据可用许多不同的形式传递，因此这允许动画人物在许多不同类型的器件上演示。因而，动画人物可在电视或相似的器件上演示。可替换地，动画人物可在互联网、移动电话、个人数据助理(如掌上计算机)上演示。
在这个方面，因此对于远程用户有可能请求重放某些信息，如新闻故事等。此信息由计算器件使用，以产生定义动画人物形象的数据。随后，此数据可传递到远程用户，使远程用户在远程终端如终端站、移动电话或无线终端等上显示人物动画。
附录A下面的XML文件提供表达标记如何应用于内容数据的实例。此实例用于简单地演示原理。实际上，可使用不同的标记方案，并且标记可以明显地更丰富。
<pre listing-type="program-listing"><![CDATA[ ＜？xml version＝＂1.0＂？＞＜script＞　　＜head＞　　＜output width＝＂320＂height＝＂240＂framerate＝＂25＂/＞　　＜scene src＝＂[filename]＂/＞　　＜/head＞　　＜body＞　　＜story type＝＂news＂＞　　＜tone type＝＂light＂＞　　The Oscar for Best Picture has been awarded to American Beauty...The　　English theatre director，　　＜img src＝＂[filename]＂＞　　Sam Mendes，collected the award for directing the movie his feature film　　debut.　　＜/img＞　　＜emotion type＝＂happiness＂＞　　American Beauty also received awards for best actor，screenplay and　　cinematography.　　＜/emotion＞　　＜action src＝＂[filename]＂/＞　　＜/tone＞　　＜/story＞　　＜/body＞]]></pre>此实例从标准声明开始，标准声明指出它是一个XML文档并且此文档本身遵守合式的XML标记的约定。
文档的<head>(标题)单元规定用于表达的<output>(输出)参数，并提供对包含场景细节和待表现人物的<scene>(场景)文件的基准。这些元素是可选的，并且简单地覆盖所有形态默认值。
文档的<body>(主体)单元包含表达和内容数据的剩余部分。
具有属性‘news’(新闻)的<story>(故事)元素规定所包含的段落为新闻故事。此信息由系统使用，包含一些属于新闻故事表现的参数，其中新闻故事是相对于体育故事而言的。
具有属性‘light’(轻松)的<tone>(语调)元素指出所包含的段落在特征上是轻松的，例如这是与严肃或忧郁相对而言的。此信息由系统使用，规定在元素覆盖的内容中人物的总体行为。
未包含在<tag>(标志)中的任何内容被认为是待表达的文本。因此，此表达从文字“The Oscar for Best Picture”(奥斯卡最佳电影)开始，以新闻故事的风格表现并且在语调上是轻松的。
通过首字母大写分析或语言分析而识别的适当名词，如“American Beauty”(美国丽人)，可特殊地重读，产生口头强调和相应的视觉提示。
文本中的省略符号(...)指明在此刻要引入停顿。这是包含在文本自身内的隐含表达标记的实例，与明显标记元素相反。
<img>单元规定在此处要表达的图象的文件位置。在此情况下，将显示图象，直到关闭</img>标志为止。
<emotion>(情绪)单元在此规定属性为“愉快”。此信息用于修改在此元素覆盖的内容的期间人物的行为。例如，人物微笑以显示愉快的表情。
<action>(动作)单元规定描述此处人物将执行的动作的文件的位置。例如，人物在此时向下看，中断与观众的视线交流。此动作可以有隐含的持续时间。可选地，可以明确地规定有意的动作持续时间。
从此简单实例可看出，XML输入数据可规定输出格式、待表达的内容，并提供与内容表达方式有关的隐含和明确的信息。
外部系统可提供部分或全部的标记信息，以控制所述表达。因此不必明显地提供此种信息。
应该理解，与用于简单的文本或图形输出的标记不同，讲述的文本具有固有的持续时间。因此，表达标记具有按时间顺序排列的显著性。
例如，虽然网页的HTML指令一般控制格式、布局或排版，但是，此处所述指令借助指令出现的时间以及它们所含任何文本暗示的持续时间，具有与文本有关的临时值。
可看出，给出适当设计和可表达的元素范围，本发明提供一种语法系统，通过此系统，文本具有附加的标记，以传达与语义内容相应的表达。
权利要求
1.用于创建动画人物形象的装置，本装置包括处理系统，此系统具有用于接收标记输入数据的输入，包括i.表示待表达言语的内容数据；以及ii.表示言语表达方式的表达数据；耦合到所述输入的处理器，用于根据定义的时基产生数据，所述数据包括i.根据内容数据产生的音素数据，以及ii.根据音素数据和表达数据产生的视位数据；所述处理器进一步适用于iii.根据音素数据产生音频数据；iv.根据视位数据产生图象数据；以及v.根据定义的时基对音频和图象数据的输出进行同步。
2.如权利要求1所述的装置，其中，处理器包括用于产生音素数据和音频数据的文本-言语处理器；用于产生视位数据和图象数据的动画处理器；以及具有以下用途的分析器i.分析接收到的标记数据；ii.检测将以预定方式表达的预定内容数据；iii.产生代表预定方式的表达数据；以及iv.用产生的表达数据修改接收到的标记数据。
3.如权利要求2所述的装置，处理系统进一步包括用于储存数据的存储器、耦合到存储器以从其获得预定内容数据的指示的分析器。
4.如权利要求3所述的装置，其中，预定的内容数据包括为姓名、名词、否定词和数字的文字。
5.如权利要求2-4中任一项所述的装置，其中，文本-言语处理器包括语言处理器，语言处理器适用于分析内容数据；确定表示内容数据所需的音素；以及为每个音素产生音素时间基准，音素时间基准指示各个音素应结合时基表达的时刻。
6.如权利要求5所述的装置，其中，语言处理器进一步适用于分析表达数据；产生大量表示表达数据的标志；以及为每个标志产生标志时间基准，标志时间基准指示各个标志应结合时基修改表达方式的时刻。
7.如权利要求5或6所述的装置，其中，语言处理器耦合到存储器，以获得表达各个单词所需的音素的指示。
8.如权利要求5-7中任一项所述的装置，其中，文本-言语处理器包括串接处理器，串接处理器适用于确定表示每个音素的音素数据；以及根据音素时间基准串接音素数据，以产生表现言语的音频数据。
9.如权利要求8所述的装置，其中，串接处理器耦合到存储器，根据确定的音素从存储器获得音素数据。
10.如权利要求5-9中任一项所述的装置，其中，动画处理器包括音素处理器，音素处理器适用于从语言处理器获得确定的音素以及相关的音素时间基准；确定与每个已确定的音素相应的视位；以及根据相应音素的音素时间基准，为每个视位确定视位时间基准。
11.如权利要求10所述的装置，其中，音素处理器耦合到存储器，以便从存储器获得翻译数据，翻译数据指示与每个音素有关的视位，音素处理器使用翻译数据根据已确定的音素确定视位。
12.如权利要求11所述的装置，其中，动画处理器包括耦合到存储器的视位处理器，视位处理器适用于根据已确定的视位从存储器获得视位数据，视位数据包括表示基本人物图象变化所需的大量参数，以表现各个视位。
13.如权利要求12所述的装置，其中，动画处理器包括至少一个修改处理器，修改处理器适用于根据表达数据修改视位数据。
14.如权利要求13所述的装置，其中，所述的或每个修改处理器耦合到存储器，以从存储器获得修改数据，所述的或每个修改处理器使用修改数据以修改视位数据的参数。
15.如权利要求13或14所述的装置，其中，所述的或每个修改处理器适用于修改至少一个规定的表情、行为和动作。
16.如权利要求13-15中任一项所述的装置，其中，所述的或每个修改处理器进一步适用于根据伪随机数据修改视位数据。
17.如权利要求12-16中任一项所述的装置，其中，动画处理器进一步包括插值处理器，插值处理器用于内插视位数据以在规定的视位之间的时候确定人物的外表。
18.如权利要求17所述的装置，其中，处理系统进一步包括耦合到插值处理器的着色处理器，着色处理器用于根据内插的视位数据产生图象数据，图象数据表现正在表达言语的人物，所述言语由内容数据定义。
19.如权利要求18所述的装置，其中，处理系统进一步包括视频处理器，着色处理器形成视频处理器的一部分。
20.如权利要求19所述的装置，其中，视频处理器产生表示动画人物序列的视频数据。
21.如前述任一项权利要求的装置，其中，处理系统进一步包括通讯网络接口，此接口在使用时把计算器件耦合到通讯网络，由此允许动画人物形象传递到耦合到通讯网络的其它处理系统。
22.如权利要求21所述的装置，其中，在使用时所述输入适用于从通讯网络接收标记数据。
23.使用如前面任一项权利要求所述的装置产生图象和/或音频数据。
24.一种使用处理系统创建动画人物形象的方法，本方法包括接收标记输入数据包括表示待表达言语的内容数据；以及表示言语表达方式的表达数据；根据确定的时基产生数据，所述数据包括根据内容数据产生的音素数据；以及根据音素数据和表达数据产生的视位数据；根据音素数据产生视频数据；根据视位数据产生图象数据；以及根据确定的时基对音频和图象数据的输出进行同步。
25.如权利要求24所述的方法，其中本方法进一步包括分析接收到的标记数据；检测将以预定方式表达的预定内容数据；产生代表预定方式的表达数据；以及用产生的表达数据修改接收到的标记数据。
26.如权利要求25所述的方法，其中，预定的内容数据包括为姓名、名词、否定词和数字的单词。
27.如权利要求24-26中任一项所述的方法，其中，产生音素数据的方法包括分析内容数据；确定表示内容数据所需的音素；以及为每个音素产生音素时间基准，音素时间基准指示各个音素应结合时基表达的时刻。
28.如权利要求27所述的方法，其中，此方法进一步包括分析表达数据；产生表示表达数据的大量标志；以及为每个标志产生标志时间基准，标志时间基准指示各个标志应结合时基修改表达方式的时刻。
29.如权利要求27或28所述的方法，其中，确定音素的方法使用分析过的内容数据访问词典，所述词典指示表现各个单词所需的音素。
30.如权利要求26-29中任一项所述的方法，其中，产生音素数据的方法进一步包括使用每个已确定的音素获得各个音素数据；以及根据音素时间基准串接音素数据，以产生表现言语的音频数据。
31.如权利要求27-30中任一项所述的方法，其中，此方法进一步包括根据表达数据修改音素数据。
32.如权利要求26-32中任一项所述的方法，其中，产生视位数据的方法包括确定与每个已确定的音素相应的视位；以及根据相应音素的音素时间基准，为每个视位确定视位时间基准；并且，使用视位获得视位数据。
33.如权利要求32所述的方法，其中，通过根据已确定的音素访问翻译数据来确定视位，翻译数据指示与每个音素相应的视位。
34.如权利要求32或33所述的方法，其中，视位数据包括表达基本人物图象所需变化的许多参数，以表现各个视位。
35.如权利要求32-34中任一项所述的方法，其中，此方法进一步包括通过根据表达数据修改参数而修改视位数据，视位数据被修改以表现至少一个规定的表情、行为或动作。
36.如权利要求32-35中任一项所述的方法，其中，视位数据进一步根据伪随机行为修改。
37.如权利要求32-36中任一项所述的方法，其中，此方法进一步包括内插视位数据，以确定在规定的视位之间时候的人物外表。
38.如权利要求37所述的方法，其中，此方法进一步包括使用内插的视位数据，以产生表现正在表达言语的人物的图象数据，所述言语由内容数据确定。
39.根据权利要求24-38中任一项所述的方法产生图象数据和/或音频数据。
全文摘要
本发明提供用于创建动画人物形象的方法和装置。这通过使用包括内容数据和表达数据的标记数据来实现。随后，此系统使用此信息产生音素和视位数据，所述数据表现由人物表达的言语。通过提供表达数据，这确保人物外表中的至少一部分变化将在视位数据要求人物表现出说话时自动地发生。这有助于动画人物具有非常逼真的外表。
文档编号G10L21/10GK1426577SQ01808810
公开日2003年6月25日申请日期2001年4月6日优先权日2000年4月6日
发明者乔纳森·S·乔伊特, 威廉·J·库柏, 安德鲁·R·伯格斯申请人:阿纳诺瓦有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔纳森.S.乔伊特;威廉.J.库柏;安德鲁.R.伯格斯
技术所有人：奥林吉个人通讯服务公司
我是此专利的发明人

上一篇：语音识别系统中跟踪矩阵存储器的方法
上一篇：倒车警报器的制作方法