一种标记语言驱动的中国手语合成系统的制作方法

文档序号：6366979阅读：222来源：国知局

专利名称：一种标记语言驱动的中国手语合成系统的制作方法
技术领域：
本发明涉及数字家庭技术领域，尤其涉及一种标记语言驱动的中国手语合成系统。
背景技术：
随着人机交互技术的不断发展,具有高度真实感的虚拟形象(Embodied Agent)因其更低的人力消耗、更灵活的产生、编辑方式被广泛应用于各种交互领域，推动人机交互接口向着更为友好、自然的方式发展，手语合成更是其中的一项重要应用。由于聋人对由口语文法创建的书面文本存在阅读障碍使其对信息的接收效率远低于健听人，所以目前手语合成研究主要集中在自然文本到手语动画的实时翻译、合成技术，其核心作用是辅助聋人无障碍地接受和理解健听人创建的信息，为其搭建无障碍的信息交流平台。手语作为一种独立的视觉语言，它的主要特点就是多模式(手、头部、面部表情、身体)协同发音，主要目的是表达语义和交流情感.在语言学中，韵律的概念最为突出的体现了人类表达中最有别于机器合成语言的特征节奏、音调和情感等。在手语表达中，这种韵律特征更是通过多种发音方式协同表达，而且和语义、语法密切相关。现有手语合成系统主要研究手势的可视化方法，缺乏对于韵律特征的有效表达，尤其是非手部行为的表达，不仅影响合成效果的真实感还会导致可懂度的下降甚至产生理解上的歧义。在智能虚拟人研究领域，越来越多的研究人员开始关注于人类交流过程中真实感姿态表达方式以及情绪变化对行为的影响等。其中，会话虚拟人(EmbodiedConversational Agent, ECA)与手语合成有着最为相似的研究背景。ECA关注口语交流环境中虚拟人整体行为的产生，其中非语音行为的多模式协同作为口语表达的辅助要素对于传递语义和情感、构建真实感的虚拟人起十分重要的作用。ECA合成系统通过将人类学、心理学、语言学等多学科知识引入到虚拟人行为建模中，构建基于语义、情感、个性等特征量的多模式行为产生控制模型，提高合成行为的灵活性、多样性，使虚拟人能够更具智能化、情感化，更接近人类表达和交流时的真实状态。由于脱离了有声语言这种载体，手语中非语音行为所包含的信息远远超过了一般健听人交流中自然、随机、无特定表征的伴随动作中的信息量，在语言表达的可懂度和真实感上起决定性的作用，因此构建与手语表达特征相适应的多模式行为计算模型将对提高合成效果的可懂度和真实感起重要作用。目前经典的手语合成架构如图I所示通常分为三个处理阶段。第一阶段，完成自然语言到手语语法结构的转换；第二阶段完成动画参数的生成；第三阶段完成绘制和渲染。在相邻的两个阶段间存在通用的、统一的数据接口，音韵层接口(phonetic-levelinterface)和绘制层接口(rendering-level interface)。完成从自然文本到绘制参数的数据转换。语音层接口即手语描述语言的引入，为分离合成内容的剖建阶段与产生阶段提供了有效的支持。手语描述语言既可以通过自然语言处理模块自动产生，又可以通过建立专属的编辑器提供便捷的内容编辑和共享。经规范化设计的手语描述语言填补了自然文本中所缺失的信息，增加了灵活性和可控性，为提升手语动画的表现力，提高真实感及可懂度奠定了基础。手语中定义了五种音素，手形、手掌的朝向、位置、运动和非手部的行为，不同的音素组合构成了不同的手势。语言学家通过构建基于音素的符号系统来记录每个手势的构成，进而描述手语的表达内容。最初语言学上的手语符号系统只是作为手语的书面记录方式而被创建.现在这些符号描述被用作合成系统的语音层接口 .提供准确的行为信息作为动画的驱动脚本。这些直觉化的符号描述虽然易于被人理解却不利于机器处理.所以目前大多数合成系统都设计了基于XML格式的标记文本作为符号系统的等价应用。现有手语描述语言中存在如下需要改进的问题(I)缺乏中国手语特性支持现有手语描述语言还不具备普遍适用各种语言的能力，对中国手语中的一些特殊现象和组成结构并不适用。(2)缺乏韵律标记现有手语描述语言建立在对字面内容翻译的基础上，缺乏对语义、韵律特征的描述。这类信息往往通过抽象描述进行定义，并可采用多种方式进行表达，在功能表述与行为选择间存在多对多的关系。尤其是在视觉语言中，韵律通过一种复杂的涉及全身运动的协作方式来表达，例如疑问的语气可表现为头部的倾斜、眉毛的上扬或者其它依据上下文语义及个性原因所产生的行为。(3)缺乏高层标记定义现有的手语描述语言主要工作于语音层数据接口，在语音层直接定义行为构成虽然能够对表达提供有效的细节描述，如手势音素构成以及身体其它部位的运动方式，但是会在一定程度上限制合成效果的多样性与自然度，造成虚拟人动作的呆板与机械化。此外.这种设计结构并不能有效支持韵律模型的产生机制，并对人工编辑提出了较高的知识水平要求。

发明内容
本发明的目的是为了克服现有技术的缺陷，提供一种标记语言驱动的中国手语合成系统，通过该系统可以提供规范化、形象化的中国手语描述，符合中国手语语法规范，同时具备良好的扩展性。一种标记语言驱动的中国手语合成系统，其由两个模块组成手语韵律控制器和手语行为合成器，并采用中国手语标记语言作为系统输入和模块间的数据接口，具有功能层和音韵层两层结构；手语韵律控制器模块处于韵律实现模型的最上层，完成韵律控制模型定义的功能，将抽象韵律描述转化为具体行为描述的能力，提供对于不同层次文档的处理能力，即识别功能层元素的能力，并提供将其转化为音韵层元素的处理能力，处理能力的高低取决于系统所能识别的元素数量和具体的韵律控制模型；手语韵律控制器应首先根据标记语言的DTD文件验证文档元素的有效性，对不符合标记语言设计规范的文档提出警告，并有权拒绝接受处理；手语行为合成器模块处于韵律实现模型的最下层，完成韵律产生模型定义的功能，将韵律参数转化为可被直接绘制的参数，并提供最终的实现。手语韵律控制器的核心功能是对手语标记语言文档进行处理，实现功能层元素标记到音韵层标记的转化，具体的实现流程为韵律控制器首先将未处理过的手语标记语言文档读入内存，解析并建立用于修改和查找的DOM树，并执行如下的处理a.语法行为的计算即对功能层标记进行展开，在DOM中插入相应的音韵层描述，韵律控制器会从根节点开始顺序扫描文档，为每个词和词根元素建立默认的音韵层描述，包括手部语法行为描述；b.韵律行为选择和韵律参数调整从输入文档的韵律结构可分析得出，按照内部结构优先的原则，控制器从文档的最内层韵律结构开始遍历查找是否存在抽象韵律描述。手语行为合成器包含三个主要的功能标记解析，标记解析阶段主要完成对文档的DOM树的构建，提取关于行为描述的元素和同步关系.用于后续阶段参数生成的计算；参数生成，参数生成模块作为韵律实现模型的最底层，根据文档解析后得到的行为描述，从相应的多模式运动数据库中查找匹配数据，按照韵律需求调整数据，生成渲染参数；渲染，采用动画渲染，根据运动数据帧中的FAP值和FBP值分别驱动身体各部分，逐帧绘制、实现连贯的手语动画。参数生成中，时间计算动画参数的生成需要获得三部分的参数,行为的绝对时间和持续时长、行为方式信息以及行为质量信息；关于行为方式和行为质量信息均可从CSLML中直接提取.因此该阶段的主要任务就是获得时间信息；在手语运动中.手部时间是整体行为时间的基线；需要首先定义每个手势的时长，并通过分析标记在CSLML中的韵律结构和同步参数决定行为之间的相互关系.进而获得每个行为的绝对起始时间和绝对
时长；运动控制阶段是对行为按时间进行排序并决定帧数据的计算顺序，实现运动的并行和串行处理；对于并发或者在时间上有重叠的不同模式的行为，按照如下的顺序依次送入下一个阶段进行动画参数的最终计算身体、头、眼睛、面部、唇动、手，其根本目的在于保证运动的混合和叠加的实现；采用基于关键帧的动画绘制技术，在采样插值阶段首先要根据标记的行为描述匹配并获取行为数据库中关键帧记录，并依据相应的韵律参数和绝对时长，按照系统定义算法拟合运动曲线并最终生成连续的动画帧。本发明技术方案带来的有益效果(I)符合中国手语语法规范和韵律模型数据定义；(2)能够提供规范化的、形象化的中国手语描述能力；(3)该系统具备良好的扩展性；(4)独立实现，可被合成系统应用作为通用数据接口。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。图I是现有技术中手语合成系统框图；图2是本发明标记语言驱动的中国手语合成系统框图；图3是本发明中韵律控制器处理流程图；图4是本发明中手语行为合成器处理流程图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了便于编辑、处理与规范化，克服现有技术存在的缺陷，本发明提供了一种标记语言驱动的中国手语合成系统。标记语言驱动的中国手语合成系统由两个模块组成手语韵律控制器和手语行为合成器，并采用中国手语标记语言作为系统输入和模块间的数据接口。
文档内容设计先将描述的内容分为两类与内容相关的信息和与韵律相关的信息。第一类信息决定了手语表达所要传达的基本信息，即对话的内容。第二类信息是在既定表达内容上附加的辅助信息，即通过特定的表达方式来传递第一类信息，使对话内容产生特定人、特定语境或者特定情感所具有的特征，也是影响合成效果的真实感与可懂度的重要因素。与内容相关的信息，主要体现在对手语语法的支持，提供更具结构化、易于阅读和修改的描述方式。在手势表达形成过程中，中国手语的句法、构词法等语法规范定义了手势的组合和形成方式，本发明遵照中国手语的语法规则建立了词根-词-句子的描述体系，并对手势基本语义单元词根建立了名称索引。与韵律相关的信息，主要体现在对于手语的韵律结构、语气、情感以及强调等韵律特征的描述。文档结构设计两类描述内容的基础上，本发明本身拥有两层结构功能层与音韵层。功能层标记主要停留在抽象层面。例如将情绪标记为愤怒、喜悦或将语气标记为肯定或疑问。对内容信息而言，手势名称即功能标记。音韵层标记将高层的抽象叙述转化为具体的多模式行为及其程度变化。例如在愤怒的情绪下会产生眉毛皱起、鼻子皱起，动作强度加大等行为。而对于内容信息而言，手势的音素构成即为音韵层标记。手语韵律控制器模块处于韵律实现模型的最上层，完成韵律控制模型定义的功能。它提供将抽象韵律描述转化为具体行为描述的能力。手语韵律掩制器需要提供对于不同层次文档的处理能力，即识别功能层元素的能力，并提供将其转化为音韵层元素的处理能力。处理能力的高低取决于系统所能识别的元素数量和具体的韵律控制模型。手语韵律控制器应首先根据标记语言的DTD文件验证文档元素的有效性，对不符合标记语言设计规范的文档提出警告，并有权拒绝接受处理。手语韵律控制器的核心功能是对手语标记语言文档进行处理，实现功能层元素标记到音韵层标记的转化。具体的实现流程如图3所示韵律控制器首先未处理过的手语标记语言文档读入内存，解析并建立用于修改和查找的DOM树，并按照图3所示的顺序，执行如下的处理(I)语法行为的计算即对功能层标记进行展开，在DOM中插入相应的音韵层描述。韵律控制器会从根节点开始顺序扫描文档，为每个词和词根元素建立默认的音韵层描述包括手部语法行为描述。
(2)韵律行为选择和韵律参数调整从输入文档的韵律结构可分析得出，按照内部结构优先的原则，控制器从文档的最内层韵律结构开始遍历查找是否存在抽象韵律描述。手语行为合成器模块处于韵律实现模型的最下层，完成韵律产生模型定义的功能。它将韵律参数转化为可被直接绘制的参数，并提供最终的实现。该模块包含三个主要的功能标记的解析获取标记中记录的行为数据信息；参数生成根据文档解析后得到的行为描述，从相应的多模式运动数据库中查找匹配数据，按照韵律需求调整数据，生成渲染参数。
渲染根据渲染参数将合成结果绘制到屏幕。根据该模块采用的是基于视频的合成方法或者基于动画的合成方法，在运动数据库的建立、参数生成机制和渲染机制上都有所不同。手语行为合成器以音韵层的CSLML脚本作为输入，解析脚本中关于行为的语义描述，将其转换为合成所需的动画参数，并完成绘制.该功能模块的主体流程如图4所示。手语行为合成器内部依功能又可细分为三个模块标记解析、参数生成、动画渲染。I、标记解析标记解析阶段主要完成对文档的DOM树的构建，提取关于行为描述的元素和同步关系.用于后续阶段参数生成的计算。2、参数生成参数生成模块作为韵律实现模型的最底层，完成最后一步的转化过程。(I)时间计算动画参数的生成需要获得三部分的参数行为的绝对时间和持续时长、行为方式信息以及行为质量信息。关于行为方式和行为质量信息均可从CSLML中直接提取.因此该阶段的主要任务就是获得时间信息。在手语运动中.手部时间是整体行为时间的基线。因此，需要首先定义每个手势的时长，并通过分析标记在CSLML中的韵律结构和同步参数决定行为之间的相互关系.进而获得每个行为的绝对起始时间和绝对时长。(2)运动控制运动控制阶段主要完成的任务是对行为按时间进行排序并决定帧数据的计算顺序，实现运动的并行和串行处理。对于并发或者在时间上有重叠的不同模式的行为，按照如下的顺序依次送入下一个阶段进行动画参数的最终计算身体、头、眼睛、面部、唇动、手.其根本目的在于保证运动的混合和叠加的实现。(3)采样与插值本发明采用的是基于关键帧的动画绘制技术，在采样插值阶段首先要根据标记的行为描述匹配并获取行为数据库中关键帧记录。并依据相应的韵律参数和绝对时长，按照系统定义算法拟合运动曲线并最终生成连续的动画帧。3、动画渲染动画渲染模块根据运动数据帧中的FAP值和FBP值分别驱动身体各部分，逐帧绘制、实现连贯的手语动画。以上对本发明实施例所提供的一种标记语言驱动的中国手语合成系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
1.一种标记语言驱动的中国手语合成系统，其特征在于，该系统由两个模块组成手语韵律控制器和手语行为合成器，并采用中国手语标记语言作为系统输入和模块间的数据接口，具有功能层和音韵层两层结构；手语韵律控制器模块处于韵律实现模型的最上层，完成韵律控制模型定义的功能，将抽象韵律描述转化为具体行为描述的能力，提供对于不同层次文档的处理能力，即识别功能层元素的能力，并提供将其转化为音韵层元素的处理能力，处理能力的高低取决于系统所能识别的元素数量和具体的韵律控制模型；手语韵律控制器应首先根据标记语言的DTD文件验证文档元素的有效性，对不符合标记语言设计规范的文档提出警告，并有权拒绝接受处理；手语行为合成器模块处于韵律实现模型的最下层，完成韵律产生模型定义的功能，将韵律参数转化为可被直接绘制的参数，并提供最终的实现。
2.如权利要求I所述的系统，其特征在于，手语韵律控制器的核心功能是对手语标记语言文档进行处理，实现功能层元素标记到音韵层标记的转化，具体的实现流程为韵律控制器首先将未处理过的手语标记语言文档读入内存，解析并建立用于修改和查找的DOM树，并执行如下的处理a.语法行为的计算即对功能层标记进行展开，在DOM中插入相应的音韵层描述，韵律控制器会从根节点开始顺序扫描文档，为每个词和词根元素建立默认的音韵层描述，包括手部语法行为描述；b.韵律行为选择和韵律参数调整从输入文档的韵律结构可分析得出，按照内部结构优先的原则，控制器从文档的最内层韵律结构开始遍历查找是否存在抽象韵律描述。
3.如权利要求I所述的系统，其特征在于，手语行为合成器包含三个主要的功能标记解析，标记解析阶段主要完成对文档的DOM树的构建，提取关于行为描述的元素和同步关系.用于后续阶段参数生成的计算；参数生成，参数生成模块作为韵律实现模型的最底层，根据文档解析后得到的行为描述，从相应的多模式运动数据库中查找匹配数据，按照韵律需求调整数据，生成渲染参数；渲染，采用动画渲染，根据运动数据帧中的FAP值和FBP值分别驱动身体各部分，逐帧绘制、实现连贯的手语动画。
4.如权利要求I或3所述的系统，其特征在于，参数生成中，时间计算动画参数的生成需要获得三部分的参数，行为的绝对时间和持续时长、行为方式信息以及行为质量信息；关于行为方式和行为质量信息均可从CSLML中直接提取.因此该阶段的主要任务就是获得时间信息；在手语运动中.手部时间是整体行为时间的基线；需要首先定义每个手势的时长，并通过分析标记在CSLML中的韵律结构和同步参数决定行为之间的相互关系.进而获得每个行为的绝对起始时间和绝对时长；运动控制阶段是对行为按时间进行排序并决定帧数据的计算顺序，实现运动的并行和串行处理；对于并发或者在时间上有重叠的不同模式的行为，按照如下的顺序依次送入下一个阶段进行动画参数的最终计算身体、头、眼睛、面部、唇动、手，其根本目的在于保证运动的混合和叠加的实现；采用基于关键帧的动画绘制技术，在采样插值阶段首先要根据标记的行为描述匹配并获取行为数据库中关键帧记录，并依据相应的韵律参数和绝对时长，按照系统定义算法拟合运动曲线并最终生成连续的动画帧。
全文摘要
本发明公开了一种标记语言驱动的中国手语合成系统。该系统包括两个模块手语韵律控制器和手语行为合成器，并采用中国手语标记语言作为系统输入和模块间的数据接口。通过该系统可以提供规范化、形象化的中国手语描述，符合中国手语语法规范，同时具备良好的扩展性。
文档编号G06T13/00GK102682644SQ201210083348
公开日2012年9月19日申请日期2012年3月26日优先权日2012年3月26日
发明者刘海亮, 林谋广, 罗笑南, 谭刘源, 陈家熙申请人:中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗笑南;陈家熙;谭刘源;刘海亮;林谋广
技术所有人：中山大学
我是此专利的发明人

上一篇：基于fpga的二维图像重采样算法加速器的制作方法
上一篇：一种投射式电容式触摸屏制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。