一种手语场景生成方法及装置与流程

文档序号:17006459发布日期:2019-03-02 02:03阅读:418来源:国知局
一种手语场景生成方法及装置与流程

本发明涉及手语翻译技术领域,尤其涉及一种手语场景生成方法及装置。



背景技术:

为了便于听力障碍等人群与其他人交流,手语成为一种方便快捷的选择。现行推广的标准汉语手语为每一个语素或词汇对应相应的手势,交流时通过手势表达语言中的各个语素或词汇。

对于低龄听力障碍的儿童来说,由于其年龄和听力障碍带来的限制,导致其认知能力,所以难以理解许多概念的表达,而一般教材或教辅资料提供的内容也是有限的,使用过程中的灵活性较差。



技术实现要素:

本发明实施例提供一种手语场景生成方法及装置,以提高手语教学的灵活性。

为了解决上述技术问题,本发明是这样实现的:

第一方面,本发明实施例提供了一种手语场景生成方法,包括以下步骤:

获取输入信息;

解析所述输入信息中包括的至少一个词汇单元,并建立所述词汇单元与手语词汇的对应关系;

提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型;

基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语运动序列,以及在所建立的场景模型中生成所述输入信息对应的场景模型。

可选的,所述解析所述输入信息中包括的至少一个词汇单元之后,还包括:

建立所述词汇单元与唇语词汇的对应关系;

所述提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型之后,还包括:

基于所建立的词汇单元与手语词汇的对应关系,生成与手语运动序列相对应的唇语运动序列。

可选的,所述提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型,包括:

根据所提取的与场景相关的词汇单元将输入信息表示为浅层语义框架,并转换为动作驱动的语义事件流;

根据所述语义事件流调用预设模型,并通过所调用的预设模型生成所述输入信息对应的模型作为所述输入信息的场景动画。

可选的,所述根据所提取的与场景相关的词汇单元将输入信息表示为浅层语义框架之后,还包括:

抽取浅层语义框架的情感语义,并根据预设的对应关系调用与所抽取的情感语义相匹配的背景音乐。

可选的,在所述输入信息包括至少两个所述词汇单元的情况下,所述基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语运动序列,包括:

根据所述输入信息中包括的词汇单元的排列顺序获取与所述词汇单元相对应的手语词汇的排列顺序;

根据手语词汇的排列顺序计算相邻两个手语词汇的手语运动序列之间的衔接点;

根据所述手语词汇的排列顺序,生成所述输入信息对应的手语运动序列,其中,相邻两个所述手语词汇的手语运动序列在所计算的衔接点处衔接。

可选的,所述根据手语词汇的排列顺序计算相邻两个手语词汇的手语运动序列之间的衔接点,包括:

获取相邻两个手语词汇的运动数据,并计算相邻两个手语词汇的运动数据的衔接插值;

所述根据所述手语词汇的排列顺序,生成所述输入信息对应的手语动画,包括:

根据所计算的衔接插值,整合各手语词汇的运动数据,并将所整合的运动数据映射至演示模型,以通过所述演示模型演示输入信息对应的手语动画。

可选的,所述解析所述输入信息中包括的至少一个词汇单元,包括:

对所获取的输入信息根据语法结构分词并获得至少一个基本词汇;

将分词所获得的基本词汇中,存在相应的手语词汇的基本词汇作为一个词汇单元;

根据预设近似替换关系,将分词所获得的基本词汇中,不存在对应的手语词汇的基本词汇,替换为存在对应的手语词汇的近似词汇,并将替换所得的近似词汇作为一个词汇单元。

可选的,所述解析所述输入信息中包括的至少一个词汇单元之后,还包括:

若输入信息的词汇单元中存在指向性动词,则根据指向性动词的主语和谓语确定指向性动词的指向,并根据指向性动词的指向关联相应的词汇单元;

若输入信息的词汇单元中存在代词,则确定代词的指代对象,并将代词替换为相应指代对象对应的词汇单元。

可选的,所述基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语动画,包括:

基于所建立的词汇单元与手语词汇的对应关系,获取每一所述手语词汇的运动数据,并根据所述词汇单元与手语词汇的对应关系将所获取的手语词汇的运动数据映射至演示模型,以通过所述演示模型演示输入信息对应的手语动画。

第二方面,本发明实施例提供了一种手语场景生成装置,包括:

输入模块,用于获取输入信息;

自然语言处理模块,用于解析所述输入信息中包括的至少一个词汇单元,并建立所述词汇单元与手语词汇的对应关系;

动画生成模块,用于提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型;

演示模块,用于基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语动画。

本发明实施例通过解析输入信息中的词汇单元并生成相应的场景模型和手语动画,能够建立手语动画与实际情况之间的对应关系,当应用于教学场景时,能够提高手语教学的灵活程度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种手语场景生成方法的流程图;

图2是本发明实施例提供的另一种手语场景生成方法的流程图;

图3是本发明实施例提供的一种手语场景生成装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,图1是本发明实施例提供的一种手语场景生成方法的流程图,如图1所示,包括以下步骤:

步骤101、获取输入信息。

本实施例的技术方案中首先获取输入信息,输入信息可以以各种形式输入,以适应不同的使用场景。

该技术方案可以应用于课堂。一般情况下,普通学校的教师不通晓手语,对于听力障碍的学生来说,无法听到教师授课内容,这样,可以将教材中的内容或讲义中的内容作为输入信息,以将这些信息转换为手语,便于听力障碍的学生识别。

该方案还可以应用于日常交流,例如一个听力障碍的用户与一个普通用户进行沟通时,可以将普通用户说话的声音作为输入信号,并转换为相应的手语动画以实现两者的沟通。

可选的,在一个具体实施方式中,该步骤101包括:

获取用户输入的语音信号,并将所述语音信号转换为文本信息;或者

识别用户的手写输入并生成相应的文本信息;或者

获取用户导入的文本信息。

在该具体实施方式中,输入信息可以是语音信号,该语音信号可以是用户的说话声音,在使用时,通过麦克风或话筒等录音设备采集语音信号。

该语音信号也可以是电子设备的输入信号,例如手机、平板电脑、电视机等播放的音频。具体使用时,例如通过一台电子设播放音频时,通过直接截取电子设备所的音频信号作为输入的语音信号。具体的,可以通过截取电子设备内录音状态下的音频信号来实现。

输入的语音信号可通过现有的及可能出现的语音识别技术转换为实现该手语场景生成方法的电子设备可识别的文本信息,此处不作进一步限定。

输入信息还可以是文本信息,该文本信息可以用其他用户手写输入实现,也可以通过直接导入一文本文档实现。

上述文本信息的格式可参考现有的文本文档格式,例如doc格式、docx格式、txt格式、pdf格式等,显然,也可以是其他可供实现该手语场景生成方法的电子设备识别的格式,此处不作进一步限定。

通过不同方式获取输入信息,能满足更多的使用场景。

例如,通过将语音信号作为输入信息,可以实现听力障碍人群与普通人群之间的日常交流或者可以满足听力障碍人群观看视频资料等,还能使听力障碍学生直接在普通学校即可学习。

利用手写输入方式生成的文本信息或导入的文本信息作为输入信息则可以满足手语教学使用,有利于特殊教育的推广和普及。

步骤102、解析所述输入信息中包括的至少一个词汇单元,并建立所述词汇单元与手语词汇的对应关系。

在获取输入信息之后,通过解析输入信息获取输入信息中包括的至少一个词汇单元。

词汇单元可以根据语法结构解析确定。

例如,“谢谢”这一输入信息包含“谢谢”这一个动词构成的一个词汇单元,而“谢谢你”则包括动词“谢谢”和宾语“你”这两个词汇单元。所以一段完整的输入信息中包括至少一个词汇单元。

任何表达正确的语句都可以根据语法规则划分为相应的主语、谓语、宾语、定语等语法结构,这些语法结构均可以作为一个词汇单元。

词汇单元也可以根据语素解析确定。

例如“我喝牛奶”这一句话中的“牛奶”从语法结构上来说是宾语,但是在手语表达中,“牛奶”这一词汇是通过“牛”和“奶”这两个语素分别对应的手势组合而成的。所以,该词汇单元也可以根据语素划分。

进一步的,在解析完输入信息中包括的词汇单元后,建立词汇单元与手语词汇的对应关系。

应当理解的是,为了将输入信息以手语的形式表达出来,需要设置一个包括各种手语运动序列的运动数据库,然后通过调用该数据库内的手语运动序列来演示相应的手语动画。通过建立词汇单元与手语词汇的对应关系,能够通过该对应关系调用手语词汇对应的手语运动序列,从而获得输入信息中包括的各词汇单元对应的手语动画。

本实施例中,当所解析的输入信息为文本信息时,该步骤102包括:

解析所述文本信息中包括的至少一个词汇单元。

即该步骤102是对上述步骤101的一个可选具体实施方式中的文本信息进行解析。

步骤103、提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型。

场景模型以动画或静态的图像的形式展示。

进一步的,从解析获得的词汇单元中提取与场景相关的词汇单元,然后根据所提取的词汇单元建立相应的场景模型,能够实现将抽象的输入信息转换为形象的场景模型。

作为一种可选的具体实施方式,该步骤103包括:

根据所提取的与场景相关的词汇单元将输入信息表示为浅层语义框架,并转换为动作驱动的语义事件流;

根据所述语义事件流调用预设模型,并通过所调用的预设模型生成所述输入信息对应的模型作为所述输入信息的场景动画。

上述步骤102之后还可以包括步骤:

建立所述词汇单元与唇语词汇的对应关系。

进一步的,所述提取所解的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型之后还包括:

基于所建立的词汇单元与手语词汇的对应关系,生成与手语运动序列相对应的唇语运动序列。

唇语指的是说话时嘴唇的动作形态,听力障碍人群在与健全人群对话时,也会辅助读取健全人群的唇语以便于理解对话内容。

通过本实施例中唇语词汇的相关内容可参照手语词汇的设置方式,主要区别在于,表达方式及映射的演示模型有所不同,此处不再赘述。

步骤104、基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语运动序列,以及在所建立的场景模型中生成所述输入信息对应的场景动画。

根据词汇单元和手语词汇的对应关系,将手语词汇的运动序列按照词汇单元的顺序进行组合即可获得输入信息对应的手语动画。通过提供该手语动画,能够便于用户直接了解输入信息对应的手语手势。

而场景模型则能够将输入信息对应的场景具象化,例如,如果输入信息为“小明去超市买洗衣粉”,则可以生成一个小朋友去超市内购买洗衣粉的场景和图像。某些听力障碍儿童由于年龄和听力所限,可能无法理解什么是“超市”,而通过语言的解释可能也并不是特别准确,而提供一个超市内部的场景和图,则有助于建立抽象描述与具象化的模型图像的对应关系,有助于提高理解程度。

这样,输入信息被解析成词汇单元,然后根据词汇单元与手语词汇的对应关系生成输入信息对应的手语运动序列并通过演示模型展示对应的手语动画,能够将输入信息以手语动画和场景模型的形式展示,使得用户能够通过生成的手语动画了解输入信息的手语表达以及通过场景模型具象化的理解输入信息表达的内容。

作为一种可选的具体实施方式,在所述输入信息包括至少两个所述词汇单元的情况下,该步骤103包括:

根据所述输入信息中包括的词汇单元的排列顺序获取与所述词汇单元相对应的手语词汇的排列顺序;

根据手语词汇的排列顺序计算相邻两个手语词汇的手语运动序列之间的衔接点;

根据所述手语词汇的排列顺序,生成所述输入信息对应的手语运动序列,其中,相邻两个所述手语词汇的手语运动序列在所计算的衔接点处衔接。

当输入信息包括一个词汇单元时,可以直接调用相应的手语运动序列即可。

而由于实际用户的手指是连续运动的,所以相邻两个手语运动序列需要进行一定的衔接。

因此,本实施例中在输入信息包括至少两个所述单元的情况下,根据词汇单元的排列顺序确定手语词汇的排列顺序。

应当理解的是,词汇单元的排列顺序实际上就是相应的手语词汇的排列顺序。

在确定了手语词汇的排列顺序之后,则计算相邻两个手语运动序列之间的衔接点,该衔接点指的是在最方便的情况下连续表达两个手语运动序列时,这两个手语运动序列的衔接方式。

例如“吃土豆”包括“吃”和“土豆”两个词汇单元。“吃”的手语动作是举起手,表达“吃”,然后放下手。“土豆”的手语动作是举起手,表达“土豆”,然后放下手。如果将这两个手语动作连续起来则是:举起手、表达“吃”、放下手、举起手、表达“土豆”、放下手。显然,这极为不便,位于表达“吃”和表达“土豆”之间的放下手和举起手是多余的动作。

因此,本实施例中进一步计算相邻两个手语运动序列之间的衔接点,例如将“吃土豆”表达为举起手、表达“吃”、表达“土豆”、放下手。

进一步的,还可以将对“吃”和“土豆”之间进行平滑度计算,使两个动作进行的更加连贯。

例如“吃”的手语动作为一手伸食、中指,由外向嘴边拨动,模拟用筷子吃饭状;“土豆”的“土”的手语表达为一手拇、食、中指互捻;“豆”的手语表达为双手拇、食指打成圆块形,如土豆外形。

则可以通过计算这三个动作的连接位置,在表达完“吃”的手语动作之后,该手指继续表达“土”的手语动作,在表达“土”的动作时,另一只手同时移动,以与之前的一只手相配合表达“豆”的手语动作。

这样,能够使得最终获得的输入信息对应的手语运动序列更加连贯。

进一步的,在一个具体实施方式中,是通过计算运动数据的插值来计算手语运动序列的插值的。

所述根据手语词汇的排列顺序计算相邻两个手语词汇的手语运动序列之间的衔接点,包括:

获取相邻两个手语词汇的运动数据,并计算相邻两个手语词汇的运动数据的衔接插值。

手语词汇的运动数据指的是通过演示模型演示手语词汇的动画的时候,演示模型的运动数据,该运动数据实际上是将演示模型的动作进行数据化得到的信息,具体可以为手指或手肘等肢体结构的移动坐标、移动速度等相关运动参数。通过对相邻两个手语词汇的运动数据进行插值运算,可以得出相邻两个手语词汇的运动数据的衔接插值,作为相邻两个手语词汇的手语运动序列的最佳衔接点。

下面,对一种运动数据的插值运算方式作具体说明。

对要进行连接的两段运动序列a和b,假设a有m帧,从中提取出最后k帧数据:a(m-k+1),…,a(m),提取运动序列b中的前k帧数据:b(1),..,b(k),对重叠的k帧运动数据进行插值,从而获得两段运动序列重叠出的k帧新运动数据。

运动序列中每个关节的第i帧新运动数据的空间坐标t(i)为:

t(i)=α(i)pa(m-k+i)+(1-α(i))pb(i),i∈[1,2,...,k]

其中,α(i)为预设的系数函数,其函数值大于或等于0,且小于或等于1。一般来说,当i的取值组件增大时,α(i)的函数值逐渐减小。pa(x)和pb(x)分别为运动序列a和运动序列b的运动函数。

例如,对于第一个合成动作,即i等于1时,该动作由动作序列a中后k帧数据数据中的第一个动作和动作序列b中的第一个动作合成,则该动作的坐标为:

t(1)=α(1)pa(m-k+1)+(1-α(1))pb(1)。

合成动作由动作序列a和动作序列b相叠加而成,由于α(i)的值随着i的增加而减小,则对于叠加后的合成动作来说,越靠前的动作,即i值越小时,由于α(i)的值越大,所以动作序列a的坐标的权重越大,所以越偏向于动作序列a中的动作;而越往后的动作即i值越大,则动作序列b的坐标的权重越大,所以越偏向于动作序列b中的动作。这样,通过该插值运算得到的合成动作实现了动作序列a到动作序列b的平滑过渡。

进一步的,所述根据所述手语词汇的排列顺序,生成所述输入信息对应的手语动画,包括:

根据所计算的衔接插值,整合各手语词汇的运动数据,并将所整合的运动数据映射至演示模型,以通过所述演示模型演示输入信息对应的手语动画。

通过将整合后的运动数据映射至演示模型,能够使演示模型演示整合后的手语动画,提高了各个手语动画衔接的流畅度。

本实施例中,可选的,生成所述输入信息对应的手语动画,包括:

基于所建立的词汇单元与手语词汇的对应关系,获取每一所述手语词汇的运动数据,并根据所述词汇单元与手语词汇的对应关系将所获取的手语词汇的运动数据映射至演示模型,以通过所述演示模型演示输入信息对应的手语动画。

最本实施例中的演示模型为一个人形模型或手形模型,然后通过将手语运动序列映射至该模型,能够实现通过该模型演示输入信息对应的手语动画。以便更直观明了的了解相应的手语动作。同时,所能演示的手语动画和场景模型是根据输入信息生成的,能够表达不同的输入信息,在教学使用过程中并不需要实现制作,同时所能表达的信息也更多,能够提高手语教学的灵活性。

参见图2,图2是本发明实施例提供的另一种手语场景生成方法的流程图,与图1所示的实施例的主要区别在于,本实施例中还对输入信息中的词汇进行处理,并将不存在对应手语词汇的词汇替换成存在相应手语词汇的词汇。

如图2所示,该方法包括以下步骤:

步骤201、获取输入信息。

步骤202、对所获取的输入信息根据语法结构分词并获得至少一个基本词汇。

本实施例中根据语法结构将输入信息分词,并获得至少一个基本词汇。

步骤203、将分词所获得的基本词汇中,存在相应的手语词汇的基本词汇作为一个词汇单元。

如果所建立的数据库中存在相应的手语词汇,那么则可以直接将这些基本词汇作为一个词汇单元。

例如,一些常用的词例如“你”“我”“他”“好”“不好”等,在日常生活中的使用频率非常高,所以一般来说,数据库中都会存储有这些表达对应的手语词汇。

步骤204、根据预设近似替换关系,将分词所获得的基本词汇中,不存在对应的手语词汇的基本词汇,替换为存在对应的手语词汇的近似词汇,并将替换所得的近似词汇作为一个词汇单元。

显然,一些表达可能并不存在相应的手语词汇。例如,“马铃薯”为马铃薯的学名,但是在不同的方言及语言习惯中,马铃薯还被称作“土豆”、“地豆”、“地蛋”、“洋芋子”等,这些词实际上表达的都是马铃薯,但是根据现有手语使用习惯,“土豆”是由“土”和“豆”这两个语素组成的,相应其手势也是由这两个语素的手势组成的,所以其转换为手语动画之后,可能无法被其他用户所理解。因此,本实施例中在手语词汇的数据库中设置统一的表达习惯,例如,将马铃薯的一般表达方式设定为最常用的“土豆”,当输入信息中包括的基本词汇为“马铃薯”、“地豆”、“地蛋”或“洋芋子”时,则将这个词替换为“土豆”,并将“土豆”作为相应的词汇单元。

此外,一些表达的常用表达方式是基本相同的,例如“帮助”、“帮忙”、“帮”等。这些词表达的是同一含义,所以可以以同一手语动画来表达。

这样,如果基本词汇存在于手语词汇的数据库中,则直接将该基本词汇作为一个词汇单元。

如果基本词汇不存在与手语词汇的数据库中,则根据预设的对应关系,将这个基本词汇替换为存在于手语词汇数据库中的近似词汇。

这样,有利于统一不同方言或不同表达习惯人群所使用的手语,更加便于交流。

步骤205、提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型。

步骤206、建立所述词汇单元与手语词汇的对应关系。

在确定了词汇单元之后,则建立词汇单元与手语词汇的对应关系。

可选的,本实施例中还可以包括根据词汇单元的磁性做出一定的适应性调整。

具体的,还包括:

若输入信息的词汇单元中存在指向性动词,则根据指向性动词的主语和谓语确定指向性动词的指向,并根据指向性动词的指向关联相应的词汇单元。

所述解析所述输入信息中包括的至少一个词汇单元之后,还包括:

若输入信息的词汇单元中存在代词,则确定代词的指代对象,并将代词替换为相应指代对象对应的词汇单元。

本实施例中还可以包括对词汇单元中的指向性动词和代词做出调整。

例如,“帮助”这一表达在应用于“需要我帮助你么”和“你来帮帮我可以么”这两个语言环境中时,其手势是相同的,但是指向方向是不一样的,所以,本实施例中进一步针对词汇单元中的指向性动词,根据其主语和位于确定指向,并关联至相应的词汇单元,从而能够在调用手语运动序列的时候,对其指向做出进一步调整。

而针对代词,在表达过程中可能指代不同的物品,这也会对手势造成相应的影响。在表达“将它拿起来”时,由实际的人来表示这一手语的时候,可以直接指向相应的物品来表示“它”,例如,可以指向桌面上的手机或茶杯表示将手机或茶杯拿起来。而当在电子设备中实现该方法时,该手语通过屏幕演示,则难以确定其指示方向,所以难以表达真实含义,因此,本实施例中还可以将根据其指代对象将代词替换为其指代的词汇单元。例如,将“将它拿起来”替换为“将手机拿起来”。这样子,使得表达更加准确。

步骤207、基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语动画,以及在所建立的场景模型中生成所述输入信息对应的场景动画。

最后,根据所所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语动画以及输入信息对应的场景模型。

这样,通过对输入信息中进行分词,并将不存在于手语词汇数据库中的基本词汇替换为该词汇存在于手语词汇数据库中的近似词汇,能够统一表达方式,便于不同方言和表达习惯的用户互相交流。

上述步骤103和步骤205具体可以包括:

根据所提取的与场景相关的词汇单元将输入信息表示为浅层语义框架,并转换为动作驱动的语义事件流;

根据所述语义事件流调用预设模型,并通过所调用的预设模型生成所述输入信息对应的模型作为所述输入信息的场景动画。

浅层语义框架主要涉及谓词框架的构件、角色的界定和分类等,具体可参考现有技术,此处不作进一步限定。

在将输入单元标识为浅层语义框架后,进一步的,将输入信息转换为动作驱动的语义事件流,并通过该语义事件流调用预设的模型,从而完成建模过程,生成输入信息的场景模型。

下面以一个具体的实例做详细解释和说明。

场景-行为描述解析器模块1-12从场景-行为同步描述模块1-11、手语手势动作规划器模块1-17二个进程接收json消息包,放到角色动作生成引擎(cage)模块1-13的缓冲队列排队处理,通过先进先出处理消息包,解析器解释行为描述语言消息包,将之分解为场景标记、人物标记、角色标记、语音文本、人体运动描述、伴随非手语行为(表情、口唇运动)描述,角色动作生成引擎装载场景、人物、角色模型标识并按模块1-10所做的空间布局规划进行摆放,指定的打手语的人物与骨骼关节控制器绑定,按照手势动作的规划,将手语词汇手势插入插值函数进行平滑连接,人物说话的句子文本进入文本到语音生成的语音合成器,进行语音合成,发声的文本映射到口唇运动,在发声同时口唇做出符合汉语发声的口唇运动;动画生成中的角色模型,按照消息包对角色运动的描述,匹配对应的关节控制器并将媒体大数据中定位的动作数据输入到控制器,产生角色骨骼运动,角色说话时的句子文本进入文本到语音生成的语音合成器,进行语音合成,发声的文本映射到口唇运动,在发声同时口唇做出符合汉语发声的口唇运动,同时对消息包中伴随说话的非语言行为(表情、眼睛注视方向、眉毛运动、头部运动),匹配对应的控制器并将媒体大数据中定位的动作数据输入到控制器,计算生成面部表情、眼睛注视方向、眉毛运动、头部运动。角色动作生成引擎模块1-13按帧刷新人物手势、角色行为、场景状态,分时在屏幕空间的二个预定区域建立虚拟人物的手语及说话时的唇语,虚构的场景及角色骨骼动画,并分时进行场景和角色骨骼关节点状态刷新。将角色动作生成引擎计算所得的虚构场景及角色骨骼动画、手语手势、背景音乐音效、虚拟摄像机运动轨迹,实时映射到unity3d或unreal4数字引擎模块1-14进行实时绘制渲染和显示,这就实现手语手势及唇语与图文动画的同步生成,并可自动打包成视频流传输播放。

在一次实施过程中,用户输入的输入信息为“小明在超市买洗衣粉”,该输入信息可以以语音的形式输入,也可以以文本导入或手写输入等形式输入。

在获取该输入信息之后,对输入信息进行处理,以解析其中包括的至少一个词汇单元。具体的处理过程包括但不限于分词、词性标注、词汇相似度计算、动词类型分析、指代消解、句法分析、惯用句型分析等方式,得到句子的语法成分。

本实施例中,输入信息的主语为“小明”,谓语为“买”,宾语为“洗衣粉”,地点状语为“在超市”,通过浅层语义分析得到句子的两条浅层语义描述:主体“小明”,谓词为“买”,客体“洗衣粉”;谓词“空间位置”,客体“超市”;谓词“方位”,客体为“在”。

为了便于描述和体现,可以以分镜头语义脚本的形式来体现将文本浅层语义的分析结果,具体的,分镜头语义脚本为:场景:超市,角色:小明,事件:买,事件主体:小明,事件客体:洗衣粉。

进一步的,浅层语义框架转换为动作驱动的语义事件流如下:场景:超市,角色:小明,事件:买,事件主体:小明,事件客体:洗衣粉。

进一步的,通过将语义事件流中的实体定位到与之语义相似度最高的环境模型-超市、人物模型-男童。模型可以存储于预先设定的数据库内,具体可囊括不同教材对应的内容中所涉及的各种模型以及各种常用词汇对应的模型。

接下来,对角色与环境模型进行解析分离,将小明的模型加载至环境模型超市中,然后将角色动作“买”分解为从小明当前位置“走”到目标位置再“伸手”做拿物体的动作,用行为描述语言编码行为序列。

事件流根据角色小明与场景实体超市进行解析分离,提取小明和超市的空间关系为小明在超市里,结合空间几何体构造的隐含知识:小明在超市中的货架前;以及基本几何约束:小明与货架分离,小明在二楼地面上,进行角色和场景的空间布局摆放计算,用场景描述语言编码空间布局摆放结构。

同时,对角色的行为描述语言与场景描述语言进行同步处理,完成场景与人物行为描述的同步化。

手语动画生成过程中,首先对输入信息“小明在超市买洗衣粉”,进行手语语法的词法及句法分析。

词法处理是基于手语词汇手势大数据分析,按文本词汇词序进行语义查询匹配,由于手语词汇不到一万个,而常用汉语词汇达3万个,需将常用汉语词汇通过相似度计算映射到手语词汇上,故对输入文本每一个词汇都与手语词汇进行相似度计算,如果当前词汇在手语词汇表中直接存在则不用替换,如果当前词汇不存在手语词汇数据之中,则需要找到当前词汇在手语词汇数据中语义相似度最高的词汇,用该手语词汇替换当前词汇。如“买”有手语词汇数据,而“采购”没有手语词汇数据,根据词汇相似度计算两个词在语义上高度相似,故将“采购”加入手语词汇数据“买”的同义词集合。

计算完词汇相似度之后还需要做指向性分析,如“帮助”在手语表达中是有指向性的,如“我帮助你”和“你帮助我”中的“帮助”在打手语时手势的指向动作是不一样的,因此需要对整句话中的动词进行分析,得出动词所关联的主语和谓语分别是什么人称,从而得出动词在当前句子中的指向性。指代消解则是帮助机器对代词进行分析,得出代词所指的名词或者称谓。

词序重构则是对不满足手语语法的词序进行调整,经过词法分析可得到结果词序[小明-在-超市-买-洗衣粉],采用手语语法的句法分析该词序,该词序能够满足手语语法的语序,故不需进行词序重构。

完成手语语言处理之后,接下来需要对梳理好的词汇进行手语动作的映射和合成。以[小明-在-超市-买-洗衣粉]作为手势序列,规划每个手势的起始终止时间、手势之间的平滑过渡,将手势词汇符号与手势动作数据绑定,并用行为描述语言描述连续手语手势。

进一步的,所述根据所提取的与场景相关的词汇单元将输入信息表示为浅层语义框架之后,还包括:

抽取浅层语义框架的情感语义,并根据预设的对应关系调用与所抽取的情感语义相匹配的背景音乐。

应当理解的是,听力障碍并非指的是完全无法听到声音,所以,通过辅以相应的音乐以表达情绪,有助于提高教学过程中对情感表达的理解程度。

应当理解的是,图1所示实施例中和图2所示实施例中各可选的步骤均不是必须的,且均可以单独或互相组合的应用于图1和图2所示的任一实施例中,并实现相应的技术效果,此处不再赘述。

参见图3,图3是本发明实施例提供的手语场景生成装置300的结构图,如图3所示,手语场景生成装置300包括:

输入模块301,用于获取输入信息;

自然语言处理模块302,用于解析所述输入信息中包括的至少一个词汇单元,并建立所述词汇单元与手语词汇的对应关系;

动画生成模块303,用于提取所解析的词汇单元中的与场景相关的词汇单元,并建立相应的场景模型;

演示模块304,用于基于所建立的词汇单元与手语词汇的对应关系,生成所述输入信息对应的手语动画,以及在所建立的场景模型中生成所述输入信息对应的场景动画。

可选的,还包括:

唇语处理模块,用于建立所述词汇单元与唇语词汇的对应关系;

唇语生成模块,用于基于所建立的词汇单元与手语词汇的对应关系,生成与手语运动序列相对应的唇语运动序列。

可选的,所述动画生成模块303,包括:

转换子模块,用于根据所提取的与场景相关的词汇单元将输入信息表示为浅层语义框架,并转换为动作驱动的语义事件流;

场景模型生成子模块,用于根据所述语义事件流调用预设模型,并通过所调用的预设模型生成所述输入信息对应的图像作为所述输入信息的场景模型。

可选的,所述动画生成模块303,还包括:

音乐播放子模块,用于抽取浅层语义框架的情感语义,并根据预设的对应关系调用与所抽取的情感语义相匹配的背景音乐。

可选的,在所述输入信息包括至少两个所述词汇单元的情况下,所述演示模块304,包括:

获取子模块,用于根据所述输入信息中包括的词汇单元的排列顺序获取与所述词汇单元相对应的手语词汇的排列顺序;

计算子模块,用于根据手语词汇的排列顺序计算相邻两个手语词汇的手语运动序列之间的衔接点;

生成子模块,用于根据所述手语词汇的排列顺序,生成所述输入信息对应的手语运动序列,其中,相邻两个所述手语词汇的手语运动序列在所计算的衔接点处衔接。

可选的,所述计算子模块,包括:

衔接插值计算单元,用于获取相邻两个手语词汇的运动数据,并计算相邻两个手语词汇的运动数据的衔接插值;

所述演示模块,具体用于根据所计算的衔接插值,整合各手语词汇的运动数据,并将所整合的运动数据映射至演示模型,以通过所述演示模型演示输入信息对应的手语动画。

可选的,所述自然语言处理模块302,包括:

分词子模块,用于对所获取的输入信息根据语法结构分词并获得至少一个基本词汇;

词汇单元确定子模块,用于将分词所获得的基本词汇中,存在相应的手语词汇的基本词汇作为一个词汇单元;

所述词汇单元确定子模块,还用于根据预设近似替换关系,将分词所获得的基本词汇中,不存在对应的手语词汇的基本词汇,替换为存在对应的手语词汇的近似词汇,并将替换所得的近似词汇作为一个词汇单元。

可选的,还包括:

动词处理模块,用于若输入信息的词汇单元中存在指向性动词,则根据指向性动词的主语和谓语确定指向性动词的指向,并根据指向性动词的指向关联相应的词汇单元。

若输入信息的词汇单元中存在代词,则确定代词的指代对象,并将代词替换为相应指代对象对应的词汇单元。

可选的,所述演示模块304,具体用于基于所建立的词汇单元与手语词汇的对应关系,获取每一所述手语词汇的运动数据,并根据所述词汇单元与手语词汇的对应关系将所获取的手语词汇的运动数据映射至演示模型,以通过所述演示模型演示输入信息对应的手语动画。

本发明实施例提供的手语场景生成装置能够实现图1至图2的方法实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。

优选的,本发明实施例还提供一种移动终端,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述手语场景生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述手语场景生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1