一种将手势转换为汉藏双语语音的方法与流程

文档序号:15674530发布日期:2018-10-16 19:54阅读:300来源:国知局

本发明涉及手势识别和语音转换技术领域,尤其涉及一种将手势转换为汉藏双语语音的方法。



背景技术:

目前,基于计算机视觉的手势识别、自然语言理解与产生、语音合成等技术已日趋成熟。但面向障碍者的一个手势到语音的翻译系统却仍未在实际生活中得到推广和应用。因此,为了满足言语障碍者的需求,如果能借助于基于视觉的手势识别技术和日趋成熟的语音合成技术,提出一种手势到语音实时转换的研究方法,就能够很好的促进言语障碍者与正常人的日常交流活动,有效地解决了残疾人跟正常人交流中的语音输出问题。这不仅有助于改善和提高聋哑人的生活学习和工作条件,使其为他们提供更好的服务,同时也可以将其应用于计算机辅助聋哑教学、电视节目双语播放、医疗研究和游戏娱乐等诸多方面,从而能够更好地造福于言语障碍者这一特殊群体,对进一步促进人机交互技术的发展具有重要的科学意义和应用前景。

手势识别目前成为了机器视觉中的研究热点,国外麻省理工学院、华盛顿大学、微软、三星电子等展开了基于计算机手势识别方法,国内清华大学、中国科技大学、哈尔滨工业大学、上海交通大学等也分别利用采用基于视觉的组合特征,利用adaboost分类器进行手势识别。在语音合成方面,目前基于隐markov模型的统计参数语音合成技术成为了主要的语音合成方法。

然而,目前现有技术中的手势识别方法大都独立针对语音合成系统和手势识别的问题展开研究,缺乏将手势识别与语音合成结合起来的研究,而在手势识别上,也缺少基于深度学习的手势识别框架。



技术实现要素:

本发明的实施例提供了一种将手势转换为汉藏双语语音的方法,以解决现有技术的问题。

为了实现上述目的,本发明采取了如下技术方案。

一种将手势转换为汉藏双语语音的方法,包括:

利用样本数据对待识别的手势进行手势识别,获取手势的含义;

将所述手势的含义用汉藏双语进行表达得到手势的语义定义,根据所述手势的语义定义生成手势的上下文相关标注;

通过说话人自适应训练利用普通话或藏语的特定说话人的训练语料,获得说话人相关的藏语模型或普通话模型,利用所述说话人相关的藏语模型或普通话模型和所述手势的上下文相关标注合成藏语语音或普通话语音。

进一步地,所述的利用样本数据对待识别的手势进行手势识别,包括:

采集用户输入的手势数据后,对手势数据进行数据整合处理,根据数据整合处理构建数据立方体,将所述数据立方体作为样本数据,采用受限制的玻尔兹曼机模型来调节深度模型的相邻两层之间的权值,实现对深度模型权值的初始化;通过所述深度模型的反馈微调获得所述样本数据的本质特征,利用所述样本数据的本质特征结合支持向量机方法对输入的待识别的静态手势进行识别和分类,得到静态手势的含义。

进一步地,所述的利用样本数据对待识别的手势进行手势识别,包括:

利用视频采集设备采集动态手势数据,建立动态手势数据库,将所述动态手势数据库作为样本数据,根据所述动态手势数据库中的动态手势的运动轨迹模型,提取相邻轨迹点之间的角度值作为手势特征,并采用12方向链码对手势特征进行量化编码,得到最终的手势特征序列;

采用隐马尔可夫模型hmm利用所述手势特征序列对预定义的孤立动态手势进行识别,得到每个预定义孤立动态手势hmm,将每个预定义孤立动态手势的hmm合并成一个基于hmm的门限模型,用基于hmm的门限模型和每个预定义孤立动态手势的hmm来识别输入的待识别的连续动态手势,得到动态手势的含义。

进一步地,所述的将所述手势的含义用汉藏双语进行表达得到手势的语义定义,根据所述手势的语义定义生成手势的上下文相关标注,包括:

将所述手势的含义用汉藏双语进行表达,得到手势的语义定义,利用汉藏双语的文本分析程序获得手势的语义表达的声韵母、音节、词、韵律词、韵律短语和语句,将所述语义表达的声韵母、音节、词、韵律词、韵律短语和语句作为手势文本信息,利用所述手势文本信息产生语义的上下文相关标注,将产生的上下文相关标注连同手势及其语义定义保存到手势的语义词典中。

进一步地,所述的利用所述手势文本信息产生语义的上下文相关标注,包括:

选取普通话和藏语的所有声韵母以及静音和停顿作为合成基元,利用所述合成基元借助语法词典、语法规则库的指导,对所述手势文本信息进行文本规范化处理,利用语法分析对规范化后的手势文本信息进行语句分词,采用基于转换的错误驱动学习算法实现对手势文本的韵律边界预测,得到手势的上下文相关标注。

进一步地,所述的通过说话人自适应训练利用普通话或藏语的特定说话人的训练语料,获得说话人相关的藏语模型或普通话模型,利用所述说话人相关的藏语模型或普通话模型和所述手势的上下文相关标注合成藏语语音或普通话语音,包括:

在生成手势的上下文相关标注后,利用说话人自适应训练实现汉藏双语的语音合成,选取一个多说话人的普通话大语料库和一个单说话人的藏语小语料库作为训练语料,利用所述训练语料通过说话人自适应训练获得汉藏双语的混合语言平均音模型;采用说话人自适应变换方法利用普通话或藏语的特定说话人的训练语料,获得说话人相关的藏语模型或普通话模型,利用所述说话人相关的藏语模型或普通话模型、所述混合语言平均音模型和所述手势的上下文相关标注合成手势对应的藏语语音或普通话语音。

由上述本发明的实施例提供的技术方案可以看出,本发明实施例实现一个手势到语音的转换系统,能够将输入的静态手势和动态手势转换为普通话或藏语。本发明实施例的系统能够促进言语障碍者与正常人的日常交流活动,解决残疾人跟正常人交流中的语音输出问题,不仅有助于改善和提高聋哑人的生活学习和工作条件,同时也可以应用于计算机辅助聋哑教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画制作、医疗研究和游戏娱乐等诸多方面,具有良好的应用前景。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种将手势转换为汉藏双语语音的方法的实现原理示意图;

图2为本发明实施例提供的一种基于深度学习方法的静态手势识别处理流程图;

图3为本发明实施例提供的一种动态手势识别的处理流程图;

图4为本发明实施例提供的一种手势的上下文相关标注生成处理流程图;

图5为本发明实施例提供的一种汉藏双语语音合成流程图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

为了解决目前研究的不足,本发明将手势识别、自然语言处理、语音合成技术相结合,研究手势到语音的转换系统。研究目标是将基于视觉的手势识别技术和跨语言的汉藏双语语音合成技术相结合,实现手势到普通话/藏语语音的转换。

本发明在手势识别中,引入深度学习方法。对手势识别的结果,利用自然语言处理技术获得其语义表达,然后采用说话人自适应训练技术合成出手势对应的语音。本发明实施例首次实现一个基于计算机视觉的手势到语音的转换系统,能够将静态手势和动态手势转换成相应的普通话或藏语语音。在手势识别中,采用深度学习和hmm(hiddenmarkovmodel,隐马尔可夫模型)模型相结合的方法,既能识别静态手势,又能识别动态手势;在语音合成中,采用说话人自适应技术合成普通话语音和藏语语音。

本发明实施例提供的一种将手势转换为汉藏双语语音的方法的实现原理示意图如图1所示,实现过程主要包括手势识别、语音合成声学模型的训练和语音合成三个部分。

在手势识别方面包括基于深度学习方法的静态手势识别,以及动态手势识别。

本发明实施例提供的一种基于深度学习方法的静态手势识别处理流程如图2所示,处理过程包括:采集用户输入的手势数据后,对手势数据进行数据整合处理,根据数据整合处理构建数据立方体,将该数据立方体作为样本数据,并且作为深度模型读入数据的统一格式。然后,采用受限制的玻尔兹曼机模型来调节深度模型的相邻两层之间的权值,从而实现对深度模型权值的初始化。

受限玻尔兹曼机(restrictedboltmannmachines,rbm)调节以层层递增的方式,利用rbm模型来调节每个相邻两层之间的权值,通过这种方式来初始化整个深度模型系统的权值。首先,由可见层向隐藏层转换,再以隐藏层为基准进行抽样,获得隐藏层各个节点的状态;再反向由隐藏层向可见层转化,之后还要进行最后一次的由可见层到隐藏层的转换,为rbm内部的参数调节提供目标。完成三次转换后,分别得到了可见层和隐藏层的重构目标,通过降低重构对象与原对象的差异来达到调节rbm参数的目的。

最后,通过深度模型的反馈微调获得上述样本数据的本质特征。然后,利用上述样本数据的本质特征结合支持向量机方法对输入的待识别的静态手势进行识别和分类,得到静态手势的含义。

本发明实施例提供的一种动态手势识别的处理流程如图3所示,处理过程包括:首先,利用kinect摄像头等视频采集设备进行大量的动态手势数据的实时采集,建立动态手势数据库,该动态手势数据库可以作为样本数据。提取动态手势数据库中的动态手势的手势特征时,根据动态手势的运动轨迹模型,提取相邻轨迹点之间的角度值作为手势特征,并采用12方向链码对手势特征进行量化编码,得到最终的手势特征序列。在手势识别时,采用hmm利用上述手势特征序列对预定义的孤立动态手势进行识别,得到每个预定义孤立动态手势hmm;然后将每个预定义孤立动态手势的hmm合并成一个基于hmm的门限模型。最后,用基于hmm的门限模型和每个预定义孤立动态手势的hmm来识别输入的待识别的连续动态手势,得到动态手势的含义。

图4为本发明实施例提供的一种手势的上下文相关标注生成处理流程图,处理过程包括:在完成对各种大量的静态手势和动态手势的识别后,根据手势的含义,设计一个手势的语义词典。首先将手势的含义用汉藏双语进行表达,得到手势的语义定义。然后利用一个汉藏双语的文本分析程序,获得手势的语义表达的声韵母、音节、词、韵律词、韵律短语和语句等手势文本信息,进而利用这些手势文本信息产生语义的上下文相关标注。产生的上下文相关标注连同手势及其语义定义保存到手势的语义词典中,供语音合成系统根据识别出的手势合成出相应的语音。

上述利用这些手势文本信息产生语义的上下文相关标注的过程包括:选取普通话和藏语的所有声韵母以及静音和停顿作为合成基元,利用合成基元借助语法词典、语法规则库的指导,对手势文本信息进行文本规范化处理,然后利用语法分析对规范化后的手势文本信息进行语句分词。最后,采用基于转换的错误驱动学习算法实现对手势文本的韵律边界预测,从而得到手势的上下文相关标注。

图5为本发明实施例提供的一种汉藏双语语音合成流程图,处理过程包括:在生成手势的上下文相关标注后,利用说话人自适应训练实现汉藏双语的语音合成。首先,选取一个多说话人的普通话大语料库和一个单说话人的藏语小语料库作为训练语料,通过说话人自适应训练获得一个汉藏双语的混合语言平均音模型;然后采用说话人自适应变换方法,利用普通话或藏语的特定说话人的训练语料,获得说话人相关的藏语模型或普通话模型。最后,利用说话人相关的藏语模型或普通话模型、所述混合语言平均音模型和手势的上下文相关标注合成手势对应的藏语语音或普通话语音。

利用普通话和藏语的混合语料,首先采用约束最大似然线性回归(constrainedmaximumlikelihoodlinearregression,cmllr)方法训练来获得汉藏双语的混合语言平均音模型,从而得到上下文相关的多分布半隐markov模型(multi-spacedistributionhiddensemi-markovmodels,msd-hsmms);在进行说话人自适应训练后,将基于msd-hsmm的cmllr自适应算法应用于普通话或藏语的特定人的训练数据,再从混合语言平均音模型中训练得到普通话或藏语的特定人模型。最后,通过基于msd-hsmm的自适应变换算法,对语音数据的频谱、基频及时长参数进行归一化和变换,以便最终利用参数合成器来合成出相应的语音。

综上所述,本发明实施例实现一个手势到语音的转换方法,能够将输入的静态手势和动态手势转换为普通话或藏语。提出一种利用深度学习进行静态手势识别的方法。提出一种利用隐markov模型进行动态手势识别方法。实现一种基于说话人自适应训练的汉藏双语语音合成方法.

本发明实施例的系统能够促进言语障碍者与正常人的日常交流活动,解决残疾人跟正常人交流中的语音输出问题,不仅有助于改善和提高聋哑人的生活学习和工作条件,同时也可以应用于计算机辅助聋哑教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画制作、医疗研究和游戏娱乐等诸多方面,具有良好的应用前景。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1