具有智能语音交互功能的三维数字人像的制作方法

文档序号:8223284阅读:427来源:国知局
具有智能语音交互功能的三维数字人像的制作方法
【技术领域】
[0001]本发明涉及电数字数据处理和一般的图像数据处理或产生领域,特别涉及具有智能语音交互功能的三维数字人像。
【背景技术】
[0002]三维数字人像,又称为三维化身,是人类在数字世界中的代名词。三维数字人像的制作反映了千百年来人类真实再现和体验三维物理世界的理想。
[0003]近年来,三维数字人像的制作水平迅猛发展。当前,三维数字人像的视觉效果达到了照片真实感,具有以假乱真的效果。但是,在三维数字人像的语音方面,产业界和学术界尚未深入开展相关的研宄工作。
[0004]本发明将提出具有语音交互功能的三维数字人像,三维数字人像程序运行于手机、平板等移动终端上,该三维数字人像能够与用户进行语音交互,与用户的交互行为产生互动,发出与交互行为对应的声音。
[0005]根据检索,与本发明相关的有专利CN201320121861。CN201320121861专利为一种智能语音对话玩具,语音控制系统设置在玩具本体内。与之相比,本发明的对象不再是物理的玩具,而是数字化的三维人像,语音交互的方式更具智能性,具有触摸发音、问题对答、个性化声音录制和播放等功能。

【发明内容】

[0006]为了实现更具智能的三维数字人像,本发明提供一种具有智能语言交互功能的三维数字人像。
[0007]本发明提出的具有语音交互功能的三维数字人像系统,其组成包括以下四个部分:用户输入模块、处理模块、三维数字人像专家系统、反馈输出模块。用户的输入信息,经输入模块的识别后,交给处理模块处理。处理模块在三维数字人像专家系统的帮助下,根据输入信息,将三维数字人像进行相应的状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动。
[0008]1、用户输入模块基于手机和平板电脑等移动终端,利用其触摸屏和语音输入功能,接收用户的输入。
[0009]I)对于用户的触摸动作,根据触摸动作所点击的三维人像模型的位置,区分出用户所点击的模型部位,进而识别出触摸动作的含义,将该识别信息转化为控制信号。在设计过程中,其实现流程如下:a)预先分割三维数字人像模型M为人像部位的集合,即M= {M”i=l,…,N},其中,N为部位的总数目,Mi为特定的部位,例如,头部、上臂、下臂、手、胸、腹、臀、大腿、小腿、脚等。b)对于用户在屏幕上的触摸动作I,检测其点击的人像部位%。从而,根据预先设定的动作知识库,识别出I的含义,进一步表示为控制信号W,并将其传递给处理模块。
[0010]2)对于声音输入I,根据语言模型,识别声音的语义,也将其转化为相应的控制信号W。具体而言,本发明采用基于统计模式识别的隐含马尔科夫模型(Hidden MarkovModel,HMM)。从数学的角度,给定输入信号或特征序列I=U1, I2,…,In},符号集(词典)W = Iff1, W2,…,WJ,求解符号串W=W1, W2,…,Wk,使得:
W = argmax P(W|I)
通过贝叶斯公式,上式可以改写为 W = argmax P (I | W) P (W) / P(I)
上式中,P(IlW)为声学特征模型,P(W)为词串的统计建模。输入串I,P(I)是确定的,因此,可以省略他们。从而,本发明的语音识别问题用下面的公式来表示W = argmax P (I | W) P (W)
在此式中,声学特征模型P(I IW)为整个系统的关键,它包括三个步骤:a)评估,给定隐含马尔科夫(HMM)模型参数以及一串观测序列,如何求得观测序列的似然度;b)解码,给定隐含马尔科夫(HMM)模型参数以及一串观测序列,如何搜索出最优的状态序列;c)训练,给定观测序列,如何得到模型参数。
[0011]简而言之,对于用户的输入I (触摸动作或声音输入),转化为控制信号W。
[0012]2)处理模块
对于识别出的控制信号W,在专家系统的启发下,完成三维数字人像M的相应处理。也就是说,三维数字人像对控制信号做出相应的状态变换。状态变换可以是多样的,例如三维数字人像的肢体动作发生改变、面部表情发生改变、选择出与控制信号相匹配的声音。
[0013]在处理模块中,本发明采用了哈希查找算法,将识别出的控制信号W作为关键字,快速查找出相对应的三维数字人像的状态变换功能/。因此,本发明采用了自适应的哈希查找机制。具体过程包括:用给定的哈希函数构造哈希表、根据选择的冲突处理方法解决状态变换功能的冲突、在哈希表的基础上执行哈希查找。从本质上说,哈希查找是将控制信号映射成它的哈希值,该哈希值对应于状态变换功能。
[0014]但是,需要指出的是,由于三维数字人像的处理是具有相当的复杂度的。同一个控制信号,在不同的上下文背景下,其所对应的状态变换功能是不一样的。因此,需要强调的是,本发明的处理模块,在三维数字人像专家系统的启发下运行。
[0015]3)三维数字人像专家系统
该系统其内部含有大量的三维数字人像处理领域专家水平的知识与经验,进行推理和判断,模拟人类专家的决策过程,从而处理该领域问题。例如,根据控制信号,三维数字人像启动休闲娱乐功能、讲笑话或说评书;或者启动智能聊天功能,与用户进行情感倾诉或调侃挑逗。
[0016]在本发明中,专家系统为具有专门三维数字人像知识和经验的计算机智能程序系统,通过对三维数字人像的建模,采用人工智能中的知识表示和知识推理技术,来确定控制信号的上下文,模拟通常由专家才能解决的三维数字人像状态变换问题,达到具有与专家同等解决问题能力的水平。
[0017]在三维数字人像专家系统中,知识库和推理机为最核心的两个组成部分。知识库是问题求解所需要的领域知识的集合,包括三维数字人像的基本事实、处理的规则和其他有关信息。推理机则是对三维数字人像的知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中。
[0018]4)反馈输出模块
反馈输出模块反馈三维数字人像的状态变换结果,通过手机和平板电脑等移动终端,以视觉和听觉信号的输出方式,反馈给用户,完成三维数字人像与用户间的交互。
[0019]需要指出的是,用户与三维数字人像间的交互是实时的。也就是说,当用户完成相应的输入,无需长时间的等待,三维数字人像即作出了相应的状态改变,并将结果及时地反馈给了用户。
[0020]所述三维数字人像运行在终端设备上,借助移动终端的触摸屏、语音输入等媒介,与用户完成智能语音交互。
[0021]本发明的有益效果是,提出新型的具有语音交
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1