基于共振峰频率的汉语普通话单韵母语音可视化方法

文档序号:2830167阅读:585来源:国知局
专利名称:基于共振峰频率的汉语普通话单韵母语音可视化方法
技术领域
本发明涉及一种汉语普通话单韵母语音可视化方法,特别是一种基于共振峰频率的汉语普通话单韵母语音可视化方法,属于语音可视化领域。
背景技术
语音是人说话时发出的声音,在人们的日常生活中是不可或缺的。但对于听力障碍者而言,无法通过听觉感知语音,造成正常人难以体会的痛苦。研究表明,在人们对外界的感知过程中,获取信息最多的是视觉,其次才是听觉,而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外,经验告诉我们,图表是人们表达思想、理解事物最方便、最直观的方法,所以人们也试图从视觉上来感知语音,或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法,即利用视觉元素来表现语音,达到“通过视觉感知语音”的目的,为听力障碍者理解语音、练习正确发音提供实际帮助。本发明之前,发明语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小,舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量,如虚拟人脸合成、机器自动唇读等等。 MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化,有效剖析了人体的发音过程,有助于听力受损人群练习发音。然而,就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外,视觉效果比较单一,表现力不强。

发明内容
本发明的目的在于提供一种基于共振峰频率的汉语普通话单韵母语音可视化方法,能够将不同语音特征整合为单一图像,使图像具有可读性,直观地读出连续讲话的语音序列。本发明的技术方案是一种基于共振峰频率的汉语普通话单韵母语音可视化方法,包括以下步骤第一步对原始语音信号分帧、加窗,提取每帧信号的短时能量、共振峰频率、基音频率;第二步采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误;第三步利用共振峰频率将不同发音映射为不同色彩方面,采用以下公式i = 0.9* (0.0006* 3 +0.002* 5^)
F3F3-F1Q = Q 02*+ 0.0003*80^0"(6)
权利要求
1.基于共振峰频率的汉语普通话单韵母语音可视化方法,其特征在于包括以下步骤第一步对原始语音信号分帧、加窗,提取每帧信号的短时能量、共振峰频率、基音频第二步采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误; 第三步利用共振峰频率将不同发音映射为不同色彩方面,采用以下公式
2.根据权利要求1所述的基于共振峰频率的汉语普通话单韵母语音可视化方法,其特征在于上述第二步中的的采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误包括以下步骤第一步根据窗起点和窗长得到语音信号的短时能量
3.根据权利要求1或2所述的基于共振峰频率的汉语普通话单韵母语音可视化方法, 其特征在于上述第五步反应发音时间、能量、音调基音频率的变化趋势的方法为横轴为时间轴,以帧为单位,左纵轴为能量,绘制矩形直方图,在每个直方图中填充该帧对应的RGB 色彩,右纵轴以Hz为单位,叠加上反映基音频率的曲线。
全文摘要
本发明为一种基于共振峰频率的汉语普通话单韵母语音可视化方法,包括对原始语音信号分帧、加窗,提取每帧信号的短时能量、共振峰频率、基音频率,采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误;利用共振峰频率将不同发音映射为不同色彩方面并修正在图像上反应发音时间、能量、音调基音频率的变化趋势,利用色彩来区分不同汉语普通话单韵母发音。本发明只提取语音信号的短时能量、共振峰频率、基音频率几个简单的语音声学参数,易于实现;引入软判决,对于每个发音不做硬性判决,而是采用不同色彩表示,不同发音人同一个音的可视化效果求大同而存小异,这使得对于发音的判决更符合人的主观感知。
文档编号G10L21/06GK102176313SQ20091023564
公开日2011年9月7日 申请日期2009年10月10日 优先权日2009年10月10日
发明者匡镜明, 王晶, 董欣玮, 赵胜辉 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1