一种语音声学特征扩大系统的制作方法

文档序号：16888286发布日期：2019-02-15 22:50阅读：200来源：国知局

本申请属于声音处理技术领域，特别是涉及一种语音声学特征扩大系统。

背景技术：

随着生物工程、计算机科学、数据统计处理、脑成像技术等相关领域的迅速发展，脑科学研究结合了交叉学科的优势，对大脑发育成长和语言学习环境的互动过程进行了全新的探索。研究表明，婴儿在12个月以后就逐渐失去了对非母语语音的敏感性，从而造成了将来外语语音学习的障碍。一个人学习一门外语往往习惯从自己原有的语音知觉出发，去认识新的语言，所以对类似母语发音的外语语音接受得比较快，而对母语中没有的语音，接受起来会比较困难。然而往往在学习与母语类似的语音时，学习者更容易受母语的影响，从而产生口音。比如，对同样一个英语语音，美国与中国人的大脑会有不同的感知。

因为对非母语语音不敏感，学习者首先从听觉上就不能全面地接受语言信息，所以很难正确地发音。同时，学习者每学习一个音素都需要在大脑中建立这个音的语音范畴。这个语音范畴不是一个点，而是一个集合。因为外语学习者与母语学习者接触到的语言环境无法比拟，所以在他们大脑中建立的语音范畴也相去甚远。

在语言学习过程中，将自然语音的声学特征进行扩大后为学习者制作出适合大脑感知的语料，刺激他们对非母语语音失去敏感性的神经系统重新开放进而全面接收语音信息，从而帮助学习者在大脑中形成更为接近母语者的语音范畴。

技术实现要素：

1.要解决的技术问题

基于在语言学习过程中，将自然语音的声学特征进行扩大后为学习者制作出适合大脑感知的语料，刺激他们对非母语语音失去敏感性的神经系统重新开放进而全面接收语音信息，从而帮助学习者在大脑中形成更为接近母语者的语音范畴，本申请提供了一种语音声学特征扩大系统。

2.技术方案

为了达到上述的目的，本申请提供了一种语音声学特征扩大系统，包括语音获取单元，所述语音获取单元与语音处理单元相连接，所述语音处理单元与视频编辑单元相连接；

所述语音获取单元，用于对自然语音进行获取；

所述语音处理单元，用于对自然语音中的频谱特征进行不同程度的扩大，制作语料；

所述视频编辑单元，用于将语音视频与处理过的语音编辑后合成不同视频片段。

可选地，所述语音处理单元包括基于matlab声音处理模块。

可选地，所述基于matlab声音处理模块包括共振峰频率差异扩大子模块、基音同步叠接子模块、频率分离子模块、带宽分离子模块和间隙分离子模块。

可选地，所述基于matlab声音处理模块包括声音分析子模块和声音合成子模块。

可选地，所述视频编辑单元包括格式处理模块和帧频处理模块。

可选地，所述语音处理单元，用于对语音中的频谱特征进行3种不同程度的扩大，分别为300％，208％，144％，以制作语料。

3.有益效果

与现有技术相比，本申请提供的一种语音声学特征扩大系统的有益效果在于：

本申请提供的语音声学特征扩大系统，通过将语音获取单元、语音处理单元、视频编辑单元相连接；对自然语音的频谱特征进行扩大后，制作成视频。模拟婴儿学习语言时接触到的语音的声学特征，为学习者制作出适合大脑感知的语料来刺激大脑，使其对外语语音敏感度已经降低的大脑能够清晰地感知语音的物理声学特征，从而在大脑中建立类似母语的语音范畴，进而提高发音的准确度。

附图说明

图1是本申请的一种语音声学特征扩大系统原理示意图；

图中：1-语音获取单元、2-语音处理单元、3-视频编辑单元、4-基于matlab声音处理模块、5-共振峰频率差异扩大子模块、6-基音同步叠接子模块、7-频率分离子模块、8-带宽分离子模块、9-间隙分离子模块、10-声音分析子模块、11-声音合成子模块、12-格式处理模块、13-帧频处理模块。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

“儿语”的语音单位通过声带的振动频率和口腔、喉腔、鼻腔的共振频率被夸张地表现出来，元音特有的共振峰之间的间隙也被人为地加大了。这种夸张不仅使婴儿容易辨别语音单位，而且同时感受到了母语中区分单词意义的关键语音要素。母亲与孩子说话时的声音具有很大的弹性和变动性，这样的弹性变动有助于婴儿建立有效的声学模式来进行语音归类，也就是在大脑中建立了每一个音素的母语语音范畴。脑科学领域发现婴儿习得母语语音过程有如下特点：1)婴儿有机会听到各种人说话的声音；2)他们有机会看到不同人的发音口形；3)母亲对婴儿说话时的声音通过声带的振动频率和口腔、喉腔、鼻腔的共振频率被夸张地表现出来。这三个要素非常有利用婴儿有利于提高区别语音音素差异的能力，建立全面的母语语音范畴。

语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。

儿向语(matherese，或“妈妈语”)，是成人，尤其是妈妈对婴幼儿说话时使用的语言。语言的内容和形式(所用的词句、语调、语速等)都需适应儿童的语言能力和认识能力，考虑宝宝的理解和接受能力。研究表明，儿向语在语音方面具有比正常语言扩大了的物理声学特征。

参见图1，本申请提供一种语音声学特征扩大系统，包括语音获取单元1，所述语音获取单元1与语音处理单元2相连接，所述语音处理单元2与视频编辑单元3相连接；

所述语音获取单元1，用于对自然语音进行获取；

所述语音处理单元2，用于对自然语音中的频谱特征进行不同程度的扩大，制作语料；

所述视频编辑单元3，用于将语音视频与处理过的语音编辑后合成不同视频片段。

可选地，所述语音处理单元2包括基于matlab声音处理模块4。

可选地，所述基于matlab声音处理模块4包括共振峰频率差异扩大子模块5、基音同步叠接子模块6、频率分离子模块7、带宽分离子模块8和间隙分离子模块9。

可选地，所述基于matlab声音处理模块4包括声音分析子模块10和声音合成子模块11。这里的声音分析子模块10对获取的声音进行分析后，通过声音合成子模块11合成新的声音。

可选地，所述视频编辑单3包括格式处理模块12和帧频处理模块13。

可选地，所述语音处理单元2，用于对语音中的频谱特征进行3种不同程度的扩大，分别为300％，208％，144％，以制作语料。

实施例

放大目标语音对重要的区分声学要素。对于每一组需要培训的语音，需要根据这两个语音声学特征的区别要素来决定具体自然声音处理的物理参数。

通过语音获取单元1获得自然录音后传送给语音处理单元2，通过matlab声音处理模块4将声音中的频谱特征进行3种不同程度的放大，分别为300％，208％，144％，然后与原始声音一起做成四个等级的培训语料。例如英语语音/r-l/对，3种参数为f3分离频率、f3带宽、f3过渡时间。在合成过程中，通过共振峰频率差异扩大子模块5放大/r-l/的共振峰频率差异并降低了f3带宽。/r-l/时间特性的放大则是利用时间偏差技术，通过基音同步叠接子模块6进行相加。再比如英语元音/i-i/对，通过频率分离子模块7、带宽分离子模块8和间隙分离子模块9进行f1和f2的分离频率、带宽，调整f1和f2之间的间隙。

制作时使用matlab声音处理模块4中的“lpcanalysisandsynthesisofspeech”这一子模块。lpc指linearpredictioncoding。包括声音分析子模块10和声音合成子模块11，可以分析并合成新的声音。(操作见：dspsystemtoolbox^tmfunctionalityavailableatthecommandline.)

声音处理完毕后，使用finalcutpro7，包括格式处理模块12和帧频处理模块13，可以在时间轴中混合及搭配不同格式和帧频，将声音的视频通过同步不同版本的慢镜头视频和时间拉伸音轨，然后与处理过的声音放在一起进行编辑、合成不同视频片段，作为进一步制作培训软件的语料。

本申请提供的语音声学特征扩大系统，通过将语音获取单元、语音处理单元、视频编辑单元相连接；对语音的频谱特征进行扩大后，制作成视频。模拟婴儿学习语言时接触到的语音的声学特征，为学习者制作出适合大脑感知的语料来刺激大脑，使对外语语音敏感度已经降低的大脑能够听清晰地感知语音的物理声学特征，在大脑中建立类似母语的语音范畴，进而提高发音的准确度。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程冰
技术所有人：西安交通大学
我是此专利的发明人

上一篇：一种具有自修复效果的桥梁裂缝修复材料及其制备方法与流程
上一篇：一种基于Thingworx的物联网平台的制作方法