一种语音学习系统的制作方法

文档序号：18678622发布日期：2019-09-13 22:50阅读：376来源：国知局

本申请属于声音处理技术领域，特别是涉及一种语音学习系统。

背景技术：

语音即语言的声音，是语言符号系统的载体，语言依靠语音实现它的社会功能。语音是人类发音器官发出的具有区别意义功能的声音，是最直接地记录思维活动的符号体系。因此，语言虽是一种声音，但又与一般的声音有着本质的区别。语音学习是语言学习的基础。研究表明，婴儿在12个月以后就逐渐失去了对非母语语音的敏感性，从而造成了将来外语语音学习的障碍。由于对非母语语音不敏感，学习者从听觉上不能全面地接受语音信息，因此对同样一个英语语音，美国人与中国人的大脑会有不同的感知。同时，外语学习者与母语学习者接触到的语言环境无法比拟，所以在他们大脑中建立的语音范畴也相去甚远。因此，语音学习的难点从学习者本身来看是大脑对外语语音感知的敏感度降低；从外部语音学习环境来看是语音输入不能有效地配合大脑语音感知的规律。

现有语音学习系统只是针对学习者的发音进行评估，而没有针对语音本身进行训练，使得学习者无法自主纠正语音错误。

技术实现要素：

1.要解决的技术问题

现有语音学习系统只是针对学习者的发音进行评估，并没有针对语音本身进行训练，使得学习者无法自主纠正语音错误。基于此问题，本申请提供了一种语音学习系统。

2.技术方案

为了达到上述目的，本申请提供了一种语音学习系统，包括语料制作单元，所述语料制作单元与语音学习单元相连接，所述语音学习单元与语音测试单元相连接；

所述语料制作单元包括语音获取模块，所述语音获取模块与语音处理模块相连接，所述语音处理模块与视频编辑模块相连接；所述语音获取模块，用于获取自然录音；所述语音处理模块，用于对语音中的频谱特征进行不同程度的扩大，制作语料；所述视频编辑模块，用于将语音视频与处理过的语音编辑后合成不同视频片段；

所述语音学习单元包括数据库模块，所述数据库模块包括登录子模块，所述登录子模块与图标显示子模块相连接，所述图标显示子模块与发音子模块相连接；所述登录子模块，用于设置登录账号和密码；所述图标显示子模块，用于显示语音要素图标；所述发音子模块，用于点击语音要素图标后，对包含语音要素的单词进行发音，同时显示发音者的口型；

所述语音测试单元包括语音图标测试模块，所述语音图标测试模块与发音测试模块相连接，所述发音测试模块与正误判断模块相连接；所述语音图标测试模块，用于显示被测试的语音要素图标；所述发音测试模块，用于播放语音材料，并供学习者对播放的语音进行选择；所述正误判断模块，用于判断并记录学习者选择播放语音的正误表现。

可选地，所述语音处理模块包括基于MATLAB声音处理子模块，所述基于MATLAB声音处理子模块包括共振峰频率差异扩大器、基音同步叠接器、频率分离器、带宽分离器和间隙分离器；所述基于MATLAB声音处理模子块包括声音分析器和声音合成器。

可选地，所述视频编辑模块包括格式处理子模块和帧频处理子模块。

可选地，所述图标显示子模块包括第一显示图标和第二显示图标，所述第一显示图标中的语音要素与所述第二显示图标中的语音要素发音相似。

可选地，所述发音子模块包括若干学习级别。

3.有益效果

与现有技术相比，本申请提供的一种语音学习系统的有益效果在于：

本申请提供的语音学习系统，通过语料制作单元将语音频谱特征进行放大后制作成学习语料，然后通过语音学习单元对语音要素进行学习后，通过语音测试单元检验学习成果，进一步巩固学习效果，从而达到纠正语音错误的目的。该语音学习系统，通过对比母语与外语学习过程的差异，帮助外语学习者创造出符合大脑认知规律的语言学习和应用环境，帮助外语学习者建立类似母语的语音范畴，从而减轻学习者的外语口音问题。

附图说明

图1是本申请的一种语音学习系统原理示意图；

图2是本申请的语料制作单元原理示意图；

图3是本申请的语音学习单元原理示意图；

图4是本申请的语音测试单元原理示意图；

图中：1-语料制作单元、2-语音学习单元、3-语音测试单元、4-语音获取模块、5-语音处理模块、6-视频编辑模块、7-数据库模块、8-登录子模块、9-图标显示子模块、10-发音子模块、11-语音图标测试模块、12-发音测试模块、13-正误判断模块、14-基于MATLAB声音处理子模块、15-共振峰频率差异扩大器、16-基音同步叠接器、17-频率分离器、18-带宽分离器、19-间隙分离器、20-声音分析器、21-声音合成器、22-格式处理子模块、23-帧频处理子模块。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

参见图1～4，本申请提供一种语音学习系统，包括语料制作单元，所述语料制作单元1与语音学习单元2相连接，所述语音学习单元2与语音测试单元3相连接；

所述语料制作单元1包括语音获取模块4，所述语音获取模块4与语音处理模块5相连接，所述语音处理模块5与视频编辑模块6相连接；所述语音获取模块4，用于获取自然录音；所述语音处理模块5，用于对语音中的频谱特征进行不同程度的扩大，制作语料；所述视频编辑模块6，用于将语音视频与处理过的语音编辑后合成不同视频片段；

所述语音学习单元2包括数据库模块7，所述数据库模块7包括登录子模块8，所述登录子模块8与图标显示子模块9相连接，所述图标显示子模块9与发音子模块10相连接；所述登录子模块8，用于设置登录账号和密码；所述图标显示子模块9，用于显示语音要素图标；所述发音子模块10，用于点击语音要素图标后，播放包含语音要素的单词，同时显示发音者的口型；

所述语音测试单元3包括语音图标测试模块11，所述语音图标测试模块11与发音测试模块12相连接，所述发音测试模块12与正误判断模块13相连接；所述语音图标测试模块11，用于显示被测试的语音要素图标；所述发音测试模块12，用于播放语音材料，并供学习者对播放的语音材料进行判断；所述正误判断模块13，用于判断并记录学习者的正误表现。

这里的正误判断模块13是现有的技术，只是为了实现对正确率的记录。

可选地，所述语音处理模块5包括基于MATLAB声音处理子模块14，所述基于MATLAB声音处理子模块14包括共振峰频率差异扩大器15、基音同步叠接器16、频率分离器17、带宽分离器18和间隙分离器19；所述基于MATLAB声音处理子模块14包括声音分析器20和声音合成器21。

可选地，所述视频编辑模块6包括格式处理子模块22和帧频处理子模块23。

可选地，所述图标显示子模块9包括第一显示图标和第二显示图标，所述第一显示图标中的语音要素与所述第二显示图标中的语音要素发音相似。

可选地，所述发音子模块10包括若干学习级别。

本申请提供一种语音学习方法，所述方法包括如下步骤：

步骤1、放大声音的频谱特征；

步骤2、将具备不同频谱特征的语音材料搭配若干发音者，形成不同级别的学习资料；

步骤3、每一个级别学习结束时，对学习者进行测试；

步骤4、若学习者通过测试，则进入下一个级别的学习，否则，继续学习未通过测试的级别；

步骤5、重复步骤3和步骤4，直至掌握学习的语音。

可选地，所述步骤1中频谱特征进行了3种程度的放大，分别为：300％，208％和144％。

可选地，所述步骤2中若干发音者对包含语音要素的单词进行发音。

可选地，所述步骤3中测试是对没有学习过的单词进行随机测试。

可选地，所述步骤4中，测试正确率达到90％以上，则为通过。

实施例

首先将目标对比语音重要区分声学要素的语音声学特征扩大。对于每一组需要学习的语音，需要根据这两个语音声学特征的区别要素来决定具体自然声音处理的物理参数。

通过语料制作单元1中的语音获取模块4获得自然录音后传送给语音处理模块5，通过基于MATLAB声音处理子模块14将声音中的频谱特征进行3种不同程度的放大，分别为300％，208％，144％，然后与原始声音一起做成四个等级的学习语料。例如英语语音/r-l/对，3种参数为F3分离频率、F3带宽、F3过渡时间。在合成过程中，通过共振峰频率差异扩大器15放大/r-l/的共振峰频率差异并降低了F3带宽。/r-l/时间特性的放大则是利用时间偏差技术，通过基音同步叠接器16进行相加。再比如英语元音/i-I/对，通过频率分离器17、带宽分离器18和间隙分离器19进行F1和F2的分离频率、带宽，调整F1和F2之间的间隙。

制作时使用MATLAB声音处理模块4中的“LPC Analysis and Synthesis of Speech”这一子模块。LPC指Linear Prediction Coding。包括声音分析器20和声音合成器21，可以分析并合成新的声音。(操作见：DSP System Toolbox^TMfunctionality available at thecommand line.)

声音处理完毕后，使用Final Cut Pro7，包括格式处理子模块22和帧频处理子模块23，可以在时间轴中混合及搭配不同格式和帧频，将声音的视频通过同步不同版本的慢镜头视频和时间拉伸音轨，然后与处理过的声音放在一起进行编辑、合成不同视频片段，作为进一步制作学习软件的语料。

制作好的语料传送至语音学习单元2，目前将语音学习分为7个级别，如下表所示。每个级别的学习结束后都会有相应的水平测试。学习者通过数据库模块7中的登录子模块8进行注册和设置密码，以后每次输入设置好的用户名和密码即可继续之前的学习和测试，同时数据库模块7存储学习者的学习情况。登录后，先进行第一个级别的学习，界面会出现两个相似的语音要素图标，即第一显示图标和第二显示图标，比如可以是I和i两个图标，点击某一个图标后，会听到包含这个语音要素的单词发音，并伴随着发音者的口型视频。整个学习过程根据学习者的进度快慢大约需要2到3个小时。学习者每学习完一个级别，都需要参加一个测试，测试包含10个没有学习过的单词。只有当测试正确率达到90％以上，学习者才能进入下一个阶段的学习，若正确率没有达到90％以上，学习者将重新接受上一阶段的学习和测试。若学习者第二次接受同一级别的测试，则不用受正确率的限制可以直接进入下一级别的学习。以此类推，共有七个级别，直到结束。

每一个级别使用的单词数和语音材料夸张的等级

本申请涉及的语音学习系统包含如下主要特征：1)放大声音的频谱特征；2)随着学习级别的增加，频谱特征的放大程度逐渐减小直至恢复自然语音，而发音者的数量会逐渐增多；3)提供发音者的发音口型动画；4)提供包含目标音素的多样语音语境；5)学习者自主控制学习速度和进程，不需要作任何判断反应。学习软件中使用的声音语料为真实的单音节单词，发音人为4名母语为英语者(2名男性、2名女性)。

学习者每学习完一个阶段，都需要参加包含10个没有学习过单词的测试。测试正确率达到90％以上，学习者才能进入下一个阶段的学习，否则将重新接受上一阶段的学习和测试。

该语音学习系统利用了微软的ACCESS程序来实现功能齐全的数据库结构，处理所有学习者在学习前测试、后测试和所有学习阶段中产生的大量数据，进行存取、检索、报告和分析等工作。学习刺激使用真实的英语词汇，并且软件界面图标采用的是国际音标。该语音学习系统还可以注册用户名和密码，每个学习者可以在数据库中设置登录账户和密码，因而可以实行在线远程学习，进行大规模的学习和研究。

研究发现，母亲对婴儿说话时使用的语音特征能帮助婴儿更容易辨别语音单位，而且也让他们容易感知母语中区分单词意义的关键语音要素。我们模仿母亲对婴儿说话时使用的语音特征，将自然语音的声学特征进行扩大后为学习者制作出适合大脑感知的语料，刺激对非母语语音失去敏感性的神经系统重新开放进而全面接收语音信息，从而帮助学习者提高感知表现，减轻口音问题。

本申请提供的语音学习系统，通过语料制作单元将语音频谱特征进行放大后制作成学习语料，然后在语音学习单元对语音要素进行学习后，通过语音测试单元检验学习成果，进一步巩固学习效果，从而纠正语音错误。该语音学习系统，通过对比母语与外语学习过程的差异，帮助外语学习者创造出符合大脑认知规律的语言学习和应用环境，帮助外语学习者建立类似母语的语音范畴，从而减轻学习者的外语口音问题。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程冰
技术所有人：西安交通大学
我是此专利的发明人