具有智能纠错功能的交互式虚拟教师系统的制作方法

文档序号：2583514阅读：217来源：国知局

专利名称：具有智能纠错功能的交互式虚拟教师系统的制作方法
技术领域：
本发明涉及一种虚拟教师系统，尤其涉及一种具有智能纠错功能的交互式虚拟教师系统。适用于智能可视化互动人机对话学习平台。
背景技术：
语音纠错是语言学习和交流中的重要环节，也是人机对话教学需要解决的难点之一。理想状态下，虚拟教师应具有充分的智能性，不仅能自主发现错误，还要分析其错误的根源，知道如何纠正，何时纠正，纠正同时考虑学习者的情感因素，这样才能激发学习者的学习兴趣和学习信心，提高教学效率。而目前市场上存在的软件产品大多纠错时机固定，一旦发现学习者语音不达标，立刻纠正，不能根据学习者的情绪变化随时调整；并且纠错方式单一，只能针对某一确定官方标准语种，识别出学习者的语音，将其与标准语音做简单的对比分析，然后采用打分的形式对发音进行评判，根据分数的高低判断学习者的发音正误，如果系统认为发音有误，则提供正确的发音示范，供学生反复跟读练习，直至系统认为发音符合要求为止。这种纠错示范方式存在的一个明显弊端是，学习者必须具备良好的听音辨音能力，才能获得良好的纠错效果，而事实上，大多数学习者需要长期训练才能获得这种能力，这就与系统的纠错策略形成了一对矛盾体，学习者只能自己摸索发音差异，盲目的“模仿”学习，由于找不到发音差异和错误的真正根源，往往导致反复跟读都不正确发音，长此以往，打击学习者的自信心，造成了学习的厌烦和抵触情绪。为了弥补上述缺点，一些产品增加了声音波形对比图或者发音的视觉演示图，从视觉上提供个人语音与标准语音间的差异信息，虽然可以使学习者看到差异所在，但是并未用明确的文字信息告诉学习者如何改正。美国语言学家S. D. Krashen认为语言使用能力如口语，不是教出来的，而是随着时间的推移，接触大量的可理解语料之后自然获得的，并且同样也能获得必要的语法。据此，本发明设计的纠错评价模块着重分析学习者语音错误的产生原因，虚拟教师的主要任务是向学习者提供可理解的文字信息，辅以多视角发音口型图像同步示范，让学习者明确发音差距及如何纠正，养成主动纠错意识，有利于学习者养成良好的发音习惯，极大地提高语音纠错效率，快速提高学习者的语言交流使用能力。此外现有产品的纠错功能都依赖于语音识别的准确率，即使语音识别技术再出色，也不可能包容所有的干扰情况和类型。一旦由于环境噪声的干扰或学习者明显地域特色的发音使得系统的语音识别出现误判，学习者的纠错学习也会随之出现偏差。 Q. Summerfield等通过实验证明，在有噪背景下，与只提供声音信息相比，同时提供声音和同步的说话人脸视频图像，实验对象对语言的理解正确率提高31%。即使在声学环境良好的情况下，视觉信息的辅助也有利于语音的识别和学习。基于图像处理的唇型识别技术通过说话人的口型变化识别出说话的内容，最早研究源于听障者的学习，其后唇读技术又用于情报获取等场合，1984年Petajan提出了首个计算机唇读系统，听觉视觉语音识别(AVSR)研究开始受到广泛关注，现有相关产品或专利使用范围有限，主要针对语音残障人群。而且该技术侧重于语音口型的识别和演示输出，没有充分挖掘声音图像中隐含的关联信息、分析探究会话中出现的错误根源及纠正方法，对说话人的情感识别关注也较少。本发明在语音识别的基础上结合了基于图像处理的唇型识别技术，对采集的音视频信号分析处理，识别出学习者的语音口型和情感状态，不仅最大限度地提高语音识别的准确性、鲁棒性，而且根据学习者的情感和发音口型利用人工智能方法查找分析错误原因、解释错误、提供改正建议，自主调整纠错时机和纠错策略，增强了纠错的有效性，拓展了各种人群的语音培训和交互学习范畴。

发明内容
本发明为了解决传统的人机对话教学通常只利用单纯的语音识别技术，识别率低、抗噪能力差，语言培训软件产品主要还是处于特定行业的中英文语音合成信息和口语评测状态，在智能纠错互动方面无法满足学习和交流需求的技术问题，提供了一种具有智能纠错功能的交互式虚拟教师系统，它包括音视频数据采集模块、信息识别模块、纠错评价模块、教学策略模块和数据库。所述音视频数据采集模块，通过视频音频两路传感器采集学习者面部图像和声音信号；再由信息识别模块，辨识经融合后的学习者口型、发音内容和情感；由纠错评价模块，从标准口型发音数据库中提取与之对应的标准口型和发音数据，自动评断学习者的发音和口型，并在互动交流中，自主选择恰当的时机反馈给学习者与标准发音口型间的差异信息、差异产生原因，指导学习者如何纠正；再由教学策略模块根据纠错评价模块对学习者的评断数据和情感状态，制定出师生一对一互动的个性化教学实施方案，形成具有智能纠错功能的可视化互动人机对话学习平台。本发明的特点及有益效果运用先进的语音识别技术和图像识别技术实现具有智能纠错功能的虚拟教师，形成智能可视化互动人机对话学习系统。该系统利用语音情感多源信息交融加上虚拟教师视频交互纠正英语发音。将语音识别和基于视觉的图像处理技术结合，提高了系统的识别率、鲁棒性；此外，系统加入了动画演示功能，实现交互模拟、实时沟通的学习模式，弥补了声音教学的枯燥性，提高了学习的趣味性和准确性。该系统至少有三种语音输出格式由学习者设定，并且能直接导入学习者自定义语音。学习者可存储视频对话文件，音频对话文件和文本文件，以备查询。学习者可以自定义输入性别、年龄、地域、英语掌握程度等信息，减少程序判断负担。所述信息识别模块在识别过程中包括语音信息、口型信息和情感信息的相互融合，结合预先输入的学习者年龄、性别、民族和省份等信息学习的情绪，有效提高识别速率和准确率。语音和情感特征的融合研究表明语音信号中的音质特征也包含情感信息，情感不同发音方式及声音韵律也不同，从而可以根据声学特征参数识别人类的三种以上的基本情感，如高兴，生气，惊奇等。根据语音与情感的对应关系，一是判断学习者当前的学习状态及时改变教学内容；二是模拟各种情景，提供表演式朗诵范例或进行角色扮演。教学策略模块根据学习者成绩和学习者情绪自适应调整交互训练学习的难度，若学习者情绪不高，降低交互学习训练的难度；若学习者情绪积极，缓慢提高互学习训练的难度；若学习者情绪平稳，保持交互学习训练的难度；若学习者情绪积极，缓慢提高互学习训练的难度。同时在动画演示时加入情感激励信息，鼓励激发学习者的学习热情。纠错评价模块实现了虚拟教师与学习者智能互动学习的过程虚拟教师根据学习者的发音口型判断学习者的发音口型是否准确，结合专家知识库，对偏差纠正调理，以文字形式反馈给学习者发音不准确的原因和改正办法，并作标准的音像示范，学习者纠正发音的结果反馈回教师，教师再次进行识别判断，根据当前观测信号(即学习者发音口型)与标准信号(标准发音口型)之差递进反馈，在线自适应调整，用文字声音动画多种形式明确偏差的差异点、差异度及如何纠正，力求将学习者的偏差控制在理想的容许范围内，递进式智能纠正观测错误，形成完全自动闭环反馈模式的智能纠错，如此循环往复，直至教师认为学习者的发音口型已经标准，本次学习内容结束，可以进入下一阶段的学习。判定学习者发音口型已经合格的标准是将当前观测信号与标准信号之差量化为百分制，各项分数达到95分以上为合格。包含的各项指标具体为口型分、发音分、情绪分、综合分，其中发音分还可进一步细分为声学分数、韵律分数和感知分数三部分。各项分数可输出到显示屏，供学习者参考。同时虚拟教师将学习者的成绩存入学习者档案，作为今后教学策略调整的依据。纠错评价模块中，虚拟教师着重解决学习者由于受生活地域影响，语言发音中特有的不标准的发音习惯，虚拟教师，根据学习者地域特点可以预判学习者可能出现的语音错误，据此选择相应的课程进行针对性指导。学习者可以根据自己的需要选择虚拟教师作标准口型发音的三维多视角动画示范，包括舌、齿等口腔内的细节演示。融入图像特征，结合预先输入的性别年龄等信息，软件也可以自主选择设计一个与学习者容貌和声音特质相近的虚拟教师，同时可以实时将学习者的发音唇形叠加显示到正确唇形上，直观比较两者差异，还可观察虚拟教师与学习者的声音波形对比图，经过量化的口型发音的各项分数，配以教师指导意见和评语，形象直观的了解自己发音不正确的原因、错在哪里、如何纠正，纠正后的发音口型是否达到了教师的要求。所有的口型发声表情演示及相关文字说明动态同步。融合区域发音特征。中国地域广阔，各区域发言和发音特征显著不同，适应各地发音习惯的语音和唇形语料极度缺乏，当前软件一般只能保证官方语言说得好的用户才可以在对话练习、发音纠错方面取得相对满意的成绩，因此本发明建立不同地域发音习惯的语音和唇形语料数据库，可以提高系统的适应性，对不同个体特征进行针对性的教学辅导。

图1是本发明的整体结构示意图；图2是本发明中信息识别模块的结构示意图；图3是本发明的发音口型差异解释纠正流程图；图4是本发明的智能纠错闭环反馈系统原理图；图5是本发明的闭环反馈控制系统框图；图6是本发明的RBF神经网络模型结构。
具体实施例方式参看图1，具有智能纠错功能的交互式虚拟教师系统，它包括音视频数据采集模块、信息识别模块、纠错评价模块、教学策略模块和数据库。通过所述音视频数据采集模块的视频音频两路传感器，采集学习者面部图像和声音信号；再由信息识别模块，辨识经融合后的学习者发音内容，如口型，面部和心理情感；由纠错评价模块，从标准口型发音数据库数据中提读取与之对应的标准口型和发音数据，自动评断学习者的发音内容、口型是否标准，根据偏差信息结合专家知识，确定偏差产生原因、所属类型、改正方法，进而以文字说明的形式反馈给学习者，帮助其改正偏差，递进式智能纠正学习者的音频和视频口型错误，同时虚拟教师辅以标准口型发声多视角动画演示、声音波形对比图、口型重合对比图等形式直观提示学习者如何正确发音，音像文字多种技术手段结合，错误根源分析、改正方法等的具体解释说明与分数、评语、动画演示动态同步，形成完全自动闭环反馈模式的智能纠错；再由教学策略模块根据纠错评价模块对学习者的评断数据，制定出师生一对一互动的个性化教学实施方案，让学习者反复练习，以提高个人的语言会话水平，同时虚拟教师可根据学习者情绪和学习成绩分析随时调整教学内容。用于采集音频和视频信号的传感器没有特殊限定，可以是学习平台自带的，如智能手机本身带有的摄像头和录音器，也可以是自配的摄像头和麦克，只要其接口能与学习者使用的学习平台匹配即可。摄像头采集学习者的面部图像，学习者可预设参数，确定采集的图像分辨率，采集图像范围是整个面部还是只有唇部区域，系统默认采集区域为唇部区域；麦克采集学习者声音。然后由信息识别模块对采集到的声音和图像两路原始信息进行预处理、唇部区域检测、唇动跟踪和定位、特征提取、特征融合、训练进而识别出语音口型和情绪。参看图2本发明中信息识别模块的结构示意图，做进一步描述。图中虚线部分表示该部分不是必需处理的。对原始信息的预处理包括声音和图像两路信息数字化预处理。其中图像信息的预处理首先用图像增强算法去除噪声，然后根据采集模块的预先设定值确定采集的图像范围是整个人脸还是唇部区域，若采集的是整个人脸，则需要首先从人脸中确定出唇部区域，本发明采用基于人脸结构特征的方法，首先确定眼睛和鼻孔的位置，再根据眼睛鼻孔的位置信息确定嘴唇的大致范围，然后采用基于运动目标的检测方法准确跟踪定位发音时口型的运动变化过程。对声音信息的预处理首先采用视觉通道的唇动信息区分语音和非语音信号时段，再利用去噪滤波技术去除信道噪声和所有可能的背景加性噪声，获得尽可能纯净的学习者声音信号。预处理后的图像和声音信号提取特征供系统训练识别，提取的特征信息包括初级特征语音特征、唇型特征、面部特征(采集的图像范围是整个人脸时)和高级特征情感特征；其中初级特征是从预处理后的音频视频传感器采集的语音图像信息中提取出来的，高级特征不能从传感器采集的信息中直接获得，而是各初级特征中的隐含信息，由基于专家知识的信息融合技术生成的。各初级特征中语音特征具体包括声学特征、韵律特征和感知特征三类特征，例如反应基本声音信息的LPCC(Linear Predictive Cepstral Coefficient，线性预测倒谱系数)特征参数、MFCC (Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数)特征参数，与情感、唇动相关的一次共振峰和二次共振峰、能量、说话速率等特征参数；唇型特征包括与语音、情感相关的内外唇唇线轮廓特征、嘴唇变化速率、人脸侧面图像的嘴唇突出度动态变化特征、口腔内的舌头和牙齿位置变化特征等；面部特征包括眼睛、鼻子、口型的整体轮廓关系特征，面部特征不是必需提取的特征，但如果学习平台的传感器能保证采集图像分辨率的要求，则加入该特征可进一步提高虚拟教师识别学习者情感的识别准确率和识别速度。高级特征情感特征由学习者的声学特征、韵律特征和感知特征、唇线轮廓特征隐含的潜在信息和面部特征融合而成的。训练识别采用人工智能神经网络方法，首先建立训练集样本训练网络，建立朗读内容与语音、唇型、面部表情、心理情感间的对应关系，网络训练好后，即可用于识别任务，将使用者的所有特征作为多权值神经元网络的输入层，输出层为要识别的内容，使得虚拟教师可以实时准确地识别出学习者当前的发音内容、发音口型、情感状态，即完成语音口型情感三重识别。虚拟教师将识别出的学习者发音与之对应的口型变化和当前情绪作为一个整体记录，并输出到纠错评价模块，以便与标准发音和口型比较寻找差异、分析解释错误原因、错误所属类型、改正方法，同时参考学习者情绪，给出发音口型修正建议，评价分数和直观的多视角发音口型演示比对图。参看图3本发明的发音口型差异解释纠正流程图，本发明的纠错重点是自主分析错误根源，提供改正意见，指导学习者有意识的修正不准确的发音口型。具体描述如下，首先把识别出的学习者的语音口型和标准的语音口型的所有特征参数放在一起分类比较，寻找它们之间的差异点并计算差异度，如果差异度超过了容忍的阈值范围，则认为学习者的语音口型错误或不标准，需要纠正；然后根据差异点利用专家知识对错误进行描述，最后解释错误，其中解释错误的关键是根据描述结果分析错误的根源，属于什么类型，回答为什么会犯这样的错误，如何改正。参看图4本发明纠错评价模块中的智能纠错闭环反馈系统原理图，从数学模型的角度对发音口型差异解释纠正流程做进一步描述。图4中y(t)为当前观测信号，即识别出的学习者声音和口型；r(t)为标准信号，即数据库中给定的标准声音和口型；e(t)为观测信号与标准信号的差，即偏差信号。该系统的关键在于根据当前观测信号与标准信号之差，确定差异点和差异度，进而结合专家知识描述错误、解释错误，即将量化的差异数字信息转化为对应的可以理解的文字信息，把学习者错误产生原因、所属类型、改进方法递进反馈给学习者，指导其缩短与标准口型发音间的偏差、递进式智能改正学习者的声音和口型错误，达到完全自动闭环反馈模式的智能纠错。具体数学模型及智能控制纠错算法如下(l)e (t) = y(t)-r(t)(1)(2)E(s) =L[e(t)]，L 为拉普拉斯变换(2)(3) Y (s) = G(S)E(S)(3)(4) y (t) = L—1 [Y (S) ]，L—1 为拉普拉斯变换(4)(5)返回(1) e(t)可以归类为两组偏差信号视频信号偏差包括唇，喉，舌，牙齿和气流特征参数的偏差、具体特征参数包括嘴唇的开合度、宽度，舌、齿与嘴唇的位置形状因子等静态特征和舌、唇收缩度等动态变化特征；音频偏差包括LPCC、MPCC的偏差等。对e(t)中的所有元素计算偏差容许度，其计算公式为偏差与标准信号比值的百分率，如果任一项的偏差容许度大于等于5%，则认为学习者的发音或口型不准确，需要纠正，智能纠错的根本在于对各个信号误差的纠正调理过程，公式表示为
权利要求
1.具有智能纠错功能的交互式虚拟教师系统，它包括音视频数据采集模块、信息识别模块、纠错评价模块、教学策略模块和数据库，其特征在于所述音视频数据采集模块，通过视频音频两路传感器采集学习者面部图像和声音信号；再由信息识别模块，辨识经融合后的学习者口型，发音内容和情绪；由纠错评价模块，从标准口型发音数据库中提读取与之对应的标准口型和发音数据，自动评断学习者的发音内容、发音口型，智能分析发音不准确的原因，并提供修正发音的方法，同时多视角动画示范正确的发音和口型；再由教学策略模块根据纠错评价模块对学习者的评断数据，制定出师生一对一互动的个性化教学实施方案，形成智能可视化互动人机对话学习系统。
2.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述视频音频两路传感器，通过预设参数，确定所采集的学习者面部图像分辨率和所要采集的面部区域。
3.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述纠错示范模块，通过建立闭环智能反馈控制系统，自动决定纠错方式和时机，提供修正口型和发声方法的指导意见，并通过文字解释和图像形象显示两者的差异性。
4.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述信息识别模块提供将语音、情感及口型相互融合的数据。
5.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述纠错评价模块，根据信息识别模块提供的学习者口型和发声的缺陷数据，将学习者多视角的面部图像叠加到对应视角的虚拟教师的面部图像上，通过输出设备形象观察差异点，辅助口型纠正。
6.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述教学策略模块，由虚拟教师根据评价参数和学习者口型和发声的缺陷数据和学习者情绪数据调整教学策略，制定个性化教学方案数据。
7.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述虚拟教师，根据性别，年龄，地域，面貌和发音声线特征而不同，供学习者根据自己喜好及自身特点自由选择。
8.根据权利要求7所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述虚拟教师所有的口型发声表情演示及相关文字说明动态同步。
9.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述信息识别模块的工作流程为对采集到的声音和图像两路原始信息进行预处理、唇部区域检测、唇动跟踪和定位、特征提取、特征融合、训练及语音唇型情绪识别。
10.根据权利要求1所述的具有智能纠错功能的交互式虚拟教师系统，其特征在于所述虚拟教师，根据学习者地域特点可以预判学习者可能出现的语音错误，据此选择相应的课程进行针对性指导。
全文摘要
具有智能纠错功能的交互式虚拟教师系统是为解决目前人机对话教学只限于语音合成信息和口语评测，在学习和交流中无法满足智能纠错互动需求的技术问题而设计的。它包括音视频数据采集、信息识别、纠错评价及教学策略等模块。由视音频两路传感器，采集学习者面部图像和声音信号；再由信息识别模块辨识经融合后的学习者口型、发音和情感；纠错评价模块自动评断学习者发音口型，检测与标准发音口型数据库中的标准数据间的差异，自主选择恰当时机，指明发音不正确的原因和改正方法，提供正确的发音口型及动画示范；再由教学策略模块根据评断数据和情感状态制定出师生一对一互动的个性化教学实施方案。利用语音情感多源信息交融，与虚拟教师视频交互智能纠错、模拟，实现实时沟通，动画演示。提高了声音教学准确性。
文档编号G09B5/06GK102169642SQ201110085339
公开日2011年8月31日申请日期2011年4月6日优先权日2011年4月6日
发明者任涛, 刘洋, 李一波, 王志怡, 王扬扬申请人:李一波

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李一波;任涛;王扬扬;刘洋;王志怡
技术所有人：李一波
我是此专利的发明人