一种具有在线语音测评及语音交互功能的语言学习系统的制作方法

文档序号：11063570阅读：245来源：国知局

本发明属于信息处理领域，具体涉及一种具有在线语音测评及语音交互功能的语言学习系统。

背景技术：

外语学习起来比较不易(比如中国人学习英语，外国人学习汉语)，需要在日常生活、教学中营造充分的语言环境，来辅助学员学习，同样市面上也多了各种语言学习系统来帮助学员学习，例如：点读笔。

点读笔，顾名思义，就是外形卡通的笔式学习工具。主要是采用国际最新光学图像识别技术的高科技产品，点读笔配套书本中加印有二维浅码，点读笔的笔头设有光学感应器，采集所点文字的位置的二维浅码，调取对应的发音信息，通过播放器播放，其原理就是通过带有感光设备的仪器来感应图片上的数字信号，从而触发特定的事件。

但是现有的语言学习系统仅仅具有简单的点读功能，在点读过程中也不能实现对学员点读情况进行反馈，老师或家长不能实时了解每个学员的学习情况。

技术实现要素：

针对现有技术中的缺陷，本发明提供一种具有在线语音测评及语音交互功能的语言学习系统，能够对学员发音进行打分，实现了在线语音测评的功能；同时老师或家长还可以实时跟踪了解每个学员的学习情况。

一种具有在线语音测评及语音交互功能的语言学习系统，包括点读笔、服务器和客户端；点读笔用于获取用户的语音信息，并上传给服务器，还用于播放来自服务器的标准发音信息；服务器设有评分模块和标准发音获取模块，评分模块用于对收到的语音信息进行评分，当得到的分数低于预设的纠正分数时，标准发音获取模块获取对应的标准发音信息，传输给点读笔；服务器还用于生成评分报告，发送给客户端；客户端用于供家长或老师查看评分报告。

优选地，当所述评分模块接收到用户的语音信息，评分模块运行以下步骤：

S1：获取用户的语音信息的声学特征x_t，将声学特征x_t传输给多任务学习的声学字形音素模型；

S2：声学字形音素模型输出三个任务：主任务输出音素q_t的后验概率p₁(q_t|x_t),第二个任务输出字形g_t的后验概率p₂(g_t|x_t)，第三个任务输出对应标准音素的后验概率

S3：通过下式,计算用户的语音信息中，对应的标准音素的分数

其中，0≤α,β≤1；t_{i_start}和t_{i_end}是预设的标准音素对应的起始时间和结束时间；是声学字形音素模型的主任务输出的后验概率。

优选地，所述步骤S1具体为：将用户的语音信息进行快速傅立叶变换，并利用汉明窗函数进行分帧处理，从每一帧的信息中提取一组13维的MFCC特征，分别对每一维度的特征进行归一化处理，得到所述第t帧的声学特征x_t。

优选地，所述评分报告包括分数、排名情况、进步情况、错题库、纠正情况。

优选地，所述点读笔还支持在线更新，点读笔用于连接网络后下载学习资料，或者是接收其对应客户端推送的学习资料。

优选地，还包括登录卡，登录卡的外表面设有多个不同的编码，登录卡内对应每个编码的位置印刷有不同的二维浅码；当点读笔点在登录卡的编码位置处时，点读笔识别登录卡上该编码对应的二维浅码；点读笔将依次读取到的所有二维浅码连成的编码串定义为用户的用户名。

优选地，所述编码为9个，且均匀分布形成三行三列的九宫格形状；所述点读笔中预设有用户名编码数目，当点读笔识别到的二维浅码的个数达到用户名编码数目时，依次读取到的所有二维浅码连成的编码串定义为所述用户的用户名。

优选地，所述点读笔检测到用户的用户名时，发送给服务器，服务器标记该用户开始学习，当服务器检测到来自点读笔的停止学习命令时，标记该用户学习结束。

优选地，所述服务器针对每个学员均设有家长客户端ID，服务器用于根据每个学员的学习情况生成所述评分报告，发送给该学员对应的家长客户端ID的客户端。

优选地，所述语言学习系统还用于实现对讲功能，即点读笔用于获取用户的对讲语音信号并发送给服务器，服务器接收对讲语音信号并发送给客户端；客户端用于获取家长或老师的对讲语音信号并发送给服务器，服务器接收对讲语音信号并发送给点读笔。

由上述技术方案可知，本发明提供的具有在线语音测评及语音交互功能的语言学习系统，能够对学员发音进行打分，实现了在线语音测评的功能；同时老师或家长还可以实时跟踪了解每个学员的学习情况。该系统还用于实现对讲功能，即老师在客户端发送语音到服务器，然后服务器发给点读笔，学员从点读笔发送语音到服务器，然后服务器发送给客户端。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本实施例中语言学习系统的系统框图。

图2为本实施例中语言学习系统的数据交互图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

一种具有在线语音测评及语音交互功能的语言学习系统，如图1、2所示，包括点读笔、服务器和客户端；点读笔用于获取用户的语音信息，并上传给服务器，还用于播放来自服务器的标准发音信息；服务器设有评分模块和标准发音获取模块，评分模块用于对收到的语音信息进行评分，当得到的分数低于预设的纠正分数时，标准发音获取模块获取对应的标准发音信息，传输给点读笔；服务器还用于生成评分报告，发送给客户端；客户端用于供家长或老师查看评分报告。

使用时，用户开启点读笔并将点读笔、服务器和客户端应用绑定。点读笔和服务器通过无线网络进行通信，服务器和客户端应用通过网络连接方式进行通信。用户用点读笔点击配套书本时，点读笔播放正确的读法，然后用户跟读，点读笔录音,点读笔将录音音频发送到服务器。服务器运行评分模块以及标准发音获取模块，然后返回打分或者纠正的标准发音信息等反馈结果给点读笔，使得用户能够了解自己哪些发音错误等信息，能够对学员发音进行打分，实现了在线语音测评的功能。同时服务器还用于生成评分报告，发送给客户端，老师或家长便可以查看客户端实时跟踪了解每个学员的学习情况。所述点读笔上还设有也就显示屏，用于显示反馈信息，或者是通过喇叭播放“你好棒！”，“继续加油”等对用户进行鼓励。

当所述评分模块接收到用户的语音信息，评分模块运行以下步骤：

S1：获取用户的语音信息的声学特征x_t，将声学特征x_t传输给多任务学习的声学音素模型；具体为：将用户的语音信息进行快速傅立叶变换，并利用汉明窗函数进行分帧处理，窗长25毫秒,帧移10毫秒。从每一帧的信息中提取一组13维的MFCC特征(即MFCC，Mel频率倒谱系数的缩写)，分别对每一维度的特征进行归一化处理，使之平均值为0,标准方差为1，得到所述第t帧的声学特征x_t。也可以使用21帧的MFCC特征(即前10帧,当前帧，后10帧)作为声学特征x_t。

S2：多任务学习的声学字形音素模型(Multi-Task-Acoustic-Graphemic-Phonemic-Model,MT-AGPM)是一个深度神经网络(Deep Neural Network,DNN)，相比传统的声学模型(AM)，该模型引进了多任务训练学习，从而可以更好地学习“字形到错误发音”和“标准音素到错误发音”的规律。

声学字形音素模型输出三个任务：主任务输出音素q_t的后验概率p₁(q_t|x_t),第二个任务输出字形g_t的后验概率p₂(g_t|x_t)，第三个任务输出对应标准音素的后验概率传统的音素级别的声学模型(P-AM)是一个深度神经网络，它使用第t帧的声学特征x_t，以产生在第t帧的音素q_t的后验概率p(q_t|x_t)。利用音素级别的声学模型(P-AM)，根据已知的对话文本中的单词，提取出其对应的标准音素序列q^Dict，然后和语音进行强制对齐，最后可以提取在第t帧的带有上下文信息的音素该音素包括了(N_p1+1+N_p2)个音素信息,即第t帧的前N_p1个音素,当前音素,后N_p2个音素。N_p1和N_p2的值通常取为3。

字形级别的声学模型(G-AM)是一个深度神经网络，它使用第t帧的声学特征x_t，以产生在第t帧的字形g_t的后验概率p(g_t|x_t)。利用G-AM，字形序列g可以和语音进行强制对齐，然后可以提取在第t帧上的带有上下文信息的字形g_t。该字形g_t包括了(N_g1+1+N_g2)个字形信息,即第t帧的前N_g1个字形,当前字形,后N_g2个字形。N_g1和N_g2的值通常取为3。

S3：利用声学字形音素模型的主任务输出的音素q_t的后验概率p₁(q_t|x_t)，我们可以利用下式，计算出第i个标准音素的分数。其中t_{i_start}和t_{i_end}是标准音素对应的起始时间和结束时间。参数α和β的值可以根据学习者的水平，取不同的值：通常对于初级学习者，α取较大的值(例如0.2)，β取较小的值(例如0.5)；对于高级学习者，α取较小的值(例如0.1)，β取较大的值(例如0.9)。

，其中，0≤α,β≤1,是声学字形音素模型的主任务输出的音素的后验概率,表示t_{i_start}到t_{i_end}时间段内，的后验概率的最大值与α的总和的β次方。

所述评分报告包括分数、排名情况、进步情况、错题库、纠正情况。服务器每隔一段时间(例如一天，一周等)，服务器将根据用户的学习情况生成评分报告发送到客户端应用。评分报告可以包括：1)本次练习的整体分数；2)用户在某一个群体(例如所有参加本次练习的用户，或者某一个虚拟班级)的排名如何；3)相对上一次练习，用户进步如何；3)哪些单词容易读错；4)哪些音标发音不准确等等。老师或者父母可以通过收到的评分报告，快速准确的了解学生或者小孩的学习进度，学习情况(比如哪些发音不准确)，然后可以有针对性的对他们进行纠正，强化训练，以此来强化学习，提高学习效率。老师或者父母也可以在收到服务器的反馈结果或者评分报告的时候，直接对小孩进行鼓励，比如家长或老师对着客户端录音“XXX，你很棒！”，“宝贝，继续加油”，此时客户端应用会将录音发送至服务器，服务器直接将其转发至所对应的点读笔。

所述点读笔还支持在线更新，点读笔用于连接网络后下载学习资料，或者是接收对应的客户端推送的学习资料。点读笔点击配套书本后，先检查点读笔的存储系统是否有该本书的文本和音频信息，如果没有，自动通过网络，从后台服务器下载相关资料；或者用户在其他客户端应用上，选择相应的课本，然后推送到相关的点读笔上。该点读笔还增加对讲机功能：小孩与父母(或老师)，小孩与其他小孩之间，可以通过点读笔实现对讲功能。点读笔录音后，上传到服务器，然后再发送到相应的客户端应用，或者对应的客户端。

本实施例的点读笔还具有多人统计管理的功能，为了降低成本，使得使得多人可以共用一套点读笔和配套书本，增设了登录卡来认证用户身份。还包括登录卡，登录卡的外表面设有多个不同的编码，登录卡内对应每个编码的位置印刷有不同的二维浅码；当点读笔点在登录卡的编码位置处时，点读笔识别登录卡上该编码对应的二维浅码；点读笔将依次读取到的所有二维浅码连成的编码串定义为用户的用户名。登录卡和现有的点读笔配套书本生成工艺相同，都是在书本内增设有二维浅码。登录卡上的编码可以参考手机解锁的九宫格设置，通过识别用户一笔画完的图形来识别用户的身份。例如，用户注册时，一笔连完的号码依次为1-8-2-5-7，则下次用户登录时，只要用点读笔在登录卡上依次按照1-8-2-5-7的顺序连起来就可以登录成功。

所述编码为9个，且均匀分布形成三行三列的九宫格形状；所述点读笔中预设有用户名编码数目，当点读笔识别到的二维浅码的个数达到用户名编码数目时，依次读取到的所有二维浅码连成的编码串定义为所述用户的用户名。即在登录卡上，有9个方块，分别代表1,2,3，……，9个数字，假设用户名编码数目为6，则当点读笔识别到6个二维浅码时，如1-4-1-2-4-5这6个数字，用户名录入结束，即用户的用户名为1-4-1-2-4-5。

所述点读笔检测到用户的用户名时，发送给服务器，服务器标记该用户开始学习，当服务器检测到来自点读笔的停止学习命令时，标记该用户学习结束。这样，服务器可以针对不同用户进行管理，统计该不同用户的学习情况。

所述服务器针对每个学员均设有家长客户端ID，服务器用于根据每个学员的学习情况生成所述评分报告，发送给该学员对应的家长客户端ID的客户端。家长客户端ID可以进行绑定或关联设置。

所述系统还设有复习提醒单元，复习提醒单元统计用户的错题，并根据遗忘曲线提醒用户进行复习。遗忘曲线由德国心理学家艾宾浩斯研究发现，描述了人类大脑对新事物遗忘的规律。人体大脑对新事物遗忘的循序渐进的直观描述，人们可以从遗忘曲线中掌握遗忘规律并加以利用，从而提升自我记忆能力。该曲线对人类记忆认知研究产生了重大影响。根据遗忘曲线进行复习，增强对学习内容的记忆能力。

所述语言学习系统还用于实现对讲功能，即点读笔用于获取用户的对讲语音信号并发送给服务器，服务器接收对讲语音信号并发送给客户端；客户端用于获取家长或老师的对讲语音信号并发送给服务器，服务器接收对讲语音信号并发送给相应的点读笔。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李坤;孙立发;钟静华;姜卫武;
技术所有人：李坤;
我是此专利的发明人

上一篇：基于FOG数据的度量分析方法及系统与制造工艺
上一篇：一种网页加载方法及装置与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。