一种英语口语自动打分方法及系统的制作方法

文档序号：9275420阅读：6056来源：国知局

一种英语口语自动打分方法及系统的制作方法
【技术领域】
[0001] 本发明涉及信号处理技术领域，尤其涉及一种英语口语自动打分方法及系统。
【背景技术】
[0002] 随着计算机技术的发展，越来越多的学习软件可以帮助人们更方便地学习外语。目前绝大多数计算机辅助外语学习软件主要关注文字应用能力和语言理解能力的训练，却很少关注口语发音能力训练。应用语音处理技术，可以实现英语学习中的口语发音自动打分。
[0003] 当前主流的英语口语打分系统分为整体打分系统和对比打分系统两种。整体打分系统不提供标准发音，直接测试发音人的发音标准程度，因而需要依赖一个背景标准发音模型；对比打分系统提供标准发音，发音人跟读标准发音，系统评价发音人发音与标准发音的相似程度，从而实现英语口语的打分。但是，现有的英语口语打分系统并没有对评价分数进行合理分布，信道鲁棒性差。

【发明内容】

[0004] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的英语口语自动打分方法及系统。
[0005] 根据本发明的一个方面，提供了一种英语口语自动打分方法，该方法包括：
[0006] 提取待测语音信号的多帧语音特征；
[0007] 将所述多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；
[0008] 对所述各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；
[0009] 利用多层前向神经网络模型MLP对所述全局特征进行打分。
[0010] 可选的，所述对所述各帧语音特征的帧后验概率进行分布统计，提取待测语音信号的全局特征，包括：
[0011] 将所述多帧语音特征与预设音素串进行对齐，得到每帧语音特征在其对应的音素上的后验概率；
[0012] 根据所述每帧语音特征在其对应的音素上的后验概率，对各帧语音特征在其对应的音素上的后验概率进行分布统计，得到待测语音信号的全局特征。
[0013] 可选的，所述对各帧语音特征在其对应的音素上的后验概率进行分布统计，提取待测语音信号的全局特征，包括：
[0014]统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例，得到一个N维的全局特征向量[s(1)，s(2)，…s(N)]，记为：
[0015]
[0016] 其中，T为待测语音信号的总帧数，S为狄拉克函数，N为预设取值区间的个数，当参数中所设条件满足时，s(i)取1，否则取0 ;
[0017] {c(i) ;i = 0, 一N}是一个对概率取值区间[0, 1]的划分，考虑到DNN模型输出概率的非均匀性，取对数划分，即：
[0018] c(0) = 0
[0019] c (i) = 101-N i = 1，2, 3. ? ?，N。
[0020] 可选的，所述方法还包括：
[0021] 根据预设数据进行DNN模型训练。
[0022] 根据本发明的另一个方面，提供了一种英语口语自动打分系统，该系统包括：
[0023] 语音特征提取模块，用于提取待测语音信号的多帧语音特征；
[0024] 帧后验概率提取模块，用于将所述语音特征提取模块提取的多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；
[0025] 分布统计模块，用于对所述帧后验概率提取模块提取的各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；
[0026] 打分模块，用于利用多层前向神经网络模型MLP对所述全局特征进行打分。
[0027] 可选的，所述分布统计模块包括：
[0028] 音素对齐单元，用于将所述多帧语音特征与预设音素串进行对齐，得到每帧语音特征在其对应的音素上的后验概率；
[0029] 分布统计单元，用于根据所述每帧语音特征在其对应的音素上的后验概率，对各帧语音特征在其对应的音素上的后验概率进行分布统计，得到待测语音信号的全局特征。
[0030] 可选的，所述分布统计单元用于统计各帧语音特征在其对应的音素上的后验概率在N个取信叹间的分布比例，得到 t N维的今局特征向量「s⑴.s⑵.一s (N) 1，iP,为：
[0031]
[0032] 其中，T为待测语音信号的总帧数，S为狄拉克函数，N为预设取值区间的个数，当参数中所设条件满足时，s(i)取1，否则取0 ;
[0033] {c(i) ;i = 0,…吣是一个对概率取值区间[0, 1]的划分，考虑到DNN模型输出概率的非均匀性，取对数划分，即：
[0034] c(0) = 0
[0035] c (i) = 101' i = 1，2, 3. ? ?，N〇
[0036] 可选的，所述系统还包括：
[0037] DNN模型训练模块，用于根据预设数据进行DNN模型训练。
[0038] 本发明的有益效果为：
[0039]本发明提供的英语口语自动打分方法及系统，基于深度神经网络DNN模型后验概率特征进行整体打分，利用DNN的区分性建模特性，得到对噪声更加鲁棒的帧后验概率（局部描述特征），进而得到有效的句子全局特征，最后利用多层感知器MLP网络进行打分，相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性；而且MLP基于人工标注的质量评价进行学习优化参数，对发音质量亦具有更强的区分性，进而得到的分数分布更加合理。
【附图说明】
[0040] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0041] 图1为本发明实施例提出的一种英语口语自动打分方法的流程图；
[0042] 图2为本发明实施例提出的深度神经网络DNN模型的示意图；
[0043] 图3为本发明实施例提出的了利用多层感知器MLP网络进行打分的示意图；
[0044] 图4为本发明实施例提出的一种英语口语自动打分系统的结构框图。
【具体实施方式】
[0045] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
[0046] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式"一"、"一个"、"所述"和"该"也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
[0047] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。 [0048] 为解决上述技术问题，本发明实施例提出一种英语口语自动打分方法及系统，传统整体打分方法一般基于高斯混模型（GMM)或隐马尔可夫-高斯混合模型（HMM-GMM)。而本发明实施例提出的英语口语自动打分方法及系统，基于深度神经网络（DNN)后验概率特征的整体打分，利用DNN的区分性建模特性，得到一种对噪声更加鲁棒的局部描述特征（帧后验概率），进而得到有效的句子全局特征，最后利用多层感知器（MLP)网络进行打分。
[0049] DNN模型是一种非统计模型，不能直接对句子进行建模，只能对语音帧建模，得到局部特征，即帧后验概率。得到局部特征后，进而提取全局特征，从局部特征中分布统计得到句子层的全局特征。最后，根据全局特征用来进行句子级的口语打分。
[0050] 图1示出了本发明实施例的一种英语口语自动打分方法的流程图。
[0051] 参照图1，本发明实施例提出的英语口语自动打分方法包括：
[0052] S11、提取待测语音信号的多帧语音特征；
[0053] S12、将所述多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；
[0054] 本步骤中，DNN模型经过充分训练以后，给定一个语音特征向量帧0(t)作为输入，其输出即为该语音帧对不同发音（包括噪音）的后验概率向量，记为u(t)。在打分过程中，对各帧后验概率进行分布统计，提取全局特征，送入多层前向神经网络模型（MLP)进行区分性打分。
[0055] S13、对所述各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；
[0056] S14、利用多层前向神经网络模型MLP对所述全局特征进行打分。
[0057] 本发明实施例提出的英语口语自动打分方法，基于深度神经网络（DNN)后验概率特征的整体打分。其中，DNN模型是一种深度区分性神经网络模型，如图2所示，其优化目标为不同发音之间的区分性，即使得对不同发音的区分能力最大化，DNN的这一特性使其可对抗背景噪声和信道影响。
[0058] 在本发明实施例中，所述步骤S13 :对所述各帧语音特征的帧后验概率进行分布统计，提取待测语音信号的全局特征，进一步包括：
[0059] 将所述多帧语音特征与预设音素串进行对齐，得到每帧语音特征在其对应的音素上的后验概率；
[0060] 根据所述每帧语音特征在其对应的音素上的后验概率，对各帧语音特征在其对应的音素上的后验概率进行分布统计，得到待测语音信号的全局特征。
[0061] 更进一步地，所述对各帧语音特征在其对应的音素上的后验概率进行分布统计，提取待测语音信号的全局特征，包括：
[0062] 统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例，得到一个N维的全局特征向量[s (1)，s (2)，…s (N)]，记为：
[0063]
[0064]

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;李全忠;胡博;
技术所有人：普强信息技术（北京）有限公司;清华大学;
我是此专利的发明人

上一篇：一种基于语音的信息推送方法及装置的制造方法
上一篇：语音合成方法和装置的制造方法