一种在线口语发音质量评价方法和系统的制作方法_2

文档序号：8413616阅读：来源：国知局

[0043] 特征参数提取单元，用于对预处理后的测试语音进行语音特征参数的提取，获取所述测试语音的特征参数；
[0044] 语音评价单元，用于根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果；并将所述评价结果通过网络反馈给所述移动客户端；
[0045] 所述移动客户端还包括：
[0046] 数据显示单元，用于对所述评价结果进行显示。
[0047] 优选地，所述系统还包括网页管理端，所述网页管理端通过网络与所述服务器端连接；所述服务器端还包括数据库和统计分析单元；
[0048] 所述数据库，用于存储所述评价结果；
[0049] 所述统计分析单元，用于对评价结果进行统计分析，获得统计结果；并将所述统计结果发送给所述网页管理端；
[0050] 所述网页管理端，用于对接收到的统计结果进行展示。
[0051] 与现有技术相比，本发明实施例的优点在于：
[0052] 本发明实施例基于C/S (Client/Server，客户端/服务器端）架构，构建移动客户端和服务器端，通过移动客户端采集用户的测试语音信号并发送给服务器端，服务器端对测试语音进行评价后向移动客户端返回语音评价结果，最后通过移动客户端对所述评价结果进行展示。用户可以利用移动互联网方便地接入服务器端，获取服务和数据，语料库和评价方法均可以通过服务器端实现同步，并通过服务器端提供性能更优、效果更佳的语音分析算法处理。
[0053] 其次，本发明实施例还基于B/S(Browser/Server，网页端/服务器端）架构，构建网页管理端和服务器端，可以通过网页浏览器从服务器端的数据库中实时获取移动客户端用户的口语发音质量评价统计结果，为第三方（如教学者）提供移动客户端用户的口语发音情况，便于第三方制定线下口语指导和改良策略。
[0054] 进一步地，本发明实施例针对测试语音进行多维度语音评价，各指标的评价方法合理、可信，并可针对用户的口语发音反馈发音指导意见，有助于纠正用户的发音错误，提高发音质量。
【附图说明】
[0055] 图1是本发明提供的在线口语发音质量评价方法的一个实施例的步骤流程图；
[0056] 图2是本发明提供的概率神经网络集成分类器的建立过程示意图；
[0057] 图3是本发明提供的在线口语发音质量评价系统的一个实施例的C/S架构示意图；
[0058] 图4是如图3所示在线口语发音质量评价系统的B/S架构示意图。
【具体实施方式】
[0059] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，实施例中各个步骤前的标号仅为了对各个步骤进行更清楚地标识，各个步骤之间没有必然的先后顺序的限定。
[0060] 参见图1，是本发明提供的在线口语发音质量评价方法的一个实施例的步骤流程图，所述方法包括：
[0061] S1，通过网络接收由移动客户端采集的测试语音。
[0062] 在具体实施当中，移动客户端以应用程序的方式安装于用户的手机或其他移动设备上，通过调用移动设备中的录音程序进行录音，采集用户在口语测试中发出的语音，并生成统一格式的音频文件，所述移动客户端对所述音频文件进行压缩编码后通过网络发送给服务器端。其中，所述音频文件优选为wav格式的音频文件，所述网络优选为移动互联网，移动客户端和服务器端米用基于TCP/IP (Transmission Control Protocol/Internet Protocol，传输控制协议/因特网互联协议）通信协议的Socket进行数据传输。
[0063] S2,对接收到的测试语音进行预处理。
[0064] 服务器端在接收到移动客户端发送来的数据后，对接收到的数据进行解压缩解码，还原为测试语音的原始文件。同时在对测试语音进行分析和处理之前，为了消除因为人发音器官本身和由于语音设备对测试语音产生的影响，对测试语音进行预处理，为后续语音特征参数的提取提供优质的数据源，从而提高语音处理的质量。本实施例所述预处理包括但不限于预加重、分帧、加窗和端点检测，具体如下：
[0065] 2. 1)预加重：测试语音的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/oct衰减，频率越高相应的成分越小，因此在对测试语音进行分析之前需要对所述测试语音的高频部分加以提升。本实施例在对测试语音进行分析之前采用一个 6dB/oct的高频提升预加重数字滤波器，对所述测试语音的高频部分加以提升，使所述测试语音的频谱变得平坦，保持在低频到高频的频带中。预加重的计算公式如下：
[0066] y (η) = x (η)-〇· 9375*x (n_l)(公式 I)
[0067] 其中，x(n)为原始的测试语音。
[0068] 2. 2)分帧：语音信号具有时变特性，但是在一个短时间范围内，其特性基本保持不变即相对稳定，语音信号的这种特性称为"短时性"，这一短时间范围一般为10~30ms，所以对测试语音的分析和处理建立在"短时性"的基础上，对测试语音进行"短时分析"（即分帧处理）。由于语音信号之间存在相关性，本实施例采用半帧交叠分帧的方式对所述测试语音进行分帧。
[0069] 2. 3)加窗：为实现对测试语音中抽样位置附近的语音波形加以强调而对波形的其余部分加以减弱，本实施例中选用汉明窗对测试语音进行加窗，分帧后进行加窗处理可以减少由于截断导致的吉布斯效应（Gibbs phenomenon)，使得测试语音的频谱较为平滑。在一种可实现的方式中，加窗的计算公式如下：
[0070] Stj (n) = y (η) * ω (η)(公式 2)
[0071] 其中，y(n)是预加重后的语音信号，ω (η)是窗函数。
[0072] 2. 4)端点检测：本实施例采用双门限比较法来进行端点检测，检测出测试语音的起始点及结束点。双门限比较法以短时能量E和短时平均过零率Z作为特征，结合短时平均过零率Z和短时能量E的优点，使检测更为准确，有效降低系统的处理时间，提高系统处理的实时性，而且能排除无声段的噪声干扰，从而提高的语音信号的处理性能。
[0073] S3,对预处理后的测试语音进行语音特征参数的提取，获得所述测试语音的特征参数。所述测试语音的特征参数包括MFCC(Mel_Frequency Cepstral Coefficients，Mel 倒谱系数）特征参数、情感特征参数、发音时长特征参数、重音位置特征参数、语音单元时长特征参数和音高特征参数，在服务器端进行的特征参数提取过程如下：
[0074] 3. 1)对所述测试语音进行离散傅利叶变换（DFT，Discrete Fourier Transform)，得到所述测试语音的频谱系数，将所述频谱系数用序列三角滤波器进行滤波，对滤波后的数据进行对数运算，利用离散余弦变换，获取所述测试语音的MFCC特征参数。具体步骤如下：
[0075] 对预处理后的测试语音进行离散傅利叶变换得到频谱系数X(k)。
[0076] 对频谱系数X (k)用序列三角滤波器进行滤波处理，得到一组系数Hii。计算所述系数Hii的公式如下：

完整全部详细技术资料下载

当前第2页1 2 3