一种用户发音检测方法及设备的制作方法

文档序号：2822480阅读：250来源：国知局

专利名称：：一种用户发音检测方法及设备的制作方法
技术领域：
：本发明涉及音频处理
技术领域：
，尤其涉及一种用户发音检测方法及设备。
背景技术：
：语言学习机的前身是复读机，是一种练习听力和口语的工具。随着技术的发展，在语言学习机中增加了纠正发音的功能，通过智能评分系统实现，可以自动评价使用者发音的好坏，这种复读机也可以称为纠音机。现有的语言学习机中的智能评分系统，一般仅仅采用简单的VAD技术，评分往往非常不准确，类似卡拉OK机中的打分系统。而高端的智能评分系统一般采用语音识别技术，但是实现的复杂度较高，并且只能给出一个笼统的评价，比如"很好，好，一般，差"，而不能对用户的发音问题进行细致的分析。综上所述，现有的语言学习机中的智能评分系统，无法对用户的语速、重读、发音等进行细致的分析，导致对用户语音的检测不够准确、细致，精确度不高。
发明内容本发明实施例提供了一种用户发音检测方法及设备，用以更加精确地对用户发音准确度进行分析和评价。本发明实施例提供的一种用户发音检测方法包括采集输入的音频信号，并确定所述音频信号中的用户语音信号；确定与所述用户语音信号相对应的预先存储的标准语音信号，其中，所述用户语音信号与所述标准语音信号的语音内容相同；将所述用户语音信号的长度与所述标准语音信号的长度进行比较，确定用户语速。本发明实施例提供的一种用户发音检测设备包括预处理单元，用于确定输入的音频信号中的用户语音信号；以及，确定与所述用户语音信号相对应的预先存储的标准语音信号，其中，所述用户语音信号与所述标准语音信号的语音内容相同；语速分析单元，用于将所述用户语音信号的长度与所述标准语音信号的长度进行比较，确定用户语速。本发明实施例，通过采集输入的音频信号，并确定所述音频信号中的用户语音信号；确定与所述用户语音信号相对应的预先存储的标准语音信号，其中，所述用户语音信号与所述标准语音信号的语音内容相同；将所述用户语音信号的长度与所述标准语音信号的长度进行比较，确定用户语速，实现了对用户语音复读的语速检测，从而可以实现更加精确地对用户的语音复读进行分析与评价。图1为本发明实施例提供的用户发音检测设备的结构示意图2为本发明实施例提供的去直流高通滤波器幅频特性示意图；图3为本发明实施例提供的DP算法原理图示意图；图4为本发明实施例提供的用户发音检测方法的流程示意图。具体实施例方式本发明实施例提供了一种用户发音检测方法及设备，用以在用户语音复读的过程中，实现对用户语速、重读、发音等更加细致的检测，从而丰富了对用户语音复读检测的内容，提高对用户语音检测的准确度和精确度，满足用户更多需求，提高用户体验效果。本发明实施例提出的技术方案，可以应用于语言学习机中的智能评分系统，用较低复杂度的算法即可获得较为准确的评价，并且针对用户发音问题进行细致的分析，真正体现智能评分的作用。本发明实施例提出的技术方案，针对语速、重读以及发音三个方面，自动进行智能分析，综合评价用户的口语水平，并可以指出用户的朗读问题，进一步还可以给出相应的建议。下面结合附图对本发明实施例提供的技术方案进行说明。参见图l，本发明实施例提供的一种用户发音检测设备包括预处理单元ll，用于确定输入的音频信号中的用户语音信号；以及，确定与用户语音信号相对应的预先存储的标准语音信号，其中，用户语音信号与标准语音信号的语音内容相同。其中，所谓用户语音信号与标准语音信号的语音内容相同，即用户复读的语音内容，与用户发音检测设备(例如复读机)中发出的语音内容相同，例如，用户发音检测设备发出的标准语音信号的语音内容是单词"word"，用户需要复读这个单词，因此对应的用户语音信号的语音内容也是单词"word"。语速分析单元12，用于将用户语音信号的长度与标准语音信号的长度进行比较，确定用户语速。较佳地，所述预处理单元11包括高通滤波器lll，用于按照预设的截止频率，滤除输入的音频信号中的直流电平干扰信号。幅度阈值确定单元112，用于对高通滤波器111处理后的音频信号的前若干帧信号中的每帧信号的平均幅度进行检测，将其中最小的平均幅度作为幅度阈值。用户语音信号检测单元113，用于对高通滤波器111处理后的音频信号从前向后逐帧检测，若从当前帧开始向后连续第一数量帧信号的每一帧信号的平均幅度都大于幅度阈值确定单元112确定的幅度阈值，则将该当前帧作为起始帧；对高通滤波器111处理后的音频信号从后向前逐帧检测，若从当前帧开始向前的连续第二数量帧信号的每一帧信号的平均幅度都大于幅度阈值确定单元112确定的幅度阈值，则将该当前帧作为终止帧；当起始帧与终止帧之间的音频信号长度大于预设的长度阈值时，将起始帧与终止帧之间的音频信号确定为用户语音信号。其中，所述第一数量和第二数量的值是预先设置好的，这两个值可以相同也可以不同。标准语音信号确定单元114，用于确定与用户语音信号相对应的预先存储的标准语音信号。较佳地，该设备还包括重读分析单元13，用于检测用户语音信号中最大波峰所处的位置；确定用户语音信号中最大波峰所处的位置，与标准语音信号中最大波峰所处的位置之间的差值；根据差值确定用户的重读准确性。较佳地，该设备还包括发音分析单元14，用于确定用户语音信号的波形与标准语音信号的波形的匹配度；根据匹配度，确定用户发音的准确性。较佳地，该设备还包括综合评价单元15，用于根据用户语速、用户的重读准确性和/或用户发音的准确性，确定用户复读的综合评价值。较佳地，该设备还包括复读建议单元16，用于根据用户语速、用户的重读准确性和/或用户发音的准确性，向用户发出复读建议信息。下面对上述各个单元的功能给出具体的解释说明。预处理单元ll:预处理单元11包括去直流操作，噪声电平检测，语音起止端检测等功能。其中，高通滤波器111负责去直流操作，滤去较低频率的直流电平干扰。一般取截止频率为100赫兹(Hz)即可，如图2所示。幅度阈值确定单元112，负责噪声电平检测，采用简单的噪声电平检测方法，例如对输入的音频信号的前五帧信号检测平均幅度，将其中平均幅度最小的一帧信号的平均幅度作为环境噪声电平值，该环境噪声电平值即后续用到的幅度阈值。例如第i帧的平均幅度定义为五[(")]=Z卜'(")71=0其中，frame表示一帧数据的长度，x(n)表示输入的音频信号。则环境噪声电平估计值为NoiseFloor=Min(E[x1(n)])，i=0，1，2，3，4用户语音信号检测单元113负责用户语音信号的检测，也就是说从一段录音材料中把仅包含用户语音信息的部分挑选出来，即判断出用户语音信号的起始点位置和停止点位置。用户语音信号的起始点定位的方法例如从录音(即当前输入的一段完整的音频信号)的开始端向后逐帧搜索，如果从当前帧往后的连续5帧信号的每一帧信号的平均幅度都大于幅度阈值，则可确定当前帧即是用户语音信号的起始帧，记为BeginPos。同理，用户语音信号的停止点定位的方法例如从录音的结尾端向前逐帧搜索，如果从当前帧开始向前连续5帧信号的每一帧信号的平均幅度都大于幅度阈值，则可确定当前帧即是用户语音信号的终止帧，记为EndPos。如果EndPos-BeginPos>L，其中L为长度阈值，表示默认的用户语音信号持续的最小间隔，则认为正确地确定了用户语音信号的起止点位置，也就是找到了用户语音信号。语速分析单元12负责对用户的语速进行分析，语速分析主要利用的是用户语音信号的持续时间(即用户语音信号的长度)，通过用户语音信号的持续时间和相应的预先存储的标准语音信号的持续时间进行比较，差异越大，语速评价得分越低，差异越小，语速评价得分越高。其中，与用户语音信号相应的标准语音信号，即用户模仿复读的语音信号。语音信号的持续时间可以通过语音信号段的起始点位置和终止点位置求出，如下Lengthl=EndPosl-BeginPoslLength2=EndPos2-BeginPos2其中，Lengthl表示标准语音信号的持续时间，EndPosl表示标准语音信号的终止点位置，BeginPosl表示标准语音信号的起始点位置；Length2表示用户跟读的语音信号的持续时间，EndPos2表示标准语音信号的终止点位置，BeginPos2表示标准语音信号的起始点位置。显然，如果Lengthl和Length2越接近，表示用户语速越标准，反之，差异越大，表示用户语速过慢或者过快。可以通过分数对用户语速进行评价，例如定义用户语速的评价得分为[國]S證l寺一2一丄一l)，Lengthl和Length2差异越大，用户语速得分越低。Lengthl和Length2相同时，可以得100分，语速每差10%，得分也相应降低10分。重读分析单元13负责对用户模仿的语音中应该重读的部分(例如英文单词中的重读音节)进行分析，简称重读分析。重读分析主要搜索整个用户语音信息段的最大波峰位置，通过将用户语音信息段的最大波峰位置和相应的标准语音信号的最大波峰位置进行比较，差异越大，用户的重读准确性越差，重读分析得分越低；差异越小，用户的重读准确性越高，重读分析得分越高。搜索音频信号的最大波峰位置的方法包括从音频信号的起始点至停止点进行逐帧搜索，对于每一帧信号，确定以该帧为中心的连续若干帧信号的加权平均幅度的最大值，这个最大值所在的位置即是整个音频段的最大波峰位置。例如，定义加权平均幅度为=J]『(m)五[x，—i=BeginPos+wsize，…，EndPosisize其中Peak1表示以第i帧为中心的连续wsiZe*2+l帧信号的加权平均幅度值，W(m)表示加权窗函数，窗长为wsiz^2+l。本发明实施例中可以取wsize=1，即选用窗长为3。窗函数可以选用三角窗或者汉宁窗等常见的窗函数，本发明实施例中令W={0.5，l，O.5}。则最大波峰值为MaxPeak=Max(peak1)，i=BeginPos+wsize，...，EndPos-wsize最大波峰对应的i即为最大波峰所在帧的位置iMax。较佳地，可以利用最大波峰的相对位置(可以是相对于用户语音信号起始帧的位置，也可以是相对于用户语音信号终止帧的位置)来评价用户的重读准确性，例如，将最大波峰的相对位置记为PeakPos，则<formula>formulaseeoriginaldocumentpage8</formula>其中，PeakPosl和PeakPos2分别表示标准语音信号和相应的用户语音信号的最大波峰的相对位置；iMaxl和iMax2分别表示标准语音信号和相应的用户语音信号的最大波峰所在帧的位置。可以通过重读评价得分来确定用户的重读准确性，例如定义重读评价得分为<formula>formulaseeoriginaldocumentpage8</formula>显然，PeakPosl和PeakPos2差异越大，用户的重读准确性越低，用户的重读评价得分越低。PeakPosl和PeakPos2差异越小，用户的重读准确性越高，用户的重读评价得分越高。PeakPosl和PeakPos2相同时，可以得100分，重读位置每差10%，得分也相应降低10分。发音分析单元14负责对用户进行发音分析。发音分析主要通过动态规划(DP)算法比较用户语音信号的幅度变化轨迹与对应的标准语音信号的幅度变化轨迹的距离，距离越大，用户发音的准确性越低；距离越小，用户发音的准确性越高。在预处理单元11中，可以分别得到标准语音信号和用户语音信号的每一对应帧的信号平均幅度E[xi(n)]，然后根据最大波峰值可以得到归一化平均幅度<formula>formulaseeoriginaldocumentpage8</formula>标准语音信号和用户语音信号的归一化平均幅度分别记为数组Enl[Lenghtl]和En2[Length2]。Enl[Lenghtl]和En2[Length2]分别体现了标准语音信号特征和用户语音信号特征，即标准语音信号的波形和用户语音信号的波形。下面介绍一下发音分析单元14是如何对用户语音信号的波形与标准语音信号的波形进行匹配，得到匹配度的。所谓匹配度，即相似度。相似度可以采用使得标准语音信号特征和用户语音信号特征的均方距离最小的原则来确定，不过语音中各个段落在不同情况下的持续时间会产生或长或短的变化，为了达到最佳效果，可以采用DP算法。如图3所示，如果把用户语音信号的各个帧号n二1N(N即为Length2)在一个二维直角坐标系中的横轴上标出，把标准语音信号的各个帧号m二1M(M即为Lengthl)在纵轴上标出，通过这些表示帧号的坐标画出一些纵横线即可形成一个网格，网格中每一个交点(n，m)表示用户语音信号中某一帧与标准语音信号中某一帧的交汇点。DP算法可以归结为寻找一条通过此网格中若干交叉点的最佳路径。路经通过的交叉点就是用户语音信号和标准语音信号进行失真计算的帧号。显然，从图3所示的坐标系左下角到右上角的若干路经中，累计失真最小的路径就是最佳路径。通过这种方法，即可消除用户语音信号中各个段落在不同情况下的持续时间会产生或长或短的变化对匹配结果的影响。图3中的d(i，j)表示标准语音信号第i帧平均能量Enl[i]与用户语音信号第j帧平均能量En2[j]的局部差异，即d(i，j)=lEnl[i]-En2[川，D(i，j)表示全局差异，D(i，j)体现了用户语音信号和标准语音信号之前的累计失真。当D(N，M)最小时，就得到了标准语音信号与用户语音信号的最佳匹配下的差异，对应的路径即为最佳路径。可以通过发音评价得分来评价用户发音的准确性，例如定义发音评价得分为Score3=(l-D(N，M))*100显然，D(N，M)越大，发音得分越低，即用户发音的准确性越低。D(N，M)越小，发音得分越高，即用户发音的准确性越高。当D(N，M)为0时，发音评价得分为100分，D(N，M)每增加0.l，发音评价得分也相应降低10分。综合评价单元15负责对用户的复读进行综合评价。综合评价根据上述三种评价中的一种或多种评价的得分情况，给出综合评价得分。进一步，复读建议单元16还可以针对每种评价向用户发出复读建议信息，例如向用户给予相关的提醒和建议。例如语速得分占综合评价得分的30%，语速得分低于80分，复读建议单元16将自动给出建议调整朗读语速(Adjustreadingspeed)。重读得分占综合评价得分的20%，重读得分低于80分，复读建议单元16将自动给出建议加重对重读单词的读音(Emphasizestressword)。发音得分占综合评价得分的50%。发音得分低于80分，复读建议单元16将自动给出建议矫正发音(Rectifypro醒ciation)。那么，综合评价单元15给出的综合得分=语速得分*30%+重读得分*20%+发音得分*50%。进一步，综合评价单元15还可以根据综合得分，给出综合评价，如下面的表1所示<table>tableseeoriginaldocumentpage9</column></row><table>表1:综合得分评价表参见图4，本发明实施例提供的一种用户发音检测方法包括步骤S101、采集输入的音频信号，并确定输入的音频信号中的用户语音信号。S102、确定与用户语音信号相对应的预先存储的标准语音信号，其中，用户语音《号与标准语音信号的语音内容相同。S103、将用户语音信号的长度与标准语音信号的长度进行比较，确定用户语速。较佳地，步骤S101中确定输入的音频信号中的用户语音信号的步骤包括对输入的音频信号从前向后逐帧检测，若从当前帧开始向后连续第一数量帧信号的每一帧信号的平均幅度都大于预设的幅度阈值，则将该当前帧作为起始帧；对输入的音频信号从后向前逐帧检测，若从当前帧开始向前连续第二数量帧信号的每一帧信号的平均幅度都大于预设的幅度阈值，则将该当前帧作为终止帧；当起始帧与所述终止帧之间的音频信号长度大于预设的长度阈值时，将起始帧与终止帧之间的音频信号确定为用户语音信号。较佳地，确定输入的音频信号中的用户语音信号之前，该方法还包括确定幅度阈值的步骤对输入的音频信号的前第三数量帧信号中的每帧信号的平均幅度进行检测，将其中最小的平均幅度作为幅度阈值。其中，所述第三数量的值是预先设置好的，例如，第三数量的值可以为5，则对输入的音频信号的前5帧信号中的每帧信号的平均幅度进行检测，将其中最小的平均幅度作为幅度阈值。较佳地，确定幅度阈值之前，该方法还包括按照预设的截止频率，通过高通滤波器滤除输入的音频信号中的直流电平干扰信号。较佳地，该方法还包括检测用户语音信号中最大波峰所处的位置；确定用户语音信号中最大波峰所处的位置，与标准语音信号中最大波峰所处的位置之间的差值；根据该差值确定用户的重读准确性。较佳地，该方法还包括确定用户语音信号的波形与标准语音信号的波形的匹配度，根据该匹配度确定用户发音的准确性。较佳地，该方法还包括根据用户语速、用户的重读准确性和/或用户发音的准确性，确定用户复读的综合评价值。综上所述，本发明实施例，通过对用户语速、重读、发音等更加细致的检测，从而丰富了对用户语音复读检测的内容，提高对用户语音检测的准确度和精确度，满足用户更多需求，提高用户体验效果。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。10权利要求一种用户发音检测方法，其特征在于，该方法包括采集输入的音频信号，并确定所述音频信号中的用户语音信号；确定与所述用户语音信号相对应的预先存储的标准语音信号，其中，所述用户语音信号与所述标准语音信号的语音内容相同；将所述用户语音信号的长度与所述标准语音信号的长度进行比较，确定用户语速。2.根据权利要求1所述的方法，其特征在于，确定所述音频信号中的用户语音信号的步骤包括对所述音频信号从前向后逐帧检测，若从当前帧开始向后连续第一数量帧信号的每一帧信号的平均幅度都大于预设的幅度阈值，则将该当前帧作为起始帧；对所述音频信号从后向前逐帧检测，若从当前帧开始向前连续第二数量帧信号的每一帧信号的平均幅度都大于预设的幅度阈值，则将该当前帧作为终止帧；当所述起始帧与所述终止帧之间的音频信号长度大于预设的长度阈值时，将所述起始帧与所述终止帧之间的音频信号确定为用户语音信号。3.根据权利要求2所述的方法，其特征在于，确定所述音频信号中的用户语音信号之前，该方法还包括确定所述幅度阈值的步骤对所述输入的音频信号的前第三数量帧信号中的每帧信号的平均幅度进行检测，将其中最小的平均幅度作为所述幅度阈值。4.根据权利要求3所述的方法，其特征在于，确定所述幅度阈值之前，该方法还包括按照预设的截止频率，通过高通滤波器滤除所述输入的音频信号中的直流电平干扰信号。5.根据权利要求1所述的方法，其特征在于，该方法还包括检测所述用户语音信号中最大波峰所处的位置；确定所述用户语音信号中最大波峰所处的位置，与所述标准语音信号中最大波峰所处的位置之间的差值；根据所述差值确定用户的重读准确性。6.根据权利要求1至5任一权项所述的方法，其特征在于，该方法还包括确定所述用户语音信号的波形与所述标准语音信号的波形的匹配度；根据所述匹配度，确定用户发音的准确性。7.根据权利要求6所述的方法，其特征在于，该方法还包括根据所述用户语速、用户的重读准确性和/或用户发音的准确性，确定用户复读的综合评价值。8.—种用户发音检测设备，其特征在于，该设备包括预处理单元，用于确定输入的音频信号中的用户语音信号；以及，确定与所述用户语音信号相对应的预先存储的标准语音信号，其中，所述用户语音信号与所述标准语音信号的语音内容相同；语速分析单元，用于将所述用户语音信号的长度与所述标准语音信号的长度进行比较，确定用户语速。9.根据权利要求8所述的设备，其特征在于，所述预处理单元包括用户语音信号检测单元，用于对所述音频信号从前向后逐帧检测，若从当前帧开始向后连续第一数量帧信号的每一帧信号的平均幅度都大于预设的幅度阈值，则将该当前帧作为起始帧；对所述音频信号从后向前逐帧检测，若从当前帧开始向前连续第二数量帧信号的每一帧信号的平均幅度都大于预设的幅度阈值，则将该当前帧作为终止帧；当所述起始帧与所述终止帧之间的音频信号长度大于预设的长度阈值时，将所述起始帧与所述终止帧之间的音频信号确定为用户语音信号；标准语音信号确定单元，用于确定与所述用户语音信号相对应的预先存储的标准语音信号。10.根据权利要求9所述的设备，其特征在于，所述预处理单元还包括幅度阈值确定单元，用于对所述输入的音频信号的前第三数量帧信号中的每帧信号的平均幅度进行检测，将其中最小的平均幅度作为所述幅度阈值。11.根据权利要求9或10所述的设备，其特征在于，所述预处理单元还包括高通滤波器，用于按照预设的截止频率，滤除所述输入的音频信号中的直流电平干扰信号。12.根据权利要求9所述的设备，其特征在于，该设备还包括重读分析单元，用于检测所述用户语音信号中最大波峰所处的位置；确定所述用户语音信号中最大波峰所处的位置，与所述标准语音信号中最大波峰所处的位置之间的差值；根据所述差值确定用户的重读准确性。13.根据权利要求9或12所述的设备，其特征在于，该设备还包括发音分析单元，用于确定所述用户语音信号的波形与所述标准语音信号的波形的匹配度；根据所述匹配度，确定用户发音的准确性。14.根据权利要求13所述的设备，其特征在于，该设备还包括综合评价单元，用于根据所述用户语速、用户的重读准确性和/或用户发音的准确性，确定用户复读的综合评价值。15.根据权利要求13所述的设备，其特征在于，该设备还包括复读建议单元，用于根据所述用户语速、用户的重读准确性和/或用户发音的准确性，向用户发出复读建议信息。全文摘要本发明公开了一种用户发音检测方法及设备，用以更加精确地对用户发音准确度进行分析和评价。本发明提供的一种用户发音检测方法包括采集输入的音频信号，并确定所述音频信号中的用户语音信号；确定与所述用户语音信号相对应的预先存储的标准语音信号，其中，所述用户语音信号与所述标准语音信号的语音内容相同；将所述用户语音信号的长度与所述标准语音信号的长度进行比较，确定用户语速。文档编号G10L15/00GK101727900SQ20091023854公开日2010年6月9日申请日期2009年11月24日优先权日2009年11月24日发明者张晨申请人:北京中星微电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晨
技术所有人：北京中星微电子有限公司
我是此专利的发明人