一种文本无关的中国人英语口语质量评估方法

文档序号：9236335阅读：275来源：国知局

一种文本无关的中国人英语口语质量评估方法
【技术领域】
[0001] 本发明设及到语音识别技术、语音信号处理技术和自然语言处理技术，它是一种使用计算机系统对文本无关的中国人英语口语质量进行评估的方法。
【背景技术】
[0002] 英语口语质量评估技术不仅可W帮助英语学习者了解自身的英语口语发音水平，而且还助于发现英语口语学习中出现的问题，W改进自身英语口语发音和提高自身英语口语学习效率。并且，英语口语质量评估技术还可W应用到英语口语考试中，W减轻传统英语口语考试中人工评估的工作量，确保英语口语考试评估的客观性与准确性。
[0003] 现有的英语口语质量评估技术主要分为文本相关的英语口语质量评估方法和文本无关的英语口语质量评估方法，文本相关的英语口语质量评估方法需要事先准备一个被测试的英语口语文字内容，首先采集被测试者复述该个英语口语文字内容的口语发音，然后再用它来评估被测试者的英语口语质量。由于文本相关的英语口语质量评估技术，依赖于被测试的英语口语文字内容才能够准确评估被测试者的英语口语质量，因此它在评估英语对话该类事先没有给出英语口语文字内容的测试时，就无法准确的评估出被测试者的英语口语质量好坏。然而，现有的文本无关的英语口语质量评估方法，采用最大似然线性回归自适应的方法或者最大后验概率自适应的方法，来评估被测试者的英语口语质量，它在评估英语是母语人的英语口语质量上接近人工评估水平，但是它在评估中国人的英语口语质量上与人工评估水平相比存在一定差距。

【发明内容】

[0004] 本发明是一种基于英语声学混合模型的文本无关中国人英语口语质量评估方法，它解决了利用计算机系统评估中国人英语口语质量的问题，该方法的英语声学混合模型包括一个英语口语自适应语音识别模型和一个英语标准口语自适应评估模型，在评估中国人英语口语质量时，首先使用英语口语自适应语音识别模型，对中国人的英语口语进行语音识别，W提高中国人的英语口语语音识别率；然后采用英语标准口语自适应评估模型，对语音识别得到的中国人英语口语进行质量评估，W保证其评估质量具有较好的可信度。本发明的文本无关中国人英语口语质量评估方法的总体流程图如图1所示，其总体流程是：第一，输入华尔街日报英语语音标准声学模型、表达正确但发音不标准的中国人英语口语语音数据，训练构建出一个英语口语自适应语音识别模型；输入华尔街日报英语语音标准声学模型、表达正确且发音标准的中国人英语口语语音数据，训练构建出一个英语标准口语自适应评估模型；第二，使用英语口语自适应语音识别模型识别输入待评估的被测试者口语语音数据；第=，使用英语标准口语自适应评估模型评估识别后的待评估被测试者口语语音数据，输出待评估的被测试者口语语音质量分数。
[0005] 在本发明的英语声学混合模型中，一个完整中国人的英语口语由若干个语音帖构成，每个语音帖对应一个音素状态，每个音素都有=个状态，分别是开始状态、中间状态、结束状态。每个音素对应一个英语发音的音标。39个音素可W用音素转写码符号集表示如下表1。
[0006] 表1 ;音素转写码符号表
[0007]
[0008] 1.英语声学混合模型的结构
[0009] 在英语声学混合模型中，每个音素状态包括=个参数，分别是均值向量、协方差矩阵、音素状态转移概率。音素状态转移概率就是一个音素状态转到另一个音素状态的概率，简称转移概率。本发明方法的英语声学混合模型的结构如下：
[0010] 音素 1
[0011] <音素1开始标记〉
[0012] <音素状态总数〉总数值
[0013] <状态〉音素状态2
[0014] <均值向量〉元素个数
[0015] 元素1，元素2，…，元素m
[0016] <协方差矩阵〉协方差矩阵元素个数
[0017] 元素1，元素2，…，元素。
[001引 < 状态〉音素状态3
[0019] …
[0020] <状态〉音素状态k-1
[0021] <均值向量〉元素个数
[0022] 元素1，元素2,…，元素m
[0023] <协方差矩阵〉元素个数
[0024] 元素1，元素2,…，元素n
[00巧] < 音素状态转移概率矩阵〉行数
[002引转移概率U^ ，…，转移概率。^W
[0027] 转移概率，…，转移概率
[0028] …，…，…
[002引转移概率化…，转移概率
[0030] <音素箱束标记〉
[0031] …
[0032]音素i
[003引 < 音素开始标记〉
[0034] <音素状态总数〉总数值
[0035]<状态〉音素状态2
[0036] <均值向量〉元素个数
[0037] 元素1，元素2，…，元素m
[003引 < 协方差矩阵〉元素个数
[0039] 元素1，元素2，…，元素。
[0040]<状态〉音素状态3
[0041] …
[0042] <状态〉音素状态k-i
[0043] <均值向量〉元素个数
[0044] 元素1，元素2,…，元素m
[0045] <协方差矩阵〉元素个数
[0046] 元素1，元素2,…，元素n
[0047] <音素状态转移概率矩阵〉行数 [004引转移概率。…，转移概率。
[004引转移概率0^ 1>，…，转移概率e
[0050] …，…，…
[0051] 转移概率化…，转移概率
[00閲 < 音素错束标记〉
[0053]2.英语声学混合模型的训练
[0054] 构建英语声学混合模型的方法是；第一，输入华尔街日报英语语音标准声学模型、表达正确但发音不标准的中国人英语口语语音数据，通过调整华尔街日报英语语音标准声学模型的均值向量值，构建出一个英语口语自适应语音识别模型；输入华尔街日报英语语音标准声学模型、表达正确且发音标准的中国人英语口语语音数据，通过调整华尔街日报英语语音标准声学模型的均值向量值，训练构建出一个英语标准口语自适应评估模型。由训练构建的一个英语口语自适应语音识别模型与一个英语标准口语自适应评估模型组成英语声学混合模型。下面是训练构建英语口语自适应语音识别模型与英语标准口语自适应评估模型中调整第j个音素状态均值向量的计算公式。
[0055](1)调整第j个音素状态均值向量的计算公式
[0056]
[0057] 在调整第j个音素状态均值向量的计算公式其中，t是第t时刻的语音帖时钟，T是语音总时长，j是第j个音素状态，声学特征向量t是第t时刻语音帖信号值构成的向量，均值向量j是英语语音标准声学模型中第j个音素状态对应的语音帖信号值的平均值构成的向量，a是取值是4的先验值。
[005引其中，第t时刻第j个音素状态概率的计算公式如下：
[0059]
[0060] 在第t时刻第j个音素状态概率的计算公式中，t是第t时刻的语音帖时钟，T是语音总时长，i是第i个音素状态，j是第j个音素状态，N是英语语音标准声学模型中音素状态总数。
[0061] 其中，第t时刻语音帖与第j个音素状态相似度的计算公式如下：
[0062]
[0063] 在第t时刻语音帖与第j个音素状态相似度的计算公式中，j是第j个音素状态，声学特征向量t是第t时刻语音帖的信号值构成的向量，均值向量j.是第j个音素状态对应的语音帖信号值的平均值构成的向量，协方差矩阵J是第j个音素状态的协方差矩阵，（协方差矩阵j.r是第j个音素状态的协方差矩阵求逆，TR是（声学特征向量均值向量j.)的转置。
[0064] 3.英语口语的语音识别
[0065] 英语口语的语音识别是把英语口语的语音转换为其对应的音素状态序列，采用上述的英语口语自适应语音识别模型，计算出每个时刻英语口语的语音所对应的音素状态概率，选取该些音素状态概率中概率值最大音素状态作为最终时刻的英语口语的语音所对应的音素状态，下面是英语口语的语音识别的计算公式。
[0066] (1)第t时刻第j个音素状态概率的计算公式如下：
[0067]
[0068] 第t时刻第j个音素状态概率的计算公式中，max[]是求出概率值最大音素状态 /=1LJ 概率，i是第i个音素状态，j是第j个音素状态，t是第t时刻的语音帖时钟，T是语音总时长，N是英语口语自适应语音识别模型中音素状态总数。
[0069] (2)第t时刻第j个音素状态对应第t-1时刻最大概率音素状态的计算公式
[0070] 音素状态概率1,,巧应最大概率音素状态,_1 =抽3^^《[音素状态概率4,, ><转巧概率(音素状态,^音素状态,。（J)
[0071] 第t时刻第j个音素状态对应第t-1时刻最大概率音素状态的计算公式中， arg max 是求出第t时刻音素状态对应第t-1时刻最大概率音素状态，t是第t时刻的语 /=1 音帖时钟，i是第i个音素状态，j是第j个音素状态，N是英语口语发音自适应识别模型中音素状态总数。
[0072] (3)第T时刻最大概率音素状态的计算公式
[0073]
[0074] 在第T时刻最大概率音素状态的计算公式中，argmax[]是第T时刻求出最大概率片音素状态，T是语音信号的总时长，j是第j个音素状态，N是英语口语自适应语音识别模型中音素状态总数。
[00巧]4.英语口语标准度的计算
[0076] 英语口语标准度是描述被测试者英语口语的发音标准程度，它包括被测试者英语口语的语音与对应音素相似度、语音与对应音素后验相似度，它们的计算公式如下：
[0077] (1)语音与音素相似度的计算
[0078] 语音与音素相似度是一个语音的各个语音帖与其对应音素状态相似程度的平均值，它的计算公式如下：
[0079]
[0080] 在语音与音素相似度的计算公式中，t是第t时刻的语音帖时钟，T是语音总时长长，音素状态t是第t时刻语音帖对应的音素状态，音素状态W是第t+1时刻语音帖对应的音素状态。
[0081] (2)语音与音素后验相似度的计算
[0082] 语音与音素后验相似度是一个已知语音的各个语音帖与其对应的音素状态相似程度的平均值，它的计算公式如下：
[0083]
[0084] 在语音与音素后验相似度的计算公式中，c是第c个音素，M是音素总数。
[0085] 5.英语口语流畅度的计算
[0086] 英语口语流畅度是描述被测试者的英语口语流利程度，包括语速流畅度、段时长流畅度、静音时长流畅度，它们的计算公式如下：
[0087] (1)语速流畅度的计算
[0088] 语速流畅度是描述被测试者对所说英语内容的发音熟练程度，它的计算公式如下：
[0089]
[0090] (2)段时长流畅度的计算
[0091] 段时长流畅度是描述被测试者对所说英语内容的发音清晰程度，它的计算公式如下：
[0092]
[0093] 在段时长流畅度计算公式中，被测语音音素段时长是被测语音所对应音素的持续时间。
[0094] 其中，标准语音音素段时长均值是通过统计英语是母语的英语标准口语样本中音素对应的持续时间得到，它的计算公式如下：
[0095]
[0096] 在标准语音音素段时长均值计算公式中，语音音素持续时间d是英语是母语的英语标准口语的第d个样本音素的持续时间，L是英语是母语的英语标准口语的样本总数。
[0097] 其中，标准语音音素段时长方差是通过计算英语是母语的英语标准口语的每个样本的音素持续时间与其对应的均值差的平方的平均值得到，它的计算公式如下：
[0098]
[0099] 在标准语音音素段时长方差计算公式中，语音音素持续时间d是英语是母语的英语标准口语的第d个样本音素的持续时间，L是英语是母语的英语标准口语的样本总数。
[0100] (3)静音时长流畅度计算
[0101] 静音时长流畅度是描述一个被测试者对所说英语的发音连贯程度，它的计算公式如下：
[0102] 静音时长流畅度二语音总时长-语音非静音时长（11)
[0103] 在静音时长流畅度计算公式中，语音总时长表示语音从开始到结束的时间长度，非静音时长表示整个语音中有声音的语音帖的总时长。
[0104] 6.特征多项式拟合调整
[0105] 上述所述的语音与音素相似度、语音与音素后验相似度、语速流畅度，段时长流畅度、静音时长流畅度是本发明评估方法的评分特征，其中上述所述的评分特征采用如下多项式拟合计算公式进行调整：
[0106]
[0107] 在多项式拟合计算公式中，X为评分特征的次方，评分特征包括语音与音素相似度、语音与音素后验相似度、语速流畅度、段时长流畅度、静音时长流畅度，P是该些评分特征的序号，R是评分特征最高次方，R的初始值是1，求出R最终值的步骤如下：
[010引第一，设置R的初始值为1，通过下面的公式（13)采用最小二乘法求出公式中的 "系数"值，并计算调整评分特征值与人工评分值之间的误差平方和的平均值。如果求出的该个平均值小于0. 1，则R停止递增，R最终值是1 ;否则R值加1，执行下面的第二步

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄桂敏;周娅;周荣;
技术所有人：桂林电子科技大学;
我是此专利的发明人

上一篇：一种基于音频分析的设备运行监控装置的制造方法
上一篇：一种语音信息识别方法和解码器的制造方法