一种发音流利度评测方法、装置、设备及存储介质与流程

文档序号:32435533发布日期:2022-12-06 18:37阅读:88来源:国知局
一种发音流利度评测方法、装置、设备及存储介质与流程

1.本技术实施例涉及计算机技术领域,尤其涉及一种发音流利度评测方法、装置、设备及存储介质。


背景技术:

2.发音流利度评估是计算机辅助语言学习的一个细分方向,发音流利度评估要求高效准确地还原学习者的实际发音流利情况,给出韵律短语级别的流利程度评价,帮助学习者评估口语的熟练程度。
3.开放式题型的流利度评估采用韵律维度特征,主要包括韵律短语停顿特征、重读音节特征、边界调特征和节奏特征等。其中,短语停顿特征既融合了语速特征,又涵盖了对语法的掌握程度,是流利度评估中的一个重要特征。但是目前对发音流利度的评测一般是从文本语法语义出发,忽略了流利语音中可能存在的停顿习惯,无法适配于发音停顿的特点,导致发音流利度评测的效果不理想。


技术实现要素:

4.本技术实施例提供一种发音流利度评测方法、装置、设备及存储介质,以提高发音流利度的评测效果。
5.在第一方面,本技术实施例提供了一种发音流利度评测方法,包括:
6.获取待评测语音,并对待评测语音进行语音识别,得到包含测试停顿信息的测试文本;
7.将所述测试文本中的测试停顿信息去除,以得到无停顿文本,并基于所述无停顿文本构建词间停顿路径网络,所述词间停顿路径网络记录有文本单词间的直连分支路径和含词间停顿的停顿分支路径,以及所述直连分支路径和所述停顿分支路径对应的概率权重,所述概率权重由训练好的词间停顿预测模型,对所述无停顿文本进行分析得到;
8.根据所述概率权重,在所述词间停顿路径网络中确定最优路径,并基于所述最优路径确定包含参考停顿信息的参考文本,所述最优路径由直连分支路径和停顿分支路径组成;
9.根据所述测试文本和所述参考文本进行发音流利度评测,以得到所述待评测语音对应的发音流利度评测结果。
10.在第二方面,本技术实施例提供了一种发音流利度评测装置,包括文本提取模块、网络构建模块、路径确定模块和发音评测模块,其中:
11.所述文本提取模块,用于获取待评测语音,并对待评测语音进行语音识别,得到包含测试停顿信息的测试文本;
12.所述网络构建模块,用于将所述测试文本中的测试停顿信息去除,以得到无停顿文本,并基于所述无停顿文本构建词间停顿路径网络,所述词间停顿路径网络记录有文本单词间的直连分支路径和含词间停顿的停顿分支路径,以及所述直连分支路径和所述停顿
分支路径对应的概率权重,所述概率权重由训练好的词间停顿预测模型,对所述无停顿文本进行分析得到;
13.所述路径确定模块,用于根据所述概率权重,在所述词间停顿路径网络中确定最优路径,并基于所述最优路径确定包含参考停顿信息的参考文本,所述最优路径由直连分支路径和停顿分支路径组成;
14.所述发音评测模块,用于根据所述测试文本和所述参考文本进行发音流利度评测,以得到所述待评测语音对应的发音流利度评测结果。
15.在第三方面,本技术实施例提供了一种发音流利度评测设备,包括:存储器以及一个或多个处理器;
16.所述存储器,用于存储一个或多个程序;
17.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的发音流利度评测方法。
18.在第四方面,本技术实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的发音流利度评测方法。
19.本技术实施例通过对待评测语音进行语音识别,得到包含测试停顿信息的测试文本,并将测试文本中的测试停顿信息去除,得到无停顿文本,根据该无停顿文本构建词间停顿路径网络,并根据词间停顿路径网络中直连分支路径和停顿分支路径对应的概率权重,并从词间停顿路径网络中确定最优路径,根据最优路径确定包含参考停顿信息的参考文本,可根据测试文本和参考文本进行发音流利度评测,得到待评测语音对应的发音流利度评测结果,其中概率权重基于词间停顿预测模型对无停顿文本进行分析得到,并且该词间停顿预测模型是基于发音流利语音样本进行训练的,参考停顿信息反映了流利语音中存在的停顿习惯,更适应于发音停顿的特点,有效提高发音流利度的评测效果。
附图说明
20.图1是本技术实施例提供的一种发音流利度评测方法的流程图;
21.图2是本技术实施例提供的另一种发音流利度评测方法的流程图;
22.图3是本技术实施例提供的一种加权有限状态转移器网络的结构示意图;
23.图4是本技术实施例提供的一种发音流利度评测装置的结构示意图;
24.图5是本技术实施例提供的一种发音流利度评测设备的结构示意图。
具体实施方式
25.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图对本技术具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本技术,而非对本技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中
的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
26.图1给出了本技术实施例提供的一种发音流利度评测方法的流程图,本技术实施例提供的发音流利度评测方法可以由发音流利度评测装置来执行,该发音流利度评测装置可以通过硬件和/或软件的方式实现,并集成在发音流利度评测设备中。
27.下述以发音流利度评测装置执行发音流利度评测方法为例进行描述。参考图1,该发音流利度评测方法包括:
28.s101:获取待评测语音,并对待评测语音进行语音识别,得到包含测试停顿信息的测试文本。
29.其中待评测语音为需要进行发音流利度评测的语音,可通过麦克风对用户朗读时的语音进行采集得到,或者是根据用户选择将需要进行发音流利度评测的语音文件作为待评测语音。
30.可选的,本实施例提供的待评测语音可基于封闭式题型或开放式题型进行朗读得到。其中封闭式题型为有参考文本的题型,用户需要对照参考文本进行朗读,参考文本是指发音流利度评测装置中保存有或可获得的文本;开放式题型为无参考文本的题型,即发音流利度评测装置未获得对应的参考文本,用户可无参照地进行朗读。
31.示例性的,获取需要进行发音流利度评测的待评测语音,并基于对待评测语音进行语音识别,得到包含测试停顿信息的测试文本。其中测试文本包括文本单词和测试停顿信息,文本单词可理解为用户在阅读时所对应的每一个单词或文字,测试停顿信息可理解为在阅读时,文本单词之间存在的停顿。可以理解的是,停顿表示发音停顿过程,停顿体现为一段时间没有声音,或者外部杂音以及拟声词、下意识发出的“oh”、“um”等语气助词。
32.例如,用户基于开放式题型进行朗读以录制待评测语音,用户朗读的识别文本为“i like thatto tell you the truth”,并且在“that”和“to”之间,以及在“you”和“truth”之间存在停顿,那么对待评测语音进行语音识别后得到的测试文本为“i like that|to tell you|the truth”,其中“i”、“like”等为文本单词,“|”表示在文本单词之间的停顿。
33.在一个可能的实施例中,对于封闭式题型下获得的待评测语音,由于封闭式题型有对应的参考文本,可根据参考文本对待评测语音进行强制对齐,即获取基于参考文本录制得到的待评测语音,对所述待评测语音进行强制对齐,得到包含测试停顿信息的测试文本。具体的,获取基于参考文本录制得到的待评测语音,并参照参考文本对待评测语音进行强制对齐,得到包含测试停顿信息的测试文本,本实施例对封闭式题型下获得的待评测语音进行强制对齐即可得到包含测试停顿信息的测试文本,不需要再另外对待评测语音进行语音识别。
34.s102:将所述测试文本中的测试停顿信息去除,以得到无停顿文本,并基于所述无停顿文本构建词间停顿路径网络,所述词间停顿路径网络记录有文本单词间的直连分支路径和含词间停顿的停顿分支路径,以及所述直连分支路径和所述停顿分支路径对应的概率权重,所述概率权重由训练好的词间停顿预测模型,对所述无停顿文本进行分析得到。
35.示例性的,得到待评测语音对应的测试文本后,将测试文本中的测试停顿信息去除,并将去除测试停顿信息后的测试文本作为无停顿文本,此时,无停顿文本中仅记录有对应的文本单词。
36.例如,在上述得到“i like that|to tell you|the truth”的测试文本后,将测试文本中的测试停顿信息去除后,得到的无停顿文本为“i like that to tell you the truth”。
37.在一个可能的实施例中,对于封闭式题型对应的测试文本,由于用户是照着参考文本进行朗读的,去除测试停顿信息后的测试文本与参考文本一致,可直接将参考文本作为无停顿文本。
38.进一步的,在得到无停顿文本后,基于无停顿文本构建词间停顿路径网络。示例性的,在无停顿文本的每个文本单词之间添加词间停顿,并分别连接前后相邻的文本单词作为直连分支路径,分别连接前后相邻的文本单词和词间停顿作为停顿分支路径,由文本单词、词间停顿、直连分支路径和停顿分支路径构成词间停顿路径网络的基本网络结构。
39.例如,在无停顿文本“i like that to tell you the truth”的每个文本单词之间添加停顿,词间停顿路径网络中最长路径为“i|like|that|to|tell|you|the|truth”,那么对于文本单词“like”,其同时连接有从“i”到“like”的直连分支路径,以及从“i”到“|”,“|”到“like”的停顿分支路径。
40.其中,本实施例提供的词间停顿路径网络中,记录有无停顿文本对应的文本单词、在文本单词之间设置的词间停顿、文本单词间的直连分支路径和含词间停顿的停顿分支路径。其中直连分支路径可理解为无停顿文本中相邻的文本单词之间的连线,停顿分支路径可理解为相邻的文本单词和词间停顿之间的连线。
41.另外,本技术实施例提供的词间停顿路径网络还记录有直连分支路径和停顿分支路径对应的概率权重。直连分支路径的概率权重可理解为前面的文本单词序列的前提下输出后面的文本单词的概率,停顿分支路径的概率权重可理解为前面的文本单词序列或词间停顿到后面的文本单词的概率。
42.本实施例提供的概率权重由基于发音流利语音样本进行训练的词间停顿预测模型,对无停顿文本进行分析得到。在训练词间停顿预测模型时,先收集大量发音流利的语音样本,这些语音样本可以用语速等特征作为初步衡量指标,利用语音识别技术对语音样本进行解码或对齐得到包含样本停顿信息的文本序列,这些语音序列能用于训练预测停顿的n元语法(n-gram)语言模型(即词间停顿预测模型)。词间停顿预测模型可对输入的语音信息或文本序列(词间停顿路径网络)进行分析并输出对应的概率权重。可选的,还可使用其他方法训练得到的语言模型进行停顿预测,比如transformer模型等,本技术不做限定。
43.s103:根据所述概率权重,在所述词间停顿路径网络中确定最优路径,并基于所述最优路径确定包含参考停顿信息的参考文本,所述最优路径由直连分支路径和停顿分支路径组成。
44.示例性的,在确定词间停顿网络中的直连分支路径和停顿分支路径对应的概率权重后,根据概率权重,在词间停顿网络中确定最优路径。其中,最优路径由直连分支路径和停顿分支路径组成。例如,从第一个文本单词到最后一个文本单词,对词间停顿网络中的路径对应的概率权重进行维特比算法搜索,并将统计的概率权重最大的路径作为最优路径,并根据最优路径确定包含参考停顿信息的参考文本。
45.其中,最优路径由直连分支路径和停顿分支路径组成。例如,确定的最优路径为“i like that|to tell you the truth”,那么在最优路径中参考停顿信息指示在“that”和“to”之间存在停顿,其中包含的直连分支路径包括“i-like”、“like-that”、“to-tell”、“tell-you”、“you-the”和“the-truth”,停顿分支路径包括“that-|-to”。
46.在一个可能的实施例中,在得到包含参考停顿信息的参考文本后,根据参考文本停顿/非停顿位置,进一步处理包含测试停顿信息的测试文本。在参考文本停顿位置处,判断测试文本在相同位置处的停顿时长是否大于设定的第一时长阈值,若是则判断为停顿;在参考文本的非停顿位置处,判断测试文本在相同位置处的停顿时长是否大于设定的第二时长阈值,若是则判断为停顿;从而得到包含测试停顿信息的测试文本。需要进行解释的是,由于参考文本的停顿反映的是韵律短语停顿,停顿时长较短,测试文本的停顿反映的是韵律短语停顿以及不流利停顿,停顿时长较长,第一时长阈值一般小于第二时长阈值。
47.s104:根据所述测试文本和所述参考文本进行发音流利度评测,以得到所述待评测语音对应的发音流利度评测结果。
48.示例性的,在得到参考文本后,根据测试文本和参考文本进行发音流利度评测,以得到发音流利度评测结果。
49.例如,利用模型评估策略,根据测试文本和参考文本计算精确率和/或召回率,并将精确率和/或召回率作为发音流利度评测结果。其中精确率(precision)表示在测试文本中,预测出停顿的位置有多少是真正需要停顿的,召回率(recall)表示在参考文本中,需要停顿的位置有多少被预测停顿了。还可以是根据精确率和召回率计算对机器学习模型的停顿评价指标,并将停顿评价指标作为发音流利度评测结果,例如将f分数(f-measure)作为停顿评价指标。在一个可能的实施例中,还可以是通过困惑度差异作为发音流利度评测结果,即分别基于n元语法模型计算参考文本的语言模型困惑度(perplexity)和测试文本的语言模型困惑度,并将两者语言模型困惑度的差作为困惑度差异。另外,还可将对f分数和困惑度差异进行加权求和结果作为发音流利度评测结果。可以理解的是,精确率、召回率、f分数、困惑度差异作为对模型好坏的评价指标,其本身反映的是模型本身的好坏程度,本实施例利用精确率、召回率、f分数、困惑度差异作为发音流利度评测结果,借助对模型好坏的评价指标对用户的发音流利程度进行评估,并利用参考文本作为参考答案,有效反映用户发音的流利程度。
50.上述,通过对待评测语音进行语音识别,得到包含测试停顿信息的测试文本,并将测试文本中的测试停顿信息去除,得到无停顿文本,根据该无停顿文本构建词间停顿路径网络,并根据词间停顿路径网络中直连分支路径和停顿分支路径对应的概率权重,并从词间停顿路径网络中确定最优路径,根据最优路径确定包含参考停顿信息的参考文本,可根据测试文本和参考文本进行发音流利度评测,得到待评测语音对应的发音流利度评测结果,其中概率权重基于词间停顿预测模型对无停顿文本进行分析得到,并且该词间停顿预测模型是基于发音流利语音样本进行训练的,参考停顿信息反映了流利语音中存在的停顿习惯,更适应于发音停顿的特点,有效提高发音流利度的评测效果。
51.在上述实施例的基础上,图2给出了本技术实施例提供的另一种发音流利度评测方法的流程图,该发音流利度评测方法是对上述发音流利度评测方法的具体化。参考图2,该发音流利度评测方法包括:
52.s201:获取待评测语音,并对待评测语音进行语音识别,得到包含测试停顿信息的测试文本。
53.s202:将所述测试文本中的测试停顿信息去除,以得到无停顿文本。
54.s203:利用词间停顿预测模型,对所述无停顿文本进行词间停顿预测,以得到所述无停顿文本的各个文本单词对应的预测概率。
55.本实施例构建词间停顿预测模型,并收集大量发音流利的语音样本,并对语音样本进行语音识别,得到文本序列。在文本序列中记录有对语音样本语音识别出的样本单词以及样本停顿信息,其中样本停顿信息记录有在样本单词之间存在的停顿,本实施例将样本单词之间存在的停顿视为特殊单词记录在文本序列中。
56.进一步的,将这些文本序列作为训练样本对词间停顿预测模型进行训练,直至训练次数达到设定训练次数或准确度达到设定准确度要求。在完成对词间停顿预测模型的训练后,向词间停顿预测模型输入不包含停顿的文本,词间停顿预测模型将输出输入文本每个单词对应预测概率(包括相邻单词之间不存在停顿、单词之前为停顿的预测概率)。
57.具体的,在得到无停顿文本后,将无停顿文本输入到训练好的词间停顿预测模型中,由词间停顿预测模型对无停顿文本进行词间停顿预测,并输出无停顿文本的各个文本单词对应的预测概率(包括相邻文本单词之间不存在停顿的预测概率,以及文本单词之前为停顿的预测概率)。
58.s204:基于所述无停顿文本和所述预测概率,构建加权有限状态转移器网络。
59.本实施例以加权有限状态转移器网络作为词间停顿路径(weighted finite-state transducers,wfst)网络。在得到无停顿文本和和各文本单词对应的预测概率后,基于无停顿文本和预测概率构建加权有限状态转移器网络。其中,加权有限状态转移器网络记录有文本单词间的直连分支路径和含词间停顿的停顿分支路径,以及直连分支路径和停顿分支路径对应的概率权重。其中加权有限状态转移器网络可利用openfst工具,对无停顿文本进行处理得到。
60.本实施例提供的概率权重根据无停顿文本的各个文本单词对应的预测概率进行确定,本实施例将预测概率作为概率权重。具体的,对于直连分支路径,对应的概率权重为相邻单词之间不存在停顿的预测概率;对于前面为停顿,后面为文本单词的停顿分支路径,对应的概率权重为文本单词之前为停顿的预测概率。
61.图3为本技术实施例提供的一种加权有限状态转移器网络的结构示意图,如图3所示,假设在确定无停顿文本为“i like that to tell you the truth”时,根据该无停顿文本构建的加权有限状态转移器网络如图3所示。其中,sil为停顿标签(即文本中的“|”),“:”前的符号为输入标签,“:”后的符号为输出标签,p(w2|w1)表示当前标签是w2并且前一个标签是w1的概率权重(即对应的预测概率)。可以理解的是,加权有限状态转移器网络中最长路径的编号为从0至13,对应的文本为“i|like|that|to|tell|you|the|truth”,而文本为“i like that|to tell youthe truth”对应的路径的编号为0-1-3-5-8-7-9-11-13,在“that”和“to”之间存在词间停顿,5-8和8-7为停顿分支路径,其余为直连分支路径。
62.s205:根据所述概率权重,在所述加权有限状态转移器网络中确定最优路径。
63.在构建加权有限状态转移器网络后,根据每个直连分支路径和停顿分支路径的概率权重,在加权有限状态转移器网络中确定最优路径。其中最优路径可根据每个完整路径(包括第一个文本单词和最后一个文本单词的路径)的概率权重的累计进行确定,即将累计的概率权重最高的完整路径作为最优路径。还可根据概率权重,基于现有的路径搜索算法
确定在词间停顿路径网络中搜索最优路径。
64.在一个可能的实施例中,根据维特比算法确定最优路径,即根据所述概率权重,基于维特比算法在所述词间停顿路径网络中搜索最优路径。通过维特比算法搜索最优路径可有效减少对数据的处理量,加快对最优路径的搜索效率。
65.s206:基于所述最优路径确定包含参考停顿信息的参考文本,所述最优路径由直连分支路径和停顿分支路径组成。
66.在确定最优路径后,根据最优路径确定词间停顿的位置,并按照这些确定的位置在参考文本中添加词间停顿,从而得到包含参考停顿信息的参考文本。可以理解的是,对于存在词间停顿的参考文本,其对应的最优路径由直连分支路径和停顿分支路径组成,而对于不存在词间停顿的参考文本,其对应的最优路径仅由直连分支路径组成。
67.例如,根据图3提供的加权有限状态转移器网络,确定的最优路径为0-1-3-5-8-7-9-11-1,可知5-8和8-7为停顿分支路径,其余分支路径为直连分支路径,那么对应的参考停顿信息指示在“that”和“to”之间存在词间停顿,并且对应的参考文本为“i like that|to tell youthe truth”。
68.s207:基于对机器学习模型的模型评价指标,根据所述测试文本和所述参考文本进行停顿评价,以得到停顿评价结果。
69.本实施例基于对机器学习模型的模型评价指标,根据测试文本和参考文本进行停顿评价,以得到停顿评价结果。需要进行解释的是,对机器学习模型的模型评价指标本身反映的是模型本身的好坏程度,本实施例以包含参考停顿信息的参考文本作为参考对照,借助停顿评价结果对用户的发音流利程度进行评估,有效反映用户发音的流利程度。
70.在一个可能的实施例中,利用f分数作为停顿评价指标,即所述根据所述测试文本和所述参考文本进行停顿评价,包括:
71.s2071:基于所述测试文本和所述参考文本,计算所述待评测语音对应的精确率和召回率。
72.s2072:根据所述精确率和所述召回率,计算所述待评测语音对应的停顿评价结果。
73.本技术实施例将包含参考停顿信息的参考文本作为实际类别的正类,并将包含测试停顿信息的测试文本作为预测类别的正类,计算待评测语音对应的精确率和召回率。
74.具体的,本实施例提供的精确率的计算公式为:
[0075][0076]
其中,t
p
为测试文本和参考文本之间停顿位置一致的停顿位置数量,f
p
为测试文本中停顿,而参考文本中未停顿的停顿位置数量;
[0077]
本实施例提供的召回率的计算公式为:
[0078][0079]
其中,fn为参考文本中停顿,而测试文本中未停顿的停顿位置数量;
[0080]
本实施例提供的停顿评价指标(f分数)的计算公式为:
[0081][0082]
其中,β为设定的平衡参数,用于平衡精确率和召回率,其取值为0≤β≤+∞,可根据实际应用场景进行调节,n*为参考文本的文本单词数,ω为设定的调节因子。本实施例考虑了文本长度对于发音流利度的影响,文本长度越长,越易引起发音的停顿,本实施例通过引入类sigmoid函数减轻文本长度对于发音停顿影响。
[0083]
可以理解的是,停顿评价指标(f分数)越高,指示待评测语音发音流利度越好,而在停顿评价指标较低时,则表示待评测语音在不该停顿的位置进行了停顿,并且需要停顿的位置没有停顿的情况较严重。
[0084]
s208:根据所述参考文本的第一语言模型困惑度和所述测试文本的第二语言模型困惑度之间的困惑度差异,得到文本评价结果。
[0085]
本实施例基于n元语法模型对测试文本和参考文本对应的语言模型困惑度(包括第一语言模型困惑度和二语言模型困惑度)进行计算,并将两者之间的困惑度差异作为文本评价结果。在其他实施例中,还可预先设定困惑度差异和文本评价结果之间的换算比例,根据换算比例计算困惑度差异对应的文本评价结果。需要进行解释的是,困惑度本身反映的是语言模型的好坏程度,本实施例以包含参考停顿信息的参考文本作为参考对照,借助文本评价结果对用户的发音流利程度进行评估,有效反映用户发音的流利程度。
[0086]
在一个可能的实施例中,基于n元语法模型计算语言模型困惑度,即所述根据所述参考文本的第一语言模型困惑度和所述测试文本的第二语言模型困惑度之间的困惑度差异,包括:
[0087]
s2081:基于n元语法模型计算所述根据所述参考文本的第一语言模型困惑度。
[0088]
s2082:基于n元语法模型计算所述根据所述测试文本的第二语言模型困惑度。
[0089]
s2083:将所述第二语言模型困惑度和所述第一语言模型困惑度的差作为困惑度差异。
[0090]
具体的,本实施例提供的参考文本的第一语言模型困惑度的计算公式为:
[0091][0092]
其中,n*为参考文本的文本单词数,w*为参考文本中的文本单词,表示文本序列为时,n元语法模型输出的概率。
[0093]
本实施例提供的测试文本的第二语言模型困惑度的计算公式为:
[0094][0095]
其中,n为测试文本的文本单词数,w为测试文本中的文本单词,w为测试文本中的文本单词,p(wi|w1,...,w
i-1
)表示文本序列为w1,...,w
i-1
时,n元语法模型输出wi的概率。
[0096]
本实施例提供的困惑度差异的计算公式为:
[0097]
g=pp(s
*
)-pp(s)
[0098]
本实施例利用文本路径的语言模型困惑度,根据测试文本和参考文本计算语言模型困惑度。在不恰当地方停顿时,语言模型困惑度会较高,因此可以通过两条文本路径的语言模型困惑度的相对差异,得到文本评价指标,来衡量发音的流利程度。
[0099]
s209:对所述停顿评价结果和所述文本评价结果进行加权求和得到综合评价结果,根据综合评价结果确定所述待评测语音对应的发音流利度评测结果。
[0100]
具体的,在得到停顿评价结果和文本评价结果后,对停顿评价结果和文本评价结果进行加权求和,得到综合评价结果。
[0101]
本实施例提供的综合评价结果的计算公式为:
[0102]
score
flency
=λf
break
+(1-λ)g
[0103]
其中,λ为设定的权重因子,用于平衡停顿评价结果(f分数)和文本评价结果(困惑度差异)两个评价指标。
[0104]
进一步的,在确定综合评价结果后,根据综合评价结果确定待评测语音对应的发音流利度评测结果。本实施例将综合评价结果作为待评测语音对应的发音流利度评测结果。在其他实施例中,还可预先建立综合评价结果与发音流利度评测结果之间的映射关系,并在确定综合评价结果后,根据该映射关系确定对应的发音流利度评测结果,以使发音流利度评测结果更直观。
[0105]
本实施例考虑停顿评价结果和文本评价结果对发音流利度评测结果的不同影响程度,将停顿评价结果和文本评价结果的加权求和结果作为发音流利度评测结果,在一个可能的实施例中,还可单独将停顿评价结果或文本评价结果作为发音流利度评测结果。
[0106]
上述,通过对待评测语音进行语音识别,得到包含测试停顿信息的测试文本,并将测试文本中的测试停顿信息去除,得到无停顿文本,根据该无停顿文本构建词间停顿路径网络,并根据词间停顿路径网络中直连分支路径和停顿分支路径对应的概率权重,并从词间停顿路径网络中确定最优路径,根据最优路径确定包含参考停顿信息的参考文本,可根据测试文本和参考文本进行发音流利度评测,得到待评测语音对应的发音流利度评测结果,其中概率权重基于词间停顿预测模型对无停顿文本进行分析得到,并且该词间停顿预测模型是基于发音流利语音样本进行训练的,参考停顿信息反映了流利语音中存在的停顿习惯,更适应于发音停顿的特点,有效提高发音流利度的评测效果。同时,借助对模型好坏的评价指标以及语言模型困惑度对用户的发音流利程度进行评估,有效反映用户发音的流利程度。
[0107]
图4给出了本技术实施例提供的一种发音流利度评测装置的结构示意图。参考图4,该发音流利度评测装置包括文本提取模块31、网络构建模块32、路径确定模块33和发音评测模块34。
[0108]
其中,所述文本提取模块31,用于获取待评测语音,并对待评测语音进行语音识别,得到包含测试停顿信息的测试文本;所述网络构建模块32,用于将所述测试文本中的测试停顿信息去除,以得到无停顿文本,并基于所述无停顿文本构建词间停顿路径网络,所述词间停顿路径网络记录有文本单词间的直连分支路径和含词间停顿的停顿分支路径,以及所述直连分支路径和所述停顿分支路径对应的概率权重,所述概率权重由训练好的词间停
顿预测模型,对所述无停顿文本进行分析得到;所述路径确定模块33,用于根据所述概率权重,在所述词间停顿路径网络中确定最优路径,并基于所述最优路径确定包含参考停顿信息的参考文本,所述最优路径由直连分支路径和停顿分支路径组成;所述发音评测模块34,用于根据所述测试文本和所述参考文本进行发音流利度评测,以得到所述待评测语音对应的发音流利度评测结果。
[0109]
上述,通过对待评测语音进行语音识别,得到包含测试停顿信息的测试文本,并将测试文本中的测试停顿信息去除,得到无停顿文本,根据该无停顿文本构建词间停顿路径网络,并根据词间停顿路径网络中直连分支路径和停顿分支路径对应的概率权重,并从词间停顿路径网络中确定最优路径,根据最优路径确定包含参考停顿信息的参考文本,可根据测试文本和参考文本进行发音流利度评测,得到待评测语音对应的发音流利度评测结果,其中概率权重基于词间停顿预测模型对无停顿文本进行分析得到,并且该词间停顿预测模型是基于发音流利语音样本进行训练的,参考停顿信息反映了流利语音中存在的停顿习惯,更适应于发音停顿的特点,有效提高发音流利度的评测效果。
[0110]
在一个可能的实施例中,所述装置还包括参考提取模块,所述参考提取模块用于:
[0111]
获取基于参考文本录制得到的待评测语音,对所述待评测语音进行强制对齐,得到包含测试停顿信息的测试文本。
[0112]
在一个可能的实施例中,所述词间停顿路径网络为加权有限状态转移器网络,所述网络构建模块32在基于所述无停顿文本构建词间停顿路径网络时,具体为:
[0113]
利用词间停顿预测模型,对所述无停顿文本进行词间停顿预测,以得到所述无停顿文本的各个文本单词对应的预测概率;
[0114]
基于所述无停顿文本和所述预测概率,构建加权有限状态转移器网络。
[0115]
在一个可能的实施例中,所述路径确定模块33在根据所述概率权重,在所述词间停顿路径网络中确定最优路径时,具体为:根据所述概率权重,基于维特比算法在所述词间停顿路径网络中搜索最优路径。
[0116]
在一个可能的实施例中,所述发音评测模块34具体用于:基于对机器学习模型的模型评价指标,根据所述测试文本和所述参考文本进行停顿评价,以得到停顿评价结果;根据所述参考文本的第一语言模型困惑度和所述测试文本的第二语言模型困惑度之间的困惑度差异,得到文本评价结果;对所述停顿评价结果和所述文本评价结果进行加权求和得到综合评价结果,根据综合评价结果确定所述待评测语音对应的发音流利度评测结果。
[0117]
在一个可能的实施例中,所述发音评测模块34在根据所述测试文本和所述参考文本进行停顿评价时,具体为:
[0118]
基于所述测试文本和所述参考文本,计算所述待评测语音对应的精确率和召回率;
[0119]
根据所述精确率和所述召回率,计算所述待评测语音对应的停顿评价结果。
[0120]
在一个可能的实施例中,所述精确率的计算公式为:
[0121][0122]
其中,t
p
为测试文本和参考文本之间停顿位置一致的停顿位置数量,f
p
为测试文本中停顿,而参考文本中未停顿的停顿位置数量;
[0123]
所述召回率的计算公式为:
[0124][0125]
其中,fn为参考文本中停顿,而测试文本中未停顿的停顿位置数量;
[0126]
所述停顿评价指标的计算公式为:
[0127][0128]
其中,β为设定的平衡参数,n*为参考文本的文本单词数,ω为调节因子。
[0129]
在一个可能的实施例中,所述参考文本的第一语言模型困惑度的计算公式为:
[0130][0131]
其中,n*为参考文本的文本单词数,w*为参考文本中的文本单词,表示文本序列为时输出的概率;
[0132]
所述测试文本的第二语言模型困惑度的计算公式为:
[0133][0134]
其中,n为测试文本的文本单词数,w为测试文本中的文本单词,p(wi|w1,...,w
i-1
)表示文本序列为w1,...,w
i-1
时输出wi的概率;
[0135]
所述困惑度差异的计算公式为:
[0136]
g=pp(s
*
)-pp(s)
[0137]
所述综合评价结果的计算公式为:
[0138]
score
flency
=λf
break
+(1-λ)g
[0139]
其中,λ为设定的权重因子。
[0140]
本技术实施例还提供了一种发音流利度评测设备,该发音流利度评测设备可集成本技术实施例提供的发音流利度评测装置。图5是本技术实施例提供的一种发音流利度评测设备的结构示意图。参考图5,该发音流利度评测设备包括:输入装置43、输出装置44、存储器42以及一个或多个处理器41;所述存储器42,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器41执行,使得所述一个或多个处理器41实现如上述实施例提供的发音流利度评测方法。其中输入装置43、输出装置44、存储器42和处理器41可以通过总线或者其他方式连接,图5中以通过总线连接为例。
[0141]
存储器42作为一种计算设备可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本技术任意实施例所述的发音流利度评测方法对应的程序指令/模块(例如,发音流利度评测装置中的文本提取模块41、网络构建模块42、路径确定模块43和发音评测模块44)。存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。
此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0142]
输入装置43可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
[0143]
处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的发音流利度评测方法。
[0144]
上述提供的发音流利度评测装置、设备和计算机可用于执行上述任意实施例提供的发音流利度评测方法,具备相应的功能和有益效果。
[0145]
本技术实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的发音流利度评测方法,该发音流利度评测方法包括:获取待评测语音,并对待评测语音进行语音识别,得到包含测试停顿信息的测试文本;将所述测试文本中的测试停顿信息去除,以得到无停顿文本,并基于所述无停顿文本构建词间停顿路径网络,所述词间停顿路径网络记录有文本单词间的直连分支路径和含词间停顿的停顿分支路径,以及所述直连分支路径和所述停顿分支路径对应的概率权重,所述概率权重由训练好的词间停顿预测模型,对所述无停顿文本进行分析得到;根据所述概率权重,在所述词间停顿路径网络中确定最优路径,并基于所述最优路径确定包含参考停顿信息的参考文本,所述最优路径由直连分支路径和停顿分支路径组成;根据所述测试文本和所述参考文本进行发音流利度评测,以得到所述待评测语音对应的发音流利度评测结果。
[0146]
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如cd-rom、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如dram、ddr ram、sram、edo ram,兰巴斯(rambus)ram等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
[0147]
当然,本技术实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的发音流利度评测方法,还可以执行本技术任意实施例所提供的发音流利度评测方法中的相关操作。
[0148]
上述实施例中提供的发音流利度评测装置、设备及存储介质可执行本技术任意实施例所提供的发音流利度评测方法,未在上述实施例中详尽描述的技术细节,可参见本技术任意实施例所提供的发音流利度评测方法。
[0149]
上述仅为本技术的较佳实施例及所运用的技术原理。本技术不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离
本技术的保护范围。因此,虽然通过以上实施例对本技术进行了较为详细的说明,但是本技术不仅仅限于以上实施例,在不脱离本技术构思的情况下,还可以包括更多其他等效实施例,而本技术的范围由权利要求的范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1