一种发音评测方法、装置、设备及存储介质与流程

文档序号：33137869发布日期：2023-02-03 19:22阅读：52来源：国知局

1.本技术实施例涉及辅助学习技术领域，尤其涉及一种发音评测方法、装置、设备及存储介质。

背景技术：

2.发音质量评测技术是计算机辅助语言学习的一个细分方法，发音质量评测技术要求高校准确地指出学习者的发音错误，给出字母级别的客观评价，帮助学习者纠正发音错误。发音错误类型包括错读、漏读、多读和停顿。
3.现有的发音评测方式是通过ctc(connectionist temporal classification，联结时序分类)检测发音参数和声学参数之间非线性关系的瞬时区域，以检测发音错读。或者提取基于基音信息的短语停顿等特征，以检测发音流利度。但发明人发现，这两种发音测评方式只针对某一种发音错误类型进行发音质量测评，而无法评估其他维度发音情况，评测结果不够全面准确。

技术实现要素：

4.本技术实施例提供一种发音评测方法、装置、设备及存储介质，解决现有发音评测方式的评测维度单一的问题，提高评测结果的准确性。
5.在第一方面，本技术实施例提供了一种发音评测方法，包括：
6.获取待评测音频和对应的参考文本，通过预设的声学模型对齐所述待评测音频和对应的参考文本，得到所述待评测音频的第一测试文本，所述第一测试文本包含对应参考文本中的字母和blank符；
7.将所述第一测试文本中连续的相同字母合并得到第二测试文本，计算所述第二测试文本中各字母的后验概率，根据所述后验概率确定对应字母的发音准确度；
8.根据所述第二测试文本中的字母和对应参考文本中的字母，确定漏读的字母；
9.将所述第二测试文本中的blank符删除或替换为停顿符得到第三测试文本，根据预设的停顿语言模型计算所述第三测试文本的语言模型困惑度，根据所述语言模型困惑度确定所述待评测音频的发音流利度。
10.在第二方面，本技术实施例提供了一种发音评测装置，包括：
11.测试文本确定模块，被配置为获取待评测音频和对应的参考文本，通过预设的声学模型对齐所述待评测音频和对应的参考文本，得到所述待评测音频的第一测试文本，所述第一测试文本包含对应参考文本中的字母和blank符；
12.准确度评测模块，被配置为将所述第一测试文本中连续的相同字母合并得到第二测试文本，计算所述第二测试文本中各字母的后验概率，根据所述后验概率确定对应字母的发音准确度；
13.漏读评测模块，被配置为根据所述第二测试文本中的字母和对应参考文本中的字母，确定漏读的字母；
14.流利度评测模块，被配置为将所述第二测试文本中的blank符删除或替换为停顿符得到第三测试文本，根据预设的停顿语言模型计算所述第三测试文本的语言模型困惑度，根据所述语言模型困惑度确定所述待评测音频的发音流利度。
15.在第三方面，本技术实施例提供了一种发音评测设备，包括：
16.一个或多个处理器；
17.存储器，用于存储一个或多个程序；
18.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的发音评测方法。
19.在第四方面，本技术实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的发音评测方法。
20.上述发音评测方法、装置、设备及存储介质，通过将第二测试文本中各字母的后验概率作为对应字母的发音良好度，以根据各字母的发音良好度评测音频的发音准确度。通过将第二测试文本中各字母与参考文本中的字母进行比较，以检测音频的漏读错误。通过预设的停顿语言模型预测带停顿符的第三测试文本中单词和停顿符的出现概率，根据出现概率计算第三测试文本的语言困惑度，从而根据语言模型困惑度评测音频的发音流利度。通过上述评测音频的发音准确度、漏读错误和发音流利度的技术手段，实现了从多个维度的发音评测，提高了评测结果的准确性。
附图说明
21.图1是本技术一个实施例提供的一种发音评测方法的流程图；
22.图2是本技术实施例提供的状态转移表格的示意图；
23.图3是本技术实施例提供的转移路径网络的示意图；
24.图4是本技术实施例提供的最优路径的示意图；
25.图5是本技术一个实施例提供的一种发音评测装置的结构示意图；
26.图6是本技术一个实施例提供的一种发音评测设备的结构示意图。
具体实施方式
27.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本技术，而非对本技术的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本技术相关的部分而非全部结构。
28.需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或操作或对象与另一个实体或操作或对象区分开来，而不一定要求或者暗示这些实体或操作或对象之前存在任何这种实际的关系或顺序。例如，第一样本集和第二样本集的“第一”和“第二”用来区分不同的样本集合。
29.本技术实施例中提供的发音评测方法可以由发音评测设备执行，该发音评测设备可以通过软件和/或硬件的方式实现，该发音评测设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如，发音评测设备可以是手机、平板和电脑这一类智能设备。
30.发音评测设备安装有至少一类操作系统，其中，操作系统包括但不限定于安卓系统、linux系统及windows系统。发音评测设备可以基于操作系统安装至少一个应用程序，应
用程序可以为操作系统自带的应用程序，也可以为从第三方设备或者服务器中下载的应用程序，实施例中，发音评测设备至少按照有可以执行发音评测方法的应用程序，因此，发音评测设备也可以是应用程序本身。
31.为了便于理解，实施例中以手机为发音评测设备进行示例性描述。
32.图1是本技术一个实施例提供的一种发音评测方法的流程图。参考图1，该发音评测方法包括：
33.s110、获取待评测音频和对应的参考文本，通过预设的声学模型对齐待评测音频和对应的参考文本，得到待评测音频的第一测试文本，第一测试文本包含对应参考文本中的字母和blank符。
34.其中，待评测音频为需要进行发音评测的音频，其可通过麦克风对用户朗读手机屏幕上显示的文本内容时采集得到。参考文本为用户朗读的手机屏幕上显示的文本内容。示例性的，手机屏幕上显示有“i have a cat”的文本内容，用户朗读“i have a cat”时，手机内置的麦克风采集到用户朗读“i have a cat”的音频，相应的手机会获取到待评测音频和对应的参考文本，以根据参考文本评测该待评测音频的发音质量。但传统的发音评测方法只能从单一维度评测发音质量，如检测发音的准确度或流利度，这导致评测不够全面，评测结果不够准确。对此，本实施例提出的发音评测方法，旨在通过多个维度的发音错误类型评测音频的发音质量，以提高评测结果确定性。
35.进一步的，由于待评测音频为音频文件，音频文件包含波形信息，波形信息难以直接用于评价发音质量，因此一般会将待评测音频转换为对应的测试文本，以测试文本来表征待评测音频的发音信息。其中测试文本是由参考文本的字母和blank符组成的文本序列，字母可理解为用户在朗读参考文本时每个音素对应的字母，blank符可理解为朗读参考文本时各音素之间存在的不确定发音，其包括不确定的音素、噪音和停顿，其中不确定的音素是指无法确定发音音素对应的字母。示例性的，为确定待评测音频对应的测试文本，可通过预设的声学模型对齐待评测音频和对应的参考文本，得到第一测试文本。其中，预设的声学模型为预先训练好的ctc模型，第一测试文本为与待评测音频的帧长度相同的测试文本。在该实施例中，通过声学模型对齐待评测音频和对应的参考文本的步骤具体包括s1101-s1104：
36.s1101、在参考文本的每个字母前后各插入一个blank符，得到第五测试文本。
37.以参考文本为“cat”进行示例性描述。在“cat”的每个字母前后各输入一个blank符，得到第五测试文本为εcεaεtε，ε为blank符对应的占位符。
38.s1102、根据待评测音频的帧长度和第五测试文本，以及预设的状态跳转条件，确定包含至少一条转移路径的转移路径网络；其中，状态跳转条件包括从字母前的blank符跳转至字母后的blank符。
39.以待评测音频的帧长度为10进行示例性描述。根据待评测音频的帧长度和第五测试文本构建一个状态转移表格，图2是本技术实施例提供的状态转移表格的示意图。如图2所示，状态转移表格的列长度等于待评测音频的帧长度，t为待评测音频的时间帧。s为待评测音频可能出现的状态，由于待评测音频是用户参照参考文本进行朗读的音频，因此第五测试文本中字母和占位符即为待评测音频可能出现的状态。
40.进一步的，根据预设的状态转移条件，在状态转移表格中构建出转移路径网络。示
例性的，状态转移条件包括：若t时刻状态s为占位符，则t时刻状态s可由t-1时刻的状态s、状态s-1和状态s-2转移而来；若t时刻状态s为字母，且状态s的字母与状态s-2的字母相同，则t时刻状态s可由t-1时刻的状态s和状态s-1转移而来；若t时刻状态s为字母且状态s的字母与状态s-2的字母不相同，则t时刻状态s可由t-1时刻的状态s、状态s-1和状态s-2转移而来。其中，s是当前状态，s-1是s的前第一个状态，s-2是s的前第二状态，例如参考图2，若当前状态s为a，那么状态s-1为ε，状态s-2为c。t是当前时刻，t-1是t的前一个时刻，如t2是t3的前一个时刻。在上述状态条件的约束下，可构建出包含多条从t1到t10的转移路径的转移路径网络。图3是本技术实施例提供的转移路径网络的示意图。如图3所示，转移路径网络包含多条从t1到t10的转移路径，由于用户朗读参考文本时会可能会出现漏读错误，如漏读字母c或t的音素，其转移路径网络还会包含t1时刻从字母c之后的占位符ε、字母a或字母t开始，t10时刻以字母t之前的占位符ε、字母a或字母c结束。但由于可能出现的转移路径太多，图3只示出了漏读中间字母的情况的转移路径，如从t-1时刻的s-2状态的占位符转移至t时刻的s状态的占位符，则该转移路径会保留字母漏读情况。需要说明的是，无论是从哪个状态开始和哪个状态结束的转移路径，其都要遵守上述的状态转移条件。
41.s1103、计算转移路径上字母和blank符的后验概率，根据转移路径上的字母和blank符的后验概率，在转移路径网络中确定出最优路径。
42.示例性的，将待评测音频输入预先训练好的ctc模型中，由ctc模型计算出每个转移路径上每个时间帧对应的字母状态或占位符状态的后验概率，以根据后验概率确定出转移路径网络中的最优路径。其中，最优路径的每个时间帧对应的状态可理解为用户在对应时间帧朗读对应字母或不确定的字母，以及停顿。在该实施例中，通过维特比算法根据转移路径网络中各时间帧对应的状态的后验概率，在转移路径网络中搜索出最优路径。通过维特比算法搜索最优路径可有效减少对数据的处理量，加快对最优路径的搜索效率。
43.s1104、将最优路径对应的字符序列确定为第一测试文本。
44.示例性的，按照时间帧从左到右的顺序，根据最优路径上各时间帧对应的字符或占位符得到最优路径对应的字符序列。图4是本技术实施例提供的最优路径的示意图。如图4所示，该最优路径对应的字符序列为εεcεεεaaεt，也即第一测试文本为εεcεεεaaεt。
45.s120、将第一测试文本中连续的相同字母合并得到第二测试文本，计算第二测试文本中各字母的后验概率，根据后验概率确定对应字母的发音准确度。
46.示例性的，第一测试文本中连续出现的相同字母为用户朗读该字母音素时，待测试音频中包括多个记录用户朗读该音素的连续音频帧，其可理解为用户朗读该字母音素持续的时长。为评测后续的漏读错误和用户朗读参考文本中各字母音素时的发音准确度，将连续出现的相同字母合并为一个字母，只保留字母音素的一个音频帧特征。以第一测试文本为εεcεεεaaεt进行示例性描述。εεcεεεaaεt中a为连续出现的相同字母，将第一测试文本中两个a合并为一个，得到第二测试文本为εεcεεεaεt。在得到第二测试文本后，由于第二测试文本中的字母一一对应于参考文本中的字母，可根据第二测试文本中各字母的后验概率，评测其发音准确度。在该实施例中，确定第二测试文本中各字母的后验概率的步骤包括：
47.s1201、确定最优路径上字母的后验概率为第一测试文本中字母的后验概率。
48.其中，后验概率是预先训练好的ctc模型预测待评测音频中每个时间帧各状态出
现的概率，字母的后验概率越低则表明在该时间帧出现用户朗读该字母音素的概率越低，即在该时间帧用户越不可能发该字母音素，因此字母的后验概率可理解为用户朗读该字母时的发音良好度。而最优路径上的字母表明用户已经发出了该字母音素，因此如果最优路径对应的字母的后验概率低，则表明用户发出的字母音素不够准确，才使得ctc模型在预测字母出现概率时，输出较低的后验概率。
49.示例性的，第一测试文本即为最优路径对应的字符序列，因此确定最优路径上字母的后验概率确定为第一测试文本中对应字母的后验概率。
50.s1202、将第一测试文本中单独出现的字母的后验概率确定为第二测试文本对应字母的后验概率。
51.示例性的，第二测试文本是通过将第一测试文本中连续出现的相同字母合并得到的，第一测试文本中单独出现的字母原封不动的包含在第二测试文本中，因此直接将第一测试文本中单独出现的字母的后验概率确定为第二测试文本中对应字母的后验概率。
52.s1203、计算第一测试文本中连续出现的字母的平均后验概率，将平均后验概率确定为第二测试文本对应字母的后验概率。
53.示例性的，第一测试文本中连续出现的相同字母合并后包含在第二测试文本中，而连续出现的相同字母对应各自的后验概率。因此对连续出现的相同字母对应各自的后验概率，以及字母前后一定范围的blank符号进行平均值计算，得到该字母的平均后验概率，以将该平均后验概率确定为第二测试文本中对应字母的后验概率。例如，第一测试文本εεcεεεaaεεt中字母a的后验概率分别为q1和q2，前后范围2的ε的后验概率为q3、q4、q5、q6，将6个后验概率的平均值(q1+q2+q3+q4+q5+q6)/6确定为第二测试文本εεcεεεaεεt中字母a的后验概率。
54.s130、根据第二测试文本中的字母和对应参考文本中的字母，确定漏读的字母。
55.示例性的，由于本实施例中构建转移路径网络时使用的状态跳转条件包括从字母前的blank符跳转至字母后的blank符，如果最优路径中包含该状态跳转情况，则两个blank符状态之间的字母则不会保留至最优路径的字符序列中。通过比较最优路径对应的字符序列中的字母和参考文本的字母，即可检测用户朗读参考文本时出现的字母漏读错误。进一步的，第二测试文本将连续出现的相同字母合并，只保留了用户发音的字母的一个音频帧，因此可直接将第二测试文本与参考文本进行比较。
56.在一个实施例中，将第二测试文本中的blank符删除得到第四测试文本，将第四测试文本与对应的参考文本进行比较，确定漏读的字母。示例性的，在将第二测试文本和参考文本进行字母比较时，第二测试文本中的占位符属于干扰项，因此将第二测试文本中的占位符删除只保留第二测试文本中的字母。例如，将第二测试文本εεcεεεaεt中的ε删除得到第四测试文本cat，将第四测试文本cat与参考文本cat进行比较，确定用户没有出现字母漏读错误。在该实施例中，若第二测试文本为εεεεεεaεt，将ε删除后得到第四测试文本at，将第四测试文本at与参考文本cat进行比较，确定用户漏读了字母c。
57.s140、将第二测试文本中的blank符删除或替换为停顿符得到第三测试文本，根据预设的停顿语言模型计算第三测试文本的语言模型困惑度，根据语言模型困惑度确定待评测音频的发音流利度。
58.其中，预设的停顿语言模型为预先训练好的可以检测带停顿符的语言模型。语言
模型困惑度(perplexity)可以理解为根据停顿语言模型输出一句话中每个单词或停顿符的出现概率估计一句话的出现概率。示例性的，通过预设的停顿语言模型来计算待评测音频的语言模型困惑度，以确定待评测音频中的停顿位置是否恰当。如果待评测音频在不恰当的位置处停顿，语言模型困惑度会较高。
59.示例性的，在计算待评测音频的语言模型困惑度之前，先确定待评测音频中的停顿位置，并在相应的停顿位置插入停顿符，进而才能检测待评测音频的停顿位置是否恰当。在该实施例中，确定待评测音频的停顿位置的步骤包括s1401-s1402：
60.s1401、根据第二测试文本中的blank符序列，确定blank符序列的序列长度。
61.其中，blank符序列是指多个连续ε组成的序列，如εεε。当blank符序列较长时可理解为用户朗读参考文本时的停顿，因此通过第二测试文本中blank符序列的序列长度来确定blank符序列是否为朗读停顿时出现的状态。
62.s1402、将第二测试文本中序列长度满足预设长度阈值的blank符序列替换为一个停顿符，将第二测试文本中序列长度不满足预设长度阈值的blank符序列和单独出现的blank符删除，得到第三测试文本。
63.示例性的，预设长度阈值可看作是用户朗读停顿时的最短停顿时长。若第二测试文本中的blank符序列大于或等于预设长度阈值，则表明该blank符序列对应的时间帧出现停顿状态，若第二测试文本中的blank符序列小于预设长度阈值，则表明该blank符序列对应的时间帧没有出现停顿状态。在确定出第二测试文本中出现停顿状态的blank符序列后，将该blank符序列在第二测试文本中的位置为停顿位置，并将该blank符序列替换为停顿符。而第二测试文本中没有出现停顿状态的blank符序列和单独出现的blank符会影响后续评测发音流利度，则需要将第二测试文本中没有出现停顿状态的blank符序列和单独出现的blank符删除。例如，第二测试文本为εiεεhεaεεvεeεεεεεεεεεεεεεεεεεεεεaεεcεεεaεεt，预设长度阈值为20，那么可确定第二测试文本中的εεεεεεεεεεεεεεεεεεεε序列对应的时间帧出现停顿状态。因此将第二测试文本中的εεεεεεεεεεεεεεεεεεεε序列替换为停顿符，而第二测试文本中的ε全都删除，得到第五测试文本i have|a cat，其中“|”为停顿符。
64.在一个实施例中，在确定出第二测试文本中的停顿位置后，可在第四测试文本对应的停顿位置插入停顿符。例如，第二测试文本为εiεεhεaεεvεeεεεεεεεεεεεεεεεεεεεεaεεcεεεaεεt，第四测试文本为i have a cat，停顿文字出现在字母e和字母a之间，因此将停顿符插入第四测试文本的字母e和字母a之间，得到第五测试文本i have|a cat。
65.进一步的，在确定出待评测音频的停顿位置后，根据预先训练好的停顿语言模型计算语言模型困惑度。在该实施例，计算语言模型困惑度的步骤具体包括s1403-s1404：
66.s1403、根据预设的停顿语言模型确定第三测试文本中的单词和停顿符的出现概率。
67.s1404、将出现概率代入预设的困惑度计算公式，计算第三测试文本的语言模型困惑度，困惑度计算公式为：
[0068][0069]
其中，n
*
为第三测试文本的单词和停顿符的总数，为第三测试文本的单词或停
顿符，表示文本序列为时停顿语言模型输出的单词或停顿符的出现概率。
[0070]
示例性的，停顿语言模型可以预测第三测试文本中各单词和停顿符在对应位置出现的概率。如预测第三测试文本i have|a cat中的“|”在“i have”的文本序列后面出现的概率。
[0071]
在该实施例中，可通过参考文本的语言模型困惑度和第三测试文本的语言模型困惑度的相对差异，衡量待评测音频的发音流利度。示例性的，衡量待评测音频的发音流利度的步骤具体包括s1405-s1406：
[0072]
s1405、计算参考文本的语言模型困惑度，将第三测试文本的语言模型困惑度和参考文本的语言模型困惑度作差，得到第三测试文本与参考文本的相对差异。
[0073]
示例性的，事先确定参考文本中的标准停顿位置，以在该停顿位置处插入停顿符，得到停顿参考文本。通过停顿语言模型预测停顿参考文本中的字母和停顿符的出现概率，并将该出现概率代入上述的困惑度计算公式，计算得到参考文本的语言模型困惑度。其中，为提高发音评测效率，可事先计算参考文本的语言模型困惑度，在评测发音流利度时可直接调用参考文本的语言模型困惑度。
[0074]
进一步的，将第三测试文本的语言模型困惑度和参考文本的语言模型困惑度作差，得到第三测试文本与参考文本的相对差异g，其中g＝pp(s
*
)-pp(s)，pp(s)为参考文本的语言模型困惑度。
[0075]
s1406、根据相对差异确定待评测音频的发音流利度。
[0076]
示例性的，在不恰当地方停顿时，语言模型困惑度会较高，因此可以通过两条文本路径的语言模型困惑度的相对差异，得到发音流利度评价指标，达到评测发音流利度的目的。
[0077]
综上，本实施例提供的发音评测方法，通过将第二测试文本中各字母的后验概率作为对应字母的发音良好度，以根据各字母的发音良好度评测音频的发音准确度。通过将第二测试文本中各字母与参考文本中的字母进行比较，以检测音频的漏读错误。通过预设的停顿语言模型预测带停顿符的第三测试文本中单词和停顿符的出现概率，根据出现概率计算第三测试文本的语言困惑度，从而根据语言模型困惑度评测音频的发音流利度。通过上述评测音频的发音准确度、漏读错误和发音流利度的技术手段，实现了从多个维度的发音评测，提高了评测结果的准确性。
[0078]
图5是本技术一个实施例提供的一种发音评测装置的结构示意图。参考图5，该发音评测装置包括：测试文本确定模块201、准确度评测模块202、准确度评测模块203和流利度评测模块204。
[0079]
其中，测试文本确定模块，被配置为获取待评测音频和对应的参考文本，通过预设的声学模型对齐待评测音频和对应的参考文本，得到待评测音频的第一测试文本，第一测试文本包含对应参考文本中的字母和blank符；
[0080]
准确度评测模块，被配置为将第一测试文本中连续的相同字母合并得到第二测试文本，计算第二测试文本中各字母的后验概率，根据后验概率确定对应字母的发音准确度；
[0081]
漏读评测模块，被配置为根据第二测试文本中的字母和对应参考文本中的字母，确定漏读的字母；
[0082]
流利度评测模块，被配置为将第二测试文本中的blank符删除或替换为停顿符得到第三测试文本，根据预设的停顿语言模型计算第三测试文本的语言模型困惑度，根据语言模型困惑度确定待评测音频的发音流利度。
[0083]
在上述实施例的基础上，测试文本确定模块包括：状态构建单元，被配置为在参考文本的每个字母前后各插入一个blank符，得到第五测试文本；网络构建单元，被配置为根据待评测音频的帧长度和第五测试文本，以及预设的状态跳转条件，确定包含至少一条转移路径的转移路径网络；其中，状态跳转条件包括从字母前的blank符跳转至字母后的blank符；最优路径确定单元，被配置为计算转移路径上字母和blank符的后验概率，根据转移路径上的字母和blank符的后验概率，在转移路径网络中确定出最优路径；测试文本确定单元，被配置为将最优路径对应的字符序列确定为第一测试文本。
[0084]
在上述实施例的基础上，准确度评测模块包括：第一后验概率确定单元，被配置为确定最优路径上字母的后验概率为第一测试文本中字母的后验概率；第二后验概率确定单元，被配置为将第一测试文本中单独出现的字母的后验概率确定为第二测试文本对应字母的后验概率；第三后验概率确定单元，被配置为计算第一测试文本中连续出现的字母的平均后验概率，将平均后验概率确定为第二测试文本对应字母的后验概率。
[0085]
在上述实施例的基础上，漏读评测模块包括：删除单元，被配置为将第二测试文本中的blank符删除得到第四测试文本，将第四测试文本与对应的参考文本进行比较，确定漏读的字母。
[0086]
在上述实施例的基础上，流利度评测模块包括：序列长度确定单元，被配置为根据第二测试文本中的blank符序列，确定blank符序列的序列长度；停顿位置确定单元，被配置为将第二测试文本中序列长度满足预设长度阈值的blank符序列替换为一个停顿符，将第二测试文本中序列长度不满足预设长度阈值的blank符序列和单独出现的blank符删除，得到第三测试文本。
[0087]
在上述实施例的基础上，流利度评测模块还包括：出现概率计算单元，被配置为根据预设的停顿语言模型确定第三测试文本中的单词和停顿符的出现概率；困惑度计算单元，被配置为将出现概率代入预设的困惑度计算公式，计算第三测试文本的语言模型困惑度，困惑度计算公式为：
[0088][0089]
其中，n
*
为第三测试文本的单词和停顿符的总数，为第三测试文本的单词或停顿符，表示文本序列为时停顿语言模型输出的单词或停顿符的出现概率。
[0090]
在上述实施例的基础上，流利度评测模块还包括：相对差异计算单元，被配置为计算参考文本的语言模型困惑度，将第三测试文本的语言模型困惑度和参考文本的语言模型困惑度作差，得到第三测试文本与参考文本的相对差异；流利度评测单元，被配置为根据相对差异确定待评测音频的发音流利度。
[0091]
综上，本实施例提供的发音评测装置，通过将第二测试文本中各字母的后验概率作为对应字母的发音良好度，以根据各字母的发音良好度评测音频的发音准确度。通过将
第二测试文本中各字母与参考文本中的字母进行比较，以检测音频的漏读错误。通过预设的停顿语言模型预测带停顿符的第三测试文本中单词和停顿符的出现概率，根据出现概率计算第三测试文本的语言困惑度，从而根据语言模型困惑度评测音频的发音流利度。通过上述评测音频的发音准确度、漏读错误和发音流利度的技术手段，实现了从多个维度的发音评测，提高了评测结果的准确性。
[0092]
值得注意的是，上述基于发音评测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。
[0093]
本技术实施例提供的发音评测装置包含在发音评测设备中，且可用于执行上述任意实施例提供的发音评测方法，具备相应的功能和有益效果。
[0094]
图6是本技术一个实施例提供的一种发音评测设备的结构示意图。如图6所示，该发音评测设备包括处理器30、存储器31、输入装置32、输出装置33以及显示屏34；发音评测设备中处理器30的数量可以是一个或多个，图6中以一个处理器30为例；发音评测设备中显示屏34的数量可以是一个或多个，图6中以一个显示屏34为例；发音评测设备中的处理器30、存储器31、输入装置32、输出装置33以及显示屏34可以通过总线或其他方式连接，图6中以通过总线连接为例。
[0095]
存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本技术实施例中的发音评测方法对应的程序指令/模块(例如，发音评测装置中的测试文本确定模块201、准确度评测模块202、准确度评测模块203和流利度评测模块204)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行发音评测设备的各种功能应用以及数据处理，即实现上述发音评测方法。
[0096]
存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据发音评测设备的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至发音评测设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0097]
输入装置32可用于接收输入的数字或字母信息，以及产生与发音评测设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括扬声器等音频输出设备。
[0098]
上述发音评测设备包含发音评测装置，可以用于执行任意发音评测方法，具备相应的功能和有益效果。
[0099]
本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行如上述实施例提供的发音评测方法。
[0100]
当然,本技术实施例所提供的一种计算机可读存储介质，其计算机可执行指令不限于如上的方法操作，还可以执行本技术任意实施例所提供的发音评测方法中的相关操作。
[0101]
通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本技术可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更
佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法。
[0102]
注意，上述仅为本技术的较佳实施例及所运用技术原理。本领域技术人员会理解，本技术不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本技术的保护范围。因此，虽然通过以上实施例对本技术进行了较为详细的说明，但是本技术不仅仅限于以上实施例，在不脱离本技术构思的情况下，还可以包括更多其他等效实施例，而本技术的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶珑雷延强
技术所有人：广州视源人工智能创新研究院有限公司
我是此专利的发明人

上一篇：一种冲压车间生产线地坑通风换气设施的制作方法
上一篇：一种用于工业相机的线阵扫描镜头的制作方法