发音检测方法、装置、设备及存储介质与流程

文档序号：29522554发布日期：2022-04-06 23:46阅读：213来源：国知局

1.本技术实施例涉及语音技术领域，特别涉及一种发音检测方法、装置、设备及存储介质。

背景技术：

2.随着语音技术的发展，人们可以基于语音的音高曲拱对语音数据进行检测，以确定语音数据与目标语种对应的音高节奏的匹配程度。
3.以英语和汉语为例，由于英语对应的音高曲拱与重音之间的相关性很高，相关技术对英语文本中的重音进行标注，然后将以汉语为母语的发音者对应的语音数据和以英语为母语的发音者对应的语音数据，就重音音节进行比对，以获取音高检测结果。
4.然而，由于重音是工作人员依据自己的主观感知进行标注的，重音的标注很容易受工作人员的影响，标注质量不可靠，从而导致相关技术的检测不够准确。

技术实现要素：

5.本技术实施例提供了一种发音检测方法、装置、设备及存储介质，能够提高发音检测的准确性。技术方案如下：
6.根据本技术实施例的一个方面，提供了一种发音检测方法，所述方法包括：
7.获取第一语种对应的学习文本，以及所述学习文本对应的输入语音；其中，所述输入语音是指以第二语种为母语的发音者朗读所述学习文本产生的语音；
8.获取所述输入语音的音高曲拱，所述音高曲拱用于指示语音的语调变化；
9.统计所述音高曲拱对应的至少一个有效特征参数，所述有效特征参数用于区分所述第一语种对应的音高节奏和所述第二语种对应的音高节奏；
10.基于所述至少一个有效特征参数，确定所述输入语音的音高检测结果；其中，所述音高检测结果用于指示所述输入语音与所述学习文本在所述第一语种下的音高节奏的匹配程度。
11.根据本技术实施例的一个方面，提供了一种发音检测装置，所述装置包括：
12.输入语音获取模块，用于获取第一语种对应的学习文本，以及所述学习文本对应的输入语音；其中，所述输入语音是指以第二语种为母语的发音者朗读所述学习文本产生的语音；
13.音高曲拱获取模块，用于获取所述输入语音的音高曲拱，所述音高曲拱用于指示语音的语调变化；
14.有效参数统计模块，用于统计所述音高曲拱对应的至少一个有效特征参数，所述有效特征参数用于区分所述第一语种对应的音高节奏和所述第二语种对应的音高节奏；
15.检测结果获取模块，用于基于所述至少一个有效特征参数，确定所述输入语音的音高检测结果；其中，所述音高检测结果用于指示所述输入语音与所述学习文本在所述第一语种下的音高节奏的匹配程度。
16.根据本技术实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述发音检测方法。
17.可选地，所述计算机设备为终端或服务器。
18.根据本技术实施例的一个方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述发音检测方法。
19.根据本技术实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述发音检测方法。
20.本技术实施例提供的技术方案可以带来如下有益效果：
21.通过基于可用于区分不同语种之间的音高节奏的有效特征参数，获取输入语音的音高检测结果，以确定输入语音与目标语种对应的音高节奏的匹配程度，解决了相关技术中由于重音标注数据不可靠而导致的发音检测不够准确的问题。由于本技术无需依赖人工标注的重音标注数据，从而避免了不可靠重音标注数据，以及多重音韵律模式对发音检测的影响，进而提高了发音检测的准确性。
22.另外，本技术通过有效特征参数即可进行发音检测，而无需针对重音音节进行一一的比对，从而提高了发音检测的效率。同时，由于无需进行重音的人工标注，节省了人工资源，以及降低了语音样本数据的获取难度。
附图说明
23.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
24.图1是本技术一个实施例提供的方案实施环境的示意图；
25.图2是本技术一个实施例提供的发音检测方法的流程图；
26.图3是本技术一个实施例提供的音高曲拱的示意图；
27.图4是本技术另一个实施例提供的音高曲拱的示意图；
28.图5是本技术另一个实施例提供的音高曲拱的示意图；
29.图6是本技术一个实施例提供的显著性检验结果的表格；
30.图7和图8是本技术一个实施例提供的语音输入界面的示意图；
31.图9是本技术一个实施例提供的第二基频曲拱中的峰值数的统计图；
32.图10是本技术一个实施例提供的发音检测装置的框图；
33.图11是本技术另一个实施例提供的发音检测装置的框图；
34.图12是本技术一个实施例提供的计算机设备的结构框图。
具体实施方式
35.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
36.请参考图1，其示出了本技术一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为发音检测系统的系统架构。该实施环境可以包括：终端10和服务器20。
37.终端10可以是诸如手机、平板电脑、pc(personal computer，个人计算机)、可穿戴设备、车载设备等电子设备。可选地，用户可以通过终端10中安装的目标应用程序的客户端，获取输入语音的音高检测结果。上述目标应用程序可以是任何提供发音检测服务的应用程序，如语言学习类应用程序、发音检测类应用程序、智能读写类应用程序、情感分析类应用程序等，本技术实施例在此不做限定。
38.服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。服务器20用于为终端10中的目标应用程序的客户端提供后台服务。例如，服务器20可以是上述目标应用程序的后台服务器。
39.终端10和服务器20之间可以通过网络30进行通信。
40.示例性地，用户将输入语音输入到目标应用程序的客户端中(如以汉语为母语的发音者阅读英语文本产生的语音)，客户端将该输入语音发送至服务器20，服务器20对该输入语音进行发音检测，生成音高检测结果，并将音高检测结果发送至客户端，客户端将该音高检测结果展示给用户。
41.在一些实施例中，终端10在获取输入语音之后，可直接对输入语音进行发音检测，生成音高检测结果，并将该音高检测结果展示给用户。
42.请参考图2，其示出了本技术一个实施例提供的发音检测方法的流程图，该方法各步骤的执行主体可以是图1所示方案实施环境中的服务器20(或终端10)，该方法可以包括如下几个步骤(201～204)：
43.步骤201，获取第一语种对应的学习文本，以及学习文本对应的输入语音；其中，输入语音是指以第二语种为母语的发音者朗读学习文本产生的语音。
44.第一语种和第二语种是指不同的语种，即第一语种可以是指除第二语种之外的任一语种，第二语种可以是指除第一语种之外的任一语种。例如，语种可以包括但不限于汉语、英语、法语、德语等。
45.在本技术实施例中，第一语种和第二语种可以通过各自对应的音高曲拱进行区分。以第二语种与母语的发音者在学习第一语种的时候，往往会将第二语种对应的音高曲拱特征应用到第一语种的学习过程中(本技术将以第二语种为母语学习第一语种的发音学习者称为二语者，将以第一语种为母语的发音者称为母语者)，因此，二语者阅读学习文本产生的输入语音对应的音高曲拱集合了第一语种的音高曲拱特征和第二音高曲拱特征，故可通过基于母语者对应的音高曲拱和二语者对应的音高曲拱，实现二语者的发音检测。
46.可选地，上述音高曲拱是指用于表述音高变化规律的曲拱。音高可以由基频(一般以f0表示)表示，也即音高曲拱可以用基频曲拱来表示(即基频值序列组成的曲拱)。声音可以被分解为许多单纯的正弦波，其中频率最低的正弦波即为基音，该最低频率即为基频。基频可以携带较多的能量，是区分音高的主要成分，因此，可用基频曲拱来表示音高曲拱。
47.学习文本是指以第一语种对应的文字表述形成的文本内容。例如，以第一语种为
英语为例，学习文本可以是以英文表述的句子、段落、文章等。
48.示例性地，在第一语种为英语、第二语种为汉语的情况下，以学习文本为“his technique is ample and his musical ideas are projected beautifully”为例，参考图3，图表301示出了以英语为母语的发音者阅读学习文本产生的语音对应的音高曲拱(即基频曲拱)，图表302示出了以汉语为母语的发音者阅读学习文本产生的语音对应的音高曲拱。英语属于重音节拍语种，且为重音语种的代表，其对应的音高曲拱呈“大波浪形状”。例如，图表301中的音高曲拱为“大波浪形状”。汉语属于音节节拍语种，且为声调语种的代表，汉语的基频曲拱主要是由字调与语调的相互作用形成的，因此，以汉语为母语、英语为学习语的二语者对应的音高曲拱呈“大波浪叠加小波浪形状”。例如，图表302中的音高曲拱为“大波浪叠加小波浪形状”。其中，图3对应的音高曲拱中的基频值是以半音为单位计算的，且该音高曲拱经过归一化处理，如此可以便于比较。可见，以英语为母语的母语者对应的音高曲拱和以汉语为母语、英语为学习语的二语者对应的音高曲拱之间存在显著差异，故可以通过对比各自对应的音高曲拱，实现以汉语为母语、英语为学习语的二语者的发音检测。
49.可选地，虽然母语者对应的音高曲拱和二语者对应的音高曲拱之间存在区别，但并不是音高曲拱对应的所有特征参数都可以用于二语者的发音检测，因此还需要进一步确定出所有特征参数中的有效特征参数，以通过有效特征参数进行二语者的发音检测，下文对此将进行详细介绍。其中，有效特征参数是指不同语种各自对应的音高曲拱之间具有差异显著性的特征参数，也即有效特征参数可以有效区分不同语种各自对应的音高曲拱。
50.步骤202，获取输入语音的音高曲拱，该音高曲拱用于指示语音的语调变化。
51.可选地，音高曲拱的获取过程也即是基频曲拱的获取过程。其中，基频曲拱中的各个基频值可以以赫兹为单位，也可以以半音为单位。以赫兹为单位的基频曲拱可以转换成以半音为单位的基频曲拱，以半音为单位的基频曲拱可以转换成以赫兹为单位的基频曲拱。本技术可以通过同时获取上述两种表述形式下的音高曲拱，来提高发音检测效果。
52.在一个示例中，音高曲拱的获取过程可以如下：剔除输入语音中停顿时间大于第一阈值的停段，得到处理后的输入语音；以第一间隔时间从处理后的输入语音中提取基频值，得到第一基频曲拱，第一基频曲拱是以赫兹为单位的基频曲拱；对第一基频曲拱进行转换，得到第二基频曲拱，第二基频曲拱是以半音为单位的带有音节标注的基频曲拱；将第一基频曲拱和第二基频曲拱确定为输入语音的音高曲拱。
53.其中，停段是指没有发音的语音段，也即语音信号嘎裂处对应的语音段。第一阈值时间可以诸如5毫秒、6毫秒等，其可以根据实际使用情况进行适应性地设置与调整。可选地，可以通过reaper(robust epoch and pitch estimator，一种语言处理系统)以第一间隔时间从处理后的输入语音中提取出基频值，以生成第一基频曲拱。如此，可以解决嘎裂处的基频值的计算问题。
54.可选地，在获取第一基频曲拱之后，还可以通过将以赫兹为单位的第一基频曲拱可以转换成以半音为单位的第二基频曲拱，减弱或消除性别等差异的影响，其具体转换过程可以如下：获取发音者的初始音高范围；对初始音高范围进行调整，得到调整后的音高范围；其中，调整后的音高范围大于初始音高范围；基于调整后的音高范围的下限值，确定标准音高值；基于标准音高值，对第一基频曲拱进行转换，得到第二基频曲拱。
55.其中，初始音高范围是指开发者为发音者设置的通用音高范围，该音高范围能够
覆盖所有发音者的基频范围，其可以根据专家经验值进行设定。例如，男性的初始音高范围可以设置为75-300赫兹，女性的初始音高范围可以设置为100-400赫兹。
56.为了保证音高范围的准确性，还需对初始音高范围进行适应性地放大调整，其具体调整过程可以如下：基于初始音高范围，计算出发音者的第一四分位和第三四分位，基于第一四分位，确定调整后的音高范围的下限值，基于第三四分位，确定调整后的音高范围的上限值。例如，以初始音高范围为100-400赫兹为例。分别获取该初始音高范围的四分位：100、200、300和400，基于第一四分位100，确定调整后的音高范围的下限值为100*0.75＝75，基于第三四分位300，确定调整后的音高范围的的上限值为300*1.5＝450，则调整后的音高范围为75-450赫兹。可选地，该上下限的调整幅度可以根据实际使用情况进行设置，本技术实施例在此不做限定。
57.一般情况下，音高范围的最低处的基频值经常会出偏差，而5％处的基频值更具代表性，因此，本技术将调整后的音高范围的5％处的数值作为标准音高值。例如，若调整后的音高范围为75-450赫兹，则该标准音高值可以为75*1.05＝78.75赫兹。可选地，标准音高在调整后的音高范围中的位置可以根据实际需求进行适应性调整，本技术实施例在此不做限定。
58.可选地，第二基频曲拱的获取过程可以用如下公式表示：
[0059][0060]
其中，f0[st]为第二基频曲拱，f0[hz]为第一基频曲拱，f
0-base
为标准音高值。
[0061]
可选地，在将第一基频曲拱转换成第二基频曲拱之前，还可以对第一基频曲拱进行插值和平滑处理，以提高基频曲拱的质量。
[0062]
示例性地，在第一语种为英语、第二语种为汉语的情况下，以学习文本为“outside only a handful of repoerters remained”为例。在获取以汉语为母语的发音者阅读该学习文本产生的输入语音之后，采用上述技术方案提取出该输入语音对应的音高曲拱。参考图4，图4示出了该音高曲拱，该音高曲拱包括以半音为单位带有音节标注(即图4中的圆圈)的第二基频曲拱401和以赫兹为单位的第一基频曲拱402。其中，图4中的横坐标为时间，左纵坐标的单位为半音，右纵坐标的单位为赫兹。
[0063]
步骤203，统计音高曲拱对应的至少一个有效特征参数，该有效特征参数用于区分第一语种对应的音高节奏和第二语种对应的音高节奏。
[0064]
可选地，可以从音高曲拱中提取出多个特征参数，该多个特征参数包括但不限于：音高曲拱中的峰值数、音高曲拱中的谷值数、音高曲拱中的各个峰值距离的平均值、音高曲拱中的各个峰值距离的标准差、音高曲拱中的各个波峰的突起程度的平均值、音高曲拱中的各个波峰的突起程度的标准差、音高曲拱对应的基频值的平均值、音高曲拱对应的调域等，本技术实施例对特征参数不做限定。其中，峰值距离是指相邻峰值之间的时间宽度，突起程度是指峰值与设定阈值之间的差值，该设定阈值可以是对应基频曲拱中最低的谷值，也可以是基频值的平均值，本技术在此不做限定。
[0065]
有效特征参数是指多个特征参数中可用于区分第一语种对应的音高节奏和第二语种对应的音高节奏的特征参数。其中，音高节奏可通过音高曲拱进行表征。
[0066]
可选地，对于第一语种和第二语种，音高曲拱对应的有效特征参数可以通过显著
性检验来确定。在一个示例中，有效特征参数的确定过程可以如下：
[0067]
1、获取语音样本数据，语音样本数据是基于第一语种对应的文本内容得到的语音数据。
[0068]
该语音样本数据至少可以包括以下三种类型的语音数据：以第一语种为母语的发音者对应的语音数据、以第二语种为母语的发音者对应的高音高节奏分数的语音数据和以第二语种为母语的发音者对应的低音高节奏分数的语音数据。其中，音高节奏分数用于指示音高节奏的好坏，音高节奏分数越高，音高节奏越好(也即越符合第一语种对应的音高节奏)。
[0069]
2、对语音样本数据进行划分，得到第一语音数据集、第二语音数据集和第三语音数据集。
[0070]
其中，第一语音数据集中包括以第一语种为母语的发音者对应的语音数据，第二语音数据集中包括以第二语种为母语的发音者对应的高音高节奏分数的语音数据，第三语音数据集中包括以第二语言为母语的发音者对应的低音高节奏分数的语音数据。
[0071]
3、获取第一语音数据集、第二语音数据集和第三语音数据集分别对应的音高曲拱。
[0072]
4、对于音高曲拱中的目标特征参数，将第一语音数据集和第二语音数据集对应的目标特征参数，组合成第一目标特征参数集，将第一语音数据集和第三语音数据集对应的目标特征参数，组合成第二目标特征参数集，将第二语音数据集和第三语音数据集对应的目标特征参数，组合成第三目标特征参数集。
[0073]
可选地，目标特征参数可以是指上述多个特征参数中的任一特征参数。
[0074]
5、分别对第一目标特征参数集、第二目标特征参数集和第三目标特征参数集进行显著性检验。
[0075]
示例性地，以对第一目标特征参数集进行显著性检验为例。建立假设：第一语音数据集对应的目标特征参数与第二语音数据集对应的目标特征参数之间不具有显著性。其中，显著性用于指示两个数据集的目标特征参数之间具有差异性。
[0076]
从第一目标特征参数集中随机抽取阈值数量的样本数据；分别计算样本数据对应的第一平均值和第一目标特征参数集对应的第二平均值，基于第一平均值和第二平均值，计算检验统计量，基于检验统计量查询相应的界值表，以确定第一概率值，该第一概率值用于指示第一语音数据集对应的目标特征参数与第二语音数据集对应的目标特征参数之间不具有显著性的可能性。
[0077]
若第一概率值大于或等于第一阈值，则假设成立，若第一概率值小于第一阈值，则假设不成立。例如，假设第一阈值为0.05，若第一概率值小于0.05，则表明假设不成立，也即第一语音数据集对应的目标特征参数与第二语音数据集对应的目标特征参数之间具有显著性。若第一概率值大于或等于0.05，则表明假设成立，也即第一语音数据集对应的目标特征参数与第二语音数据集对应的目标特征参数之间不具有显著性。可选地，若第一概率值小于0.01，则表明第一语音数据集对应的目标特征参数与第二语音数据集对应的目标特征参数之间具有极显著性；若第一概率值小于0.001，则表明第一语音数据集对应的目标特征参数与第二语音数据集对应的目标特征参数之间具有极极显著性。
[0078]
分别获取多个特征参数对应的显著性检验结果。
[0079]
6、若目标特征参数在第一目标特征参数集、第二目标特征参数集和第三目标特征参数集中都为显著性，则将目标特征参数确定为有效特征参数；其中，显著性用于指示两个数据集的目标特征参数之间具有差异性。
[0080]
步骤204，基于至少一个有效特征参数，确定输入语音的音高检测结果；其中，音高检测结果用于指示输入语音与学习文本在第一语种下的音高节奏的匹配程度。
[0081]
可选地，音高检测结果的获取过程可以如下：基于至少一个有效特征参数，确定输入语音的音高节奏分数；若音高节奏分数大于第二阈值，则确定输入语音的音高节奏与学习文本在第一语种下的音高节奏相匹配；若音高节奏分数小于第二阈值，则确定输入语音的音高节奏与学习文本在第一语种下的音高节奏不匹配。
[0082]
可选地，音高节奏分数与匹配程度呈正相关关系，也即音高节奏分数越高，输入语音的音高节奏与第一语种的音高节奏越匹配。
[0083]
第二阈值为匹配程度的检测标准，只有满足第二阈值，才可判断输入语音的音高节奏满足第一语种的音高节奏。该第二阈值可以设置为75分、80分等。
[0084]
在一个示例中，音高节奏分数的获取方法可以如下：调用逻辑回归模型，逻辑回归模型是基于带有专家打分标注的语料样本训练的；通过逻辑回归模型基于至少一个有效特征，确定输入语音的音高节奏分数。
[0085]
可选地，还可以通过设定的音高节奏分数的计算规则来计算音高节奏分数。例如，对至少一个有效特征参数进行加权求和，以获取音高节奏分数。还可以设置相应的关系表，基于至少一个特征参数，从关系表中查询出音高节奏分数，本技术实施例对音高节奏分数的获取方式不做限定。
[0086]
综上所述，本技术实施例提供的技术方案，通过基于可用于区分不同语种之间的音高节奏的有效特征参数，获取输入语音的音高检测结果，以确定输入语音与目标语种对应的音高节奏的匹配程度，解决了相关技术中由于重音标注数据不可靠而导致的发音检测不够准确的问题。由于本技术无需依赖人工标注的重音标注数据，从而避免了不可靠重音标注数据，以及多重音韵律模式对发音检测的影响，进而提高了发音检测的准确性。
[0087]
另外，本技术通过有效特征参数即可进行发音检测，而无需针对重音音节进行一一的比对，从而提高了发音检测的效率。同时，由于无需进行重音的人工标注，节省了人工资源，以及降低了语音样本数据的获取难度。
[0088]
另外，通过以合适地间隔时间提取输入语音中的基频值，可以有效解决嘎裂处的基频值的计算问题，从而提高发音检测的准确性。另外，在获取以赫兹为单位的音高曲拱的同时，还获取以半音为单位的音高曲拱，减弱或消除了性别等差异的影响，进一步提高了发音检测的准确性。
[0089]
在一个示例性实施例中，以第一语种为英语，第二语种为汉语为例，英语和汉语之间对应的有效特征参数的确定过程可以如下：
[0090]
获取语音样本数据，该语音样本数据是基于英语对应的文本内容得到的语音数据。该语音样本数据至少可以包括以下三种类型的语音数据：以英语为母语的发音者对应的语音数据(以下简称母语组数据)、以汉语为母语的发音者对应的高音高节奏分数的语音数据(以下简称高分二语组数据)和以汉语为母语的发音者对应的低音高节奏分数的语音数据(以下简称低分二语组数据)。
[0091]
对语音样本数据进行划分，将母语组数据划分为母语组数据集，将高分二语组数据划分为高分二语组数据集，以低分二语组数据划分为低分二语组数据集。
[0092]
采用上述实施例提供的技术方案，分别获取母语组数据集对应的音高曲拱、高分二语组数据集对应的音高曲拱和低分二语组数据集对应的音高曲拱。
[0093]
分别获取母语组数据集、高分二语组数据集和低分二语组数据集对应的多个特征参数。参考图5，图5示出了以英语为母语的母语者阅读与图4对应的学习文本产生的语音对应的音高曲拱。该音高曲拱包括以半音为单位带有音节标注(即图5中的圆圈)的第二基频曲拱501和以赫兹为单位的第一基频曲拱502。第二基频曲拱501中的每个圆圈代表一个音节，圆圈的中心的高度代表该音节对应的基频值，圆圈的直径代表音节的长度。第二基频曲拱501呈显出典型的陈述句语调，属于重音节拍语种，重音音节的长度会比非重音音节的长度长很多，重音音节会对非重音音节的长度进行挤压，非重音音节的长度大小不一。对于同一个音节，音节的基频值变化幅度与音节的长度相关，较长的音节通常有较大的基频值变化幅度。与图4中的第二基频曲拱401相比，第二基频曲拱501中的波峰波谷变化次数较少，峰值的突出程度大，峰值距离大。因此，本技术将该多个特征参数设置为：音高曲拱对应的第一基频曲拱中的峰值数、音高曲拱对应的第二基频曲拱中的峰值数、第二基频曲拱中的各个峰值距离的平均值、第二基频曲拱中的各个峰值距离的标准差、第二基频曲拱中的各个波峰的突起程度的平均值和第二基频曲拱中的各个波峰的突起程度的标准差。
[0094]
对于多个特征参数中的目标特征参数，将母语组数据集和高分二语组数据集对应的目标特征参数，组合成第一目标特征参数集，将母语组数据集和低分二语组数据集对应的目标特征参数，组合成第二目标特征参数集，将高分二语组数据集和低分二语组数据集对应的目标特征参数，组合成第三目标特征参数集。
[0095]
分别对第一目标特征参数集、第二目标特征参数集和第三目标特征参数集进行显著性检验。
[0096]
示例性地，参考图6，其示出了本技术一个实施例提供的显著性检验结果的表格。音高曲拱对应的第二基频曲拱中的峰值数和第二基频曲拱中的各个峰值距离的平均值可以有效区分母语组数据集、高分二语组数据集和低分二语组数据集之间对应的音高节奏，则可以将音高曲拱对应的第二基频曲拱中的峰值数和第二基频曲拱中的各个峰值距离的平均值确定为英语和汉语之间对应的有效特征参数，也即英语和汉语之间对应的有效特征参数包括以下至少之一：音高曲拱对应的第二基频曲拱中的峰值数和第二基频曲拱中的各个峰值距离的平均值。
[0097]
可选地，音高曲拱对应的第一基频曲拱中的峰值数可以有效区分母语组数据集和高分二语组数据集之间对应的音高节奏，以及高分二语组数据集和低分二语组数据集之间对应的音高节奏。第二基频曲拱中的各个波峰的突起程度的标准差可以有效区分母语组数据集和高分二语组数据集之间对应的音高节奏，以及母语组数据集和低分二语组数据集之间对应的音高节奏。第二基频曲拱中的各个峰值距离的标准差可以有效区分母语组数据集和低分二语组数据集之间对应的音高节奏，以及高分二语组数据集和低分二语组数据集之间对应的音高节奏。则可以将音高曲拱对应的第一基频曲拱中的峰值数、第二基频曲拱中的各个波峰的突起程度的标准差和第二基频曲拱中的各个峰值距离的标准差确定为英语和汉语之间对应的重要特征参数。
[0098]
由于第二基频曲拱中的各个波峰的突起程度的平均值无法区分出任意两组数据集之间的音高节奏，则可以将第二基频曲拱中的各个波峰的突起程度的平均值确定为英语和汉语之间对应的无效特征参数。
[0099]
综上所述，本技术实施例提供的技术方案，通过基于可用于区分不同语种之间的音高节奏的有效特征参数，获取输入语音的音高检测结果，以确定输入语音与目标语种对应的音高节奏的匹配程度，解决了相关技术中由于重音标注数据不可靠而导致的发音检测不够准确的问题。由于本技术无需依赖人工标注的重音标注数据，从而避免了不可靠重音标注数据，以及多重音韵律模式对发音检测的影响，进而提高了发音检测的准确性。
[0100]
另外，本技术通过有效特征参数即可进行发音检测，而无需针对重音音节进行一一的比对，从而提高了发音检测的效率。同时，由于无需进行重音的人工标注，节省了人工资源，以及降低了语音样本数据的获取难度。
[0101]
在一个示例性实施例中，以第一语种为英语，第二语种为汉语为例，参考图1，发音的检测过程可以如下：
[0102]
1、终端10中的目标应用程序获取英语对应的学习文本，以及以汉语为母语的发音者朗读该学习文本产生的输入语音。
[0103]
可选地，该学习文本可以是发音者自行输入的学习文本，也可以是发音者从目标应用程序所提供的学习文本数据库中选择的学习文本。输入语音可以是发音者即时录制的语音，也可以是使用之前录制好的语音。示例性地，参考图7和图8，发音者在语音输入界面701中输入学习文本“i know the fact，do you know”，并通过触发控件702开始录制输入语音。在阅读完学习文本之后，发音者通过触发703结束录音。
[0104]
可选地，上述目标应用程序可以是任何提供发音检测服务的应用程序，如语言学习类应用程序、发音检测类应用程序、智能读写类应用程序、情感分析类应用程序等。
[0105]
2、终端10中的目标应用程序将学习文本和输入语音发送至服务器20。
[0106]
3、服务器20对输入语音进行打分，获取音高节奏分数。
[0107]
可选地，该打分过程可以包括如下内容：
[0108]
服务器20在获取学习文本和输入语音之后，将学习文本和输入语音发送至音高曲拱分析器。
[0109]
音高曲拱分析提取输入语音的音高曲拱，并统计该音高曲拱对应的至少一个有效特征参数。可选地，该至少一个有效特征参数为：音高曲拱对应的第二基频曲拱中的峰值数和第二基频曲拱中的各个峰值距离的平均值。
[0110]
由于基频曲拱中的微小波动通常反映的是听觉难以察觉的辅音元音音段的情况，而我们只对能感知到音节以上层面的基频波动感兴趣，因此，在获取有效特征参数之前，还可以对基频曲拱进行筛选处理，以去除基频曲拱中的无效波峰和无效波谷，也即保留基频曲拱中的有效波峰和有效波谷。其中，有效波峰和有效波谷可以反映出音节以上层面的基频波动。
[0111]
可选地，有效波峰和有效波谷的确定方法相同，下文将以有效波峰的确定过程为例进行说明，其具体内容可以如下：获取音高曲拱中的第一波峰、第一波谷和第二波谷；其中，第一波谷是指第一波峰对应的前一个波谷，第二波谷是指第一波峰对应的后一个波谷；若第一波峰与第一波谷之间的基频差值大于第三阈值，和/或第一波峰与第二波谷之间的
基频差值大于第三阈值，则将第一波峰确定为有效波峰；基于音高曲拱中的有效波峰，获取至少一个有效特征参数。
[0112]
示例性地，在音高曲拱中的基频值以半音为单位(即第二基频曲拱)的情况下，第三阈值可以设置为0.5、0.6个半音等，第三阈值可以根据实际使用情况进行设定与调整。例如，我们将第三阈值设置为0.5个半音，也即在目标波峰与前面一个或后面一个波谷之间至少相差0.5个半音，才可以将其确定为有效波峰。也即目标波谷与前面一个或后面一个波峰之间至少相差0.5个半音，才可以将其确定为有效波谷。可选地，可以基于筛选后的第二基频曲拱对第一基频曲拱进行等效筛选。
[0113]
可选地，可以采用matlab(一种数学软件)中的地形突出分析技术提取基频曲拱中的波峰和波谷，以及与波峰和波谷相关的参数，诸如峰值数、峰值和峰值距离等。
[0114]
可选地，为了便于比较，在获取有效特征参数之前，还可以将波峰和波谷之间的时间宽度归化至0-1之间，可选地，峰值距离的获取过程可以如下：对第二基频曲拱中的相邻的波峰和波谷之间的时间宽度进行归一化处理，得到处理后的第二基频曲拱；从处理后的第二基频曲拱中，获取各个峰值距离。
[0115]
示例性地，参考图9，其示出了本技术一个实施例提供的第二基频曲拱中的峰值数的统计图。曲拱901为低分二语组数据集(即图9中的enlo)对应的每个句子的第二基频曲拱中的峰值数的曲拱，曲拱902为高分二语组数据集(即图9中的enhi)对应的每个句子的第二基频曲拱中的峰值数的曲拱，曲拱903为母语组数据集(即图9中的enna)对应的每个句子的第二基频曲拱中的峰值数的曲拱。其中，曲拱901在每个句子下的第二基频曲拱中的峰值数最多，其次为曲拱902，曲拱903在每个句子下的第二基频曲拱中的峰值数最少。可见，第二基频曲拱中的峰值数可以有效区分低分二语组数据集、高分二语组数据集和母语组数据集。
[0116]
音高曲拱分析将该音高曲拱对应的至少一个有效特征参数，输入至逻辑回归函数，得到音高节奏分数。该逻辑回归函数是通过拟合专家打分训练得到的。
[0117]
4、服务器20将音高节奏分数发送给目标应用程序。
[0118]
5、目标应用程序显示该音高节奏分数。
[0119]
可选地，音高节奏分数越高，输入语音对应的音高节奏越好，也即输入语音的音高节奏与英语对应的音高节奏越匹配。
[0120]
可选地，在一些实施例中，在获取音高曲拱对应的有效特征参数的同时，还可以获取音高曲拱对应的重要特征参数，诸如音高曲拱对应的第一基频曲拱中的峰值数、第二基频曲拱中的各个波峰的突起程度的标准差和第二基频曲拱中的各个峰值距离的标准差。然后基于有效特征参数和重要特征参数，对输入语音进行音高节奏的打分。如此可以提高音高节奏打分的全面性，从而进一步提高发音检测的准确性。对于无效特征参数(如第二基频曲拱中的各个波峰的突起程度的平均值)，可以根据实际使用需求进行增加与删减。
[0121]
在一个可行的示例中，上述目标应用程序可以是对输入语音的发音韵律进行打分的应用程序。服务器20在获取音高节奏分数之后，还可以通过韵分析器得到的其他韵律参数的分数，诸如节奏分数(即音节的时长对应的分数)、音强分数(即音节的响度对应的分数)、重音分数等。然后将音高节奏分数和其他韵律参数的分数进行综合打分，以获取韵律分数。服务器20将韵律分数发送至目标应用程序，目标应用程序显示韵律分数。
[0122]
可选地，目标应用程序可以直接显示韵律分数，也可以以星级的形式显示韵律分数，还可以同时显示韵律分数和韵律星级。诸如，韵律分数的范围为0-100，韵律分数越高，输入语音的韵律越好。韵律星级的范围可以为0-5颗星，星的颗数越多，输入语音的韵律越好。
[0123]
可选地，目标应用程序还可以在学习文本中以不同的颜色标记出错误重音音节和正确重音音节，以及标注出错误重音音节的正确发音和错误发音，以便于发音者了解错误发音，并学习到正确发音。示例性地，可以将正确重音音节标记为绿色，则将错误重音音节标记为红色，并用红色标记出错误发音，以橙色标记出正确发音。
[0124]
综上所述，本技术实施例提供的技术方案，通过基于可用于区分不同语种之间的音高节奏的有效特征参数，获取输入语音的音高检测结果，以确定输入语音与目标语种对应的音高节奏的匹配程度，解决了相关技术中由于重音标注数据不可靠而导致的发音检测不够准确的问题。由于本技术无需依赖人工标注的重音标注数据，从而避免了不可靠重音标注数据，以及多重音韵律模式对发音检测的影响，进而提高了发音检测的准确性。
[0125]
另外，本技术通过有效特征参数即可进行发音检测，而无需针对重音音节进行一一的比对，从而提高了发音检测的效率。同时，由于无需进行重音的人工标注，节省了人工资源，以及降低了语音样本数据的获取难度。
[0126]
下述为本技术装置实施例，可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
[0127]
请参考图10，其示出了本技术一个实施例提供的发音检测装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1000可以包括：输入语音获取模块1001、音高曲拱获取模块1002、有效参数统计模块1003和检测结果获取模块1004。
[0128]
输入语音获取模块1001，用于获取第一语种对应的学习文本，以及所述学习文本对应的输入语音；其中，所述输入语音是指以第二语种为母语的发音者朗读所述学习文本产生的语音。
[0129]
音高曲拱获取模块1002，用于获取所述输入语音的音高曲拱，所述音高曲拱用于指示语音的语调变化。
[0130]
有效参数统计模块1003，用于统计所述音高曲拱对应的至少一个有效特征参数，所述有效特征参数用于区分所述第一语种对应的音高节奏和所述第二语种对应的音高节奏。
[0131]
检测结果获取模块1004，用于基于所述至少一个有效特征参数，确定所述输入语音的音高检测结果；其中，所述音高检测结果用于指示所述输入语音与所述学习文本在所述第一语种下的音高节奏的匹配程度。
[0132]
在一个示例性实施例中，如图11所示，所述音高曲拱获取模块1002包括：处理语音获取子模块1002a、第一曲拱获取子模块1002b、第二曲拱获取子模块1002c和音高曲拱获取子模块1002d。
[0133]
处理语音获取子模块1002a，用于剔除所述输入语音中停顿时间大于第一阈值的停段，得到处理后的输入语音。
[0134]
第一曲拱获取子模块1002b，用于以第一间隔时间从所述处理后的输入语音中提取基频值，得到第一基频曲拱，所述第一基频曲拱是以赫兹为单位的基频曲拱。
[0135]
第二曲拱获取子模块1002c，用于对所述第一基频曲拱进行转换，得到第二基频曲拱，所述第二基频曲拱是以半音为单位的带有音节标注的基频曲拱。
[0136]
音高曲拱获取子模块1002d，用于将所述第一基频曲拱和所述第二基频曲拱确定为所述输入语音的音高曲拱。
[0137]
在一个示例性实施例中，所述第二曲拱获取子模块1002c，用于：
[0138]
获取所述发音者的初始音高范围；
[0139]
对所述初始音高范围进行调整，得到调整后的音高范围；其中，所述调整后的音高范围大于所述初始音高范围；
[0140]
基于所述调整后的音高范围的下限值，确定标准音高值；
[0141]
基于所述标准音高值，对所述第一基频曲拱进行转换，得到所述第二基频曲拱。
[0142]
在一个示例性实施例中，所述检测结果获取模块1004，用于：
[0143]
基于所述至少一个有效特征参数，确定所述输入语音的音高节奏分数；
[0144]
若所述音高节奏分数大于第二阈值，则确定所述输入语音的音高节奏与所述学习文本在所述第一语种下的音高节奏相匹配；
[0145]
若所述音高节奏分数小于所述第二阈值，则确定所述输入语音的音高节奏与所述学习文本在所述第一语种下的音高节奏不匹配。
[0146]
在一个示例性实施例中，所述检测结果获取模块1004，还用于：
[0147]
调用逻辑回归模型，所述逻辑回归模型是基于带有专家打分标注的语料样本训练的；
[0148]
通过所述逻辑回归模型基于所述至少一个有效特征，确定所述输入语音的音高节奏分数。
[0149]
在一个示例性实施例中，所述有效参数统计模块1003，用于：
[0150]
获取语音样本数据，所述语音样本数据是基于所述第一语种对应的文本内容得到的语音数据；
[0151]
对所述语音样本数据进行划分，得到第一语音数据集、第二语音数据集和第三语音数据集；其中，所述第一语音数据集中包括以所述第一语种为母语的发音者对应的语音数据，所述第二语音数据集中包括以所述第二语种为母语的发音者对应的高音高节奏分数的语音数据，所述第三语音数据集中包括以所述第二语言为母语的发音者对应的低音高节奏分数的语音数据；
[0152]
获取所述第一语音数据集、所述第二语音数据集和所述第三语音数据集分别对应的音高曲拱；
[0153]
对于所述音高曲拱中的目标特征参数，将所述第一语音数据集和所述第二语音数据集对应的目标特征参数，组合成第一目标特征参数集，将所述第一语音数据集和所述第三语音数据集对应的目标特征参数，组合成第二目标特征参数集，将所述第二语音数据集和所述第三语音数据集对应的目标特征参数，组合成第三目标特征参数集；
[0154]
分别对所述第一目标特征参数集、所述第二目标特征参数集和所述第三目标特征参数集进行显著性检验；
[0155]
若所述目标特征参数在所述第一目标特征参数集、所述第二目标特征参数集和所述第三目标特征参数集中都为显著性，则将所述目标特征参数确定为所述有效特征参数；其中，所述显著性用于指示两个数据集的目标特征参数之间具有差异性。
[0156]
在一个示例性实施例中，所述第一语种为英语，所述第二语种为汉语；
[0157]
所述至少一个有效特征参数包括以下至少之一：所述音高曲拱对应的第二基频曲拱中的峰值数、所述第二基频曲拱中的各个峰值距离的平均值；其中，所述峰值距离是指相邻峰值之间的时间宽度。
[0158]
在一个示例性实施例中，所述有效参数统计模块1003，还用于：
[0159]
获取所述音高曲拱中的第一波峰、第一波谷和第二波谷；其中，所述第一波谷是指所述第一波峰对应的前一个波谷，所述第二波谷是指所述第一波峰对应的后一个波谷；
[0160]
若所述第一波峰与所述第一波谷之间的基频差值大于第三阈值，和/或所述第一波峰与所述第二波谷之间的基频差值大于所述第三阈值，则将所述第一波峰确定为有效波峰；
[0161]
基于所述音高曲拱中的有效波峰，获取所述至少一个有效特征参数。
[0162]
在一个示例性实施例中，所述有效参数统计模块1003，还用于：
[0163]
对所述第二基频曲拱中的相邻的波峰和波谷之间的时间宽度进行归一化处理，得到处理后的第二基频曲拱；
[0164]
从所述处理后的第二基频曲拱中，获取所述各个峰值距离。
[0165]
综上所述，本技术实施例提供的技术方案，通过基于可用于区分不同语种之间的音高节奏的有效特征参数，获取输入语音的音高检测结果，以确定输入语音与目标语种对应的音高节奏的匹配程度，解决了相关技术中由于重音标注数据不可靠而导致的发音检测不够准确的问题。由于本技术无需依赖人工标注的重音标注数据，从而避免了不可靠重音标注数据，以及多重音韵律模式对发音检测的影响，进而提高了发音检测的准确性。
[0166]
另外，本技术通过有效特征参数即可进行发音检测，而无需针对重音音节进行一一的比对，从而提高了发音检测的效率。同时，由于无需进行重音的人工标注，节省了人工资源，以及降低了语音样本数据的获取难度。
[0167]
需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0168]
请参考图12，其示出了本技术一个实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的发音检测方法。具体来讲：
[0169]
该计算机设备1200包括中央处理单元(如cpu(central processing unit，中央处理器)、gpu(graphics processing unit，图形处理器)和fpga(field programmable gate array，现场可编程逻辑门阵列)等)1201、包括ram(random-access memory，随机存取存储器)1202和rom(read-only memory，只读存储器)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。该计算机设备1200还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(input output system，i/o系统)1206，和用
于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
[0170]
该基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中，该显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。该基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
[0171]
该大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，该大容量存储设备1207可以包括诸如硬盘或者cd-rom(compact disc read-only memory，只读光盘)驱动器之类的计算机可读介质(未示出)。
[0172]
不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasable programmable read-only memory，可擦写可编程只读存储器)、eeprom(electrically erasable programmable read-only memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，cd-rom、dvd(digital video disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
[0173]
根据本技术实施例，该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
[0174]
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述发音检测方法。
[0175]
在一个示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集在被处理器执行时以实现上述发音检测方法。
[0176]
可选地，该计算机可读存储介质可以包括：rom(read-only memory，只读存储器)、ram(random-access memory，随机存储器)、ssd(solid state drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括reram(resistance random access memory，电阻式随机存取记忆体)和dram(dynamic random access memory，动态随机存取存储器)。
[0177]
在一个示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述发音检测方法。
[0178]
应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本技术实施例对此不作限定。
[0179]
以上所述仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁红卫林炳怀王丽园
技术所有人：腾讯科技（北京）有限公司
我是此专利的发明人

上一篇：一种适用于CRH5G型动车组的继电器板卡自动检测仪的制作方法
上一篇：胶带分切机的制作方法