语音处理方法、装置及智能设备与流程

文档序号：18515221发布日期：2019-08-24 09:24阅读：140来源：国知局

本发明涉及语音处理技术领域，尤其涉及一种语音处理方法、装置及智能设备。

背景技术：

在当今时代，随着经济全球化的发展和我们国外开放政策的贯彻，国际间的交流日趋增加，这样带动了用户学习外语的热情。为了能够熟练与外国人进行交谈，必须要提高外语口语水平。

现在进行口语练习常见的方法是由专业人员比如教师针对一段外语内容录制口语朗读范本，然后用户对该段外语内容进行朗读练习，将用户的朗读练习与朗读范本比较，针对两者的不同生成可视化的对比曲线以供用户从曲线中找出差异并进行练习。实践发现这种方式对外语学习用户的外语学习的帮助并不高。因此，如何为用户提供更为直观的语音范本成为研究的热点问题。

技术实现要素：

本发明实施例提供一种语音处理方法、装置及智能设备，可根据用户的音色参数生成校验语音，以便于用户较直观地进行口语练习。

一方面，本发明实施例提供了一种语音处理方法，包括：

获取用户语音信息，并获取所述用户语音信息中的音色参数；

查找与所述用户语音信息所包括的语音内容匹配的第一校验语音，并获取所述第一校验语音的音色参数；

基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率；

基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音。

另一方面，本发明实施例还提供了一种语音处理装置，包括：

获取单元，用于获取用户语音信息，并获取所述用户语音信息中的音色参数；

处理单元，用于查找与所述用户语音信息所包括的语音内容匹配的第一校验语音；

所述获取单元，还用于获取所述第一校验语音的音色参数；

所述处理单元，还用于基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率；

所述处理单元，还用于基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音。

又一方面，本发明实施例提供了一种智能设备，包括：处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述语音处理方法。

相应地，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行上述语音处理方法。

本发明实施例中在获取到用户语音信息及其对应的第一校验语音之后，可根据用户语音信息中的音色参数和第一校验语音中的音色参数确定参考音色频率，进一步的，基于该参考音色频率生成与用户语音信息相匹配的第二校验语音，实现了生成近似用户音色的校验语音，以便于用户较准确地纠正错误发音，提高用户口语练习的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音处理系统的架构图；

图2是本发明实施例提供的一种语音处理方法的流程示意图；

图3是本发明实施例提供的一种纠正提示信息的示意图；

图4是本发明实施例提供的一种语音处理装置的结构示意图；

图5是本发明实施例提供的一种智能设备的结构示意图。

具体实施方式

在对外语口语练习的研究中发现，随着互联网的发展，口语练习已经从线下的面对面教学模式转变为线上口语练习模式。线下的面对面教学是指用户在指定时间到达指定地点跟随专业人员进行口语练习，这样的练习模式学习时间由口语专业人员根据自身的教学时间以及大部分口语练习者的时间来制定，用户不能自由选择学习口语的时间。线上口语练习模式下，用户可以通过智能设备比如手机，登录到口语练习网站或者下载口语练习视频等方式随时进行口语练习，在该种练习模式下，用户可以根据自己的时间安排口语练习时间。

在一个实施例中，线上口语练习模式的方式可以是智能设备在用户界面上向用户展示一段外语口语的语音内容，当采集到用户针对该段语音内容的语音信息时，智能设备查找与该段语音内容相匹配的校验语音(也可称为标准语音)，将校验语音与用户的语音信息进行对比，输出对比结果(比如对比结果可以是hello中字母e发音错误，正确发音为)以便于用户根据对比结果纠正发音。在其他实施例中，智能设备在查找到与语音内容相匹配的校验语音之后，还可以不断地播放该校验语音，以便于用户根据校验语音来纠正发音。在上述的两个实施例中，如果校验语音的音色与用户音色相近更利于用户直观的学习和对比标准音发音。

下面将详细介绍本发明实施例是如何生成近似用户音色的第二校验语音，以便于用户根据与用户音色相同的标准音练习口语。

参考图1，为本发明实施例提供的一种语音处理系统，图1所示的语音处理系统中可包括语音采集模块101、校验语音查询模块102、相似度评分模块103以及音色调整模块104。

在一个实施例中，针对某个口语练习任务，所述语音采集模块101用于采集用户语音信息，所述语音采集模块101可以通过声音传感器比如麦克风采集用户语音信息。所述用户语音信息包括语音内容，当检测到语音采集模块101采集到用户语音信息之后，所述校验语音查询模块102查询与所述用户语音信息的语音内容匹配的第一校验语音。

可选的，语音处理系统中可预先存储有第一校验语音集合，所述第一校验语音集合中包括至少一个第一校验语音，所述第一校验语音集合中每个第一校验语音中都包括语音内容，所述校验语音查询模块102查询与所述用户语音信息的语音内容匹配的第一校验语音的方式可以是：获取用户语音信息中所包括的语音内容；根据所述用户语音信息中所包括的语音内容从第一校验语音集合中查找目标第一校验语音，所述目标第一校验语音中所包括的语音内容与所述用户语音信息中所包括的所述语音内容相匹配；将所述目标第一校验语音作为与用户语音信息所包括的语音内容匹配的第一校验语音。

在一个实施例中，获取到用户语音信息和第一校验语音之后，所述相似度评分模块103根据第一校验语音对用户语音信息进行相似度评分，以确定用户发音与第一校验语音发音之间的差异。如果相似度评分低于相似度阈值，表明用户发音准确度较低，音色调整模块104需要对第一校验语音进行音色调整，以使得用户根据与自己音色相同的校验语音练习口语；如果相似度评分高于相似度阈值，表明用户发音准确度较高，音色调整模块104可以不对第一校验语音进行音色调整。

在一个实施例中，音色调整模块104对第一校验语音进行音色调整的方式可以是将第一校验语音的音色调整为用户的音色，调整了音色后的第一检验语音作为第二校验语音。在一个实施例中，图1所示的语音处理系统还可以包括语音播放模块105，所述语音播放模块105用于播放第一校验语音或第二校验语音以使得用户根据第一校验语音或者第二校验语音练习发音。

综上所述，在图1所示的语音处理系统中，针对某个口语练习任务，首先通过语音采集模块101采集用户语音信息，校验语音查询模块102查找与用户语音信息对应的第一校验语音，进一步的，相似度评分模块103根据所述第一校验语音对用户语音信息进行相似度评分，得到相似度评分结果。在所述相似度评分结果低于相似度阈值时，音色调整模块104调整第一校验语音的音色，得到第二校验语音，最后语音播放模块105可播放第二校验语音以使得用户根据与自己音色相同的校验语音练习发音。

请参考图2，为本发明实施例提供的一种语音处理方法的流程示意图，图2所示的语音处理方法可以应用在图1所示的语音处理系统中，所述语音处理方法可由智能设备执行，具体可由智能设备中的处理器执行。在一个实施例中，所述智能设备可包括手机、平板电脑、笔记本等设备中的一种或多种。

在一个实施例中，图2所示的语音处理方法主要是根据用户语音信息调整第一校验语音生成近似用户音色的第二校验语音，以便于用户更直观的学习和对比标准发音，首先在步骤s201中智能设备获取用户语音信息，并获取所述用户语音信息中的音色参数。在一个实施例中，所述用户语音信息中包括语音内容，所述用户语音信息是指用户针对某一段语音内容朗读的音频信息，在用户对每个单词读音正确的情况下所述用户语音信息中所包括的语音内容即为上述语音内容，假设语音内容为“welcometoqq”，则用户语音信息是指包含所述语音内容的音频信息，用户语音信息所包括的语音内容即为welcometoqq。

在一个实施例中，所述音色参数是指能够影响音色的参数，音色主要是由基音、泛音以及变化参数决定的，绝大多数物体在振动时，振动的不仅是整个物体，它的各个部分也分别在同时振动，这种振动叫复合振动。其中，整体振动所产生的音可以认为是基音，各个部分振动所产生的音可以认为是泛音。对于人来说，在发声时也存在多个部分的振动，也存在基音和泛音之分，将泛音和基音基于变化参数进行合成便可决定发声体的音色。

本发明实施例中在根据第一校验语音生成近似用户音色的第二校验语音过程中，变化参数可以保持与第一校验语音相同，而本发明实施例中所述的音色参数主要是根据相应语音的基音频率和泛音频率来确定的，音色参数可以仅包括相应语音的基音参数，或者音色参数可以同时包括相应语音的基音参数和泛音参数。

在一个实施例中，智能设备获取到的用户语音信息可以是用户实时输入的语音信息，智能设备可通过声音传感器比如麦克风实时获取用户输入的用户语音信息，例如智能设备在用户界面上向用户展示口语练习窗口，所述口语练习窗口中展示有多段可用于练习口语的语音内容；当检测到用户对某一段语音内容的选择操作时，智能设备输出提示信息以提示用户朗读该段语音内容；当检测到用户开始朗读语音内容时，智能设备通过麦克风获取用户朗读视频，作为用户语音信息。

在其他实施例中，智能设备获取到的用户语音信息也可以是用户输入的历史语音信息，例如用户在之前练习口语时，录制了自己的朗读音频，并将各个朗读音频存储在智能设备中，当用户想要通过智能设备纠正发音问题时，可以从各个朗读音频中选择一段朗读音频作为用户语音信息输入到智能设备中。

在一个实施例中，所述用户语音信息的音色参数包括均值和/或方差，所述用户语音信息的音色参数可以为用户语音信息中基音的均值和方差，或，所述用户语音信息的音色参数可以为用户语音信息的基音的均值和方差、及用户语音信息的泛音的均值和方差。所述用户语音信息中的音色参数可以是根据用户语音信息在某个时间段内音色频率确定的。一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，基音频率是指在发浊音时，气流通过声门时声带产生张弛震荡式振动，产生准周期的激励脉冲串。基音频率与声带的长短、薄厚、韧性、劲度和发音习惯等因素有关，因此每个人的基音频率不同。泛音频率是指在发音时，口、咽喉、肺部等器官的振动产生准周期的激励脉冲串，每个人的口、咽喉等器官不同，导致每个人的泛音频率也不相同。本发明实施例中基于每个人的音色频率的不同，也即基音频率和泛音频率的不同，可以将第一校验语音的音色频率调整为与用户的音色频率有关的参考音色频率，从而实现了生成近似用户音色的第二校验语音。

在一个实施例中，本发明实施例生成近似用户音色的第二校验语音的方式可以是智能设备针对第一校验语音所包括的语音内容中每个单词逐一进行音色调整。例如，假设第一校验语音所包括的语音内容为“whereareyoufrom？”，智能设备可针对where、are、you以及from四个单词分别进行音色调整。所述智能设备获取所述用户语音信息中的音色参数的方式可以为：智能设备获取到用户语音信息之后，确定所述用户语音信息的时长，以及所述语音信息所包括的语音内容中各个单词的时长(每个单词的时长可以理解为每个单词对应一个时间段，用户语音信息中包括多个时间段)；针对各个单词中的目标单词，所述智能设备获取所述目标单词的目标时间段和音色频率，根据所述目标单词的目标时间段和音色频率计算在所述目标时间段内的音色参数。以此类推，可以计算出用户语音信息在各个时间段内的音色参数。具体的，在音色频率包括基音频率时，是根据所述目标单词的目标时间段和基音频率计算在所述目标时间段内的基音参数；在音色频率包括泛音频率时，是根据所述目标单词的目标时间段和泛音频率计算在所述目标时间段内的泛音参数。

在一个实施例中，智能设备获取到用户语音信息之后，在步骤s202中查找与所述用户语音信息所包括的语音内容匹配的第一校验语音，并获取所述第一校验语音的音色参数。所述第一校验语音的音色参数包括均值和/或方差，所述第一校验语音的音色参数可以为第一校验语音中基音的均值和方差，或，所述第一校验语音的音色参数可以为第一校验语音的基音的均值和方差，及第一校验语音的泛音的均值和方差。所述第一校验语音是指与用户语音信息对应的标准语音，所述标准语音也叫做朗读范本，所述标准语音可以是由专业人比如专业教师录制的，所述标准语音中发音完全正确。换句话说，针对一段用于口语练习的语音内容，用户朗读该段语音内容得到的音频叫做用户语音信息，专业人员朗读该段语音内容得到的音频即为第一校验语音。

在一个实施例中，步骤s202所述查找与所述用户语音信息所包括的语音内容匹配的第一校验语音的实施方式可以是：根据用户语音信息中所包括的语音内容从第一校验语音集合中确定所述第一校验语音。具体地，所述查找与所述用户语音信息所包括的语音内容匹配的第一校验语音，包括：获取所述用户语音信息中所包括的所述语音内容；根据所述用户语音信息中所包括的所述语音内容从第一校验语音集合中查找目标第一校验语音，所述目标第一校验语音中所包括的语音内容与所述用户语音信息中包括的所述语音内容相匹配；将所述目标第一校验语音作为与所述用户语音信息所包括的所述语音内容匹配的所述第一校验语音。

智能设备中可关联存储有多段用于口语练习的语音内容，以及与其对应的第一校验语音，各个第一校验语音组成第一校验语音集合。当智能设备获取到用户语音信息之后，可首先获取用户语音信息中所包括的语音内容，然后在存储的多段语音内容中查找与所述语音内容相匹配的目标语音内容，最后根据语音内容与第一校验语音的关联关系，查找与所述目标语音内容相对应的目标第一校验语音，将所述目标第一校验语音作为与所述用户语音信息所包括的所述语音内容匹配的所述第一校验语音。

在一个实施例中，智能设备是根据用户语音信息获取用户语音信息中所包括的语音内容的，这样可能由于用户发音不准确，导致获取到的语音内容与智能设备中存储的语音内容不完全相同。例如智能设备中存储的语音内容为“igotobedround11:00atnight”，用户在朗读的时候，由于night单词发音不够准确，将浊辅音/n/发作清辅音/l/，智能设备根据用户语音信息获取到语音内容可能为：“igotobedround11:00atlight”。因此，在一个实施例中，为了解决上述问题，智能设备可以预先设置匹配阈值，如果智能设备获取到的语音内容与预先存储的目标语音内容之间匹配超过匹配阈值时，则确定所述目标语音内容与所述用户语音信息的语音内容是匹配的。需要说明的是，以上为本发明列举的一种解决上述问题的方法，对于具体方法本发明实施例不做限定。

在一个实施例中，智能设备设置的匹配阈值可以是针对语音内容中包括的各单词设置的，比如匹配阈值设置为80％，表明如果两段语音内容中包括的单词，有80％以上是相同的，则可确定两段语音内容相匹配；或者智能设备设置的匹配阈值也可以是针对语音内容含义的，如果两段语音内容含义相似度超过80％，则确定两段语音内容是匹配的。需要说明的是，以上为本发明实施例中列举的一些可能的匹配阈值设置方法，对于具体的匹配阈值设置方法可根据实际需求确定，本发明实施例不做具体限定。

在一个实施例中，对于所述第一校验语音的音色参数的获取方法可参考上述获取用户语音信息的音色参数方法部分描述，在此不再赘述。

在一个实施例中，智能设备获取到用户语音信息中的音色参数和第一校验语音的音色参数之后，所述智能设备在步骤s203中基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率。其中，所述参考音色频率是指根据用户语音信息中的音色参数对第一校验语音的音色频率进行调整后的音色频率，或者所述参考音色频率也可以理解成为了生成近似用户音色的第二校验语音所需的音色频率。

在一个实施例中，步骤s203的实施方式可以是确定第一校验语音的音色频率与参考音色频率之间的转换关系，然后根据用户语音信息中的音色参数确定转换关系中所需的转换系数和修正参数，最后可以根据转换关系、转换系数和修正参数计算得到参考音色频率。具体地，步骤s203中所述基于用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率，可包括：确定所述第一校验语音的音色频率；根据所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定转换系数和修正参数；根据所述第一校验语音的音色频率、所述转换系数、所述修正参数以及音色频率转换规则，确定所述参考音色频率。

在一个实施例中，所述第一校验语音的音色频率可以包括第一校验语音的基音频率，或者第一校验语音的音色频率可以包括第一校验语音的基音频率和第一校验语音的泛音频率。在第一校验语音的音色频率包括第一校验语音的基音频率时，确定第一校验语音的基音频率方式为：确定所述第一校验语音的基音周期，然后将基音周期取倒数便可得到第一校验语音的基音频率，例如假设第一校验语音的基音周期为4ms，第一校验语音的音色频率则为1/4ms＝250hz。在第一校验语音的音色频率包括第一校验语音的泛音频率时，可采用上述方法确定出第一校验语音的泛音频率。对于基音频率而言，所述基音周期是指发生体的声带周期性的张开和闭合所需的时间，在一个实施例中，确定基音周期的常用方法可包括时域法、频域法以及混合法。其中，所述时域法是指直接通过语音波形来估计基音周期，所述频域法是将语音信号变化到频域来估计基音周期常用的方法是倒谱法，所述混合法是先提取信号声道模型参数，然后利用声道模型参数对语音信息进行滤波，得到音源序列，最后再利用自相关法或者平均幅度差法求得基音周期。以上只是列举一部分确定第一校验语音的基音周期的方法，智能设备可根据实际需要选择以上任一种或多种方法确定所述第一校验语音的基音周期。

在一个实施例中，所述音色频率转换规则可以是智能设备根据所使用的语音转换方法确定的，假设智能设备所采用的语音转换方法为基于高斯混合的语音转换方法，以基音频率为例，音色频率转化规则用如下公式表示：

其中，f′0(t)表示参考基音频率，表示第一校验语音的基音频率，a表示转换系数，b表示修正参数，此时的转换系数和修正参数是基于用户语音信息中的基音参数和第一校验语音的基音参数确定的。智能设备使用的语音转换方法还可以是基于矢量量化码本映射、人工神经网络模型以及隐马尔科夫模型等，本发明实施例中不一一列举各种语音转换方法对应的音色频率转换规则。在其他实施例中，所述音色频率转换规则也可以是智能设备根据其他设定条件设定的。

对于音色频率中基音频率和泛音频率所采用的音色转换规则可以相同也可以不同。也就是说，泛音频率的音色转换规则也可以采用了公式1的转换计算方式，其中f′0(t)表示参考泛音频率，表示第一校验语音的泛音频率，a表示转换系数，b表示修正参数，此时的转换系数和修正参数是基于用户语音信息中的泛音参数和第一校验语音中的泛音参数确定的。

在一个实施例中，所述根据所述第一校验语音的音色频率、所述转换系数、所述修正参数以及音色频率转换规则，确定所述参考音色频率的实施方式可以是：将所述第一校验语音的音色频率、所述转换系数以及所述修正参数代入到所述音色频率转换规则中进行计算，所得的计算结果即为参考音色频率。

在一个实施例中，所述用户语音信息中的音色参数包括根据所述用户语音信息中的目标时间段的音色频率确定的第一均值和第一方差，音色参数包括基音参数，或，音色参数包括基音参数和泛音参数，相应地，第一均值可包括第一基音均值，或，第一均值可包括第一基音均值和第一泛音均值，第一方差可包括第一基音方差，或第一方差可包括第一基音方差和第一泛音方差。具体地，如果用户语音信息中的音色参数包括基音参数，所述用户语音信息中的音色参数包括根据所述用户语音信息中的目标时间段的基音频率确定的第一基音均值和第一基音方差；如果用户语音信息中音色参数包括基音参数和泛音参数，所述用户语音信息中的音色参数包括根据所述用户语音信息中的目标时间段的基音频率和泛音频率分别确定的第一基音均值、第一泛音均值、第一泛音方差和第一基音方差。

类似的，所述第一校验语音的音色参数包括根据所述第一校验语音的所述目标时间段的音色频率确定的第二均值和第二方差，也就是说，所述第一校验语音的音色参数可包括根据所述第一校验语音的所述目标时间段的基音频率确定的第二基音均值和第二基音方差，或者所述第一校验语音的音色参数可包括根据所述第一校验语音的所述目标时间段的基音频率和泛音频率分别确定的第二基音均值和第二泛音均值，第二基音方差和第二泛音方差。

这样一来，所述根据所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定转换系数和修正参数的实施方式可以为：基于所述第一方差、所述第二方差和预设转换系数确定规则，确定所述转换参数；基于所述第一均值、所述第二均值和预设修正参数确定规则，确定所述修正参数。其中，所述预设修正参数确定规则和所述预设转换系数确定规则可以是智能设备根据所使用的语音转换方法确定的。

例如，假设智能设备所使用的语音转换方法为基于高斯混合的语音转换方法，所述基于高斯混合的转换方法中音色频率转换规则可表示为公式以音色参数包括基音参数为例，智能设备设定的转换系数确定规则可以表示为如下公式：

其中，表示用户语音信息中的基音参数包括的第一基音方差，表示第一校验语音中的基音参数包括的第二基音方差；智能设备设定的修正参数确定规则可以如下公式：

b＝μt-aμs，公式3；

其中，b表示修正参数，μt表示用户语音信息中的基音参数包括的第一基音均值，μs表示第一校验语音中的基音参数包括的第二均值。

对于音色参数中包括音参数和泛音参数，所述智能设备所采用的转换系数确定规则和修正参数确定规则可以相同也可以不同，也就是说，如果音色参数中包括泛音参数，智能设备也可以使用公式2的方法计算转换系数，使用公式3的方法计算修正参数，其中，表示用户语音信息中的泛音参数包括的第一泛音方差，表示第一校验语音中的泛音参数包括的第二泛音方差，μt表示用户语音信息中的泛音参数包括的第一泛音均值，μs表示第一校验语音中的泛音参数包括的第二泛音均值。

在一个实施例中，所述基于所述第一方差、所述第二方差和预设转换系数确定规则，确定所述转换系数的是方式为：将所述第一方差、所述第二方差代入所述预设转换系数确定规则中进行计算，所得的计算结果即为转换系数；同理的，所述基于所述第一均值、所述第二均值和所述预设修正参数确定规则，确定所述修正参数的方式为：将所述第一均值、所述第二均值代入所述预设修正参数确定规则中进行计算，所得的计算结果即为修正参数。

在一个实施例中，智能设备在执行步骤s202之后，执行步骤s203之前，还可以执行：基于所述第一校验语音对所述用户语音信息进行相似度评分，得到相似度评分结果；若所述相似度评分结果满足音色调整条件，则执行所述基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率的步骤。也即，智能设备获取到用户语音信息和第一校验语音之后，可先确定用户语音信息与第一校验语音之间的差异，根据所述差异判断是否需要对第一校验语音进行音色调整。

在一个实施例中，所述基于所述第一校验语音对所述用户语音信息进行相似度评分可以指对所述用户语音信息与第一校验语音进行发音相似度评分，如果用户语音信息与所述第一校验语音之间的相似度评分较高，表明用户发音与第一校验语音发音相似高，也即用户发音的准确度较高，此时可能用户通过第一校验语音就可以纠正发音错误的部分，智能设备可不执行步骤s203，如此可节省智能设备的功耗开销；如果用户语音信息与所述第一校验语音之间的相似度评分较低，表明用户发音与第一校验语音发音相似度较低，也即用户发音的准确度较低，此时用户可能很难通过第一校验语音纠正发音错误，智能设备需执行步骤s203。

在其他实施例中，所述基于所述第一校验语音对所述用户语音信息进行相似度评分还可以指对所述用户语音信息与第一校验语音进行音色相似度评分，如果用户语音信息与所述第一校验语音之间的相似度评分较高，表明用户的音色与第一校验语音的音色较为相近，此时用户听到第一校验语音时便犹如听到用户自己的声音，用户可以根据第一校验语音练习口语，智能设备可不执行步骤s203；如果用户语音信息与所述第一校验语音之间的相似度评分较低，表明用户的音色与第一校验语音的音色相差较大，智能设备需要执行步骤s203。

在一个实施例中，智能设备在确定了参考音色频率之后，在步骤s204中基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音。智能设备可以基于所述第一校验语音以及参考音色频率生成第二校验语音，所述步骤s204的实施方式可以为：基于所述参考音色频率调整所述第一校验语音相应时间段的音色频率，得到所述第二校验语音。具体地，如果参考音色频率包括参考基音频率，所述智能设备基于所述参考基音频率调整所述第一校验语音相应时间段内的基音频率；如果参考音色频率包括泛音频率，所述智能设备基于所述参考泛音频率调整所述第一校验语音相应时间段内的泛音频率。

不同用户声带的长短、薄厚、韧性、劲度和发音习惯等因素均不同，这也使得不同用户的基音参数也不相同，同样的，不同发声体的声带不同，所引起的口、咽喉、肺部等器官的振动也不同，因此不同发生体的泛音参数也不相同。参考音色频率是根据用户语音信息的音色参数确定的，因此参考音色频率可以反映用户的声音，所述基于参考音色频率调整所述第一校验语音相应时间段的音色频率可以理解为：保持所述第一校验语音所包括的语音内容不变，将第一校验语音的音色频率调整为参考音色频率，也即将第一校验语音中包括的语音内容以用户的声音(用户的音色)进行播放。如此有利于用户聆听自己音色的校验语音，更直观的学习和对比标准发音。

在一个实施例中，智能设备在生成了第二校验语音之后，还包括：播放所述第二校验语音，以便于用户基于所述第二校验语音纠正用户语音。智能设备通过步骤s201-步骤s204生成的第二校验语音是与用户音色相同的校验语音，播放所述第二校验语音，用户可以听到以自己音色为准的校验语音应该是怎么发音，有利于用户纠正发音，提高口语练习效率。在一个实施例中，智能设备在播放所述第二校验语音之前，还可以：输出播放提示信息，所述播放提示信息用于提示用户是否播放所述第二校验语音；当检测到用户确认播放操作时，播放所述第二校验语音，这样可以便于用户根据自己的需要选择是否播放，提高用户体验。

在一个实施例中，所述生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音之后，所述方法还包括：获取所述第二校验语音与所述用户语音信息之间的差异信息；基于所述差异信息生成纠正提示信息，以便于用户基于所述纠正提示信息纠正用户语音。其中，所述差异信息可包括发音差异，智能设备对比分析用户语音信息与第二校验语音之间的发音差异，并根据发音差异生成纠正提示信息，所述纠正提示信息中可包括待纠正单词、用户发音以及校验发音。所述待纠正单词是语音内容中包括的任意一个单词，用户发音是指用户对待纠正单词的发音，所述校验发音是所述待纠正单词的标准发音。

例如，参考图3为本发明实施例提供的一种根据第二校验语音与所述用户语音信息之间的差异信息生成纠正提示信息的示意图。图3中所示，智能设备可以通过显示装置显示口语练习窗口，用户通过口语练习窗口中的提示选择要练习的语音内容，并根据提示输入用户语音信息301。智能设备获取到用户语音信息之后，通过步骤s201-s204生成第二校验语音302，可以将第二校验语音302显示给用户以便于用户选择是否播放。另外，智能设备通过分析第二校验语音与用户语音信息之间的差异信息，生成纠正提示信息。

假设用户选择的语音内容为“areyoustayingathomeorgoingoutthisweekend？”，智能设备对第二校验语音与用户语音分析时发现：用户语音信息301中对单词staying中字母t的发音为清辅音/t/，由于在重读音节中，/s/后面的轻辅音/t/要浊化成浊辅音/d/，第二校验语音302中单词staying中字母t的发音为浊辅音/d/，智能设备基于上述差异信息生成的纠正提示信息303可以为：staying“t”发音/t/纠正为/d/。

在一个实施例中，所述基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音之后，所述方法还包括：根据所述用户语音信息生成用户语音曲线；根据所述第二校验语音生成校验语音曲线；在用户界面上展示所述用户语音曲线和所述校验语音曲线，以便于用户基于所述用户语音曲线和所述校验语音曲线校正用户语音。智能设备可以根据所述用户语音信息和所述第二校验语音分别绘制用户语音曲线和校验语音曲线，用户可以通过上述两条曲线的对比发现朗读时存在的问题。

例如，基于图3中假设，智能设备通过步骤s201-s204生成第二校验语音之后，基于用户语音信息生成用户语音曲线并基于第二校验语音生成校验语音曲线，并在用户界面中显示用户可以从曲线中直观的找出自己的朗读与校验语音存在的差异，有利于用户纠正发音。

综上所述，本发明实施例在获取到用户语音信息及其对应的第一校验语音之后，可根据用户语音信息中的音色参数和第一校验语音中的音色参数确定参考音色频率，进一步的，基于该参考音色频率生成与用户语音信息相匹配的第二校验语音，实现了生成近似用户音色的校验语音，以便于用户较准确地纠正错误发音，提高用户口语练习的效率。

基于上述方法实施例的描述，在一个实施例中，本发明实施例还提供了一种如图4所示的语音处理装置的结构示意图。如图4所示，本发明实施例中的语音处理装置，包括获取单元401和处理单元402，在本发明实施例中，所述语音处理装置还可以设置在需要对语音进行处理的智能设备中。

在一个实施例中，所述获取单元401用于：获取用户语音信息，并获取所述用户语音信息中的音色参数；所述处理单元402用于：查找与所述用户语音信息所包括的语音内容匹配的第一校验语音；所述获取单元401还用于：获取所述第一校验语音的音色参数；所述处理单元402还用于：基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率；所阿虎处理单元402还用于：基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音。

在一个实施例中，所述音色参数包括基音参数和泛音参数，所述参考音色频率包括参考基音频率和参考泛音频率。

在一个实施例中，所述处理单元402还用于：基于所述第一校验语音对所述用户语音信息进行相似度评分，得到相似度评分结果；若所述相似度评分结果满足音色调整条件，则处理单元402所述基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率。

在一个实施例中，所述处理单元402基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率的实施方式为：确定所述第一校验语音的音色频率；根据所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定转换系数和修正参数；根据所述第一校验语音的音色频率、所述转换系数、所述修正参数以及音色频率转换规则，确定所述参考音色频率。

在一个实施例中，所述用户语音信息中的音色参数包括根据所述用户语音信息中的目标时间段的音色频率确定的第一均值和第一方差，所述第一校验语音的音色参数包括根据所述第一校验语音的所述目标时间段的音色频率确定的第二均值和第二方差；所述处理单元402根据所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定转换系数和修正参数的实施方式为：基于所述第一方差、所述第二方差和预设转换系数确定规则，确定所述转换系数；基于所述第一均值、所述第二均值和预设修正参数确定规则，确定所述修正参数。

在一个实施例中，所述处理单元402查找与所述用户语音信息所包括的语音内容匹配的第一校验语音的实施方式为：获取所述用户语音信息中所包括的所述语音内容；根据所述用户语音信息中所包括的所述语音内容从第一校验语音集合中查找目标第一校验语音，所述目标第一校验语音中所包括的语音内容与所述用户语音信息中包括的所述语音内容相匹配；将所述目标第一校验语音作为与所述用户语音信息所包括的所述语音内容匹配的所述第一校验语音。

在一个实施例中，所述处理单元402还用于：播放所述第二校验语音，以便于用户基于所述第二校验语音纠正用户语音。

在一个实施例中，所述处理单元402还用于：获取所述第二校验语音与所述用户语音信息之间的差异信息；基于所述差异信息生成纠正提示信息，以便于用户基于所述纠正提示信息纠正用户语音。

在一个实施例中，所述处理单元402还用于：根据所述用户语音信息生成用户语音曲线；根据所述第二校验语音生成校验语音曲线；在用户界面上展示所述用户语音曲线和所述校验语音曲线，以便于用户基于所述用户语音曲线和所述校验语音曲线纠正用户语音。

在一个实施例中，所述处理单元402基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音的实施方式为：基于所述参考语音频率调整所述第一校验语音相应时间段的音色频率，得到所述第二校验语音。

本发明实施例中获取单元401获取到用户语音信息及其包括的音色参数，处理单元402查找与所述用户语音信息对应的第一校验语音及其包括的音色参数，进一步的，处理单元402基于用户语音信息包括的音色参数和第一校验语音包括的音色参数确定参考音色频率，然后处理单元402基于所述参考音色频率生成与用户语音信息相匹配的第二校验语音，实现了生成近似用户音色的校验语音，以便于用户较准确地纠正错误发音，提高用户口语练习的效率。

请参见图5，为本发明实施例供的一种智能设备的结构示意图。如图5所示的智能设备包括：一个或多个处理器501和一个或多个存储器502，所述处理器501和存储器502通过总线503相连，存储器503用于存储计算机程序，所述计算机程序包括程序指令，处理器501用于执行所述存储器502存储程序指令。

所述存储器502可以包括易失性存储器(volatilememory)，如随机存取存储器(random-accessmemory，ram)；存储器502也可以包括非易失性存储器(non-volatilememory)，如快闪存储器(flashmemory)，固态硬盘(solid-statedrive，ssd)等；存储器502还可以包括上述种类的存储器的组合。

所述处理器501可以是中央处理器(centralprocessingunit，cpu)。所述处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit，asic)，可编程逻辑器件(programmablelogicdevice，pld)等。该pld可以是现场可编程逻辑门阵列(field-programmablegatearray，fpga)，通用阵列逻辑(genericarraylogic，gal)等。所述处理器501也可以为上述结构的组合。

本发明实施例中，所述存储器502用于存储计算机程序，所述计算机程序包括程序指令，所述处理器501用于执行存储器502存储的程序指令，用来实现上述语音处理方法实施例中的相应方法的步骤。

在一个实施例中，所述处理器501被配置调用所述程序指令用于：获取用户语音信息，并获取所述用户语音信息中的音色参数；查找与所述用户语音信息所包括的语音内容匹配的第一校验语音，并获取所述第一校验语音的音色参数；基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率；基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音。

在一个实施例中，所述音色参数包括基音参数和泛音参数，所述参考音色频率包括参考基音频率和参考泛音频率。

在一个实施例中，所述处理器501基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率之前，所述处理器501被配置调用所述程序指令还用于：基于所述第一校验语音对所述用户语音信息进行相似度评分，得到相似度评分结果；若所述相似度评分结果满足音色调整条件，则所述处理器501执行所述基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率的步骤。

在一个实施例中，所述处理器501用于基于所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定参考音色频率时的实施方式为；确定所述第一校验语音的音色频率；根据所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定转换系数和修正参数；根据所述第一校验语音的音色频率、所述转换系数、所述修正参数以及音色频率转换规则，确定所述参考音色频率。

在一个实施例中，所述用户语音信息中的音色参数包括根据所述用户语音信息中的目标时间段的音色频率确定的第一均值和第一方差，所述第一校验语音的音色参数包括根据所述第一校验语音的所述目标时间段的音色频率确定的第二均值和第二方差；所述处理器501用于根据所述用户语音信息中的音色参数和所述第一校验语音的音色参数确定转换系数和修正参数时的实施方式为：基于所述第一方差、所述第二方差和预设转换系数确定规则，确定所述转换系数；基于所述第一均值、所述第二均值和预设修正参数确定规则，确定所述修正参数。

在一个实施例中，所述处理器501用于查找与所述用户语音信息所包括的语音内容匹配的第一校验语音时的实施方式为：获取所述用户语音信息中所包括的所述语音内容；根据所述用户语音信息中所包括的所述语音内容从第一校验语音集合中查找目标第一校验语音，所述目标第一校验语音中所包括的语音内容与所述用户语音信息中包括的所述语音内容相匹配；将所述目标第一校验语音作为与所述用户语音信息所包括的所述语音内容匹配的所述第一校验语音。

在一个实施例中，所述处理器501用于基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音之后，所述处理器501被配置调用所述程序指令还用于：播放所述第二校验语音，以便于用户基于所述第二校验语音纠正用户语音。

在一个实施例中，所述处理器501用于基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音之后，所述处理器501被配置调用所述程序指令还用于：获取所述第二校验语音与所述用户语音信息之间的差异信息；基于所述差异信息生成纠正提示信息，以便于用户基于所述纠正提示信息纠正用户语音。

在一个实施例中，所述处理器501用于基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音之后，所述处理器501被配置调用所述程序指令还用于：根据所述用户语音信息生成用户语音曲线；根据所述第二校验语音生成校验语音曲线；在用户界面上展示所述用户语音曲线和所述校验语音曲线，以便于用户基于所述用户语音曲线和所述校验语音曲线纠正用户语音。

在一个实施例中，所述处理器501用于基于所述参考音色频率生成与所述用户语音信息所包括的所述语音内容匹配的第二校验语音的实施方式为：基于所述参考语音频率调整所述第一校验语音相应时间段的音色频率，得到所述第二校验语音。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

以上所揭露的仅为本发明部分实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘伟洲
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种推进式粉料定量配给装置及奶粉冲调机的制作方法
上一篇：一种水解制氢气和过氧化氢的方法与流程