一种发音纠正方法、装置、设备以及存储介质与流程

文档序号：18354291发布日期：2019-08-06 22:53阅读：212来源：国知局

本发明涉及语音技术领域，特别是涉及一种发音纠正方法、装置、设备以及计算机可读存储介质。

背景技术：

随着科学技术的发展，基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中，应用提供商通过互联网将学习材料发送到客户端，用户经由客户端获取学习材料，进行对应的学习。对于语言学习，除了学习语法和词汇之外，发音能力是其中最重要的能力之一。通常情况下，用户会通过朗读、跟读等方式来提升自身的发音能力。然而，多数情况下用户无法得知自身发音是否准确。

由于中文中大部分韵母都是元音，所以在英文发音中，有部分学习者会习惯性增加一个音，如单音节词bed/bed/末尾加元音读成(be-“嘚”)，实际变成了一个双音节词。

传统的方案是通过教学讲解音节概念，作为学习其它技巧(如重音等)的概念基础，不会进行专门的训练。在出现音节末尾加元音问题时，传统教学方法会将其视作音标发音的问题(比如上述问题，会认为是/d/的发音不够正确)，需要逐个音进行纠正，导致重复工作较多、耗时极长。

技术实现要素：

本发明的目的是提供一种发音纠正方法、装置、设备以及计算机可读存储介质，以解决现有方案需逐个音纠正导致重复工作较多、耗时较长的问题。

为解决上述技术问题，本发明提供一种发音纠正方法，包括：

获取针对预定单词录入的音频数据；

对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；

根据检测结果，生成所述预定单词发音存在音节错误的反馈信息。

可选地，所述对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况包括：

对所述音频数据进行分析，检测音频数据中各个音节的末尾辅音；

当检测到末尾辅音后，检测末尾辅音后的相邻的音频数据是否具有声音周期性，如果是，则判定存在音节末尾增加元音的情况。

可选地，所述对所述音频数据进行分析，检测音频数据中各个音节的末尾辅音包括：

根据所述预定单词的单词内容确定各个音节的末尾是否为辅音；

如果所述预定单词中各个音节的末尾为辅音，则通过语音识别进行强制切分对齐，得到每一个音素的位置，确定辅音的位置，以检测音频数据中各个音节的末尾辅音。

可选地，在所述生成所述预定单词发音存在音节错误的反馈信息之后还包括：

在显示界面对所述反馈信息进行标识显示，和/或播放预先设定的对应音效。

可选地，在所述对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况之后还包括：

如果是，则生成实际发音所包含的音节数量的提示信息。

本申请还提供了一种发音纠正装置，包括：

获取模块，用于获取针对预定单词录入的音频数据；

检测模块，用于对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；

生成模块，用于根据检测结果，生成所述预定单词发音存在音节错误的反馈信息。

可选地，还包括：

反馈模块，用于在生成所述预定单词发音存在音节错误的反馈信息之后，在显示界面对所述反馈信息进行标识显示，和/或播放预先设定的对应音效。

本申请还提供了一种发音纠正设备，应用于服务端，所述设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如下步骤：获取针对预定单词录入的音频数据；对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成所述预定单词发音存在音节错误的反馈信息。

本申请还提供了一种发音纠正设备，应用于客户端，所述设备包括：

音频采集装置，用于录入针对预定单词的音频数据；

通信装置，用于将所述音频数据发送至服务端，以便所述服务端对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成所述预定单词发音存在音节错误的反馈信息；并且接收所述服务端发送的反馈信息；

显示装置，用于将所述反馈信息在显示界面上进行显示。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种所述发音纠正方法的步骤。

本发明所提供的发音纠正方法，通过获取针对预定单词录入的音频数据；对音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成预定单词发音存在音节错误的反馈信息。本申请可以自动对录入的音频数据进行分析，检测是否存在音节错误的情况，统一以理解音节的方式来纠正音节末尾加元音的问题，得到的反馈信息能够辅助英语学习者充分理解音节的概念，免去了逐个音纠正的重复工作，避免了时间的浪费。并且，采用本申请可以不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。此外，本申请还提供了一种具有上述技术效果的发音纠正装置、设备以及计算机可读存储介质。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的发音纠正方法的一种具体实施方式的流程图；

图2为本申请实施例所提供的检测是否存在音节末尾增加元音的情况的过程示意图；

图3为本申请所提供的发音纠正方法的另一种具体实施方式的流程图；

图4为音节练习题视觉反馈示例图；

图5为本发明实施例提供的发音纠正装置的结构框图；

图6为本发明实施例提供的发音纠正设备应用于服务端的结构框图；

图7为本发明实施例提供的发音纠正设备应用于客户端的结构框图；

图8为本发明实施例提供的发音纠正设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例可以用于发音学习场景，尤其是语言学习中的发音学习场景或者发音校正场景，其中语言包括但不限于英语、法语、德语、日语等外语，以及普通话、粤语、四川话等汉语分支。本发明实施例涉及的语言学习场景例如可以是语言学习软件或语言学习终端中的发音测评场景、发音校正场景等场景，也可以是其他语言学习场景，本发明实施例中并不限定。

下面对本申请实施例的应用场景进行详细阐述，用户可以通过客户端进行发音学习，客户端可以在显示界面上显示用户待学习的内容，并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容。在用户进行语音的发音学习时，客户端可以通过音频采集装置采集用户发音时的音频数据，以便后续进行发音纠正操作。可以理解的是，执行发音纠正操作的主体可以为客户端，也可以为服务端，这均不影响本申请的实现。

本发明实施例中客户端可以包括但不限于：智能手机、平板电脑、mp4、mp3、pc、pda、可穿戴设备和头戴显示设备等；服务端可以包括但不限于：单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。

结合上述应用场景，本申请所提供的发音纠正方法的一种具体实施方式的流程图如图1所示，该方法具体包括：

步骤s101：获取针对预定单词录入的音频数据；

用户可以朗读该预定单词，通过客户端录入针对该待练习单词的语音，经过音频采集装置采集后获得语音对应的音频数据。预定单词可以为单音节单词，或多音节单词，在此不做限定。

步骤s102：对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；

参照图2本申请实施例所提供的检测是否存在音节末尾增加元音的情况的过程示意图，检测是否存在音节末尾增加元音的情况的过程可以具体包括：

步骤s1021：对所述音频数据进行分析，检测音频数据中各个音节的末尾辅音；

根据所述预定单词的单词内容确定各个音节的末尾是否为辅音；如果所述预定单词中存在音节的末尾为辅音，则通过语音识别进行强制切分对齐，得到每一个音素的位置，确定辅音的位置，以检测音频数据中各个音节的末尾辅音。

步骤s1022：当检测到末尾辅音后，检测末尾辅音后的相邻的音频数据是否具有声音周期性，如果是，则判定存在音节末尾增加元音的情况。

在检测到末尾辅音后，可以在后续预设时间间隔内的音频数据进行进一步分析，判断其是否具有声音周期性。预设时间间隔可以为50毫秒至200毫秒。在检测到末尾辅音开始以后50毫秒至200毫秒内，检测声音的周期性。这是因为元音是周期性的震动，辅音没有周期性，故若检测出周期性比较强就认为在音节末尾增加了元音，即存在音节错误。

声音的周期性可以通过时域的自相关方法计算得到。相关系数度量指的是两个不同事件彼此之间的相互影响程度；而自相关系数度量的是同一事件在两个不同时期之间的相关程度，形象的讲就是度量自己过去的行为对自己现在的影响。通过自相关系数确定得到声音的周期性。

步骤s103：根据检测结果，生成所述预定单词发音存在音节错误的反馈信息。

在上述任一实施例的基础上，本申请所提供的发音纠正方法还可以进一步包括：在生成所述预定单词发音存在音节错误的反馈信息之后，在显示界面对所述反馈信息进行标识显示，和/或播放预先设定的对应音效。

参照图3，本申请所提供的发音纠正方法的另一种具体实施方式可以具体包括：

步骤s201：获取针对预定单词录入的音频数据；

步骤s202：对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；

步骤s203：根据检测结果，生成所述预定单词发音存在音节错误的反馈信息；

步骤s204：在显示界面对所述反馈信息进行标识显示，和/或播放预先设定的对应音效。

进一步地，本申请在对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况之后还可以包括：如果是，则生成实际发音所包含的音节数量的提示信息。

通过显示界面反馈发音时音节的正误情况。如图4音节练习题视觉反馈示例图所示，通过界面上方的圆圈指示用户实际发音的音节是否正确。正确时，界面上的圆圈显示绿色并播放相应音效；错误时，界面上的圆圈晃动。此外，还可以根据生成实际发音所包含的音节数量的提示信息，通过语音和文字提示出现了实际读了几个音节，例如可以在显示界面告知用户将原本的单音节单词读成了2个音节。

下面对本发明实施例提供的发音纠正装置进行介绍，下文描述的发音纠正装置与上文描述的发音纠正方法可相互对应参照。

图5为本发明实施例提供的发音纠正装置的结构框图，参照图5发音纠正装置可以包括：

获取模块100，用于获取针对预定单词录入的音频数据；

检测模块200，用于对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；

生成模块300，用于根据检测结果，生成所述预定单词发音存在音节错误的反馈信息。

作为一种具体实施方式，本申请所提供的发音纠正装置中检测模块200具体用于：对所述音频数据进行分析，检测音频数据中各个音节的末尾辅音；当检测到末尾辅音后，检测末尾辅音后的相邻的音频数据是否具有声音周期性，如果是，则判定存在音节末尾增加元音的情况。

作为一种具体实施方式，本申请所提供的发音纠正装置中检测模块200具体用于：根据所述预定单词的单词内容确定各个音节的末尾是否为辅音；如果所述预定单词中存在音节的末尾为辅音，则通过语音识别进行强制切分对齐，得到每一个音素的位置，确定辅音的位置，以检测音频数据中各个音节的末尾辅音。

在上述任一实施例的基础上，本申请所提供的发音纠正装置还可以进一步包括：反馈模块，用于在显示界面对所述反馈信息进行标识显示，和/或播放预先设定的对应音效。

在上述任一实施例的基础上，本申请所提供的发音纠正装置还可以进一步包括：提示模块，用于在对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况之后，如果判断存在音节末尾增加元音的情况，则生成实际发音所包含的音节数量的提示信息。

本实施例的发音纠正装置用于实现前述的发音纠正方法，因此发音纠正装置中的具体实施方式可见前文中的发音纠正方法的实施例部分，例如，获取模块100，检测模块200，生成模块300，分别用于实现上述发音纠正方法中步骤s101，s102，s103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本申请通过获取针对预定单词录入的音频数据；对音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成预定单词发音存在音节错误的反馈信息。本申请可以自动对录入的音频数据进行分析，检测是否存在音节错误的情况，统一以理解音节的方式来纠正音节末尾加元音的问题，得到的反馈信息能够辅助英语学习者充分理解音节的概念，免去了逐个音纠正的重复工作，避免了时间的浪费。并且，采用本申请可以不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。

此外，本申请还提供了一种发音纠正设备，应用于服务端1，图6为本发明实施例提供的发音纠正设备应用于服务端的结构框图，所述设备包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现如下步骤：获取针对预定单词录入的音频数据；对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成所述预定单词发音存在音节错误的反馈信息。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是发音纠正设备的内部存储单元，例如硬盘。存储器11在另一些实施例中也可以是发音纠正设备的外部存储设备，例如插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，存储器11还可以既包括发音纠正设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于发音纠正设备的应用软件及各类数据，例如发音纠正程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行发音纠正程序01等。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：对所述音频数据进行分析，检测音频数据中各个音节的末尾辅音；当检测到末尾辅音后，检测末尾辅音后的相邻的音频数据是否具有声音周期性，如果是，则判定存在音节末尾增加元音的情况。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：根据所述预定单词的单词内容确定各个音节的末尾是否为辅音；如果所述预定单词中存在音节的末尾为辅音，则通过语音识别进行强制切分对齐，得到每一个音素的位置，确定辅音的位置，以检测音频数据中各个音节的末尾辅音。

可以理解的是，本申请实施例中服务端可以包括但不限于：单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。

此外，本申请还提供了一种发音纠正设备，应用于客户端2，图7为本发明实施例提供的发音纠正设备应用于客户端的结构框图，所述设备包括：

音频采集装置21，用于录入针对预定单词的音频数据；

通信装置22，用于将所述音频数据发送至服务端，以便所述服务端对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成所述预定单词发音存在音节错误的反馈信息；并且接收所述服务端发送的反馈信息；

显示装置23，用于将所述反馈信息在显示界面上进行显示。

可选地，本申请实施例所提供的发音纠正设备中显示装置还可以用于：在显示界面对所述反馈信息进行标识显示，和/或播放预先设定的对应音效。

可选地，本申请实施例所提供的发音纠正设备中显示装置还可以用于：在对所述音频数据进行分析，检测是否存在音节末尾增加元音的情况之后，如果存在音节末尾增加元音的情况，则生成实际发音所包含的音节数量的提示信息。

可以理解的是，本申请实施例中客户端可以包括但不限于：智能手机、平板电脑、mp4、mp3、pc、pda、可穿戴设备和头戴显示设备等。

进一步地，本申请还提供了一种发音纠正系统，如图8所示，该系统包括上述任一种服务端1以及上述任一种客户端2。用户可以通过客户端进行发音学习，客户端可以在显示界面上显示用户待学习的内容，并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容，在用户进行语音的发音学习时，客户端可以通过音频采集装置采集用户发音时的音频数据，并将音频数据发送至服务端，由服务端进行发音纠正的过程。在服务端对音频数据进行分析并得到反馈信息之后，将该反馈信息发送至客户端。通过客户端的显示装置对反馈信息进行显示，向用户提供视觉辅助信息。

此外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种发音纠正方法的步骤。

本申请所提供的发音纠正设备、发音纠正系统、计算机可读存储介质与前述方法相对应。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上，本申请通过获取针对预定单词录入的音频数据；对音频数据进行分析，检测是否存在音节末尾增加元音的情况；根据检测结果，生成预定单词发音存在音节错误的反馈信息。本申请可以自动对录入的音频数据进行分析，检测是否存在音节错误的情况，统一以理解音节的方式来纠正音节末尾加元音的问题，得到的反馈信息能够辅助英语学习者充分理解音节的概念，免去了逐个音纠正的重复工作，避免了时间的浪费。并且，采用本申请可以不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的发音纠正方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晨晨;沈欣尧;关普键;杨晓飞;蒋成林;陈磊;吴梦香;林顺达;戴政
技术所有人：上海流利说信息技术有限公司
我是此专利的发明人