发音训练方法、装置、电子设备和存储介质与流程

文档序号：32041080发布日期：2022-11-03 05:16阅读：75来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种发音训练方法、装置、电子设备和存储介质。

背景技术：

2.单词是英语语言学习的基础，单词的学习不仅局限于单词的词义记忆、单词的书写记忆，单词的发音也十分重要，是利用单词向外表达的基础。
3.目前，在碰到不认识的陌生单词时，通常是借助词典工具书、电子词典和词典笔等查词设备进行查询。用户可以直接看到单词的音标进行拼读、单词的相关解释，甚至有单词的标准发音，但用户却无法确定自己对陌生单词的发音掌握情况。

技术实现要素：

4.本发明提供一种发音训练方法、装置、电子设备和存储介质，用以解决现有技术中用户无法获知自己对陌生单词的发音掌握情况的缺陷。
5.本发明提供一种发音训练方法，包括：
6.获取待训练的分词，并播放所述分词的标准音频；
7.在所述标准音频播放结束后，获取所述分词的跟读音频；
8.基于所述跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息。
9.根据本发明提供的发音训练方法，所述基于所述跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息，具体包括：
10.基于所述跟读音频与所述标准音频之间的相似度，确定所述分词的词发音评分；和/或，
11.基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，确定所述分词中每个音节的音节发音评分；
12.基于所述分词的词发音评分，和/或，每个音节的音节发音评分，生成并展示所述分词的发音训练信息。
13.根据本发明提供的发音训练方法，所述基于所述分词的词发音评分，和/或，每个音节的音节发音评分，生成并展示所述分词的发音训练信息，包括：
14.基于所述分词中每个音节的音节发音评分，确定所述音节发音评分低于发音阈值的错漏音节；
15.基于所述错漏音节，对所述分词的音节序列进行标注，得到标注序列；
16.基于所述分词的词发音评分、每个音节的音节发音评分，以及所述标注序列，生成并展示所述分词的发音训练信息。
17.根据本发明提供的发音训练方法，所述基于所述分词中每个音节的音节发音评分，确定所述音节发音评分低于发音阈值的错漏音节，之后还包括：
18.从所述错漏音节对应的示例音频和/或解释音频中，确定与所述错漏音节的音节发音评分相对应的目标示例音频和/或目标解释音频；
19.播放所述目标示例音频和/或目标解释音频。
20.根据本发明提供的发音训练方法，所述跟读音频与所述标准音频之间的相似度基于如下步骤确定：
21.基于所述跟读音频所对应的转写文本，以及所述分词，确定所述跟读音频与所述标准音频之间的文本相似度；
22.基于所述跟读音频的音素序列，以及所述标准音频的音素序列，确定所述跟读音频与所述标准音频之间的发音相似度；
23.基于所述跟读音频的声学特征，以及所述标准音频的声学特征，确定所述跟读音频与所述标准音频之间的声学相似度；
24.基于所述跟读音频与所述标准音频之间的文本相似度、发音相似度和声学相似度中的至少一种，确定所述跟读音频与所述标准音频之间的相似度。
25.根据本发明提供的发音训练方法，所述生成并展示所述分词的发音训练信息，之后还包括：
26.获取包含所述分词的语句，并播放所述语句的语句标准音频；
27.在所述语句标准音频播放结束后，获取所述语句的语句跟读音频；
28.基于所述语句跟读音频和所述语句标准音频，确定所述语句的跟读质量，所述跟读质量包括准确度、标准度、流畅度和完成度中的至少一种。
29.根据本发明提供的发音训练方法，所述基于所述语句跟读音频和所述语句标准音频，确定所述语句的跟读质量，之后还包括：
30.基于所述发音训练信息和/或所述跟读质量，从预设分词库中选取新的待训练的分词。
31.根据本发明提供的发音训练方法，所述获取待训练的分词，具体包括：
32.获取包含所述待训练的分词的图像；
33.对所述图像进行文本识别，得到所述待训练的分词。
34.本发明还提供一种发音训练装置，包括：
35.分词获取和播放单元，用于获取待训练的分词，并播放所述分词的标准音频；
36.跟读音频获取单元，用于在所述标准音频播放结束后，获取所述分词的跟读音频；
37.训练信息展示单元，用于基于所述分词的跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息。
38.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述发音训练方法。
39.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述发音训练方法。
40.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述发音训练方法。
41.本发明提供的发音训练方法、装置、电子设备和存储介质，通过获取待训练的分词，并播放分词的标准音频；在标准音频播放结束后，获取分词的跟读音频；基于跟读音频与标准音频之间的相似度，和/或，基于跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，生成并展示分词的发音训练信息，便于用户直观的了解自己对分词和/或分词中每个音节的发音掌握情况，从而提高发音质量。
附图说明
42.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
43.图1是本发明提供的发音训练方法的流程示意图之一；
44.图2是本发明提供的发音训练方法中步骤130的流程示意图；
45.图3是本发明提供的发音训练信息展示方法的流程示意图；
46.图4是本发明提供的发音训练方法的流程示意图之二；
47.图5是本发明提供的相似度确定方法的流程示意图；
48.图6是本发明提供的发音训练方法的流程示意图之三；
49.图7是本发明提供的发音训练方法中步骤110的流程示意图；
50.图8是本发明提供的发音训练装置的结构示意图；
51.图9是本发明提供的电子设备的结构示意图。
具体实施方式
52.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
53.目前，用户利用词典工具书、电子词典和词典笔等查词设备进行生词查询，可以直接看到单词的音标拼读、单词的相关解释，甚至有单词的标准发音，但却无法确定自己对陌生单词的发音掌握情况。
54.针对上述问题，本发明实施例提供一种发音训练方法，便于用户直观的了解自己针对生词的发音准确情况。本发明实施例提供的发音训练方法对语种不作具体限定，可适用于中文、英文、韩文等各种语言。
55.图1是本发明提供的发音训练方法的流程示意图之一，该方法的执行主体可以是发音训练装置，该装置可以通过软件和/或硬件实现，该装置可以集成在电子设备中，电子设备可以是个人电脑、云端设备、智能手机或平板电脑等。如图1所示，本发明实施例提供的发音训练方法包括如下步骤：
56.步骤110，获取待训练的分词，并播放分词的标准音频。
57.具体地，待训练的分词即需要进行发音训练的字或词，此处的分词可以是英文单词，也可以是中文汉字或词语，当然还可以是其他语言的分词。例如，待训练的分词可以是“apple”、“家”或者“暑假”等。
58.待训练的分词可以是用户不认识的陌生分词，用户在阅读过程中遇到不认识的字词，可通过拍照或截图的方式获取包含该陌生分词的图像，发音训练装置对图像进行文本识别获取待训练的分词。
59.用户还可以预先导入待训练的分词文档数据，此处分词文档数据可以是根据用户的年龄、年级、历史学习记录等确定的。例如，用户目前就读小学一年级上学期，可以将新课标中建议的小学一年级上学期需要掌握的字词作为分词文档数据。发音训练装置根据预先设置的推送规则，或者随机从分词文档数据中获取待训练的分词。此处预先设置的推送规则可以是根据用户针对分词的发音掌握情况、分词的难易程度、或者分词所属章节等进行灵活设置推送规则，本发明实施例对此不作具体限定。
60.获取得到了待训练的分词之后，即可播放分词的标准音频。标准音频是指针对各个语种的标准发音音频，例如，针对中文的标准普通话音频，或以国际音标为标准的标准英文音频等。
61.需要说明的是，分词的标准音频的播放模式可以是发音训练装置预置好的，也可根据用户的需求灵活设置。比如，可设置标准音频的播放次数以及相邻两次播放间隔时间等。
62.步骤120，在标准音频播放结束后，获取分词的跟读音频。
63.具体地，在标准音频播放结束之后，发音训练装置中的音频采集单元，比如预置的麦克风采集用户针对播放的分词的标准音频进行跟读的音频，得到分词的跟读音频。
64.在一个实施例中，用户可点击按键或屏幕上的图标标识，触发麦克风采集跟读音频，也可在识别到标准音频播放结束后，无须触发直接开始音频采集，从而获取分词的跟读音频。
65.步骤130，基于跟读音频与标准音频之间的相似度，和/或，基于跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，生成并展示分词的发音训练信息。
66.具体地，分词的发音训练信息可表征用户针对该分词，和/或，分词中每个音节的发音训练信息，发音训练信息具体可包括分词的跟读音频、分词的标准音频、分词的发音信息、分词中每个音节的发音信息等。
67.为了得到分词的发音训练信息，可通过跟读音频与标准音频之间的相似度，和/或，跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度确定。
68.可理解的是，跟读音频与标准音频之间的相似度越高，则用户的跟读音频与标准音频的差异越小，用户针对该分词的发音越标准；跟读音频与标准音频之间的相似度越低，则用户的跟读音频与标准音频的差异越大，用户针对该分词的发音越不标准。
69.进一步地，还可对跟读音频进行音节划分，得到每个音节音频。同时对标准音频进行音节划分，得到标准音频中的每个音节音频。跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度越高，则用户针对该音节音频的发音越标准；反之，用户针对该音节音频的发音越不标准。
70.需说明的是，此处的相似度具体可包括音频的转写文本相似度、发音相似度和声
学相似度等。
71.得到跟读音频和标准音频的基础上，根据跟读音频与标准音频之间的相似度，生成分词的发音训练信息；还可根据跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，生成针对分词的各个音节的发音训练信息；还可结合跟读音频与标准音频之间的相似度，以及跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，生成分词的发音训练信息。
72.生成分词的发音训练信息之后，即可将发音训练信息在屏幕上进行展示，以供用户及时查看。
73.本发明实施例提供的发音训练方法，获取待训练的分词，并播放分词的标准音频；在标准音频播放结束后，获取分词的跟读音频；基于跟读音频与标准音频之间的相似度，和/或，基于跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，生成并展示分词的发音训练信息，便于用户直观的了解自己对分词和/或分词中每个音节的发音掌握情况，从而提高发音质量。
74.基于上述实施例，图2是本发明提供的发音训练方法中步骤130的流程示意图，如图2所示，步骤130具体包括：
75.步骤131，基于跟读音频与标准音频之间的相似度，确定分词的词发音评分；和/或，
76.步骤132，基于跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，确定分词中每个音节的音节发音评分；
77.步骤133，基于分词的词发音评分，和/或，每个音节的音节发音评分，生成并展示分词的发音训练信息。
78.具体地，分词的发音训练信息具体可包括分词的词发音评分和/或音节发音评分，其中，词发音评分可通过对该分词的跟读音频进行评分得到，音节发音评分可通过对该分词中的每个音节音频进行评分得到。
79.跟读音频与标准音频之间的相似度越高，则分词的词发音评分越高；反之，则分词的词发音评分越低。跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度越高，则分词中每个音节的音节发音评分越高，反之，则分词中每个音节的音节发音评分越低。
80.可理解的是，用户每跟读一次，即可针对当前次跟读音频获取词发音评分和/或每个音节的音节发音评分，并进行展示，用户可方便看到每一次的分数变化，从而掌握该生词的正确发音。
81.基于上述任一实施例，图3是本发明提供的发音训练信息展示方法的流程示意图，如图3所示，步骤133具体包括：
82.步骤133-1，基于分词中每个音节的音节发音评分，确定音节发音评分低于发音阈值的错漏音节；
83.步骤133-2，基于错漏音节，对分词的音节序列进行标注，得到标注序列；
84.步骤133-3，基于分词的词发音评分、每个音节的音节发音评分，以及标注序列，生成并展示分词的发音训练信息。
85.具体地，为了进一步提高用户独立学习生词发音的能力，方便用户了解自己的发
音弱项，在生成分词的发音训练信息时，除了展示分词的词发音评分和每个音节的音节发音评分，还可生成并展示标注序列。
86.为了生成标注序列，可首先根据基于分词中每个音节的音节发音评分，确定音节发音评分低于发音阈值的错漏音节。例如，分词中包含3个音节，其中1个音节的音节发音评分低于预先设置好的发音阈值，则该1个音节即为错漏音节。错漏音节可以是用户发音错误甚至没有发音的音节。
87.得到错漏音节后，即可对分词的音节序列进行标注，得到标注序列。例如，在分词的音节序列中将错漏音节进行标注，以提醒用户该音节发音不标准。
88.本发明实施例提供的方法，通过分词中每个音节的音节发音评分，确定音节发音评分低于发音阈值的错漏音节；并基于错漏音节，对分词的音节序列进行标注，得到标注序列；基于分词的词发音评分、每个音节的音节发音评分，以及标注序列，生成并展示分词的发音训练信息，可实现精准定位错漏音节，以提醒用户针对该错漏音节进行矫正发音，从而进一步提高发音质量。
89.基于上述任一实施例，图4是本发明提供的发音训练方法的流程示意图之二，如图4所示，步骤133-1之后还包括：
90.步骤410，从错漏音节对应的示例音频和/或解释音频中，确定与错漏音节的音节发音评分相对应的目标示例音频和/或目标解释音频；
91.步骤420，播放目标示例音频和/或目标解释音频。
92.具体地，考虑到在一些情况下，用户即使知道了错漏音节，但并不知道如何矫正，或者并不知道如果正确发音，为了进一步提高用户针对错漏音节纠正正确发音的能力，可播放目标示例音频和/或目标解释音频。
93.此处的目标示例音频是指包含该错漏音节的示例音频，比如，针对错漏音节“ch”，可播放多个示例音频如chair、chance、cheese等。
94.目标解释音频是指针对该错漏音节的发音解释音频，例如，针对错漏音节“ch”，可播放目标解释音频。
95.错漏音节对应的示例音频和/或解释音频是预先存储的，并且示例音频和/或解释音频可以有多个，分别对应不同区间的音节发音评分。例如，音节发音评分在20-40之间，对应示例音频1和/或解释音频1；音节发音评分在40-60之间，对应示例音频2和/或解释音频2，以此类推。从多个示例音频和/或解释音频中，根据错漏音节的音节发音评分，筛选与音节发音评分相对应的目标示例音频和/或目标解释音频。例如，该错漏音节的音节发音评分为35分，则播放与之对应的示例音频1和/或解释音频1。
96.本发明实施例提供的方法，通过播放与错漏音节的音节发音评分相对应的目标示例音频和/或目标解释音频，可进一步提高用户针对错漏音节纠正正确发音的能力。
97.基于上述任一实施例，图5是本发明提供的相似度确定方法的流程示意图，如图5所示，跟读音频与标准音频之间的相似度基于如下步骤确定：
98.步骤510，基于跟读音频所对应的转写文本，以及分词，确定跟读音频与标准音频之间的文本相似度；
99.步骤520，基于跟读音频的音素序列，以及标准音频的音素序列，确定跟读音频与标准音频之间的发音相似度；
100.步骤530，基于跟读音频的声学特征，以及标准音频的声学特征，确定跟读音频与标准音频之间的声学相似度；
101.步骤540，基于跟读音频与标准音频之间的文本相似度、发音相似度和声学相似度中的至少一种，确定跟读音频与标准音频之间的相似度。
102.具体地，为了得到跟读音频与标准音频之间的相似度，可基于跟读音频与标准音频之间的文本相似度、发音相似度和声学相似度中的至少一种确定。可将其中任意一个相似度，比如发音相似度确定为跟读音频与标准音频之间的相似度，还可将其中的任意两个或全部相似度进行加权融合，将融合后得到的相似度确定为跟读音频与标准音频之间的相似度，本发明实施例对此不作具体限定。
103.跟读音频与标准音频之间的文本相似度可通过跟读音频所对应的转写文本，以及待训练的分词确定；跟读音频与标准音频之间的发音相似度，可通过跟读音频的音素序列，以及标准音频的音素序列确定；跟读音频与标准音频之间的声学相似度可通过跟读音频的声学特征，以及标准音频的声学特征确定。
104.文本相似度、发音相似度和声学相似度均可通过相似度算法计算得到，比如余弦距离、欧氏距离等。
105.基于上述任一实施例，图6是本发明提供的发音训练方法的流程示意图之三，如图6所示，生成并展示分词的发音训练信息，之后还包括：
106.步骤610，获取包含分词的语句，并播放语句的语句标准音频；
107.步骤620，在语句标准音频播放结束后，获取语句的语句跟读音频；
108.步骤630，基于语句跟读音频和语句标准音频，确定语句的跟读质量，跟读质量包括准确度、标准度、流畅度和完成度中的至少一种。
109.具体地，为了进一步巩固用户针对该生词的发音训练效果，在生成并展示分词的发音训练信息之后，还可获取包含该分词的语句，并播放该语句的语句标准音频。
110.在语句标准音频播放结束后，采集用户的语句跟读音频。得到语句跟读音频和标准音频的基础上，即可确定语句的跟读质量。此处的跟读质量包括准确度、标准度、流畅度和完成度中的至少一种。
111.其中，准确度是指语句跟读音频中每个分词音频发音的准确度和清晰度，语句跟读音频中每个分词音频与语句标准音频中对应分词音频的发音相似度越高，表明该分词音频的准确度和清晰度越高，进而语句跟读音频的准确度也越高。
112.标准度是指语句跟读音频中的发音习惯(包含情感)是否符合标准，标准音频中的发音是符合标准的。语句跟读音频中每个分词音频与标准音频分词音频之间的相似度越高，表明语句跟读音频中每个分词音频越接近标准发音。同时，每个分词音频能灵活地运用连读、重读、失音、爆破等发音技巧，节奏良好，感情充沛，进而对应的跟读标准度越高。
113.流畅度是指语句跟读音频是否朗读流利，语速是否正常等，若语句跟读音频的语速正常，表明跟读流畅度较好，若语句跟读音频基本不出现停顿、重复、自我更正等表现，则表明跟读流畅度较好。
114.完成度是指跟读音频跟读完整程度，跟读过程中有无漏词或漏音节的现象。语句跟读音频对应的转写文本与包含分词的语句之间的匹配度越高，表明语句跟读音频的完整度越高，也即语句跟读完成度越高。
115.进一步地，可从准确度、标准度、流畅度和完成度中的至少一种，对包含该分词的语句的跟读情况进行打分，跟读得分越高，表明跟读质量越好，进而表明用户对待训练的分词发音掌握程度越高。
116.本发明实施例提供的方法，生成并展示分词的发音训练信息之后，基于语句跟读音频和语句标准音频，确定语句的跟读质量，进一步为用户独立进行发音训练提供了便利，从而提高了用户的发音质量。
117.基于上述任一实施例，步骤630之后还包括：
118.基于发音训练信息和/或跟读质量，从预设分词库中选取新的待训练的分词。
119.具体地，得到用户的发音训练信息和/或跟读质量之后，可根据用户的发音训练信息和/或跟读质量，从预设分词库中选取新的待训练的分词。例如，可根据发音训练信息中的错漏音节，从预设分词库中选取与该错漏音节相关的分词，作为新的待训练的分词，以供用户进一步训练。与该错漏音节相关的分词具体可以是与该分词的韵母发音相关、声母发音相关或声调调整相关的分词。
120.比如，发音训练信息显示用户发音时前鼻韵母和后鼻韵母容易混淆，发音不标准，可从预设分词库中选取新的与前后鼻韵母相关的分词作为新的待训练的分词；再比如，发音训练信息显示用户发音时声母中的n和l发音不标准，可从预设分词库中选取新的与该声母相关的分词作为新的待训练的分词。
121.另外，还可根据语句跟读质量中各个分词音频的跟读评分，从预设分词库中选取新的待训练的分词。例如，从语句跟读音频中选取评分较低的分词作为新的待训练的分词。
122.本发明实施例提供的方法，基于发音训练信息和/或跟读质量，从预设分词库中选取新的待训练的分词，通过展示发音训练信息和/或跟读质量的方式不仅能够让用户及时了解自己的实际发音情况，还可以根据发音评分选取新的待训练分词，从而能够递进式的加深发音印象，通过相关分词的反复跟读和训练，保证发音学习质量。
123.基于上述任一实施例，图7是本发明提供的发音训练方法中步骤110的流程示意图，如图7所示，步骤110具体包括：
124.步骤111，获取包含待训练的分词的图像；
125.步骤112，对图像进行文本识别，得到待训练的分词。
126.具体地，用户在阅读或朗诵过程中遇到生词后，为了进一步提高用户使用体验感，可采用发音训练装置上预置的摄像头拍摄获取包含待训练的分词的图像，还可通过网络下载或直接导入包含待训练的分词的图像。
127.得到图像后，针对该图像进行ocr(optical character recognition)文字识别，得到待训练的分词。
128.本发明实施例提供的方法，通过对包含待训练的分词的图像进行文字识别，得到待训练的分词，为获取分词提供了便利，提高了用户使用体验感。
129.基于上述任一实施例，提供一种发音训练方法，所述方法包括：
130.s1，获取待训练的分词，并播放所述分词的标准音频。其中获取待训练的分词具体包括：获取包含所述待训练的分词的图像；对所述图像进行文本识别，得到所述待训练的分词。
131.s2，在所述标准音频播放结束后，获取所述分词的跟读音频。
132.s3，基于所述跟读音频与所述标准音频之间的相似度，确定所述分词的词发音评分；和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，确定所述分词中每个音节的音节发音评分。
133.s5，基于所述分词中每个音节的音节发音评分，确定所述音节发音评分低于发音阈值的错漏音节；基于所述错漏音节，对所述分词的音节序列进行标注，得到标注序列。
134.s6，基于所述分词的词发音评分、每个音节的音节发音评分，以及所述标注序列，生成并展示所述分词的发音训练信息。
135.s7，获取包含所述分词的语句，并播放所述语句的语句标准音频；在所述语句标准音频播放结束后，获取所述语句的语句跟读音频；基于所述语句跟读音频和所述语句标准音频，确定所述语句的跟读质量，所述跟读质量包括准确度、标准度、流畅度和完成度中的至少一种。
136.s8，基于所述发音训练信息和/或所述跟读质量，从预设分词库中选取新的待训练的分词。
137.下面对本发明提供的发音训练装置进行描述，下文描述的发音训练装置与上文描述的发音训练方法可相互对应参照。
138.图8是本发明提供的发音训练装置的结构示意图，如图8所示，发音训练装置包括分词获取和播放单元810、跟读音频获取单元820和训练信息展示单元830。
139.其中，分词获取和播放单元810，用于获取待训练的分词，并播放所述分词的标准音频；
140.跟读音频获取单元820，用于在所述标准音频播放结束后，获取所述分词的跟读音频；
141.训练信息展示单元830，用于基于所述分词的跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息。
142.本发明实施例提供的发音训练装置，获取待训练的分词，并播放分词的标准音频；在标准音频播放结束后，获取分词的跟读音频；基于跟读音频与标准音频之间的相似度，和/或，基于跟读音频中每个音节音频与标准音频中对应音节音频之间的相似度，生成并展示分词的发音训练信息，便于用户直观的了解自己对分词和/或分词中每个音节的发音掌握情况，从而提高发音质量。
143.基于上述任一实施例，训练信息展示单元830进一步用于：
144.基于所述跟读音频与所述标准音频之间的相似度，确定所述分词的词发音评分；和/或，
145.基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，确定所述分词中每个音节的音节发音评分；
146.基于所述分词的词发音评分，和/或，每个音节的音节发音评分，生成并展示所述分词的发音训练信息。
147.基于上述任一实施例，训练信息展示单元830进一步用于：
148.基于所述分词中每个音节的音节发音评分，确定所述音节发音评分低于发音阈值的错漏音节；
149.基于所述错漏音节，对所述分词的音节序列进行标注，得到标注序列；
150.基于所述分词的词发音评分、每个音节的音节发音评分，以及所述标注序列，生成并展示所述分词的发音训练信息。
151.基于上述任一实施例，发音训练装置还包括解释音频播放单元，用于：
152.从所述错漏音节对应的示例音频和/或解释音频中，确定与所述错漏音节的音节发音评分相对应的目标示例音频和/或目标解释音频；
153.播放所述目标示例音频和/或目标解释音频。
154.基于上述任一实施例，发音训练装置还包括相似度确定单元，用于：
155.基于所述跟读音频所对应的转写文本，以及所述分词，确定所述跟读音频与所述标准音频之间的文本相似度；
156.基于所述跟读音频的音素序列，以及所述标准音频的音素序列，确定所述跟读音频与所述标准音频之间的发音相似度；
157.基于所述跟读音频的声学特征，以及所述标准音频的声学特征，确定所述跟读音频与所述标准音频之间的声学相似度；
158.基于所述跟读音频与所述标准音频之间的文本相似度、发音相似度和声学相似度中的至少一种，确定所述跟读音频与所述标准音频之间的相似度。
159.基于上述任一实施例，发音训练装置还包括语句跟读单元，用于：
160.获取包含所述分词的语句，并播放所述语句的语句标准音频；
161.在所述语句标准音频播放结束后，获取所述语句的语句跟读音频；
162.基于所述语句跟读音频和所述语句标准音频，确定所述语句的跟读质量，所述跟读质量包括准确度、标准度、流畅度和完成度中的至少一种。
163.基于上述任一实施例，发音训练装置还包括分词选取单元，用于：
164.基于所述发音训练信息和/或所述跟读质量，从预设分词库中选取新的待训练的分词。
165.基于上述任一实施例，分词获取和播放单元进一步用于：
166.获取包含所述待训练的分词的图像；
167.对所述图像进行文本识别，得到所述待训练的分词。
168.图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(communications interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行发音训练方法，该方法包括：获取待训练的分词，并播放所述分词的标准音频；在所述标准音频播放结束后，获取所述分词的跟读音频；基于所述跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息。
169.此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以
使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
170.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的发音训练方法，该方法包括：获取待训练的分词，并播放所述分词的标准音频；在所述标准音频播放结束后，获取所述分词的跟读音频；基于所述跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息。
171.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的发音训练方法，该方法包括：获取待训练的分词，并播放所述分词的标准音频；在所述标准音频播放结束后，获取所述分词的跟读音频；基于所述跟读音频与所述标准音频之间的相似度，和/或，基于所述跟读音频中每个音节音频与所述标准音频中对应音节音频之间的相似度，生成并展示所述分词的发音训练信息。
172.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
173.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
174.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：连文莹吴茂锦葛宏岩
技术所有人：安徽淘云科技股份有限公司
我是此专利的发明人

上一篇：一种气化炉用防焦油析出装置的制作方法
上一篇：一种全自动激光打标上料加工机械的制作方法