语音识别方法、语音评分方法、语音识别系统及语音评分系统的制作方法_3

文档序号：9616939阅读：来源：国知局

小概率的原词汇-偏差词汇的关联中的偏差词汇被认为有可能是由于样本的自身发音或环境噪音等因素造成了其差异，而非仅由引擎的误识别造成。
[0049] 接下来，结合图4,对根据第二实施例的纠错列表的生成方法的第二个实例进行说明。在根据如上所述的根据第二实施例的纠错列表的生成方法的第一个实例中，由于忽略掉了小概率的原词汇-偏差词汇的关联，这可能会导致纠错列表的原词汇-偏差词汇的关联的遗漏。为了更进一步地提高纠错效果，第二实施例的纠错列表的生成方法的第二个实例与上述第一个实例的区别在于，第二实施例的纠错列表的生成方法的第二个实例能够尽可能地使得原文中所有被引擎误识别的原词汇对应的原词汇-偏差词汇的关联被收录进纠错列表。根据本发明的第二实施例的纠错列表的生成方法的第二个实例包含如下步骤。
[0050] 步骤S401 :指定多个（5个）读音标准的真人（样本）朗读特定的原文获取每个真人的语音。此步骤与第二实施例的第一个实例的S301相同。
[0051] 步骤S402:在步骤S401中获取的5个样本的语音经由引擎识别为文本数据。此步骤与第二实施例的第一个实例的S302相同。
[0052] 步骤S403:建立原词汇-偏差词汇的关联、统计对应原文中同一原词汇的原词汇-偏差词汇的关联中具有相同的偏差词汇的原词汇-偏差词汇的关联的概率。此步骤与第二实施例的第一个实例的S303相同。
[0053] 步骤S404:收录大概率的原词汇-偏差词汇的关联至纠错列表。此步骤与第二实施例的第一个实例的S304相同。
[0054] 步骤S405:针对5个样本的初始语音识别结果的纠错处理。此步骤与第一实施例中的S203相同。
[0055] 步骤S406:针对原文进行过滤处理，并确保在5个样本的纠错后的语音识别结果中对应原文被过滤的部分若存在识别结果也被过滤。
[0056]在该步骤中，通过对比原文，如果每个样本（每个人）的纠错后的语音识别结果与原文完全相同，则表示针对原文和5个样本的纠错后的语音识别结果，无需进行过滤处理。[0057] 如果在所有样本的所有纠错后的语音识别结果中发现与原文不一致，则从原文中找出一个或多个在原文中存在、但是在至少一个样本的初始语音识别结果或者纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，建立相应的一个或多个未返回词汇-空白（空白代表在至少一个样本的纠错后的语音识别结果中相应词汇无识别结果）的关联，并从原文中将相应的一个或多个未返回词汇-空白的关联中的未返回词汇进行过滤，即从原文中删除该未返回词汇，以生成过滤后的原文，同时确保在5个样本的纠错后的语音识别结果中对应原文被过滤的部分若存在识别结果也被过滤。本发明的实施例以日语学习为例，例如，假设原文为日语"A。、鈴木?& "，在5个样本的初始语音识别结果中， 4个样本的初始语音识别结果为"鈴木?& "，而另一个样本的初始语音识别结果为"Ac、鈴木?九"，因而，在该步骤中，可建立未返回词汇-空白的关联"A。、-空白"，并根据"A c、_空白"的关联将原文中的"Ac、"过滤，又，有一个样本的经过纠错处理后的语音识别结果中对应原文中的"Ac、"的部分存在识别结果，因而也将该样本的纠错后的语音识别结果中的"Ac、"过滤。
[0058] 步骤S407:将经过纠错和过滤后的5个样本的语音识别结果与过滤后的原文进行相似度比较，计算出语音评分。
[0059] 同样，计算语音评分可采用诸如LD算法的文本比较算法进行相似度比较。
[0060] 步骤S408 :统计语音评分为100分的样本的概率。
[0061] 此步骤中，利用语音评分为100分的样本的个数除以总样本的个数得到语音评分为100分的样本的概率。
[0062] 步骤S409:判断在步骤S408中统计的语音评分为100分的样本的概率是否大于等于第二概率阈值。
[0063] 若语音评分为100分的样本的概率大于等于第二概率阈值，则生成纠错列表的过程完成；若语音评分为100分的样本的概率小于第二概率阈值，执行步骤S410。在本发明的实施例中，此步骤中的第二概率阈值的值与第二实施例的纠错列表生成方法的第一个实例中的第一概率阈值的值相等。
[0064] 步骤S410 :在步骤S407中语音评分不为100分的样本再各自多次朗读原文后再次执行步骤S402至步骤S409,直至语音评分为100分的样本的概率大于等于第二概率阈值。
[0065] 在根据本发明的实施例中，此步骤中指定语音评分不为100分的人再各自朗读原文5次。这里的数量只是示意性说明，本发明不限于此。一个人的多次朗读可当作是多个人的朗读来进行处理。
[0066] 根据实际应用的需要，最后可以包括一个循环次数判定步骤，当判定语音评分不为100分的样本经过执行步骤S402至S409的预定次数循环之后仍然无法达到语音评分为 100分的样本的概率大于等于第二概率阈值的条件，则不再执行循环，整个处理结束。在根据本发明的实施例中，该循环次数设定为1。这里的数量只是示意性说明，本发明不限于此。 [0067] 图5是显示根据第三实施例的语音评分系统的语音评分方法的流程图。
[0068] 第三实施例的语音评分方法是基于之前说明的语音识别方法的语音评分方法。因此，在其中结合了第一实施例至第二实施例的语音识别方法。接下来，将结合图5,对根据第三实施例的语音评分系统的语音评分方法进行说明。根据本发明的第三实施例的语音评分系统的语音评分方法包含如下步骤。
[0069] 步骤S501:获取用户朗读原文所发出的语音。
[0070] 此步骤与第一实施例中的S201基本相同。唯一的区别在于，这里所获取的用户语音并非是用户随意发出。
[0071] 处于根据第三实施例这样的语音评分应用中，语音识别方法的应用环境与之前提及的工作和会议略有不同。根据当前的语言学习的应用环境，作为与语音识别方法的应用环境相对应的原文，这里的原文是指用户为了检验口语学习成果所朗读的文本，原文可以是以某一标点符号（如逗号）分隔的短句，也可以是完整的一句话（即，以表示句子完结的标点，例如句号、叹号、疑问号分隔的），也可以是一段或数段话。在根据本发明的实施例中，原文的最小单位为句，即完整的一句话。但本发明不限于此。
[0072] 步骤S502:在步骤S501中获取的用户的语音经由引擎被识别为文本数据，作为初始语音识别结果。此步骤与第一实施例中的S202相同。
[0073] 步骤S503 :针对初始语音识别结果进行纠错处理，得到纠错后的语音识别结果。
[0074] 此步骤中，将原文与初始语音识别结果进行相似度比较，如果原文与初始语音识别结果完全一致，输出最高的评分；如果原文与初始语音识别结果不一致，执行纠错步骤，在纠错步骤中，搜索出初始语音识别结果中的一个或多个与原文中的原词汇不一致的词汇，作为偏差词汇，并建立相应的一个或多个原词汇-偏差词汇的关联，并且，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，当建立的一个或多个原词汇-偏差词汇的关联中的部分或全部原词汇-偏差词汇的关联已经被记录在纠错列表中，则对初始语音识别结果中的与部分或全部原词汇-偏差词汇的关联对应的偏差词汇进行纠正替换，以将偏差词汇替换成偏差词汇所属的原词汇-偏差词汇的关联中相应的原词汇，以生成纠错后的语音识别结果。
[0075] 在此步骤中，涉及到的原词汇-偏差词汇，这里的原词汇指的是记载在原文中的正确的词汇，亦即用户本欲表达的词汇。偏差词汇是被识别出的、且与原词汇不一致的词汇。
[0076]实质上，如上所述的步骤S501至步骤S503即语音识别的过程，这里的语音识别是针对用户朗读检验口语学习成果所朗读的原文，执

完整全部详细技术资料下载

当前第3页1 2 3 4 5