网络教学实时语音分析系统的制作方法

文档序号：9788624阅读：568来源：国知局

网络教学实时语音分析系统的制作方法
【技术领域】
[0001]本发明涉及用于语音分析技术领域，具体涉及一种网络教学实时语音分析系统。
【背景技术】
[0002]语音是我们日常生活的不可或缺的一部分。准确的语音(例如，发音、语法等)在高效通信中起着重要作用。能够有效地说话可以使人容易被理解，听起来信心十足，并且明确地表达出重点。
[0003]纠正和改进语音的常规设备和技术包括人为指导以及计算机辅助工具。在常规的人为指导方法中，雇用教师(即，语音-语言培训师、语言学家等)帮助纠正和改进语音。例如，可以参加现场讲习班或完成在线课程。但是，使用现场老师会需要大量时间。此外，成本通常非常高昂。另外，使用这种方法缺少迫切需要的灵活性。
[0004]在常规的计算机辅助工具中，用户打开软件并且阅读软件显示的文本(预先选择或随机选择)。计算机分析用户的声道并标识错误。计算机例如可以根据语音与所需发音的接近程度分析语音，或者使用语音识别组件将语音输入转换为文本，然后测量转换的文本与原始文本的接近程度。
[0005]但是，这种计算机辅助工具不提供个人触觉。进一步，计算机难以表示用户的实际、真实的语音内容。此外，用户通常仍然需要花费大量时间使用工具。
[0006]常规工具的语音识别组件经过预先训练，因此高度地非个人化。实际上，常规计算机辅助工具不能动态适应用户语音或者用户与他人对话中的内容。常规方法还需要主动练习。预先选择的文本可能不对应于用户最常说的单词和词组。使用常规技术，可能难以涵盖用户习惯性说的某些事物，例如某些术语。

【发明内容】

[0007]针对上述常规方法和结构的缺点和劣势，本发明提供一种网络教学实时语音分析系统，以高度个性化、具有时效性的方式实时纠正和改进用户语音。
[0008]本发明通过如下方案解决上述技术问题:一种网络教学实时语音分析系统，包括:捕获组件，其用于捕获语音输入；自动语音识别ASR组件，其用于执行所述语音输入的实时识别；以及分析组件，其用于分析所识别的语音输入以标识错误;课程规划器组件，其用于安排预定义的课程和自动创建的课程中的至少一个。
[0009]优化的，所述分析组件通过使用对话上下文，分析所识别的语音输入。
[0010]优化的，还包括错误汇总组件，其用于确定一个或多个错误模式。
[0011]优化的，还包括用户简档组件，其存储错误汇总和用户错误模式中的至少一个。
[0012]优化的，所述分析组件基于所述语音输入，生成预测的语音含义;通过比较所述预测的语音含义与所述语音输入，标识所述错误。
[0013]优化的，所述捕获包括持续监视所述语音输入和持续接收所述语音输入中的至少一个。
[0014]优化的，还包括交互式用户接口组件，其中所述接口组件使用用户反馈信息来分析错误并建议错误纠正。
[0015]本发明的优点在于:利用本发明的网络教学实时语音分析系统，可以提供用户语音的实时、被动监视，这不需要用户的主动参与。这种方法高度交互，可以利用上下文和对话语义，并且高度个性化。
【附图说明】
[0016]图1是本发明的结构示意图；
[0017]图2本发明实施例中基于网络教学实时语音分析系统的分析方法的步骤框图；
【具体实施方式】
[0018]现在参考附图，更具体地说参考图1-2，其中示出根据本发明的方法和结构的各示例性实施例。
[0019]在当今忙碌的世界中，时间非常珍贵。本发明不需要主动练习。相反，它提供用户语音的实时、被动监视。
[0020]进一步，每个人都是独特的。至于语音，一个人的弱点可能是另一个人的强项。使用预设单词和词组纠正和改进语音只能到此为止。通过分析来自用户日常生活的实际语音而不是选定文本，本发明涵盖一组代表性并且完整的用户高频词汇。
[0021]本发明还支持高度个性化的发音错误简档和语音识别组件。提供的定制、交互式课程可以针对独特地常见于用户的错误，并且专注于用户独有的问题。
[0022]本发明部署交互式用户接口，其不仅可以利用用户反馈分析语音错误，而且还可以向用户建议纠正。
[0023]本发明能够利用对话上下文信息帮助标识错误。通过使用上下文信息、对话语义、主题识别等，可以更容易地标识错误。即，本发明可以依赖于用户语音中和/或用户与一个或多个其他说话者之间的交流中的上下文信息。这种上下文信息通常可以称为上下文对话提示。
[0024]在一个示例性实施例中，本发明实时监视日常生活中的用户语音(例如，对话、电话、会议)。
[0025]本发明可以使用语音识别技术将语音转换为文本，并且通过某些度量标识有问题的单词/词组，这些度量可以包括但不限于以下一个或多个:语音识别中的置信度得分、词法上下文分析(例如，使用文本挖掘技术标识很少与上下文其余部分同时出现的单词)，以及语义上下文分析(例如，识别其他方问题和重复/纠正)。
[0026]本发明可以在不涉及用户的情况下纠正有问题的文本，并且它可以可选地在用户接口中突出显示有问题的文本，并要求用户纠正或确认自动纠正(以口头方式或以图形方式)。
[0027]本发明可以比较正确文本的标准发音与原始语音中的用户发音，标识错误并且将它们存储在用户简档中。
[0028]本发明可以经由音频以及经由具有语音的图形接口为用户实时提供纠正。
[0029]本发明可以汇总用户的常见错误模式并向用户显示它们，并且自动安排旨在纠正这些错误的课程。本发明可以维护用户错误模式的直方图。
[0030]例如可以通过下载应用将本发明安装在便携式设备(例如智能电话)上，或者可以通过因特网或者以可以提供程序和应用的各种其他方式，将本发明提供为服务。
[0031]在一个示例性实施例中，要求保护的本发明可以提供发音纠正和训练。实际上，通常发音错误是用户语音的一个主要问题。因此，本发明可以在提供发音纠正和改进方面尤其有用。
[0032]在一个示例性实施例中，本公开的方法可以通过使用母语说话者训练自动语音识别系统(ASR)来实现。然后，本发明持续将来自用户的口语样本接收到ASR中。接收ASR输出(例如，文本)以及与每个单词关联的置信度水平。本发明然后在文本中标识可能不是用户所表达含义的一个或多个单词或词组(这可以称为“有问题的”文本)。
[0033]可以通过挑选具有低置信度得分的单词标识有问题的文本。进一步，本发明可以挑选出未在上下文中出现的单词。本发明还可以使用对话语义标识有问题的单词。
[0034]例如可以基于测试结果设置有关用于查找有问题文本的置信度得分的阈值，并且可以调整和调优该阈值。阈值的调整和调优可以有助于防止阈值设置过高，因此过于严格，从而导致偶尔报告假警报。相反，调优和调整可以有助于防止阈值设置过低，因此阈值可能缺少所需的敏感性，从而导致有时忽略某些错误。
[0035]然后可以使用各种技术纠正有问题的单词、词组等。这些技术例如可以包括查询用户简档中的常见错误模式，选择发音类似的单词(多个)，但更优选的是在上下文和统计语言模型中，要求用户经由音频或图形接口纠正或确认自动纠正。可以以各种方式完成提取用户产生的错误。这些方式例如包括比较正确文本的语音与用户原始发音的语音，并且通过自动语音生成系统(ASG)发送真实(正确)文本，然后比较来自ASG的语音输出与用户的原始发首。
[0036]本发明还可以经由音频或图形接口为用户提供可选、实时的反馈/纠正。这种反馈和纠正可以包括将错误存储到用户简档中，将用户错误汇总成常见模式，并且将这些模式存储到用户简档中。进一步，本发明可以以用户发音错误模式的直方图的形式创建有用的图形数据。
[0037]本发明可以用作移动设备上的独立应用，或者通过因特网用作服务。本发明还可以用作用于训练语言之间的翻译的工具、用于幼儿学习说话的工具，或者其中用户有理由监视和纠正语音和/或发音的任何其他应用。
[0038]如上所述，有问题的文本包括以下文本:用户未真正表达，但由于他/她的错误(例如，不正确发音)而使ASR认为用户说过。“真实”文本包括用户真正表达的含义。例如，假设用户将cane sugar(鹿糖)的发音错误

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈拥权;李建中;郑荣稳;鲁加旺;
技术所有人：合肥寰景信息技术有限公司;
我是此专利的发明人

上一篇：基于原子预选择的音频匹配追踪方法与系统的制作方法
上一篇：谐波信号基频估计算法及装置的制造方法