基于语义分析的口语评测方法和系统的制作方法

文档序号：8488600阅读：634来源：国知局

基于语义分析的口语评测方法和系统的制作方法
【技术领域】
[0001] 本发明涉及语音识别和评价技术领域，尤其涉及基于语义分析的口语评测方法和系统。
【背景技术】
[0002] 语音信号处理技术是语音处理和语音识别领域中的一个重要分支，也是现今语音识别和语音评价系统的主要核心技术。如今科技迅速发展，语音信号处理技术已深入到各个领域，包括语言学习以及口语自动评分，而在语言学习和自动评分中，运用语音信号处理的目的是将最新的语音技术与当前的教学和学习方法结合，建立辅助语言学习的系统或者口语智能评分系统。
[0003] 口语自动评分在国内外最常用的称谓就是计算机辅助学习（Computer-Assisted/ Computer-AidedLanguageLearning,CALL)和计算机辅助发音训练（Computer-Assisted/ Computer-AidedPronunciationTraining,CAPT)。在许多国外机构特别是国际会议中，口语自动评分被称为口语语音技术在教育中的应用。20世纪80年代，Flege研宄了如何利用视觉信息辅助语言学习者对目标语言中的元音进行正确发音的问题，指出如果发音错误可以被自动检测出来，并且提供相应的反馈信息，那么将会对非母语语言学习者改正发音错误起到极大的帮助。进入90年代，Bernstein将非母语语音识别的技术研宄成果逐渐推广到各类非母语用户的语言学习领域。21世纪以来，语音自动评分技术取得了飞速的发展，美国Ordinate公司开发的Versant系列口语自动评测系统针对第二语言学习者的口语发音水平进行评测，评测完后系统自动给出评分结果。
[0004] 然而，现有的口语语音评分系统大多只是将待测口语语音与标准语音进行模式匹配，然后对待测语音的发音准确度、语调、韵律等进行评分，并没有对待测语音进行词汇语义分析。当测试者使用与标准答案意思相同的同义词时，仅从发音质量的角度进行评测，而不进行同义词辨析，将导致评测结果不准确、不全面，从而影响评测的准确率，使得评测的可信度降低。而若需要对口语测试者所使用的同义词进行综合考量，则必须通过人工地辨另IJ，效率极低，人力成本较高。

【发明内容】

[0005] 本发明实施例的目的在于提供一种基于语义分析的口语评测方法和系统，对口语测试语音中所使用的词汇进行同义词辨析，判断语音的语义是否正确。
[0006] 为了实现上述目的，一方面，本发明实施例提供了一种基于语义分析的口语评测方法，包括：
[0007] 获取口语测试语音，对所述口语测试语音进行预处理；对预处理后的口语测试语音进行单词切分，将所述口语测试语音切分为语音段；提取所述语音段的语音特征参数；
[0008] 根据所述语音段的语音特征参数，利用预先建立的隐马尔可夫模型对所述语音段进行关键词语音识别，提取出所述口语测试语音中使用的关键词，获得口语关键词；
[0009] 根据所述口语关键词，遍历答题关键词以及所述答题关键词的同义词，获取所述口语测试语音的关键词使用情况，并根据所述关键词使用情况，计算出所述口语测试语音的语义得分；根据所述语义得分，判断所述口语测试语音的语义是否正确，获得语义分析结果。
[0010] 进一步地，在所述获取口语测试语音之前，还包括：
[0011] 获取标准语音语句，提取所述标准语音语句中的关键词，获得所述答题关键词，并收集所述答题关键词的同义词；
[0012] 根据所述答题关键词的重要程度，以及所述同义词与所述答题关键词的意思相近程度，建立语义树。
[0013] 其中，所述语义树为二叉树结构；所述答题关键词和所述同义词设置于所述二叉树的结点上；
[0014] 所述答题关键词设置于所述二叉树的右单支树的根结点上，所述答题关键词的同义词设置于所述右单支树的叶子结点上；或者，所述答题关键词设置于所述二叉树的左单支树的根结点上，所述答题关键词的同义词设置于所述左单支树的叶子结点上。
[0015] 在具体实施当中，所述根据所述口语关键词，遍历答题关键词以及所述答题关键词的同义词，获取所述口语测试语音的关键词使用情况，并根据所述关键词使用情况，计算出所述口语测试语音的语义得分，具体为：
[0016] 根据所述口语关键词，遍历所述语义树，获取所述口语关键词所在的单支树，根据所述口语关键词在所述单支树中与所述答题关键词的距离，计算出所述口语测试语音的语义得分。
[0017] 在具体实施当中，所述提取所述标准语音语句中的关键词，获得所述答题关键词，具体为：
[0018] 对所述标准语音语句的句子结构进行分析，去除所述标准语音语句中的介词和代词，获得所述答题关键词。
[0019] 优选地，在所述建立语义树之后，还包括：
[0020] 对所述答题关键词和所述同义词进行语音采集，对采集到的词汇语音进行语音信号预处理，提取所述词汇语音的语音特征参数；
[0021] 根据所述词汇语音的语音特征参数，建立所述隐马尔可夫模型。
[0022] 在具体实施当中，所述对预处理后的口语测试语音进行单词切分，将所述口语测试语音切分为语音段，具体为：
[0023] 采用双门限法对预处理后的所述口语测试语音进行单词切分，根据所述口语测试语音的短时平均能量和短时平均过零率是否达到预设的阈值，将所述口语测试语音切分成为多个语音段。
[0024] 优选地，在所述获取口语测试语音，对所述口语测试语音进行预处理之后，还包括：
[0025] 根据所述口语测试语音的语音特征参数，对所述口语测试语音的发音质量进行评价，获得所述口语测试语音的发音质量评价；
[0026] 根据所述语义分析结果和所述发音质量评价，对所述口语测试语音进行综合评价。
[0027] 其中，所述根据所述口语测试语音的语音特征参数，对所述口语测试语音的发音质量进行评价，获得所述口语测试语音的发音质量评价，包括：
[0028] 根据所述口语测试语音的关键词语音识别的正确率，对所述口语测试语音的正确度进行评价，获得所述口语测试语音的准确度评价；
[0029] 根据所述口语测试语音的单词平均发音时长，对所述口语测试语音的流利度进行评价，获得所述口语测试语音的流利度评价。
[0030] 为了实现所述目的，另一方面，本发明实施例提供了一种基于语义分析的口语评测系统，包括语音采集单元、语音预处理单元、语音特征提取单元、关键词识别单元、语义分析单元、发音质量评价单元、综合评价单元和标准模型库；
[0031] 所述语音采集单元，用于获取口语测试语音；
[0032] 所述语音预处理单元，用于对所述口语测试语音进行预处理；
[0033] 所述语音特征提取单元，对预处理后的口语测试语音进行单词切分，将所述口语测试语音切分为语音段，提取所述语音段的语音特征参数；
[0034] 所述关键词识别单元，用于根据所述语音段的语音特征参数，利用预先建立的隐马尔可夫模型对所述语音段进行关键词语音识别，提取出所述口语测试语音中使用的关键词，获得口语关键词；
[0035] 所述语义分析单元，用于根据所述口语关键词，遍历答题关键词以及所述答题关键词的同义词，获取所述口语测试语音的关键词使用情况，并根据所述关键词使用情况，计算出所述口语测试语音的语义得分；根据所述语义得分，判断所述口语测试语音的语义是否正确，获得语义分析结果；
[0036] 所述发音质量评价单元，用于根据所述口语测试语音的语音特征参数和所述标准语音语句的语音特征参数，对所述口语测试语音的发音质量进行评价，获得所述口语测试语音的发音质量评价；
[0037] 所述综合评价单元，用于根据所述语义检测结果和所述发音质量评价，对所述口语测试语音进行综合评价；
[0038] 所述标准模型库，用于存储标准语音语句和所述标准语音语句的语音特征参数。
[0039] 本发明实施例提供的基于语义分析的口语评测方法和系统，通过提取口语测试语音的语音特征参数，并根据所述口语测试语音的语音特征参数，利用预先建立的隐马尔可夫模型进行关键词语音识别，对识别出的口语关键词进行同义词辨析，进而判断口语测试语音的语义是否正确。本发明实施例采用同义词辨析的方法对口语测试语音进行语义分析，自动识别出测试语音中所使用的关键词及其同义词，智能判断语音的语义是否正确，无需人工进行语义辨析，有利于提高效率，降低人工成本。
【附图说明】
[0040] 图1是本发明提供的基于语义分析的口语评测方法的一个实施例的方法流程图；
[0041] 图2是本发明提供的基于语义分析的口语评测方法的另一个实施例的方

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李心广;李苏梅;陈广豪;何智明;李婷婷;王晓杰;马晓纯;郭婉华;陈伟峰;陈泽群;陈嘉华;徐集优;张胜斌;
技术所有人：广东外语外贸大学;李心广;
我是此专利的发明人

上一篇：基于动态累积量估计的语音信号端点检测方法
上一篇：语音控制装置、方法及医疗设备的制造方法