一种教学语音识别优化方法及系统

文档序号：29128058发布日期：2022-03-05 00:41阅读：来源：国知局

技术特征：
1.一种教学语音识别优化方法，其特征在于，该方法包括如下步骤：获取待识别音频数据和待识别音频数据对应的视频数据，所述待识别音频数据对应的视频数据包括连续多帧嘴部区域图像；将各嘴部区域图像输入到关键点检测网络中，得到各嘴部区域图像对应的嘴部区域关键点信息图；根据所述嘴部区域关键点信息图，得到各嘴部区域图像对应的特征向量；根据所述各嘴部区域图像对应的特征向量，得到视频数据对应的文字序列；利用语言学知识判断所述文字序列中各文字是否为混淆字，若是，得到各文字对应的文字混淆集；根据所述文字混淆集，得到各文字对应的文字混淆集中各混淆字的音频数据；根据所述各文字对应的文字混淆集中各混淆字的音频数据，得到待识别音频数据对应的目标音频数据；根据所述目标音频数据，得到待识别音频数据对应的最终文字序列。2.如权利要求1所述的一种教学语音识别优化方法，其特征在于，所述根据所述嘴部区域关键点信息图，得到各嘴部区域图像对应的特征向量的方法，包括：根据所述嘴部区域关键点信息图，得到各嘴部区域图像对应的各嘴部关键点；将所述各嘴部关键点沿着顺时针方向连接，得到各嘴部区域图像对应的六边形和对应六边形内各内角的角度；根据所述各嘴巴区域图像，得到嘴部处于闭合时对应嘴部区域图像对应的六边形和对应的六边形内各内角的角度；根据所述各嘴部区域图像对应的六边形内各内角的角度与嘴部处于闭合时对应的嘴部区域图像对应的六边形内各内角的角度之间的差值的绝对值，得到各嘴部区域图像对应的特征向量。3.如权利要求1所述的一种教学语音识别优化方法，其特征在于，所述根据所述各嘴部区域图像对应的特征向量，得到视频数据对应的文字序列的方法包括：获取标准语速对应的标准视频数据；所述标准视频数据包括连续多帧标准嘴部区域图像；根据各标准嘴部区域图像，得到各标准嘴部区域图像对应的标准特征向量；根据所述各标准嘴部区域图像对应的标准特征向量，得到标准视频数据中单个文字对应的标准特征向量序列的长度；将所述单个文字对应的标准特征向量序列的长度记为单个文字对应的标准长度；根据所述特征向量，得到所述视频数据对应的特征向量序列；根据所述标准特征向量，得到标准视频数据对应的标准特征向量序列；根据所述特征向量序列和所述标准特征向量序列，得到所述视频数据对应的目标特征向量序列；根据所述目标特征向量序列和所述特征向量序列，得到所述目标特征向量序列对应的权重系数序列；根据所述目标特征向量序列对应的权重系数序列和所述标准长度，得到视频数据中各文字对应的权重系数子序列；根据所述标准长度和所述视频数据对应的目标特征向量序列，得到所述视频数据中各文字对应的目标特征向量子序列；对所述各文字对应的目标特征向量子序列和各文字对应权重系数子序列进行合并，得
到各文字对应最终特征向量；将所述各文字对应最终特征向量输入到tcn网络中，得到所述视频数据对应的文字序列。4.如权利要求3所述的一种教学语音识别优化方法，其特征在于，所述根据所述特征向量序列和所述标准特征向量序列，得到所述视频数据对应的目标特征向量序列的方法，包括：计算所述标准特征向量序列中相邻标准特征向量之间的余弦相似度，根据所述相邻标准特征向量之间的余弦相似度，得到标准视频数据对应的余弦相似度序列；选取所述标准视频数据对应的余弦相似度序列中的最大余弦相似度和最小余弦相似度，将所述最小余弦相似度记为第一边界值，将所述最大余弦相似度记为第二边界值；计算所述特征向量序列中相邻特征向量之间的余弦相似度；根据所述相邻特征向量之间的余弦相似度与所述第一边界值和所述第二边界值之间的关系，得到所述视频数据对应的目标特征向量序列。5.如权利要求4所述的一种教学语音识别优化方法，其特征在于，所述根据所述相邻特征向量之间的余弦相似度与所述第一边界值和所述第二边界值之间的关系，得到所述视频数据对应的目标特征向量序列的方法，包括：判断所述相邻特征向量之间的余弦相似度是否小于第一边界值，若是，对所述特征向量序列进行补入向量处理；判断所述相邻特征向量之间的余弦相似度是否大于第二边界值，若是，对所述特征向量序列进行抽出向量处理；将抽出向量处理或补入向量处理之后的特征向量序列记为所述视频数据对应的目标特征向量序列。6.如权利要求5所述的一种教学语音识别优化方法，其特征在于，所述对所述特征向量序列进行补入向量处理的方法，包括：计算小于第一边界值的余弦相似度对应的相邻特征向量的均值向量，将所述均值向量添加到对应的相邻特征向量的中间位置。7.如权利要求5所述的一种教学语音识别优化方法，其特征在于，所述对所述特征向量序列进行补入向量处理的方法，包括：计算小于第一边界值的余弦相似度对应的相邻特征向量的均值向量，将所述均值向量添加到对应的相邻特征向量的中间位置。8.如权利要求3或5所述的一种教学语音识别优化方法，其特征在于，所述根据所述目标特征向量序列和所述特征向量序列，得到所述目标特征向量序列对应的权重系数序列的方法，包括：计算所述特征向量序列中特征向量数量与所述目标特征向量序列中目标特征向量数量之间的差值；根据所述差值和所述目标特征向量序列中目标特征向量数量，得到所补入向量对应的权重系数或者所述抽出向量的相邻目标特征向量对应的权重系数；根据所述权重系数，得到所述目标特征向量序列对应的权重系数序列。9.如权利要求1所述的一种教学语音识别优化方法，其特征在于，所述根据所述文字混
淆集，得到各文字对应的文字混淆集中各混淆字的音频数据的方法，包括：将所述各文字对应的文字混淆集中各混淆字的音频数据替换到待识别音频数据中对应文字的音频数据位置，得到各文字对应的第一音频数据集；计算各第一音频数据集中各第一音频数据对应的隐马尔科夫概率，选取各第一音频数据集中最大隐马尔科夫概率对应的第一音频数据；将所述各第一音频数据集中最大隐马尔科夫概率对应的第一音频数据对应的混淆字的音频数据记为目标音频数据；将各目标音频数据替换到待识别音频数据中原相应的位置，将替换之后的待识别音频数据，记为目标音频数据。10.一种教学语音识别优化系统，包括存储器和处理器，其特征在于，所述处理器执行所述存储器存储的计算机程序，以实现如权利要求1-9任一项所述的一种教学语音识别优化方法。

技术总结
本发明涉及一种教学语音识别优化方法及系统，属于语音识别优化技术领域。方法包括以下步骤：根据嘴部区域关键点信息图，得到各嘴部区域图像对应的特征向量；根据各嘴部区域图像对应的特征向量，得到视频数据对应的文字序列；利用语言学知识判断文字序列中各文字是否为混淆字，若是，得到各文字对应的文字混淆集；根据文字混淆集，得到各文字对应的文字混淆集中各混淆字的音频数据；根据各文字对应的文字混淆集中各混淆字的音频数据，得到待识别音频数据对应的目标音频数据；根据目标音频数据，得到待识别音频数据对应的最终文字序列。本发明能够提高对待识别音频数据的识别效率。明能够提高对待识别音频数据的识别效率。明能够提高对待识别音频数据的识别效率。

技术研发人员：刘丽丽尹霞帖琳娜高地度冉
受保护的技术使用者：河南职业技术学院
技术研发日：2021.12.02
技术公布日：2022/3/4

完整全部详细技术资料下载

当前第2页1 2