一种教学语音识别优化方法及系统

文档序号:29128058发布日期:2022-03-05 00:41阅读:120来源:国知局
一种教学语音识别优化方法及系统

1.本发明涉及教学语音识别优化技术领域,具体涉及一种教学语音识别优化方法及系统。


背景技术:

2.随着科学技术的进步,多媒体技术被引入到现代教育教学的过程中,改变了课堂教学的形式。将多媒体技术引入到现代教育后可以对教师的教学课程进行录制,并配上对应的文本,方便学生随时进行学习。
3.现有的教学语音识别方法一般是基于人工方式对语音信息进行配字幕,这种基于人工配字幕的方式需要耗费大量的精力和时间,对教学语音识别的效率较低。


技术实现要素:

4.本发明提供一种教学语音识别优化方法及系统,用于解决现有识别语音文本效率低的问题,所采用的技术方案具体如下:
5.第一方面,本发明一个实施例提供了一种教学语音识别优化方法及系统包括以下步骤:
6.获取待识别音频数据和待识别音频数据对应的视频数据,所述待识别音频数据对应的视频数据包括连续多帧嘴部区域图像;
7.将各嘴部区域图像输入到关键点检测网络中,得到各嘴部区域图像对应的嘴部区域关键点信息图;根据所述嘴部区域关键点信息图,得到各嘴部区域图像对应的特征向量;
8.根据所述各嘴部区域图像对应的特征向量,得到视频数据对应的文字序列;
9.利用语言学知识判断所述文字序列中各文字是否为混淆字,若是,得到各文字对应的文字混淆集;根据所述文字混淆集,得到各文字对应的文字混淆集中各混淆字的音频数据;根据所述各文字对应的文字混淆集中各混淆字的音频数据,得到待识别音频数据对应的目标音频数据;
10.根据所述目标音频数据,得到待识别音频数据对应的最终文字序列。
11.本发明还提供了一种教学语音识别优化系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述一种教学语音识别优化方法。
12.有益效果:本发明的教学语音识别优化方法属于自动处理的方法,相较于人工对语音信息进行配字幕的方法能提高对待识别音频数据的识别效率;而且本发明通过对视频数据得到的文字序列中的各文字进行混淆字判断,根据文字序列中各文字的判断结果,得到各文字对应的文字混淆集中最大隐马尔科夫概率对应的文字,将最大隐马尔科夫概率对应文字的音频数据替换待识别音频数据中的相应位置,本发明相较于直接将待识别音频数据输入到隐马尔科夫模型中,能够提高对待识别音频数据识别的准确性。
13.优选的,根据所述嘴部区域关键点信息图,得到各嘴部区域图像对应的特征向量的方法,包括:
14.根据所述嘴部区域关键点信息图,得到各嘴部区域图像对应的各嘴部关键点;将所述各嘴部关键点沿着顺时针方向连接,得到各嘴部区域图像对应的六边形和对应六边形内各内角的角度;
15.根据所述各嘴巴区域图像,得到嘴部处于闭合时对应嘴部区域图像对应的六边形和对应的六边形内各内角的角度;
16.根据所述各嘴部区域图像对应的六边形内各内角的角度与嘴部处于闭合时对应的嘴部区域图像对应的六边形内各内角的角度之间的差值的绝对值,得到各嘴部区域图像对应的特征向量。
17.优选的,根据所述各嘴部区域图像对应的特征向量,得到视频数据对应的文字序列的方法包括:
18.获取标准语速对应的标准视频数据;所述标准视频数据包括连续多帧标准嘴部区域图像;
19.根据各标准嘴部区域图像,得到各标准嘴部区域图像对应的标准特征向量;
20.根据所述各标准嘴部区域图像对应的标准特征向量,得到标准视频数据中单个文字对应的标准特征向量序列的长度;将所述单个文字对应的标准特征向量序列的长度记为单个文字对应的标准长度;
21.根据所述特征向量,得到所述视频数据对应的特征向量序列;根据所述标准特征向量,得到标准视频数据对应的标准特征向量序列;
22.根据所述特征向量序列和所述标准特征向量序列,得到所述视频数据对应的目标特征向量序列;
23.根据所述目标特征向量序列和所述特征向量序列,得到所述目标特征向量序列对应的权重系数序列;根据所述目标特征向量序列对应的权重系数序列和所述标准长度,得到视频数据中各文字对应的权重系数子序列;
24.根据所述标准长度和所述视频数据对应的目标特征向量序列,得到所述视频数据中各文字对应的目标特征向量子序列;
25.对所述各文字对应的目标特征向量子序列和各文字对应权重系数子序列进行合并,得到各文字对应最终特征向量;
26.将所述各文字对应最终特征向量输入到tcn网络中,得到所述视频数据对应的文字序列。
27.优选的,根据所述特征向量序列和所述标准特征向量序列,得到所述视频数据对应的目标特征向量序列的方法,包括:
28.计算所述标准特征向量序列中相邻标准特征向量之间的余弦相似度,根据所述相邻标准特征向量之间的余弦相似度,得到标准视频数据对应的余弦相似度序列;选取所述标准视频数据对应的余弦相似度序列中的最大余弦相似度和最小余弦相似度,将所述最小余弦相似度记为第一边界值,将所述最大余弦相似度记为第二边界值;
29.计算所述特征向量序列中相邻特征向量之间的余弦相似度;
30.根据所述相邻特征向量之间的余弦相似度与所述第一边界值和所述第二边界值之间的关系,得到所述视频数据对应的目标特征向量序列。
31.优选的,根据所述相邻特征向量之间的余弦相似度与所述第一边界值和所述第二
边界值之间的关系,得到所述视频数据对应的目标特征向量序列的方法,包括:
32.判断所述相邻特征向量之间的余弦相似度是否小于第一边界值,若是,对所述特征向量序列进行补入向量处理;
33.判断所述相邻特征向量之间的余弦相似度是否大于第二边界值,若是,对所述特征向量序列进行抽出向量处理;
34.将抽出向量处理或补入向量处理之后的特征向量序列记为所述视频数据对应的目标特征向量序列。
35.优选的,对所述特征向量序列进行补入向量处理的方法,包括:
36.计算小于第一边界值的余弦相似度对应的相邻特征向量的均值向量,将所述均值向量添加到对应的相邻特征向量的中间位置。
37.优选的,对所述特征向量序列进行补入向量处理的方法,包括:
38.计算小于第一边界值的余弦相似度对应的相邻特征向量的均值向量,将所述均值向量添加到对应的相邻特征向量的中间位置。
39.优选的,根据所述目标特征向量序列和所述特征向量序列,得到所述目标特征向量序列对应的权重系数序列的方法,包括:
40.计算所述特征向量序列中特征向量数量与所述目标特征向量序列中目标特征向量数量之间的差值;
41.根据所述差值和所述目标特征向量序列中目标特征向量数量,得到所补入向量对应的权重系数或者所述抽出向量的相邻目标特征向量对应的权重系数;
42.根据所述权重系数,得到所述目标特征向量序列对应的权重系数序列。
43.优选的,根据所述文字混淆集,得到各文字对应的文字混淆集中各混淆字的音频数据的方法,包括:
44.将所述各文字对应的文字混淆集中各混淆字的音频数据替换到待识别音频数据中对应文字的音频数据位置,得到各文字对应的第一音频数据集;
45.计算各第一音频数据集中各第一音频数据对应的隐马尔科夫概率,选取各第一音频数据集中最大隐马尔科夫概率对应的第一音频数据;将所述各第一音频数据集中最大隐马尔科夫概率对应的第一音频数据对应的混淆字的音频数据记为目标音频数据;
46.将各目标音频数据替换到待识别音频数据中原相应的位置,将替换之后的待识别音频数据,记为目标音频数据。
附图说明
47.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
48.图1为本发明一种教学语音识别优化方法的流程图。
具体实施方式
49.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其它实施例,都属于本发明实施例保护的范围。
50.除非另有定义,本文所使用的所有的技术和科学技术语与属于本发明的技术人员通常理解的含义相同。
51.本实施例提供了一种教学语音识别优化方法,详细说明如下:
52.如图1所示,该教学语音识别优化方法,包括以下步骤:
53.步骤s001,获取待识别音频数据和待识别音频数据对应的视频数据,所述待识别音频数据对应的视频数据包括连续多帧嘴部区域图像。
54.本实施例中,在教室内布置录音设备,利用录音设备对教师在教学过程中中音频数据进行采集,将采集的教师在教学过程中音频数据记为待识别音频数据;本实施例中,录音设备的布置位置需要根据实际情况设置,以能清晰采集教师在教学过程中音频数据为准。
55.本实施例中,通过监控摄像头采集待识别音频数据对应的视频数据,所述视频数据中包括连续多帧教师在教学过程中的视频图像,所述视频图像是教师教学过程中的正视图,之后利用目标检测算法得到待识别音频数据对应的视频数据对应的教师包围框图像,对得到的教师包围框图像利用语义分割网络,得到仅含待识别音频数据对应的教师在教学过程中连续多帧的嘴部区域图像。
56.本实施例中,采集视频数据对应的教师在教学过程中的视频图像的帧率为0.05s;作为其它的实施方式,也可以根据需求的不同设置其它采集图像的帧率,例如也设置帧率为0.04s;本实施例中,采用目标检测算法为yolov5算法,yolov5算法为现有技术,因此不做具体描述;作为其它的实施方式,也可以根据实际情况利用其它的现有的目标检测算法得到教师在教学过程中音频数据对应的连续多帧图像中的教师包围框。
57.本实施例中,语义分割网络为encoder-decoder结构,语义分割网络通过编码器进行卷积操作提取特征,编码器输出结果为特征图,特征图通过解码器操作,得到嘴部区域图像;语义感知网络的具体训练过程为:获取训练样本集,所述训练样本集包括多帧教师包围框样本图像;将各教师包围框样本图像中嘴部区域的像素点标注为1,其它区域标注为0,将各教师包围框样本图像和标注数据输入至没有训练的语义分割网络网络中,并采用交叉熵损失函数进行进行迭代训练,不断更新网络参数;本实施例中,语义分割网络的具体网络结构和训练过程为现有技术,因此本实施例不做具体描述。
58.步骤s002,将各嘴部区域图像输入到关键点检测网络中,得到各嘴部区域图像对应的嘴部区域关键点信息图;根据所述嘴部区域关键点信息图,得到各嘴部区域图像对应的特征向量。
59.本实施例中,利用关键点检测网络对各嘴部区域图像进行分析,得到各嘴部区域图像对应的特征向量,将得到的特征向量作为后续得到视频图像对应文字序列的基础。
60.本实施例中,关键点检测网络训练过程为:获取训练样本集,所述训练样本集包括多帧嘴部区域样本图像,之后对各嘴部区域样本图像上的嘴部区域的关键点进行标注,得到标注数据;将训练样本集和标注数据输入到没有训练的关键点检测网络中,并采用均方差损失函数进行训练,得到训练好的关键点检测网络。
61.本实施例中,将各嘴部区域图像输入到训练好的关键点检测网络中,所述关键点检测网络为encoder-decoder结构,其中encoder对输入的嘴部区域图像进行卷积和下采样的操作,从而提取嘴部区域图像中的特征获得特征图,decoder对获得的特征图进行上采样操作,得到与输入的嘴部区域图像等大的关键点信息图,所述关键点检测网络输出的结果为高斯热斑;因此之后利用soft argmax函数对各嘴部区域图像对应的嘴部区域关键点高斯热斑图进行处理,得到每一个关键点的坐标信息,即得到各嘴部区域图像对应的嘴部区域关键点信息图;本实施例选定的嘴部区域关键点共6个,上下嘴唇各三个。
62.本实施例中,关键点检测网络的详细结构以及训练的具体过程为公知技术,因此本实施例不做具体描述;本实施例使用的是cpm关键点检测网络来得到各嘴部区域图像对应的嘴部区域关键点信息图;作为其它的实施方式,也可以根据实际情况利用cpn关键点检测网络来得到关键点信息图。
63.本实施例中,根据得到的各嘴部区域图像对应的嘴部区域关键点信息图,得到各嘴部区域图像上对应的各嘴部关键点,选取各嘴部区域图像上对应的各嘴部关键点中的任意一个关键点,将其作为各嘴部区域图像对应的起始关键点,从各嘴部区域图像对应的起始关键点开始沿着顺时针方向依次连接其余关键点,得到各嘴部区域图像对应的六边形,并得到各嘴部区域图像对应六边形内各内角的角度。
64.作为其它的实施方式,也可以根据需求的不同设置其它的得到各嘴部区域图像对应的六边形的方式,例如从各嘴部区域图像对应的起始关键点开始沿着逆时针方向依次连接其余关键点,得到各嘴部区域图像对应的六边形。
65.本实施例中,从各嘴部区域图像中挑选出一帧嘴部处于闭合时的嘴部区域图像,并得到嘴部处于闭合时的嘴部区域图像对应的六边形,以及对应六边形的六个内角的角度;计算各嘴部区域图像对应的六边形内各内角的角度与嘴部处于闭合时的嘴部区域图像对应的六边形内各内角的角度之间的差值的绝对值,即d
i,j
=|θ
i,j-θ
0,j
|,其中,di
,j
为第i个嘴部区域图像对应的六边形内第j个内角的角度与嘴部处于闭合时的嘴部区域图像对应的六边形内第j个内角的角度之间的差值的绝对值,θ
i,j
为第i个嘴部区域图像对应的六边形内第j个内角的角度,θ
0,j
嘴部处于闭合时的嘴部区域图像对应的六边形内第j个内角的角度;将各嘴部区域图像对应的六边形内各内角的角度与嘴部处于闭合时的嘴部区域图像对应的六边形内各内角的角度之间的差值的绝对值记为各嘴部区域图像对应的角度变化向量,由于一个嘴部区域图像对应的六个内角,因此一个嘴部区域图像对应六个角度变化向量,将各嘴部区域图像对应的各角度变化向量构建成各嘴部区域图像对应的特征向量fi=(f
i,1
,

,f
i,6
),其中fi为第i个嘴部区域图像对应的特征向量,f
i,1
为为第i个嘴部区域图像对应的特征向量中的第1个角度变化向量,f
i,6
为为第i个嘴部区域图像对应的特征向量中的第6个角度变化向量。
66.步骤s003,根据所述各嘴部区域图像对应的特征向量,得到视频数据对应的文字序列。
67.本实施例中,通过分析各嘴部区域图像对应的特征向量,得到视频图像对应的文字序列,将视频图像对应的文字序列作为后续得到待识别音频数据对应的目标音频数据的基础。
68.本实施例中,由于不同人语速存在差异,当语速存在差异时会导致各文字对应的
各嘴部区域图像序列的长度不同,即各文字对应的特征向量的长度不同,例如一个人发“我要飞”三个字的音需要1.5s,而有的人需要1s,前者的发音可能会对应30帧嘴部区域图像,后者的发音可能会对应20帧嘴部区域图像,两者发音对应的嘴部区域图像序列的长度不同,而各文字对应的嘴部区域图像序列的长度不同会导致后续对视频数据识别不够准确,因此本实施例需要对不同人对应的特征向量序列进行调整,使各文字对应的特征向量序列的长度与标准语速下的各文字对应的特征向量序列长度相同;人语速过快对应的相邻特征向量之间不太相似,各文字对应的特征向量序列的长度与标准语速下的各文字对应的标准特征向量序列长度相比较短,需要对特征向量序列进行补入向量处理;人语速过慢对应的相邻特征向量之间较相似,各文字对应的特征向量序列的长度与标准语速下的各文字对应的标准特征向量序列长度相比较长,需要对特征向量序列进行抽出向量处理。
69.(a)获得标准特征向量的具体过程为:
70.本实施例中,获取一段标准语速下教师在教学过程中的标准视频数据,所述标准视频数据对应连续帧教师在教学过程中的标准视频图像,之后利用目标检测算法得到标准视频数据对应的教师包围框图像,对得到的教师包围框图像利用语义分割网络,得到仅含待教师在教学过程中连续多帧的标准嘴部区域图像;本实施例中,根据上述获得各嘴部区域图像对应的特征向量的方法,得到各标准嘴部区域图像对应的标准特征向量。
71.(b)根据视频数据对应的特征向量序列和标准视频数据对应的标准特征向量序列,获得视频数据对应的目标特征向量序列的具体过程为:
72.本实施例中,由于在标准语速下对应时间段内所说的文字的数量是确定的,因此根据标准视频数据对应的时间长度和各标准嘴部区域图像对应的标准特征向量,得到标准视频数据中单个文字对应的标准特征向量序列的长度,将所述单个文字对应的标准特征向量序列的长度记为单个文字对应的标准长度,将单个文字对应的标准长度记为h;标准特征向量序列的长度即为标准特征向量序列中包括的标准特征向量的数量。
73.本实施例中,计算标准视频图像对应的标准特征向量序列中相邻标准特征向量之间的余弦相似度,根据相邻标准特征向量之间的余弦相似度,得到标准视频数据对应的余弦相似度序列;选取标准视频数据对应的余弦相似度序列中的最大余弦相似度和最小余弦相似度,将最小余弦相似度记为第一边界值,将最大余弦相似度记为第二边界值。
74.本实施例中,计算特征向量序列中相邻的特征向量之间的余弦相似度;判断特征向量序列中相邻的特征向量之间余弦相似度是否小于第一边界值,若是,对特征向量序列对应相邻的特征向量对应的子序列进行补入向量处理;补入向量处理的具体方法为:计算小于第一边界值的余弦相似度对应的相邻特征向量的均值向量,将均值向量添加到对应的相邻特征向量的中间位置;将补入向量处理之后的特征向量序列记为视频数据对应的目标特征向量序列,将补入向量处理之后特征向量序列中的向量记为目标特征向量。
75.本实施例中,当特征向量序列中相邻的特征向量之间余弦相似度没有出现小于第一边界值的这种情况时,判断特征向量序列中相邻特征向量之间的余弦相似度是否大于第二边界值,若是,对所述特征向量序列对应相邻的特征向量对应的子序列进行抽出向量处理;抽出向量处理的具体方法为:将大于第二边界值的余弦相似度对应的相邻特征向量中的前一个特征向量抽出;将抽出向量处理之后的特征向量序列记为视频数据对应的目标特征向量序列,将抽出向量处理之后特征向量序列中的向量记为目标特征向量。
76.本实施例中,当视频数据对应的特征向量序列中相邻的特征向量之间余弦相似度没有出现小于第一边界值的这种情况时和大于第二边界值时,视频数据对应的为标准语速下的特征向量序列,不对特征向量序列进行处理,将该情况下的特征向量序列记为目标特征向量,将该情况下的特征向量序列中的向量记为目标特征向量。
77.(c)根据视频数据对应的目标特征向量序列和视频数据对应的特征向量序列,得到目标特征向量序列对应的权重系数序列的具体过程为:
78.本实施例中,由于对视频数据对应的特征向量序列进行补入向量处理时可能会对识别结果造成冗余,因此对补入到特征向量序列中的向量设置权重系数,减轻补入向量处理可能会造成的冗余现象;具体为:计算视频数据对应的特征向量序列中特征向量数量与补入向量处理后视频数据对应的目标特征向量序列中目标特征向量数量之间的差值,将所述差值记为视频数据对应的目标特征向量序列中补入向量的数量;根据视频数据对应的目标特征向量序列中补入向量的数量和补入向量处理后视频数据对应的目标特征向量序列中目标特征向量数量,得到视频数据对应的目标特征向量序列中所补入向量对应的权重系数;根据如下公式计算视频数据对应的目标特征向量序列中所补入向量对应的权重系数:
[0079][0080]
其中,w1为视频数据对应的目标特征向量序列中所补入向量对应的权重系数,k1为视频数据对应的目标特征向量序列中补入向量的数量,l1为视频数据对应的目标特征向量序列中目标特征向量的数量,即视频数据对应的目标特征向量序列的长度。
[0081]
本实施例中,视频数据对应的目标特征向量序列中除补入向量外其它向量的权重系数为1;根据视频数据对应的目标特征向量序列中所补入向量对应的权重系数和视频数据对应的目标特征向量序列中除补入向量外其它向量的权重系数,得到补入向量处理情况下的视频数据对应的目标特征向量序列对应的权重系数序列;权重系数序列中权重系数的顺序与目标特征向量序列中目标特征向量的顺序对应。
[0082]
本实施例中,由于对视频数据对应的特征向量序列进行抽出向量处理时可能会对识别结果造成损失,因此对特征向量序列中抽出向量的相邻的向量设置权重系数,减轻抽出向量处理可能会造成的损失现象;具体为:计算视频数据对应的特征向量序列中特征向量数量与抽出向量处理后视频数据对应的目标特征向量序列中目标特征向量数量之间的差值,将所述差值记为视频数据对应的目标特征向量序列中抽出向量的数量;根据视频数据对应的目标特征向量序列中抽出向量的数量和抽出向量处理后视频数据对应的目标特征向量序列中目标特征向量数量,得到视频数据对应的目标特征向量序列中所抽出向量的相邻向量对应的权重系数;根据如下公式计算得到视频数据对应的目标特征向量序列中所抽出向量的相邻向量对应的权重系数:
[0083][0084]
其中,w2为视频数据对应的目标特征向量序列中所抽出向量的相邻向量对应的权重系数,k2为视频数据对应的目标特征向量序列中抽出向量的数量,l2为视频数据对应的目标特征向量序列中目标特征向量的数量,即视频数据对应的目标特征向量序列的长度。
[0085]
本实施例中,视频数据对应的目标特征向量序列中除所抽出向量的相邻向量外其
它向量的权重系数为1;根据视频数据对应的目标特征向量序列中所抽出向量的相邻向量对应的权重系数和除所抽出向量的相邻向量外其它向量的权重系数,得到抽出向量处理情况下的视频数据对应的目标特征向量序列对应的权重系数序列;权重系数序列中权重系数的顺序与目标特征向量序列中目标特征向量的顺序对应;本实施例中,标准语速下的权重系数序列的权重系数都为1。
[0086]
(d)获得视频数据对应的各最终特征向量的具体过程为:
[0087]
本实施例中,以上述得到的单个文字对应的标准长度为基准对得到的视频数据对应的目标特征向量序列进行均匀划分,得到视频数据中各文字对应的目标特征向量子序列;根据视频数据中各文字对应的目标特征向量子序列中的目标特征向量,得到视频数据中各文字对应的权重系数子序列;对各文字对应的目标特征向量子序列和各文字对应权重系数子序列进行合并,将对各文字对应的目标特征向量子序列和各文字对应权重系数子序列进行合并后的结果记为各文字对应的最终特征向量,即视频数据对应的各最终特征向量。
[0088]
本实施例中,将得到的视频数据对应的各最终特征向量输入到tcn网络中,对视频数据对应的各最终特征向量进行卷积,tcn网络中fc层输出最终特征向量对应的文字onehot编码,通过onehot编码实现文字识别,最终得到视频数据对应的文字序列。
[0089]
本实施例中,tcn网络的具体结构以及训练过程为现有技术,因此本实施例不做具体描述。
[0090]
步骤s004,利用语言学知识判断所述文字序列中各文字是否为混淆字,若是,得到各文字对应的文字混淆集;根据所述文字混淆集,得到各文字对应的文字混淆集中各混淆字的音频数据;根据所述各文字对应的文字混淆集中各混淆字的音频数据,得到待识别音频数据对应的目标音频数据。
[0091]
本实施例中,通过对视频数据对应的文字序列中各文字进行分析,得到视频数据对应的文字序列中为混淆字的文字,并得到文字序列中为混淆字的文字对应的文字混淆集,后续将各文字对应的文字混淆集中各混淆字的音频数据作为得到待识别音频数据对应的目标音频数据的基础。
[0092]
本实施例中,利用语言学知识和过往的语音识别结果判断视频数据对应的文字序列中各文字对应的首字母拼音是否出现易于被人们混淆的首字母拼音,如:“n”和“l”“,f”和“h”等,若是,得到对应文字的文字混淆集,例如当文字序列中有一个文字对应的拼音为“nao”,该字对应的文字混淆集为拼音“nao”和“lao”组成的字。
[0093]
本实施例中,根据文字序列中为混淆字的文字对应的文字混淆集中各混淆字的发音信息,得到文字序列中为混淆字的文字对应的文字混淆集中各混淆字对应的音频数据;对步骤s001获取的待识别音频数据进行去噪处理,得到去噪处理后的待识别音频数据,将文字序列中为混淆字的文字对应的文字混淆集中各混淆字的音频数据替换到去噪处理后的待识别音频数据中的对应文字的音频数据位置,得到文字序列中为混淆字的文字对应的第一音频数据集,每个第一音频数据集对应多个第一音频数据,每个第一音频数据集包括的第一音频数据的数量与对应文字混淆集中文字的数量相同;计算各第一音频数据集中各第一音频数据对应的隐马尔科夫概率,选取各第一音频数据集中最大隐马尔科夫概率对应的第一音频数据;将各第一音频数据集中最大隐马尔科夫概率对应的第一音频数据对应的
音频数据记为目标音频数据;将各目标音频数据替换到去噪处理后的待识别音频数据中原相应的位置,将替换之后的去噪处理后的待识别音频数据记为目标音频数据。
[0094]
本实施例中,去噪采用的是lms自适应滤波器,lms自适应滤波器为公知技术,因此本实施例不做具体描述。
[0095]
步骤s005,根据所述目标音频数据,得到待识别音频数据对应的最终文字序列。
[0096]
本实施例中,将上述得到的目标音频数据输入到隐马尔科夫模型中,并用viterbi算法搜索到最佳路径,得到目标音频数据对应的文字序列,将目标音频数据对应的文字序列记为待识别音频数据对应的最终文字序列;本实施例中,隐马尔科夫模型和viterbi算法为现有技术,因此本实施例不做具体描述。
[0097]
有益效果:本实施例的教学语音识别优化方法属于自动处理的方法,相较于人工对语音信息进行配字幕的方法能提高对待识别音频数据的识别效率;而且本实施例通过对视频数据得到的文字序列中的各文字进行混淆字判断,根据文字序列中各文字的判断结果,得到各文字对应的文字混淆集中最大隐马尔科夫概率对应的文字,将最大隐马尔科夫概率对应文字的音频数据替换待识别音频数据中的相应位置,本实施例相较于直接将待识别音频数据输入到隐马尔科夫模型中,能够提高对待识别音频数据识别的准确性。
[0098]
本实施例的基于教学语音识别优化系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述基于教学语音识别优化方法。
[0099]
需要说明的是,上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣,在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1