本技术涉及语音识别,特别涉及一种语音识别方法、装置、车辆、系统及存储介质。
背景技术:
1、现有语音活动是通过检测音频模态信息来判断是否有人说话。但是,当存在其他语音干扰时,例如,当座舱内有电子设备播放视频时,其中视频中人物的声音则很容易被标记为语音。因此,现有技术中,无法排除其他声源的干扰,无法精确判断是否有真实的交互意图。
技术实现思路
1、本技术提供一种语音识别方法、装置、车辆、系统及存储介质,用以排除其他声源的干扰,提高语音识别的精确度。
2、本技术提供一种语音识别方法,包括:
3、当采集到音频信息时,采集预设位置的视频信息;
4、对采集的视频信息进行识别,以确定所述视频信息中出现的人物口部张开的视频帧;
5、确定与所述出现的人物口部张开的视频帧对应的目标音频帧;
6、生成包含所述目标音频帧的有效音频;
7、对所述有效音频进行语音识别,以得到与所述有效音频对应的识别结果。
8、本技术的有益效果在于:当采集到音频信息时,采集预设位置的视频信息,对采集的视频信息进行识别,以确定所述视频信息中出现的人物口部张开的视频帧,再确定与所述出现的人物口部张开的视频帧对应的目标音频帧,生成包含所述目标音频帧的有效音频,再对所述有效音频进行语音识别,以得到与所述有效音频对应的识别结果,对所述有效音频进行语音识别,以得到与所述有效音频对应的识别结果。本方案通过将音频信息与视频信息结合,进而仅保留了人物口部张开时的音频,排除了其他声源发出语音的干扰,提高了语音识别的精确度。
9、在一个实施例中,所述对采集的视频信息进行识别,以确定所述视频信息中出现的人物口部张开的视频帧,包括:
10、提取所述视频信息中的视频帧;
11、判断所述视频帧中是否出现人脸;
12、当所述视频帧中出现人脸时,确定所述人脸中的口部区域;
13、将所述人脸中的口部区域与预存储的闭口状态的视频帧口部区域进行比对;
14、当所述人脸中的口部区域与所述预存储的闭口状态的视频帧口部区域之间的差异度高于预设差异度时,确定所述视频帧为所述视频信息中出现的人物口部张开的视频帧。
15、在一个实施例中,所述对采集的视频信息进行识别,以确定所述视频信息中出现的人物口部张开的视频帧,包括:
16、将所述视频信息输入训练完成的开口判断模型中;
17、获取所述训练完成的开口判断模型输出的所述视频信息中各个视频帧是否出现人物口部张开的判断结果;
18、根据所述判断结果确定所述视频信息中出现的人物口部张开的视频帧。
19、在一个实施例中,所述训练完成的开口判断模型的创建方法包括:
20、构建开口判断模型;
21、将第一音频帧、与所述第一音频帧对应的第一视频帧以及所述第一音频帧和第一视频帧对应的开闭口标签作为训练集对所述开口判断模型进行训练,以得到训练后的开口判断模型;
22、将第二音频帧、与所述第二音频帧对应的第二视频帧作为测试集输入至训练后的开口判断模型;
23、获取所述训练后的开口判断模型输出的所述测试集对应的开闭口识别结果;
24、将所述测试集对应的开闭口识别结果与所述测试集对应的开闭口标签进行比对;
25、当比对结果表征所述开闭口识别结果与所述测试集对应的开闭口标签的匹配度大于预设匹配度时,确定所述开口判断模型训练完成。
26、在一个实施例中,所述确定与所述出现的人物口部张开的视频帧对应的目标音频帧,包括:
27、当所述视频信息中出现人物口部张开的视频帧时,将音频状态设置为语音态,并将语音态持续过程中采集的音频帧作为与所述出现的人物口部张开的视频帧对应的目标音频帧;
28、在语音态持续过程中,当所述视频信息中出现由开口状态切换为闭口状态的情况时,确定闭口状态的持续时长;
29、当闭口状态的持续时长大于预设时长时,由所述语音态切换为静音态,并将闭口状态之后采集的音频信息执行删除操作。
30、在一个实施例中,所述生成包含所述目标音频帧的有效音频,包括:
31、将同一次语音态下的目标音频帧以及同一组目标音频帧之间的所有音频帧组合为有效音频。
32、在一个实施例中,所述生成包含所述目标音频帧的有效音频,包括:
33、确定相邻目标音频帧之间的帧间隔;
34、确定所述帧间隔小于预设间隔的目标音频帧为同一组目标音频帧;
35、将所述同一组的目标音频帧以及同一组目标音频帧之间的所有音频帧组合为有效音频。
36、在一个实施例中,所述方法还包括:
37、确定帧间隔大于所述预设间隔的目标音频帧为不同组的目标音频帧;
38、对所述不同组目标音频帧之间的音频帧执行删除操作。
39、本技术还提供一种语音识别装置,包括:
40、采集模块,用于当采集到音频信息时,采集预设位置的视频信息;
41、第一识别模块,用于对采集的视频信息进行识别,以确定所述视频信息中出现的人物口部张开的视频帧;
42、确定模块,用于确定与所述出现的人物口部张开的视频帧对应的目标音频帧;
43、生成模块,用于生成包含所述目标音频帧的有效音频;
44、第二识别模块,用于对所述有效音频进行语音识别,以得到与所述有效音频对应的识别结果。
45、在一个实施例中,所述第一识别模块,包括:
46、提取子模块,用于提取所述视频信息中的视频帧;
47、判断子模块,用于判断所述视频帧中是否出现人脸;
48、第一确定子模块,用于当所述视频帧中出现人脸时,确定所述人脸中的口部区域;
49、比对子模块,用于将所述人脸中的口部区域与预存储的闭口状态的视频帧口部区域进行比对;
50、第二确定子模块,用于当所述人脸中的口部区域与所述预存储的闭口状态的视频帧口部区域之间的差异度高于预设差异度时,确定所述视频帧为所述视频信息中出现的人物口部张开的视频帧。
51、在一个实施例中,所述第一识别模块,包括:
52、输入子模块,用于将所述视频信息输入训练完成的开口判断模型中;
53、获取子模块,用于获取所述训练完成的开口判断模型输出的所述视频信息中各个视频帧是否出现人物口部张开的判断结果;
54、第三确定子模块,用于根据所述判断结果确定所述视频信息中出现的人物口部张开的视频帧。
55、在一个实施例中,所述训练完成的开口判断模型的创建方法包括:
56、构建开口判断模型;
57、将第一音频帧、与所述第一音频帧对应的第一视频帧以及所述第一音频帧和第一视频帧对应的开闭口标签作为训练集对所述开口判断模型进行训练,以得到训练后的开口判断模型;
58、将第二音频帧、与所述第二音频帧对应的第二视频帧作为测试集输入至训练后的开口判断模型;
59、获取所述训练后的开口判断模型输出的所述测试集对应的开闭口识别结果;
60、将所述测试集对应的开闭口识别结果与所述测试集对应的开闭口标签进行比对;
61、当比对结果表征所述开闭口识别结果与所述测试集对应的开闭口标签的匹配度大于预设匹配度时,确定所述开口判断模型训练完成。
62、在一个实施例中,所述确定模块,包括:
63、设置子模块,用于当视频信息中出现人物口部张开的视频帧时,将音频状态设置为语音态,并将语音态持续过程中采集的音频帧作为与所述出现的人物口部张开视频帧对应的目标音频帧;
64、第四确定子模块,用于在语音态持续过程中,当所述视频信息中出现由开口状态切换为闭口状态的情况时,确定闭口状态的持续时长;
65、切换子模块,用于当闭口状态的持续时长大于预设时长时,由所述语音态切换为静音态,并将闭口状态之后采集的音频信息执行删除操作。
66、在一个实施例中,所述生成模块,还用于:
67、将同一次语音态下的目标音频帧以及同一组目标音频帧之间的所有音频帧组合为有效音频。
68、在一个实施例中,所述生成模块,包括:
69、第五确定子模块,用于确定相邻目标音频帧之间的帧间隔;
70、第六确定子模块,用于确定所述帧间隔小于预设间隔的目标音频帧为同一组目标音频帧;
71、组合子模块,用于将所述同一组的目标音频帧以及同一组目标音频帧之间的所有音频帧组合为有效音频。
72、在一个实施例中,所述生成模块还包括:
73、第七确定子模块,用于确定帧间隔大于所述预设间隔的目标音频帧为不同组的目标音频帧;
74、删除模块,用于对所述不同组目标音频帧之间的音频帧执行删除操作。
75、本技术还提供一种语音识别系统,包括:
76、至少一个处理器;以及,
77、与所述至少一个处理器通信连接的存储器;其中,
78、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以上述任一实施例所记载的语音识别方法。
79、本技术还提供一种计算机可读存储介质,当存储介质中的指令由语音识别系统对应的处理器执行时,使得语音识别系统能够实现上述任一实施例所记载的语音识别方法。
80、本技术还提供一种车辆,包括:
81、如上述实施例所述的语音识别装置;
82、或者
83、如上述实施例所述的语音识别系统。
84、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
85、下面通过附图和实施例,对本技术的技术方案做进一步的详细描述。