1.一种语音处理方法,其特征在于,包括:
获取同步采集的音频信号和视频信号;
从所有视频信号中提取位于所述音频信号的方向上的目标视频信号;
若所述目标视频信号包括发声人员的人脸图像,确定所述发声人员的人脸图像中所述发声人员的唇部状态;
若所述唇部状态表示处于说话状态,对所述音频信号进行增强处理,得到增强音频信号;
对所述增强音频信号进行语音识别。
2.根据权利要求1所述的语音处理方法,其特征在于,所述获取同步采集的音频信号和视频信号,包括:
利用通用串行总线usb获取同步采集的音频信号和视频信号。
3.根据权利要求1所述的语音处理方法,其特征在于,还包括:
若所述唇部状态表示未处于说话状态,滤除所述音频信号。
4.根据权利要求1所述的语音处理方法,其特征在于,确定所述发声人员的唇部状态,包括:
根据所述目标视频信号,确定所述发声人员的唇部动作频率;
根据预设的唇部动作频率与唇部状态的关联关系,确定与所述发声人员的唇部特征相对应的唇部状态。
5.根据权利要求1所述的语音处理方法,其特征在于,对所述音频信号进行增强处理,得到增强音频信号之前,还包括:
基于预设的行为数据库,确定所述发声人员的行为;
确定所述发声人员的行为属于当前业务场景的可语音识别的行为。
6.根据权利要求5所述的语音处理方法,其特征在于,所述确定所述发声人员的行为属于当前业务场景的可语音识别的行为,包括:
将所述发声人员的行为与当前业务场景预设的禁止语音识别的行为进行比对,得到比对结果;
若所述比对结果表示不一致,确定所述发声人员的行为属于当前业务场景的可语音识别的行为。
7.一种语音处理装置,其特征在于,包括:
获取模块,用于获取同步采集的音频信号和视频信号;
提取模块,用于从所述视频信号中提取位于所述音频信号的方向上的目标视频信号;
确定模块,用于若所述目标视频信号包括发声人员的人脸图像,确定所述发声人员的人脸图像中所述发声人员的唇部状态;
处理模块,用于若所述唇部状态表示处于说话状态,对所述音频信号进行增强处理,得到增强音频信号;
识别模块,用于对所述增强音频信号进行语音识别。
8.一种语音处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的语音处理方法。
9.一种语音处理系统,其特征在于,包括语音采集设备、视频采集设备和如权利要求8所述的语音处理设备;
所述语音采集设备和所述视频采集设备分别与所述语音处理设备相连;
所述语音采集设备用于采集音频信号;
所述视频采集设备用于采集视频信号;
所述语音处理设备用于实现如权利要求1至6任意一项所述的语音处理方法。
10.根据权利要求9所述的语音处理系统,其特征在于,所述语音采集设备设置有麦克阵列。