终端设备的按键识别方法及装置、计算机可读存储介质与流程

文档序号:37116381发布日期:2024-02-22 21:16阅读:86来源:国知局

本发明涉及语音处理,具体而言,涉及一种终端设备的按键识别方法及装置、计算机可读存储介质。


背景技术:

1、inband按键识别是一种用于电话通信系统中的按键识别技术。这种技术用于检测和识别电话键盘上的按键输入信号,通常用于识别电话呼叫中用户所按下的数字、符号或功能键。inband按键识别通常用于检测双音多频信号(dtmf),也就是电话键盘上的按键所产生的声音信号。dtmf信号包括12种不同的音调,分别对应10个数字键(0-9)以及星号(*)和井号(#)。这些信号在电话通话中被传输,以进行不同的操作,例如,拨打电话号码、进行银行交易、选择菜单选项等。

2、inband按键识别系统会分析电话通话中的音频流,以检测并识别传入的dtmf信号。一旦信号被识别,系统可以根据按键的类型执行相应的操作。目前智能语音导航按键使用的是inband的按键识别模式,此按键识别模式在用户按键之后通过声音传递按键内容,由于inband的按键识别接收端通过声音波形识别按键内容,对于语音的稳定性要求较高,但是只要声音在传输过程中有受损(语音不稳定、网络丢包等情况),就会导致按键无法识别,或者识别错误。

3、针对上述相关技术中智能语音导航通过inband的按键识别模式,而inband的按键识别接收端通过声音波形识别按键内容,对于语音的稳定性要求较高,但是只要声音在传输过程中有受损,就会导致按键无法识别,或者识别错误,可靠性较低的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种终端设备的按键识别方法及装置、计算机可读存储介质,以至少解决相关技术中智能语音导航通过inband的按键识别模式,而inband的按键识别接收端通过声音波形识别按键内容,对于语音的稳定性要求较高,但是只要声音在传输过程中有受损,就会导致按键无法识别,或者识别错误,可靠性较低的技术问题。

2、根据本发明实施例的一个方面,提供了一种终端设备的按键识别方法,包括:在检测到作用于目标终端设备的按键的触发操作时,获取所述按键在所述触发操作下的带内按键音频序列;对所述带内按键音频序列进行分类,得到所述带内按键音频序列中的完整音频和受损音频;通过按键识别模型确定所述完整音频对应的第一按键标签,同时通过掩码音频预测模型预测所述受损音频对应的第二按键标签,其中,所述按键识别模型使用多组第一训练数据通过机器学习训练得到,所述掩码音频预测模型使用多组第二训练数据通过机器学习训练得到,所述第一训练数据中的每一组均包括:样本完整音频和与所述样本完整音频对应的样本标签,第二训练数据中的每一组均包括:样本受损音频与所述样本受损音频对应的样本标签;通过按键标签判断模型,确定与所述第一按键标签和所述第二按键标签对应的目标按键标签;根据所述目标按键标签识别得到所述触发操作所作用的目标按键。

3、可选地,对所述带内按键音频序列进行分类,得到所述带内按键音频序列中的完整音频和受损音频,包括:对所述带内按键音频序列进行特征提取,得到所述带内按键音频序列的音频特征,其中,所述音频特征至少包括:声音频率、时域特征、频域特征、声音模式;根据所述音频特征对所述带内按键音频序列进行分类,得到所述带内按键音频序列中的所述完整音频和所述受损音频。

4、可选地,根据所述音频特征对所述带内按键音频序列进行分类,得到所述带内按键音频序列中的所述完整音频和所述受损音频,包括:通过音频特征分类模型,确定与所述音频特征对应的所述完整音频和所述受损音频,其中,所述音频特征分类模型使用多组第三训练数据通过机器学习训练得到,所述第三训练数据中的每一组均包括:样本受损音频片段对应的第一样本音频特征和所述样本受损音频片段,样本完整音频片段对应的第二样本音频特征和所述样本完整音频。

5、可选地,在通过音频特征分类模型,确定与所述音频特征对应的所述完整音频和所述受损音频之前,该终端设备的按键识别方法还包括:获取所述第一样本音频特征和所述第二样本音频特征;对所述第一样本音频特征和所述第二样本音频特征进行标记,得到标记后的所述第一样本音频特征和所述第二样本音频特征;对包括标记后的所述第一样本音频特征和所述第二样本音频特征、所述样本受损音频片段以及所述样本完整音频片段进行训练,得到所述音频特征分类模型。

6、可选地,在通过按键识别模型确定所述完整音频对应的第一按键标签之前,该终端设备的按键识别方法还包括:获取历史时间段内的多段语音样本,其中,所述多段语音样本包括所述终端设备的按键被按下时的声音;为所述多段语音样本分配标签,得到标注后的所述多段语音样本,其中,所述标签用于表示所述多段语音样本对应的按键类型;对包括所述多段语音样本和标注后的所述多段语音样本的所述第一训练数据进行训练,得到所述按键识别模型。

7、可选地,在通过掩码音频预测模型预测所述受损音频对应的第二按键标签之前,该终端设备的按键识别方法还包括:获取样本音频序列;将所述样本音频序列输入到预定模型中,以利用所述预定模型对所述样本音频序列随机选取预定比例的音频进行掩码处理,得到掩码处理后的所述样本音频序列,其中,所述预定模型为rnn模型与ctc模型拼接所得的模型;利用所述预定模型根据掩码处理后的所述样本音频序列的音频特征预测出掩码处理后的所述样本音频序列中的掩码部分对应的音频信息;将所述音频信息与所述掩码处理之前的真实信息进行比对,得到比对结果;在所述比对结果表示所述音频信息与所述真实信息的误差小于误差阈值时,得到所述掩码音频预测模型。

8、根据本发明实施例的另外一个方面,还提供了一种终端设备的按键识别装置,包括:第一获取单元,用于在检测到作用于目标终端设备的按键的触发操作时,获取所述按键在所述触发操作下的带内按键音频序列;分类单元,用于对所述带内按键音频序列进行分类,得到所述带内按键音频序列中的完整音频和受损音频;第一确定单元,用于通过按键识别模型确定所述完整音频对应的第一按键标签,同时通过掩码音频预测模型预测所述受损音频对应的第二按键标签,其中,所述按键识别模型使用多组第一训练数据通过机器学习训练得到,所述掩码音频预测模型使用多组第二训练数据通过机器学习训练得到,所述第一训练数据中的每一组均包括:样本完整音频和与所述样本完整音频对应的样本标签,第二训练数据中的每一组均包括:样本受损音频与所述样本受损音频对应的样本标签;第二确定单元,用于通过按键标签判断模型,确定与所述第一按键标签和所述第二按键标签对应的目标按键标签;识别单元,用于根据所述目标按键标签识别得到所述触发操作所作用的目标按键。

9、可选地,所述分类单元,包括:提取模块,用于对所述带内按键音频序列进行特征提取,得到所述带内按键音频序列的音频特征,其中,所述音频特征至少包括:声音频率、时域特征、频域特征、声音模式;分类模块,用于根据所述音频特征对所述带内按键音频序列进行分类,得到所述带内按键音频序列中的所述完整音频和所述受损音频。

10、可选地,所述分类模块,包括:确定子模块,用于通过音频特征分类模型,确定与所述音频特征对应的所述完整音频和所述受损音频,其中,所述音频特征分类模型使用多组第三训练数据通过机器学习训练得到,所述第三训练数据中的每一组均包括:样本受损音频片段对应的第一样本音频特征和所述样本受损音频片段,样本完整音频片段对应的第二样本音频特征和所述样本完整音频。

11、可选地,该终端设备的按键识别装置还包括:第二获取单元,用于在通过音频特征分类模型,确定与所述音频特征对应的所述完整音频和所述受损音频之前,获取所述第一样本音频特征和所述第二样本音频特征;标记单元,用于对所述第一样本音频特征和所述第二样本音频特征进行标记,得到标记后的所述第一样本音频特征和所述第二样本音频特征;第一训练单元,用于对包括标记后的所述第一样本音频特征和所述第二样本音频特征、所述样本受损音频片段以及所述样本完整音频片段进行训练,得到所述音频特征分类模型。

12、可选地,该终端设备的按键识别装置还包括:第三获取单元,用于在通过按键识别模型确定所述完整音频对应的第一按键标签之前,获取历史时间段内的多段语音样本,其中,所述多段语音样本包括所述终端设备的按键被按下时的声音;分配单元,用于为所述多段语音样本分配标签,得到标注后的所述多段语音样本,其中,所述标签用于表示所述多段语音样本对应的按键类型;第二训练单元,用于对包括所述多段语音样本和标注后的所述多段语音样本的所述第一训练数据进行训练,得到所述按键识别模型。

13、可选地,该终端设备的按键识别装置还包括:第四获取单元,用于在通过掩码音频预测模型预测所述受损音频对应的第二按键标签之前,获取样本音频序列;掩码处理单元,用于将所述样本音频序列输入到预定模型中,以利用所述预定模型对所述样本音频序列随机选取预定比例的音频进行掩码处理,得到掩码处理后的所述样本音频序列,其中,所述预定模型为rnn模型与ctc模型拼接所得的模型;预测单元,用于利用所述预定模型根据掩码处理后的所述样本音频序列的音频特征预测出掩码处理后的所述样本音频序列中的掩码部分对应的音频信息;比对单元,用于将所述音频信息与所述掩码处理之前的真实信息进行比对,得到比对结果;第五获取单元,用于在所述比对结果表示所述音频信息与所述真实信息的误差小于误差阈值时,得到所述掩码音频预测模型。

14、根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的终端设备的按键识别方法。

15、根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的终端设备的按键识别方法。

16、在本发明实施例中,在检测到作用于目标终端设备的按键的触发操作时,获取按键在触发操作下的带内按键音频序列;对带内按键音频序列进行分类,得到带内按键音频序列中的完整音频和受损音频;通过按键识别模型确定完整音频对应的第一按键标签,同时通过掩码音频预测模型预测受损音频对应的第二按键标签,其中,按键识别模型使用多组第一训练数据通过机器学习训练得到,掩码音频预测模型使用多组第二训练数据通过机器学习训练得到,第一训练数据中的每一组均包括:样本完整音频和与样本完整音频对应的样本标签,第二训练数据中的每一组均包括:样本受损音频与样本受损音频对应的样本标签;通过按键标签判断模型,确定与第一按键标签和第二按键标签对应的目标按键标签;根据目标按键标签识别得到触发操作所作用的目标按键。通过本发明上述技术方案,实现了将获取的所有按键在被触发下产生的按键音频序列进行分类后,对受损部分音频通过掩码音频预测方式得到其对应的按键标签,结合未受损音频对应的按键标签一起进行按键识别的目的,达到了提高终端设备按键识别的准确性的技术效果,同时也提高了按键识别的可靠性,进而解决了相关技术中智能语音导航通过inband的按键识别模式,而inband的按键识别接收端通过声音波形识别按键内容,对于语音的稳定性要求较高,但是只要声音在传输过程中有受损,就会导致按键无法识别,或者识别错误,可靠性较低的技术问题。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1