一种在linux系统记录仪产品上实现语音控制的方法与流程

文档序号：37943930发布日期：2024-05-11 00:25阅读：24来源：国知局

本发明属于语音控制，具体来说，涉及一种在linux系统记录仪产品上实现语音控制的方法。

背景技术：

1、当前行车记录仪对控制系统大多数采用按键或者触摸屏操作方式，大多操作比较繁琐，不够直接，多数情况驾驶者的分心操作会影响行车安全。

2、在申请号为cn201711448653.6的中国公开发明中，公开了一种基于行车记录仪的语音处理方法，设置需要处理的关键词；对车内产生的语音进行录制，判断录制的语音是否出现关键词；如果录制的语音出现关键词，则行车记录仪停止录制或者在录制的同时对包含关键词的语音按照预设方式进行处理后再输出。解决现在行车记录仪录音时不小心把用户的私密内容或者不适当的内容录制而导致用户的信息安全受到威胁以及可能给用户的声誉造成不良的影响的问题。

3、现有专利的缺陷在于，虽然实现了部分个人隐私关键词的屏蔽，但需要预先设定，行车记录仪系统没有屏蔽的关键词也有泄露的风险；缺乏对除指令特征的其它干扰声音的识别，导致行车记录仪系统接收的指令被干扰和指令不清楚的现象产生。

技术实现思路

1、针对现有行车记录仪系统缺乏对除指令特征的其它干扰声音的识别，导致行车记录仪系统接收的指令被干扰和指令不清楚的问题，本发明提供了一种在linux系统记录仪产品上实现语音控制的方法。

2、为实现上述技术目的，本发明采用的技术方案如下：

3、一种在linux系统记录仪产品上实现语音控制的方法，包括步骤：

4、s1、用户开始行车录像，检测是否有效的语音输入；

5、s2、开始语音播报下一步指示；

6、s3、检测是否有效的语音输入，识别特定语音，若为特定语音，则进入步骤s4，若不为特定语音，则结束语音识别，进行下一次语音输入检测；

7、s4、将特定语音转换为pcm语音数据，神经网络对初始的pcm语音数据进行修正及增强操作，对背景噪音进行抑制。

8、进一步地，特定语音具体识别流程步骤包括：

9、s101、将特定语音转换为pcm语音数据；

10、s102、对pcm语音数据进行分帧并提取特征值形成若干特征向量；

11、s103、把若干帧的特征向量值通过声学模型组合成音素；

12、s104、把若干音素通过傅里叶变换算法来转换成二进制文件保存。

13、进一步地，s105、语音数据先预处理过滤掉噪声再转换成pcm数据；

14、s106、每段音素的二进制文件会跟原先已存数据库里面的pcm数据对比；

15、s107、判断跟语音库适配是否成功，成功，则运行匹配的指令，不成功，则识别下一次语音数据。

16、进一步地，通过不同采样率采集包含在语料库中的词汇、语句作为清晰和噪音样本；

17、噪音样本还可包含模拟由于声音的频响失真、中断、音量变化不同问题的数据；

18、数据包含由多人录制的语音样本，并使用数据扩增的方式加快或减慢语速；

19、收集不包含这些指定词汇的语音及背景音等作为负样本用来训练语音特征提取模型。

20、进一步地，语音特征提取模型：

21、训练出一个轻量级的、集语音特征提取、语音分类为一体的特征提取器；

22、一个二分类器，即分类出输入的数据是否属于语料库，从模型的特征层提取输入语音的特征，从而进行特征匹配损失的建立；

23、在该模型训练时，将输入语音的pcm数据转换成梅尔频率倒谱系数并将mfcc特征矩阵的尺寸调整为相同尺寸例如使用双线性插值或最近邻插值使图谱具有相同的宽高；便于神经网络进行特征提取。

24、每个语音应该对应一个标签，该标签值为0和1，0代表语音非语料库中的语音，1代表语音确认为语料库中的语音；

25、使用二分类交叉熵损失函数来训练该模型；

26、该模型训练完毕后，用于得到特征匹配损失，进而辅助训练基于gan的语音修正增强网络。

27、进一步地，语音修正增强网络将语音pcm转为梅尔频率倒谱系数送入网络进行修正增强，并输出修正增强后的梅尔频率倒谱系数，然后再转换成语音pcm；

28、语音修正增强网络的整体流程为：

29、gan网络的生成模型输入为被分类器分类为属于语料库类别的语音音频；

30、模型输入生成模型后，经过模型的编码器和解码器，得到一个经过修正增强的梅尔频率倒谱系数作为输出；

31、将输出结果送入判别器，这时判别器会判断该结果是否为生成器生成；

32、判别器的判别结果将作为对抗损失计入gan的总损失，生成模型的优化方向。

33、进一步地，对抗损失即为二分类交叉熵损失函数，标签则为输入音频是合成还是非合成，该损失定义为ladv；

34、除了对抗损失外，gan第二个损失函数为特征匹配损失，损失来源于语音特征提取模型，损失计算的方式为：计算生成器输出的修正增强后的音频与原音频在通过语音特征提取模型后的特征差异，数学定义为：

35、

36、lfeature＝0(if计算值>0.7)

37、其中，fo为原始音频特征，fg为生成音频特征，如果原始音频特征和生成音频特征的差异度达到0.7以上，则说明在修正增强后，音频所包含的有效信息已被过多的改变，音频被过度增强，需要被约束，因此损失会增大；如果差异度未达到0.7，则忽略该部分损失。

38、进一步地，第三个损失函数为修正增强损失：laugment(x)，laugment的第一部分度量的是log(ac)与log(a)的l1距离，其中ac是干净语音的梅尔频率倒谱系数，a是修正增强语音的梅尔频率倒谱系数；其次是谱收敛损失函数，通过计算预测波形频谱与差异的frobenius范数之比；

39、laugment＝∑||log(arc)-log(ar)||1+lsc(a)

40、其中：

41、

42、最终的损失函数ltotal＝αladv+βlfeature+χlaugment，损失前面的系数为各损失在总损失中的占比，需要根据实际优化效果进行调节。

43、在完成训练后，在对当前流程中的pcm语音进行处理之前，先对pcm语音进行增强，确保pcm语音被修正增强，使得后续更易匹配语料库中实现储存的标准语音数据。

44、本发明相比现有技术，具有如下有益效果：

45、通过语音识别部分有加上背景噪音抑制，回声消除等算法，可以在车上有效的识别普通话比如，“拍照”，“停止录像”，“录像”或者“开始录像”等等语音输入，并控制车机做出相应的动作，解放了双手，无需频繁操作设备，让操作更加简单明了，更安全。

技术特征：

1.一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，特定语音具体识别流程步骤包括：

3.根据权利要求2所述的一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，通过不同采样率采集包含在语料库中的词汇、语句作为清晰和噪音样本；

4.根据权利要求3所述的一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，语音特征提取模型：

5.根据权利要求4所述的一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，语音修正增强网络将语音pcm转为梅尔频率倒谱系数送入网络进行修正增强，并输出修正增强后的梅尔频率倒谱系数，然后再转换成语音pcm；

6.根据权利要求5所述的一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，对抗损失即为二分类交叉熵损失函数，标签则为输入音频是合成还是非合成，该损失定义为ladv；

7.根据权利要求6所述的一种在linux系统记录仪产品上实现语音控制的方法，其特征在于，第三个损失函数为修正增强损失：laugment(x)，laugment的第一部分度量的是log(ac)与log(a)的l1距离，其中ac是干净语音的梅尔频率倒谱系数，a是修正增强语音的梅尔频率倒谱系数；其次是谱收敛损失函数，通过计算预测波形频谱与差异的frobenius范数之比；

技术总结
本发明公开一种在linux系统记录仪产品上实现语音控制的方法，包括步骤：S1、用户开始行车录像，检测是否有效的语音输入；S2、开始语音播报下一步指示；S3、检测是否有效的语音输入，识别特定语音，若为特定语音，则进入步骤S4，若不为特定语音，则结束语音识别，进行下一次语音输入检测；S4、将特定语音转换为PCM语音数据，神经网络对初始的PCM语音数据进行修正及增强操作，对背景噪音进行抑制。本发明通过语音识别部分有加上背景噪音抑制，回声消除等算法，可以在车上有效的识别特定语音。

技术研发人员：张光儒,申啸尘,周有喜,邹春友
受保护的技术使用者：深圳市芯联信息技术有限公司
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张光儒,申啸尘,周有喜,邹春友
技术所有人：深圳市芯联信息技术有限公司
我是此专利的发明人

上一篇：演奏模式设定装置以及分机的制作方法
上一篇：一种准谐振软开关推挽变换器及其工作方法与流程