本发明属于语音感知,尤其涉及基于毫米波信号非接触式耳机语音感知方法及系统。
背景技术:
1、随着智能移动设备的不断发展,耳机的使用在生活中已经变得非常普遍。然而,耳机中播放的音频会在耳机外表面产生细微的振动,存在潜在的语音泄漏风险。
2、传统的耳机语音感知需要在目标环境中安装特定的声学传感器模块,以捕捉语音信号,此类工作的成本高,在实际场景中往往难以实现。另一类语音感知技术通过手机等智能终端上的非声学传感器、如加速度计、振动电机等感知和恢复声音,这类工作大多需要利用预装的软件或从目标设备预先收集的数据,其要求和假设过强。目前也有一些研究工作通过毫米波信号进行语音感知或重建,但所针对的场景需要能捕捉到明显的语音振动(如语音助手、高音扬声器产生的语音振动),而耳机中播放音频在耳机外表面产生细微的振动过于细微,难以应用此类方法进行感知。
技术实现思路
1、本发明所要解决的技术问题是:提供了基于毫米波信号非接触式耳机语音感知方法及系统,通过毫米波信号和条件生成对抗网络,避免了从预装软件或从目标设备中预先收集的数据,实现了耳机语音内容的非接触式感知。
2、为了实现上述功能,本发明采用如下技术方案:
3、基于毫米波信号非接触式耳机语音感知方法,包括:
4、s1、使用毫米波雷达将调制后的毫米波信号作为发射信号发送到目标耳机,并接收耳机反射的回波信号。
5、s2、将发射信号和回波信号混频后得到中频(if)信号,由于中频信号与行进时间成正比,而行进时间由雷达和反射器之间的距离决定,因此可以通过中频信号的频率计算雷达和反射器之间的距离。
6、s3、在实际场景中,往往存在多个目标反射毫米波信号,导致中频信号产生许多不同的频率分量。为了分离不同的频率分量,需要对中频信号应用快速傅立叶变换,即距离傅里叶变换,在频率域上找到目标对应峰值,从而实现目标距离感知。然而,此方法的距离感知分辨率不足,为了以更高的精度估计微小振动位移,需要在获取雷达与反射器之间的距离的基础上,提取目标距离下相位变化,获得微小振动位移变化。
7、s4、此时相对高频的成分信噪比很低,需要增强,因此将步骤s3中获取的相位变化转化到时频谱上,捕获到时频谱中1000hz以下的低频成分,利用dnn(deep neuralnetworks,深度神经网络)增强时频谱中1000hz以上的高频成分,得到信噪比增强的时频谱。
8、s5、目前能够初步恢复出耳机播放的语音信号,但由于其本质是声音信号的一种振动映射,且在声音信号的细节上与人类语音还有所差异,可听性和可懂度较低。因此,为了进一步提升信号的可懂度,提高感知效果,构建条件生成对抗网络模型,使用现有公共语音数据集中的音频合成训练数据,对该模型进行训练。
9、s6、将步骤s4中最终获得的时频谱输入到训练完成的条件生成对抗网络模型中,获得语音细节增强的时频谱,将该时频谱通过傅里叶反变换转化到时域,得到感知的语音信号,完成非接触式耳机语音感知。
10、进一步的,步骤s1中,毫米波信号是从毫米波雷达发射,并通过fmcw(frequencymodulated continuous wave,调频连续波)方式调制。
11、进一步的,步骤s2中,雷达和反射器之间的距离的计算公式为:
12、
13、其中,d表示雷达和反射器之间的距离,δf表示中频信号的频率,s表示设计的线性调频信号频率随时间的变化率。
14、进一步的,步骤s3中,利用快速傅立叶变换获得中频信号的雷达与反射器之间的距离,该距离下中频信号的相位变化可由如下公式获得:
15、
16、其中,x表示中频信号,δφ表示相位变化,im(x)和re(x)分别表示信号的虚部和实部。
17、通过相位变化获得耳机机身由于播放语音音频而造成的微小振动位移,具体公式为:
18、
19、其中,δd表示微小振动位移,λ表示毫米波信号的波长。
20、进一步的,步骤s4中,得到信噪比增强的时频谱包括以下内容:
21、s401、构建dnn网络:dnn网络为10层全连接结构,第1层为输入层,第2-9层为隐藏层,第10层为输出层,隐藏层的激活函数为sigmoid函数,输入层和输出层的激活函数为线性激活函数,损失函数为mmse(minimum mean squared error,最小均方误差)。
22、s402、训练dnn网络:使用受限玻尔兹曼机进行无监督训练,调整数据的分布以强化可学习的特征,训练数据为相位变化的时频谱样本,训练算法为对比散度算法,其学习率为0.0005,训练轮数为100。
23、s403、通过有监督训练,其目标是学习从相位变化的时频谱到真实语音的时频谱之间的映射,训练数据为相位变化的时频谱和真实语音的时频谱,训练算法为反向传播算法,其学习率为0.01,训练轮数为50。
24、得到训练完成的dnn网络。
25、s404、利用短时傅里叶变换,将步骤s3中获取的相位变化转化为时频谱,具体内容为:
26、s4041、将时序信号按顺序平均分为n段,每段m个采样点(m通常为2的指数幂)。
27、s4042、对每段信号做快速傅里叶变换计算,将其从时域转化为频域,信号长度仍为m个点。
28、s4043、将n段频域信号拼接,得到大小为m×n的时频谱。
29、s405、将步骤s404中的时频谱输入到训练完成的dnn模型中,输出高频信噪比增强后的时频谱。
30、s406、通过截至频率为250hz的巴特沃斯滤波器将高频信噪比增强后的时频谱和高频信噪比增强前的原时频谱进行加权整合,获得信噪比增强的时频谱,具体公式为:
31、sr=αso+(1-α)sg
32、其中,sr表示信噪比增强的时频谱,so表示高频信噪比增强前的原时频谱,sh表示高频信噪比增强的时频谱,α表示加权系数。
33、加权系数α由截至频率为250hz的5阶巴特沃斯滤波器决定,具体公式为:
34、
35、其中,f表示频率,α(f)表示加权系数α在频率f时的值。
36、进一步的,步骤s5中,训练条件生成对抗网络模型包括以下子步骤:
37、s501、条件生成对抗网络模型包括一个条件生成器g和一个判别器d,条件生成器g包含四层全连接层,激活函数为leakyrelu;判别器d包含三层全连接层,激活函数为sigmoid。
38、s502、合成训练数据:随机从tsp speech database语音数据集中选取一条语音样本,并将其转化为时频谱z0。
39、s503、设计一个0-20khz线性增加的声波信号,通过耳机进行播放,同时使用毫米波雷达感知耳机播放音频产生的振动信号,其获得的信号响应即为通道频率响应r(f)。
40、s504、将步骤s502中获得的时频谱乘以毫米波信号的通道频率响应,得到理想语音振动的时频谱z1,即z1=z0×r(f)。
41、s505、在步骤s504中时频谱z1上添加正态分布的噪声,其中信号实部添加δr的噪声满足正态分布δr~n(μ1,σ1),μ1和σ1分别为正态分布的均值和标准差,均在[0,1]范围内随机取值;信号虚部添加δi的噪声满足正态分布δi~n(μ2,σ2),μ2和σ2分别为正态分布的均值和标准差,均在[0,1]范围内随机取值;添加噪声后得到一条合成的训练数据z2,即z2=z1+β(δr+jδi),α为噪声系数,在[1,10]范围内随机取值,j为虚数符号。
42、s506、重复步骤s502-s505,直到生成训练数据的数量达到k条,为保证训练效果,k一般为大于1000的正整数。
43、s507、利用步骤s506生成的训练数据对条件生成对抗网络模型进行训练:固定条件生成器g的神经网络的权重参数,使用adam方法训练判别器d,损失函数为mse(meansquared error,均方误差),使得生成器生成的频谱图与真实语音频谱图之间满足maxd v(d,g)。
44、s508、固定判别器d的神经网络的权重参数,使用adam方法训练条件生成器g,损失函数为交叉熵,使得生成器g生成的细节增强的时频谱与真实语音时频谱之间满足ming[maxd v(d,g)]。
45、s509、重复步骤s507-s508,直到条件生成对抗网络模型收敛,训练后的条件生成对抗网络模型表示为:
46、
47、其中,ming maxd v(d,g)表示条件生成对抗网络模型的目标,v(d,g)表示细节增强的时频谱与真实语音频谱图之间的差异,s表示真实语音频谱图,s~pspeech(s)表示s来自真实语音信号数据集speech,d(s)表示判别为真实语音的成功概率,z~pdata(z)表示z来自步骤s4中信噪比增强的时频谱构建的数据集data中的一个样本,g(z)表示细节增强的时频谱,d(g(z))表示判别器判别g(z)为真实语音时频谱的概率。
48、进一步的,步骤s6中,得到感知的语音信号包括以下内容:
49、s601、将步骤s4中获得的信噪比增强的时频谱输入到训练完成的条件生成对抗网络模型中,经过条件生成器g的处理,得到细节增强的时频谱,其接近真实语音的时频谱。
50、s602、利用逆快速傅里叶变换,将细节增强的时频谱转化到时域,得到感知的语音信号,具体公式为:
51、
52、其中,s为时频谱数据,y为反变换得到的感知的语音信号。
53、本发明还提出了基于毫米波信号非接触式耳机语音感知系统,包括
54、回波信号接收模块,用于使用毫米波雷达将调制后的毫米波信号作为发射信号发送到目标耳机,并接收耳机反射的回波信号。
55、距离计算模块,用于将发射信号和回波信号混频后得到中频信号,通过中频信号的频率计算雷达和反射器之间的距离。
56、微小振动位移变化获得模块,用于在获取雷达与反射器之间的距离的基础上,提取目标距离下相位变化,获得微小振动位移变化。
57、信噪比增强的时频谱获得模块,用于将微小振动位移变化获得模块中获取的相位变化转化到时频谱上,捕获到时频谱中1000hz以下的低频成分,利用dnn增强时频谱中1000hz以上的高频成分,得到信噪比增强的时频谱。
58、模型训练模块,用于构建条件生成对抗网络模型,使用现有公共语音数据集中的音频合成训练数据,对该模型进行训练。
59、非接触式耳机语音感知模块,用于将信噪比增强的时频谱获得模块中获得的时频谱输入到训练完成的条件生成对抗网络模型中,获得语音细节增强的时频谱,将该时频谱通过傅里叶反变换转化到时域,得到感知的语音信号,完成非接触式耳机语音感知。
60、本发明采用以上技术方案,与现有技术相比,其显著技术效果如下:
61、本发明能够实现对耳机语音内容的非接触式感知,能够准确恢复目标耳机中播放的语音内容,恢复的语音信号具有较高的可理解程度,并且不受到耳机类型、品牌、款式的限制,也能够适应一定范围的距离(1m以内效果稳定,2m以内也有一定效果)。与现有技术相比,在通过振动感知语音信号的粒度上有显著提升。