无声唇语识别方法及系统与流程

文档序号:20604386发布日期:2020-05-01 21:56阅读:888来源:国知局
无声唇语识别方法及系统与流程

本发明涉及的是一种信息安全领域的技术,具体是一种基于小型120ghz干涉雷达系统的无声唇语识别方法及系统。



背景技术:

随着与计算机设备的交互变得越来越普遍,交互的趋势是变得更自然和更智能。人们因此开发了各种各样的自然用户交互界面,如触摸屏、注视跟踪、手势识别和语音识别系统,其中语音识别尤受关注,因为它与人们在日常生活中发出命令的方式相似。然而,在一些场合下人们并不方便去使用语音识别,例如应该保持安静的场合,或者希望在公共场合隐私能得到保护的情况。另外,一些人可能会因为疾病而失去发声的能力,他们对语言交流的需求也应该得到重视。因此,无声唇语感知的概念出现了。目前人们也研究了几种进行无声唇语感知的方法。



技术实现要素:

本发明提出一种基于毫米波雷达干涉相位的无声唇语识别方法及系统,并针对现有技术毫米波非线性相位调制中的相位模糊问题,提出一种无声唇语识别方法及系统,具有无需接触、穿透性强、精度高等优点;能够精确追踪唇部的精细位移运动,很好地检测出准确的语音命令。

本发明是通过以下技术方案实现的:

本发明涉及一种无声唇语识别方法,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息。

本发明涉及一种无声唇语识别系统,包括:供电单元、雷达收发机、载波发生单元和中频放大单元,其中:供电单元与其他各单元相连并提供工作电压,雷达收发机输入端可通过开关自主选择与载波发生单元相连或与固定的参考电压相连,雷达收发机输出端与中频放大单元相连并传输i/q信号,中频放大单元与信号输出端相连并传输放大后的i/q信号。

所述的载波为调频连续波,优选为锯齿波。

技术效果

本发明整体解决了通过毫米波雷达干涉相位的测量方法获得唇部多普勒相位模糊问题。

与现有技术相比,本发明能够利用毫米波雷达干涉相位的方法来测量唇部运动引起的多普勒相移,采用120ghz毫米波感知唇语,并定制了包括射频前端、中频、电源管理、信号发射等在内的全集成120ghz毫米波雷达小型化系统,辅以基于相干雷达的相位线性重构算法实现微小嘴唇运动的信号重构。

附图说明

图1为本发明基于短距毫米波雷达传感的无声唇语识别方法示意图;

图2为本发明雷达传感器系统示意图;

图3为实施例中两种不同脉冲重复时间和振幅的锯齿信号示意图;

图4为实施例中频放大器输出的命令短语“cancel”和“up”的i/q信号、i/q信号归一化频谱图

图5为实施例中八个命令短语的i/q信号及位移波形示意图;

图中:(a)“delete”;(b)“left”;(c)“off”;(d)“yes”;(e)“go”;(f)“next”;(g)“stop”;(h)“play”.

图6为实施例中三个命令句子的i/q信号及位移波形示意图;

图中:(a)“buya/7:30/ticket/for/frozen/tonight”;(b)“how’sthe/weather/today”;(c)“textlucyandtellher/thatthehotelfordinner/isbooked”。

具体实施方式

如图2所示,为本实施例涉及的实现上述方法的120ghz毫米波雷达传感系统,它使用了一个元件表面贴片处理的3.24厘米×4.27厘米的双面印刷电路板,并且具有调频连续波(fmcw)和连续波(cw)的两种模式,cw模式和fmcw模式都允许雷达干涉,其中fmcw模式具有测距能力,极大地扩展了感知维度。该传感系统采用siliconradar公司的trx_120_001雷达射频收发器,其频率范围为119.1ghz至125.9ghz,tx功率为-7dbm至1dbm。该系统包括:用于提供5v电压的电源模块及电源管理电路、分别与电源模块相连的芯片形式的雷达收发机、载波发生单元和中频放大单元。

所述的电源模块包括usbtype-c连接器和低压差稳压器(ldo),输出稳定的3.3v电压。

所述的雷达收发机包括:功率放大器(poweramplifier)、低噪声放大器(lna)、正交混频器、多相滤波器、压控振荡器(vco)、封装收发天线(tx/rx)和本地振荡器,其中:功率放大器分别与本地振荡器和发送天线相连并传送发送信号,低噪声放大器的输入端与接收天线相连并传输接收信号,正交混频器与低噪声放大器相连并传输转换至基带的接收信号,多相滤波器与压控振荡器相连,压控振荡器分别与输入电压和本地振荡器相连。

所述的载波发生单元是以三角波发生电路为基础设计的自激振荡电路,利用二极管的单向导电性,可以实现不同的积分路径,该电路包括:同相输入的滞回比较器和积分运算电路,其中:当前向积分的时间常数远大于后向积分的时间常数时,上升沿的斜率与下降沿的斜率差别很大,从而将三角波转化为锯齿波。

所述的自激振荡电路中进一步设有微调电位器用于控制锯齿波的振幅和周期,以实现在参考电压附近的可调扫描。

所述的传感系统中进一步设有与雷达收发机相连的用于提高射频混频器输出的信噪比(snr)水平的中频放大器(ifamplifier)。

如图3所示,为两个锯齿波信号例子,两个不同的波形曲线分别代表不同振幅和脉冲重复时间的锯齿波。120ghz本地振荡器(lo)的四个模拟调谐输入端短路相连,并通过开关选择与cw模式下的固定电压输出端或fmcw模式下的锯齿波输出端相连接,使本地振荡器相应地工作在固定频点或一定的带宽范围内。

如图1所示,本实施例涉及上述系统的无声唇语识别方法,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息。

所述的毫米波信号,即载波为:xc(t)=acos[2πfct+φ(t)],其中:a为振幅,fc为载波频率,为发射器的相位噪声。

所述的反射信号,经转换至基带后得到:其中:ai和aq为i与q信号的振幅,θ为恒定相移,为残余的相位噪声,λ为载波波长,dci和dcq为i与q信号中的直流偏移量。

所述的校正后的信号为:

对于120ghz毫米波,其波长只有2.5mm,这很容易导致相位模糊,因为面部肌肉的运动很可能超过半个波长。这种情况下,它需要进行复杂的相位展开。

所述的基于三角变换的语音相位模糊线性重构是指:依次对校正信号和信号进行微分后再进行积分,从而得到位移信息,具体时域表达式及其离散形式为:在得到无声唇语运动的位移信息后,进一步利用各种信号处理方法,例如:利用传统机器学习中的特征提取方法得到多维特征向量,或者使用深度学习中的卷积神经网络(cnn)来实现优化拟合,以识别不同唇语的特征。

本实施例通过在办公环境下进行效果评价:需将雷达传感器系统与数据采集设备(daq)相连接,以获取实时的i和q信号。为了达到更好的信噪比,雷达传感器被放置在离受试者嘴巴大约5厘米远处。在第一组实验中,测试了20个不同单词的无声唇语命令,包括“yes”、“cancel”、“no”、“play”、“pause”、“search”、“up”、“down”、“left”、“right”、“on”、“off”、“stop”、“go”、“save”、“delete”、“send”、“next”、“enter”和“return”。

如图4(a)和(b)所示,为中频放大器输出的命令短语“cancel”和“up”的i/q信号,以及新算法恢复出的发出无声唇语命令时移动的人脸位移。

如图4(c)和(d)所示,为对应两个命令短语的i/q信号归一化频谱图,阴影区域代表人耳无法感知的部分频率范围,这是因为人只能感知20到20000hz之间的频率。如图所示,一方面雷达传感器系统可以检测到每一个微小的唇部运动,在位移传感中具有较高的精度,另一方面不同的命令对应着不同的相对位移和频谱信息。因此可得,发出每种命令短语的唇语有着自己独特的表征。同样的信号处理过程可以应用于其他命令短语,其中8个命令词的实验结果如图5所示。可以看出,不同的命令词的时域模式是不同的。进一步的处理可以提取出更丰富的特征。基于这些特征,机器学习或模式识别可以用来识别不同的无声唇语。

第二组实验对12个无声唇语命令的句子进行测试,其中3个命令句子的结果如图6所示,其中对应的词语大致标注在了波形旁边。3个命令句子分别为“buya7:30ticketforfrozentonight”、“what’stheweathertoday”和“textlucyandtellherthatthehotelfordinnerisbooked”。结果也表明独特的模式也存在于不同的命令句子中,并且它们不是每个词语模式的简单组合,而是由连读和弱读等说话习惯造成的。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1