一种基于毫米波雷达的非视距路径语音识别方法及系统

文档序号：33419270发布日期：2023-03-10 23:16阅读：133来源：国知局

1.本发明涉及语音识别技术领域，尤其涉及一种基于毫米波雷达的非视距路径语音识别方法及系统。

背景技术：

2.毫米波感知技术是一种通过收集和分析反射的毫米波信号来感知物体的重要技术。毫米波作为一种传感介质，由于其短波长和高空间分辨率，近年来受到了广泛的关注。应用范围从微运动测量、运动和活动传感、材料识别、环境传感、热波、铁磁标签等。
3.利用超高频，毫米波感知可以实现毫米级甚至亚毫米级的微小位移测量。mtrack利用基于信号相位的模型实现毫米级跟踪精度。mmvib引入多信号合并模型，以实现亚毫米级振动测量误差。这些工作证明了毫米波测量微小位移的能力，可用于语音感知。
4.基于毫米波的传感在支持智能人机交互(如语音识别)方面具有巨大潜力。传统解决方案使用麦克风收集声音，然后分析声音中包含的人声。在嘈杂的环境中，它们的性能会显著降低。由于毫米波信号的超高频和高空间分辨率，可以从雷达视场的近喉部区域提取语音相关振动信号。通过分析这些振动信号可以实现语音识别。waveear将毫米波信号发射至近喉部区域，以感知声音振动并恢复声音。vocalprint利用毫米波感知来保留细粒度的语音生物特征属性并实现语音认证。radiomic实现了基于声源微小振动的稳健声音检测和高保真声音恢复的无训练方法。wavoice利用多模态信号(毫米波信号和音频信号)融合，实现准确的语音识别。它们都通过分析声源的振动信号来感知声音，这需要声源(如人的喉咙)和雷达之间的视距路径。当视线路径随着人的位置和姿势的改变而消失时，这些工作就不能很好地工作。这个问题也存在于其他基于毫米波的人体感知工作中。无论是定位和跟踪人体的位置和姿势，还是感应人体的生命信号，如呼吸和心振图，都必须通过视距路径感应人体。如何在非视距场景中实现毫米波感知仍然是一个尚未解决的问题

技术实现要素：

5.本发明提供一种基于毫米波雷达的非视距路径语音识别方法及系统，用以解决现有非视距语音识别不准确的缺陷，实现在非视距路径下通过毫米波雷达准确识别语音。
6.本发明提供一种基于毫米波雷达的非视距路径语音识别方法，包括：
7.获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
8.基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
9.从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
10.通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
11.其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
12.根据本发明提供的一种基于毫米波雷达的非视距路径语音识别方法，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的，具体包括：
13.通过毫米波雷达扫描环境，获取设定范围内所有位置的信号强度，生成距离角谱；
14.基于所述距离角谱通过预设的恒虚警率算法检测环境噪声中的目标，生成恒虚警率结果；
15.通过预设的聚类算法所述恒虚警率结果进行聚类运算，获取目标人体位置。
16.根据本发明提供的一种基于毫米波雷达的非视距路径语音识别方法，所述获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象，具体包括：
17.根据目标人体的位置信息，计算毫米波雷达相邻两帧扫描结果中对每一个物体之间的杰卡德相似系数；
18.通过所述杰卡德相似系数衡量两个相邻扫描结果中聚类位置的相似性，构建二部图获得轨迹信息；
19.基于所述轨迹信息通过预设的库恩-曼克尔斯算法计算出方差最大的轨迹为人体移动轨迹；
20.基于人体移动轨迹，确定当前人体所在位置设定范围内的静态对象，选择多个高信号反射强度的对象作为反射体提取反射信号。
21.根据本发明提供的一种基于毫米波雷达的非视距路径语音识别方法，所述基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量，具体包括：
22.从选择的多个反射体中提取由毫米波雷达发出并经过反射体反射的毫米波信号；
23.通过预设的自适应波束形成算法对所述反射的毫米波信号进行公共分量提取；
24.通过预设的细粒度带通滤波器对所有反射的毫米波信号保留相关频带上的信号，确定公共频率分量。
25.根据本发明提供的一种基于毫米波雷达的非视距路径语音识别方法，从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图，具体包括：
26.从所述毫米波信号中提取振动信号，将所述振动信号叠加为一个增强信号；
27.以最近的振动信号为基准计算其它信号的放大系数，选择与基准和相应系数最相似的放大信号为最终叠加信号；
28.将所述叠加信号进行归一化和短时傅里叶变换以获得时频频谱图。
29.根据本发明提供的一种基于毫米波雷达的非视距路径语音识别方法，所述通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义，具体包括：
30.所述递归神经网络模型包括：特征编码网络、标签编码网络和联合网络；
31.通过所述特征编码网络从时频频谱图中提取全局相关性特征信息和局部相关性特征信息，利用预设的特征编码器使用卷积子采集层处理输入，并通过多个构象块学习全局相关性捕获局部相关性，将每个位置的上下文相同编码为更高级别表示；
32.所述标签编码网络基于上下文相同编码为更高级别表示，将先前预测的非空白标签转换为向量表示，并在标签编码网络的注意分数中添加掩码操作生成标签编码；
33.所述联合网络将特征编码网络和标签编码网络的输出进行线性相加，计算句子片段词汇表上的概率分布，输出语音含义。
34.本发明还提供一种基于毫米波雷达的非视距路径语音识别系统，包括：
35.物体检测模块，用于获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
36.公共频率分量提取模块，用于基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
37.信号叠加模块，用于从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
38.语音识别模块，用于通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
39.其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
40.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于毫米波雷达的非视距路径语音识别方法。
41.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于毫米波雷达的非视距路径语音识别方法。
42.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于毫米波雷达的非视距路径语音识别方法。
43.本发明提供的一种基于毫米波雷达的非视距路径语音识别方法及系统，通过进行周围物体检测、公共频率分量提取、信号叠加、语音识别，建立基于毫米波雷达的语音识别模型对非视距范围内的语音进行识别，只采集周围物体的振动信号，不需要定位人的喉咙，拓宽了应用场景，能够实现非视距的语音准确识别。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明提供的一种基于毫米波雷达的非视距路径语音识别方法的流程示意图之一；
46.图2是本发明提供的一种基于毫米波雷达的非视距路径语音识别方法的流程示意图之二；
47.图3是本发明提供的一种基于毫米波雷达的非视距路径语音识别方法的流程示意
图之三；
48.图4是本发明提供的一种基于毫米波雷达的非视距路径语音识别方法的流程示意图之四；
49.图5是本发明提供的一种基于毫米波雷达的非视距路径语音识别系统的模块连接示意图；
50.图6是本发明提供的电子设备的结构示意图；
51.图7是本发明提供的递归神经网络模型架构图。
52.附图标记：
53.110：物体检测模块；120：公共频率分量提取模块；130：信号叠加模块；140：语音识别模块；
54.610：处理器；620：通信接口；630：存储器；640：通信总线。
具体实施方式
55.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
56.下面结合图1-图4描述本发明的一种基于毫米波雷达的非视距路径语音识别方法，包括：
57.s100、获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
58.s200、基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
59.s300、从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
60.s400、通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
61.其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
62.本发明中通过毫米波雷达提取振动信号的具体方案为：
63.毫米波雷达通常周期性地发送调频连续波(fmcw)信号来测量目标的距离。发送信号和接收信号之间的频率差对应于信号传播时间，并且可用于计算传播距离。通过混合发送信号和接收信号，可获得如下所示的拍频信号s(t)：
64.s(t)＝αexp[j4π(fc+kt)r(t)/c]
[0065]
其中α表示路径损失，fc和k分别是调频连续波信号的chirp(编码脉冲技术)起始频率和斜率。为了分离从不同范围反射的rx信号分量，对chirp内s(t)的样本执行范围快速傅里叶变换操作(fft操作)，以分离来自不同距离的反射信号。然后在一个特定距离上，这些样本可以形成一个新的反射信号s(t)。反射信号可计算为：
[0066][0067]
其中r(t)表示雷达与目标之间的距离。当物体振动时，距离r(t)可以重写为r(t)＝r0+x(t)，其中r0表示雷达物体距离，x(t)表示物体振动位移。
[0068]
信号s(t)在iq域中显示为一个圆弧。圆弧的相位变化表示雷达目标距离的变化，可通过以下方式获得：
[0069][0070]
其中φn表示第n个样本的相位，x(n)表示雷达目标距离变化。
[0071]
当人类说话时，声带首先振动并产生气流。振动信号可以表示为一系列正弦信号的叠加：
[0072][0073]
这种气流通过由软腭、舌头、鼻腔和口腔组成的声道。声道作为一个复杂的滤波器来校正信号的频谱并产生最终的声音。来自口腔的声音可以表示为：
[0074]
s1(t)＝h1*v1(t)
[0075]
其中h1表示过滤过程，*表示卷积运算。因为周围物体的振动是由声音信号直接激发的。当声音信号到达目标时，可以表示为：
[0076]
s2(t)＝h2*s1(t)
[0077]
其中h2表示声音信号的空中通道响应。由于不同频率上的声音在空气通道中传播时衰减不同，因此h2可以视为作用于声音的复合滤波器。
[0078]
物体周围的声音会导致物体振动。考虑到物体的材料、形状和其他特性会影响声音激发的振动信号，物体的振动信号可以表示为：
[0079]
v2(t)＝h3*(s2(t)+n1(t))＝h3*s2(t)+h3*n1(t)
[0080]
其中h3表示从声音到振动信号的转换过程，n1表示对象周围的环境噪声。
[0081]
当毫米波雷达感应到该振动信号时，接收到的毫米波信号可以表示为：
[0082]
m(t)＝g(v2(t))+n2(t)
[0083]
其中g()已在公式(1)中描述，n2(t)表示信号处理中的随机电磁噪声。
[0084]
结合以上模型，可以得到语音信号s1(t)和毫米波信号m(t)之间的关系：
[0085]
m(t)＝g(h3*(h2*s1(t))+h3*n1(t))+n2(t)
[0086]
语音信号和毫米波信号之间有很强的相关性。语音信号可以通过毫米波信号进行分析。由于表示信号处理的g()是不变的，有三个因素影响接收信号的质量，即语音信号和振动信号之间的频谱失真h3*h2，物体周围的环境噪声n1(t)和毫米波信号处理中的电磁噪声n2(t)。这些因素共同影响信号质量。考虑到噪声环境，信号质量的退化更为严重，必须加以解决。
[0087]
目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的，具体包括：
[0088]
通过毫米波雷达扫描环境，获取设定范围内所有位置的信号强度，生成距离角谱；
[0089]
基于所述距离角谱通过预设的恒虚警率算法检测环境噪声中的目标，生成恒虚警率结果；
[0090]
通过预设的聚类算法所述恒虚警率结果进行聚类运算，获取目标人体位置。
[0091]
本发明中通过定期扫描环境，并获得视野中所有位置的信号强度，即距离角谱。它可以通过应用经典的range fft和接收端波束形成算法来获得。然后将恒虚警率算法应用于距离角谱，以检测这些带有目标的距离-角度区域。恒虚警率是一种标准的自适应算法，用于检测环境噪声中的目标。通过将cfar窗口(恒虚警检测窗口)与信号强度卷积来估计噪声级后，能量高于噪声级的区域将被保留，并被视为带有物体的区域。根据实验结果，当保护单元和训练单元的值都设置为2时，检测结果最好。
[0092]
获得恒虚警率结果后，应用dbscan聚类算法对cfar结果进行聚类。dbscan是一种经典的聚类算法，它不假设聚类的数量和形状，适用于本发明。每个簇中心表示视野中的一个对象，可以表示为：
[0093]
oj：《dj，aj，sj》
[0094]
其中oj表示第j个对象dj、aj和sj分别是第j个物体和雷达之间的距离、第j个物体和雷达之间的角度以及反射信号强度。
[0095]
所述获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象，具体包括：
[0096]
s101、根据目标人体的位置信息，计算毫米波雷达相邻两帧扫描结果中对每一个物体之间的杰卡德相似系数；
[0097]
s102、通过所述杰卡德相似系数衡量两个相邻扫描结果中聚类位置的相似性，构建二部图获得轨迹信息；
[0098]
s103、基于所述轨迹信息通过预设的库恩-曼克尔斯算法计算出方差最大的轨迹为人体移动轨迹；
[0099]
s104、基于人体移动轨迹，确定当前人体所在位置设定范围内的静态对象，选择多个高信号反射强度的对象作为反射体提取反射信号。
[0100]
考虑到人的轨迹比静止物体的轨迹有更多的变化，可以根据这些轨迹的变化来确定人的位置。具体来说，首先计算相邻两帧扫描结果pi和p
i+1
中的每一对物体之间的杰卡德相似系数：
[0101][0102]
其中c
i，j
表示第i次扫描结果pi中的第j个聚类，ni和n
i+1
分别是pi和p
i+1
中的聚类结果数。杰卡德相似系数是一种统计数据，用于衡量样本集的相似性和多样性。在这里，使用它来衡量两个相邻扫描结果中聚类位置的相似性。然后构造一个二部图来获得轨迹。二部图的两个顶点集是两个扫描结果的聚类，顶点之间边的权重为j
j，k
。通过这种建模，将跟踪问题转化为最优匹配问题。使用经典的kuhn-munkres算法(库恩-曼克尔斯算法)来求解，该算法可以找到权重和最大的匹配。这样的匹配可以最大化匹配簇的位置相似性。最优匹配问题的结果中匹配上的聚类将被视为同一对象的轨迹。然后，选择方差最大的轨迹作为人的轨迹。
[0103]
在跟踪人的位置后，尝试在人的位置周围的特定范围(例如1m)内找到静态对象。选择具有最高反射信号强度的三个对象作为反射体，以便进一步提取信号。考虑到人的运动速度有限，将环境检测的更新频率设置为0.5s。通过这种方式可以很好地处理人体的动态性。
[0104]
基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量，具体包括：
[0105]
s201、从选择的多个反射体中提取由毫米波雷达发出并经过反射体反射的毫米波信号；
[0106]
s202、通过预设的自适应波束形成算法对所述反射的毫米波信号进行公共分量提取；
[0107]
s203、通过预设的细粒度带通滤波器对所有反射的毫米波信号保留相关频带上的信号，确定公平频率分量。
[0108]
本发明中选择反射体后，通过接收端波束形成算法从这些静态对象中提取反射信号。然而，这些反射信号不能直接用于测量反射器的振动。例如，初步研究中的振动振幅约为2-5um，反射信号中相应的相位变化约为0.003-0.008rad。这种由微弱振动引起的微小相位变化很容易淹没在电磁噪声中。如果在iq域中观察到反射信号，则在电磁噪声的影响下，这些反射信号形成的圆弧形很容易转化为团状。如果直接提取振动信号，将无法识别对应圆弧，计算的相位变化将完全错误。另一方面，由于希望能够在噪声环境中工作，反射器也会受到环境噪声的影响。如果直接提取振动信号，振动信号中会包含由环境噪声引起的振动分量。
[0109]
为了解决这个问题，进行计算多个反射信号的公共频率分量，这可以用来提高反射信号的信噪比。初步研究表明，声音能够激发周围物体振动的范围是有限的，因此环境噪声通常只影响部分反射体。考虑到所有反射体的振动都包含声音信息，公共成分可以帮助抵抗环境噪声的影响。同时，这些信息可以滤除电磁噪声的影响。
[0110]
基于mvdr算法(mvdr算法是一种基于最大信噪比准则的自适应波束形成算法)设计了通用公共分量提取算法，该算法用于接收端波束形成任务，用于分析来自不同方向的信号是否相关。它的思想和结构自然符合提取常见成分的要求。通过修改它来分析信号是否在不同的频率相关。在原始mvdr算法中，有一个已知的酉矩阵u。u的每个列向量表示一个空间方向。当u被傅里叶矩阵f＝[f
0 f
1 ... f
k-1
]替换时，空间域中mvdr和广义mvdr谱的函数被频域中的函数替换。与原始计算过程类似，在第k个频率单元中计算两个信号xi(n)和xj(n)的交叉波谱为：
[0111][0112]
其中
[0113][0114]
xh表示x的共轭转置。在第k个频率单元中，两个信号x1(n)和x2(n)的相关性为
[0115][0116]
选择一个和一些语音识别任务(例如20毫秒)相似的时间窗口长度，并将mvdr算法应用于每个时间窗口中的每对反射信号。然后，通过将每对的相关性与经验阈值进行比较，可以确定公共分量。然后，对所有反射信号应用细粒度带通滤波器，以保留这些相关频带上的信号。
[0117]
从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图，具体包括：
[0118]
s301、从所述毫米波信号中提取振动信号，将所述振动信号叠加为一个增强信号；
[0119]
s302、以最近的振动信号为基准计算其它信号的放大系数，选择与基准和相应系数最相似的放大信号为最终叠加信号；
[0120]
s303、将所述叠加信号进行归一化和短时傅里叶变换以获得时频频谱图。
[0121]
本发明中通过过滤电磁噪声，可以获得每个反射体的振动。为了进一步抵抗环境噪声的影响，叠加各个反射体的信号以获得最后用于语音识别的时频图。
[0122]
首先从滤波后的反射信号中提取振动信号。反射信号的iq样本形成弧形轨迹，圆弧上采样点的相位变化表示振动信号的位移。为了进一步抵抗低信噪比，在这些iq采样点上执行圆拟合算法。设p＝{pn}，pn∈r2表示iq采样点。圆拟合问题可以描述为计算圆心c和半径r以最小化采样点和圆之间的距离之和：
[0123][0124]
有几种算法可以解决这种非线性最小二乘优化问题。本发明中使用经典的levenberg-marquardt算法(列文伯格-马夸尔特算法)，因为其具有通用性和有效性。
[0125]
一旦确定了圆心和半径，就可以确定圆上采样点的相位φn，并且可以根据等式(2)将其转换为振动信号x(n)。
[0126]
为了进一步抵抗环境噪声的影响，将这些振动信号叠加成一个增强信号。考虑到不同类型的物体在同一声激励下具有不同的振幅，以最近的振动信号为基准来计算其他信号的放大系数。选择与基准和相应系数最相似的放大信号：
[0127][0128]
其中，v1表示最近的振动信号，vi和λi(i＝2，3)表示第i个振动信号及其放大因子，xcorr表示互相关运算。叠加信号vs可以表示为：
[0129][0130]
在获得叠加信号后，对其进行归一化和短时傅里叶变换以获得时频谱图，可以得到增强的信号作为进一步语音识别的输入。
[0131]
通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义，具体包括：
[0132]
所述递归神经网络模型包括：特征编码网络、标签编码网络和联合网络；
[0133]
通过所述特征编码网络从时频频谱图中提取全局相关性特征信息和局部相关性特征信息，利用预设的特征编码器使用卷积子采集层处理输入，并通过多个构象块学习全局相关性捕获局部相关性，将每个位置的上下文相同编码为更高级别表示；
[0134]
所述标签编码网络基于上下文相同编码为更高级别表示，将先前预测的非空白标签转换为向量表示，并在标签编码网络的注意分数中添加掩码操作生成标签编码；
[0135]
所述联合网络将特征编码网络和标签编码网络的输出进行线性相加，计算句子片段词汇表上的概率分布，输出语音含义。
[0136]
本发明中获得由用户声音引起的增强振动信号的时频频谱图，最终任务是识别此类振动信号中包含的语义信息。
[0137]
由于空气信道中的声音衰减和声音振动转换过程中的能量损失，振动信号与语音信号相比存在明显的频谱失真。这种信号失真使得常用的语音信息特征提取技术无法直接使用，如mfcc、小波变换等。因此，本发明设计了一个端到端网络来提取语音相关特征并将其解码为语义信息。
[0138]
如图7所示，本发明采用使用递归神经网络模型(rnn-t)框架进行语音识别，由于rnn-t可以解决振动信号和语义信息的错位问题，因此该模型小且精度高。该识别框架包括三个模块：特征编码网络、标签编码网络和联合网络。特征编码网络能够从输入序列中提取隐藏特征，标签编码网络计算相应的预测编码，为了保留历史预测输出，联合网络将两个编码器的输出线性相加，以计算句子片段词汇表上的概率分布。
[0139]
特征编码网络：从畸变频谱中提取两种特征信息，即全局相关性和局部相关性。前者包含着声音的上下文关系，而后者代表某个字母。特征编码器首先使用卷积子采样层处理输入，该层缩短时间序列长度并融合上下文信息。然后应用多个构象块来学习全局相关性并有效地捕获局部相关性。
[0140]
构象块结合自我注意和卷积运算，分别学习全局相互作用和捕获局部相关性。它包含两个前馈(ffn)模块、一个多头自我注意(mhsa)模块和一个卷积模块。ffn模块用于实现特征转换，增强模型的表示能力。mhsa模块集成了相对正弦位置编码方案，以捕获句子的内部结构和表示以及不同位置的语义和相关性，从而能够抵抗可变输入长度的影响。卷积模块将每个位置的上下文相同地编码为更高级别的表示。
[0141]
标签编码器和联合网络：考虑到语音信息依赖于上下文，引入了标签编码器模块来嵌入先前的输出。首先，嵌入层将先前预测的非空白标签转换为向量表示。然后几个线性层投影嵌入向量，然后是一个自我关注层。同时，为了只访问过去的状态并确保因果关系，在注意分数中添加了掩码操作。
[0142]
联合网络，为了简单和高效，只使用一个具有单个隐层的全连接前馈神经网络和tanh(双曲正切函数)作为激活函数。多通道音频编码器和标签编码器的输出被连接为联合网络的输入。
[0143]
在具体操作过程中，一致性块的数量n
cr
为4，嵌入维度设置为512，前馈子层中隐藏状态的大小为1024。使用adam优化器(自适应矩估计优化器)，adam算法，即一种对随机目标函数执行一阶梯度优化的算法，该算法基于适应性低阶矩估计，对网络进行训练，其中β1＝0.9、β2＝0.98和以及自适应学习速率调度∈＝10-9
。
[0144]
对于正则化，在将其添加到模块输入之前，在构象的每个剩余单元(即每个模块的
输出)中应用dropout。使用dropout的概率为p
drop
＝0.1。将变分噪声作为正则化引入模型。一个权重为1e-6的l2正则化模块被添加到网络中的所有可训练权重中。
[0145]
在一个具体例子中，基于商用毫米波雷达texas instruments iwr1642实现。雷达板上有2个tx天线和4个rx天线。通过一个tx以4.0ghz带宽从77ghz开始发送fmcw信号，所有rx接收反射信号。斜坡结束时间和空闲时间分别设置为80us和20us。在此配置中，慢时间采样率可计算为fmcw信号的频率斜率为49.97mhz/us，雷达的adc采样率为3430khz，因此雷达的最大探测范围为考虑到雷达的视场角约为120
°
。雷达的原始数据由ti dca1000evm数据采集板采集，可保证高速实时传输。
[0146]
参考图5，本发明还公开了一种基于毫米波雷达的非视距路径语音识别系统，包括：
[0147]
物体检测模块110，用于获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
[0148]
公共频率分量提取模块120，用于基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
[0149]
信号叠加模块130，用于从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
[0150]
语音识别模块140，用于通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
[0151]
其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
[0152]
物体检测模块110，通过毫米波雷达扫描环境，获取设定范围内所有位置的信号强度，生成距离角谱；
[0153]
基于所述距离角谱通过预设的恒虚警率算法检测环境噪声中的目标，生成恒虚警率结果；
[0154]
通过预设的聚类算法所述恒虚警率结果进行聚类运算，获取目标人体位置。
[0155]
通过所述杰卡德相似系数衡量两个相邻扫描结果中聚类位置的相似性，构建二部图获得轨迹信息；
[0156]
基于所述轨迹信息通过预设的库恩-曼克尔斯算法计算出方差最大的轨迹为人体移动轨迹；
[0157]
基于人体移动轨迹，确定当前人体所在位置设定范围内的静态对象，选择多个高信号反射强度的对象作为反射体提取反射信号。
[0158]
公共频率分量提取模块120，从选择的多个反射体中提取由毫米波雷达发出并经过反射体反射的毫米波信号；
[0159]
通过预设的自适应波束形成算法对所述反射的毫米波信号进行公共分量提取；
[0160]
通过预设的细粒度带通滤波器对所有反射的毫米波信号保留相关频带上的信号，确定公平频率分量。
[0161]
信号叠加模块130，从所述毫米波信号中提取振动信号，将所述振动信号叠加为一个增强信号；
[0162]
以最近的振动信号为基准计算其它信号的放大系数，选择与基准和相应系数最相似的放大信号为最终叠加信号；
[0163]
将所述叠加信号进行归一化和短时傅里叶变换以获得时频频谱图。
[0164]
语音识别模块140，通过所述特征编码网络从时频频谱图中提取全局相关性特征信息和局部相关性特征信息，利用预设的特征编码器使用卷积子采集层处理输入，并通过多个构象块学习全局相关性捕获局部相关性，将每个位置的上下文相同编码为更高级别表示；
[0165]
所述标签编码网络基于上下文相同编码为更高级别表示，将先前预测的非空白标签转换为向量表示，并在标签编码网络的注意分数中添加掩码操作生成标签编码；
[0166]
所述联合网络将特征编码网络和标签编码网络的输出进行线性相加，计算句子片段词汇表上的概率分布，输出语音含义。
[0167]
本发明提供的一种基于毫米波雷达的非视距路径语音识别系统，通过进行周围物体检测、公共频率分量提取、信号叠加、语音识别，建立基于毫米波雷达的语音识别模型对非视距范围内的语音进行识别，只采集周围物体的振动信号，不需要定位人的喉咙，拓宽了应用场景，能够实现非视距的语音准确识别。
[0168]
图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行一种基于毫米波雷达的非视距路径语音识别方法，该方法包括：获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
[0169]
基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
[0170]
从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
[0171]
通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
[0172]
其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
[0173]
此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0174]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种基于毫米波雷达的非视距路径语音识别方法，该方法包括：获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
[0175]
基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
[0176]
从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
[0177]
通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
[0178]
其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
[0179]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于毫米波雷达的非视距路径语音识别方法，该方法包括：获取目标人体的位置，根据目标人体的位置通过预设的最大似然估计算法区分人体移动轨迹，基于所述人体移动轨迹在设定范围内确定静态对象；
[0180]
基于所述静态对象提取由毫米波雷达发出并经过静态对象反射的毫米波信号，通过预设的自适应波束形成算法和细粒度带通滤波器提取毫米波信号的公共频率分量；
[0181]
从所述毫米波信号中提取振动信号，并基于毫米波信号的公共频率分量将所述振动行进行叠加，生成时频频谱图；
[0182]
通过预设的递归神经网络模型对所述时频频谱图进行语音识别，解析出语音含义；
[0183]
其中，所述目标人体的位置是通过毫米波雷达扫描并经过恒虚警率算法和聚类算法运算获取的。
[0184]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0185]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0186]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可
以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何源周一念张佳席瑞李帅郭俊辰
技术所有人：清华大学
我是此专利的发明人

上一篇：一种可折叠低层脚手架的制作方法
下一篇：改进的塑料薄膜印刷机加热装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！