基于深度森林算法的高密度表面肌电信号无声语音识别方法

文档序号:45049851发布日期:2026-03-27 23:07阅读:5来源:国知局

本发明属于无声语音识别,具体涉及一种高密度表面肌电信号无声语音识别方法。


背景技术:

1、无声语音识别(silent speech recognition,ssr)技术旨在在无声带发声的情况下获取并解码使用者的语音信息,可应用于安静环境下的私密通信、人机交互以及语言功能障碍人群的辅助沟通等领域。随着可穿戴传感技术和模式识别方法的发展,ssr逐渐成为相关研究和产业开发的重点方向。现有ssr系统可利用多种生理或运动相关信号作为语音的替代载体,包括面部肌电、口腔运动信号、气流变化等。其中,高密度表面肌电图(high-density surface electromyography,hd-semg)因其能够在口周、面部及颈部区域记录发音动作相关肌群的神经肌电活动,被认为是实现准确无声语音识别的关键信号来源。hd-semg通过布置多通道电极阵列,可在较大范围内获取高空间分辨率的肌电信号,从而具备识别复杂音素、词汇甚至短语的潜力,为ssr系统的精细化解码提供了重要基础。

2、然而,现有基于hd-semg的ssr技术仍存在以下问题。首先,高密度电极阵列通常包含数十至数百个通道,导致信号维度高、数据量大,采集和处理流程对存储容量、传输带宽及计算资源提出较高要求。其次,hd-semg信号易受姿态变化、皮肤接触状态、电极位移及肌肉疲劳等因素影响,使得信号稳定性和系统鲁棒性不足。最后,在移动端或可穿戴设备中,现有解码模型普遍存在体量大、功耗高、难以实时运行等问题,限制了其在实际场景中的部署与推广。因此,如何在保证识别准确率的前提下减小模型复杂度、提升抗干扰能力,并适配低功耗、实时性的应用需求,成为hd-semg基于无声语音识别技术亟需解决的核心挑战。围绕电极布置优化、信号预处理方法改进以及高效可解释模型构建等方面的研究,正逐渐成为推动该领域发展的重要方向。

3、近年来,深度学习技术在肌电信号建模领域展现了强大的时空特征提取能力,成为hd-semg无声语音识别的主流技术路线。其中,卷积神经网络(cnn)因能够有效建模不同电极之间的时空关联,被广泛用于提取肌电信号的空间特征[1]。长短期记忆网络(lstm)等序列模型则利用其循环结构捕获发音过程中的时间动态,能够处理较为复杂的语音模式[2]。此外,部分研究将自编码器与卷积或循环结构结合,构建深度混合模型以提升特征表达能力及分类性能。

4、针对高密度电极阵列造成的设备复杂性与高功耗问题,现有研究也提出了多种电极优化策略。典型方法包括顺序前向选择(sequential forward selection, sfs),通过逐步筛选关键通道来减少电极数量,同时保留原有模型的识别能力[3]。与此同时,迁移学习技术也被应用于将高密度阵列的模型迁移至低密度系统,以减少硬件负担、提升系统便携性[4]。

5、此外,为提高 ssr 系统在真实应用环境中的稳定性,研究者在噪声抑制与电极干扰补偿方面进行了多项探索。例如,引入自适应滤波、电极位置补偿算法及信号伪影剔除技术,以减轻环境噪声、电干扰、面部动态运动等因素造成的信号不一致性问题[5]。整体来看,现有方案在模型设计、电极选择和抗干扰方面均取得一定进展,为ssr的发展奠定了坚实基础。

6、尽管深度学习方法在hd-semg无声语音识别领域获得了许多成功案例,但仍存在若干关键问题限制其实际应用。首先,深度神经网络通常依赖大规模模型结构与大量参数,其训练与推理均需要高计算资源。对于高维hd-semg信号而言,采用cnn、lstm等多层深度模型往往会导致高内存占用和高延迟,难以满足移动计算平台的低功耗与实时性需求。其次,现有深度学习模型普遍缺乏可解释性。深度神经网络的内部计算过程高度复杂,难以明确判断某个电极区域或肌群在分类决策中的具体贡献。这种“黑箱式”特征限制了模型在医疗康复、辅助沟通等领域的可信度,也阻碍了进一步基于生理机理优化电极布局或手术规划等应用。再次,尽管已有工作尝试提升系统的抗噪声和抗电极位移能力,但高密度肌电信号在面部、颈部等动态区域中仍极为敏感,背景噪声、电极滑移或皮肤接触变化均可能导致显著的信号偏差。现有模型仍难以在复杂、动态的真实环境中保持持续稳定的识别性能。最后,许多电极优化方法依赖启发式选择或较为局限的评估指标,难以从整体上形成与肌肉解剖结构、肌群激活模式之间的科学联系。因此,现有方法普遍存在理论解释不足、难以形成通用优化方案等问题,未能充分利用hd-semg的生理学价值。

7、关于高密度表面肌电信号无声语音识别,现有研究主要集中在以下三个方面。第一类是基于深度神经网络的肌电特征提取与分类模型,包括cnn、lstm及其混合网络,利用深层结构提取复杂的时空特征,提升无声语音识别的精度。第二类是电极通道的压缩、选择与迁移技术,通过顺序前向选择(sfs)、特征选择或迁移学习等方式减少电极数量,从而降低系统成本与计算负担。第三类是增强模型鲁棒性的信号处理方法,通过滤波、噪声抑制与自适应补偿等手段,解决噪声干扰、电极位移等实际应用中的关键问题。这些现有技术在一定程度上改善了系统性能,提高了识别准确率,并在不同应用场景下取得实证成效。然而,由于核心模型多依赖深度学习框架,其可解释性不足,且在真实环境中仍面临计算负担重、鲁棒性有限、模型固化等不足。

8、参考文献:

9、[1]x. chen, y. xia, y. sun, l. wu, x. chen, x. chen, and x. zhang,“silent speech recognition based on high-density surface electromyogram usinghybrid neural networks,” ieee transactions on human-machine systems, vol. 53,no. 2, pp. 335–345, 2023.

10、[2]x. chen, x. zhang, x. chen, and x. chen, “decoding silent speechbased on high-density surface electromyogram using spatiotemporal neuralnetwork,” ieee transactions on neural systems and rehabilitation engineering,vol. 31, pp. 2069–2078, 2023.

11、[3]m. zhu, h. zhang, x. wang, x. wang, z. yang, c. wang, o. w.samuel, s. chen, and g. li, “towards optimizing electrode configurations forsilent speech recognition based on high-density surface electromyography,”journal of neural engineering, vol. 18, no. 1, p. 016005, 2021.

12、[4]z. deng, x. zhang, x. chen, x. chen, x. chen, and e. yin, “silentspeech recognition based on surface electromyography using a few electrodesites under the guidance from high-density electrode arrays,” ieeetransactions on instrumentation and measurement, vol. 72, pp. 1–11, 2023.

13、[5]m. wand, a. himmelsbach, t. heistermann, m. janke, and t. schultz,“artifact removal algorithm for an emg-based silent speech interface,”in 201335th annual international conference of the ieee engineering in medicine andbiology society (embc), 2013, pp. 5750–5753。


技术实现思路

1、本发明的目的在于提供一种基于深度森林算法的高密度表面肌电信号无声语音识别方法,解决上述的技术问题。

2、本发明提供的基于深度森林算法的高密度表面肌电信号无声语音识别方法,引入可解释性深度森林(deep forest)模型,对 hd-semg 无声语音识别进行建模;其中,深度森林采用级联结构的决策树集成模型,其特征重要性(如基于平均杂质减少mdi的指标)可直接用于解释模型决策来源,从而建立模型输出与肌肉解剖结构之间的联系;本发明利用此特性实现关键肌群的识别与电极贡献度排序,使模型从“黑箱”转变为“可解释体系”;深度森林通过数据驱动方式自动调整模型深度,显著降低模型构建难度;此外,决策树集成模型对噪声与输入扰动具有天然鲁棒性,本发明因此在电极移位、信号伪影与环境噪声等条件下依旧保持较高性能;最后,通过m di排序确定关键电极,确保筛选结果与肌肉生理结构一致。具体步骤为:

3、步骤1:受试者准备

4、记录受试者年龄、性别及语言使用能力等基本信息,以确认其能够顺利完成指定词语或短语的无声发音任务;为保证高密度表面肌电信号采集的质量,对受试者面部、下颌及颈部的电极放置区域进行皮肤预处理,包括清洁皮肤表面、去除油脂并适度降低角质层阻抗,以减少电极-皮肤界面噪声和提升信号稳定性。

5、步骤2:电极布置与信号采集

6、高密度表面肌电电极阵列布置位置:受试者的面部、下颌及颈部区域;

7、按照肌肉区域分布,将多个电极阵列贴附于受试者面部的左、右两侧,以及颈部区域;其中,每个阵列均采用8×8的电极布局,并保持固定的电极间距以保证空间采样均一性;此外,在下颌位布置一块5×13的小间距电极阵列,用于捕获更高分辨率的肌肉活动信号;

8、各电极阵列通过连接线与采集主机进行电气连接;

9、参考电极设置于受试者耳后乳突处,用以提供稳定的公共参考信号;

10、通过布置的电极,实现对面部、下颌和颈部区域肌电信号的全覆盖高密度采集,为后续无声语音识别模型提供高时空分辨率的输入数据。

11、步骤3:实验范式设计

12、设计语音词汇共计54个,见下表;

13、;

14、设计发音,分为两个阶段:可听语音与无声语音两;

15、在可听语音阶段,受试者按照正常语音习惯将屏幕呈现的词语朗读发声;

16、在无声语音阶段,受试者需在不发出任何声音的情况下在内部默念相同词汇,从而仅激活相关发音肌群的运动表征;

17、测试时,词汇随机呈现,并在每个阶段中重复两轮区块测试;每个区块测试由三个“任务—休息”对组合成;其中,一个“任务—休息”对中,语音任务:持续1秒,休息期:间隔1秒;区块间设置休息期:5秒,以降低肌肉疲劳影响。

18、步骤4:hd-semg信号预处理

19、在完成原始信号采集后,对所有hd-semg数据进行预处理,以提升信号质量并确保后续特征提取与模型分析的稳定性;

20、首先,采集到的多通道肌电信号进行滤波处理,并且所述滤波处理均采用前向与反向的零相位八阶滤波结构实现;经过滤波处理的信号具有更高的信噪比和时域保真度,可确保后续时频特征提取、模态融合与分类模型训练的准确性和泛化性能。

21、步骤5:肌电特征提取

22、在完成信号预处理后,对各通道肌电信号进行特征提取,以捕获发音动作对应的关键时域结构特征;

23、本发明参考肌电信号分析领域的典型方法,从每个通道中提取均方根值(rms)、波形长度(wl)、斜率符号变化数(ssc)及过零率(zc)四类常用肌电特征;

24、为满足实时控制需求,采用0.25秒窗口宽度及0.125秒步长的滑动窗口方式对每个试次的0.75秒有效信号进行分段,得到五个重叠的时间窗口,并在每个窗口上计算上述四类特征;

25、最终,对所有特征进行零均值和单位方差归一化处理,以提升跨受试者、跨任务的特征一致性;

26、该步骤为模型提供高维、多时段且质量稳定的输入特征,是后续深度学习与解释分析的关键基础。

27、步骤6:采用深度森林模型进行分类识别

28、本发明构建基于级联结构的深度森林模型,对多通道表面肌电信号进行分类识别;

29、深度森林模型由多层级联的随机森林与全随机森林组成,每一层包含若干由数百棵决策树构成的森林模块;

30、首先,模型以提取得到的多维肌电特征作为输入,通过第一层森林对输入数据进行概率映射,并输出表示各类别分布的增强特征;

31、随后,增强特征与原始特征拼接后作为下一层的输入,使模型在级联过程中不断优化特征表示能力;

32、模型通过在每一层训练结束后对验证集上的分类误差进行评估,当新增层的性能提升未超过预设阈值时自动终止训练,从而实现模型深度的自适应确定,避免过拟合并减少人为超参数调试;

33、深度森林在决策过程中保留决策树的可追溯性,通过在各决策节点上基于基尼指数选择最优划分特征形成自上而下的决策路径。

34、本发明进一步利用基于平均不纯度减少(mean decrease impurity, mdi)的特征贡献度计算方法,量化各特征在整棵森林中的重要性;同时,将来自同一电极的多种特征的重要性进行平均,得到全局电极重要性分布,并据此筛除低贡献电极,从而完成可解释性的通道优化。

35、本方法不仅提升了模型的透明性,能够直接观察模型的决策依据,还可基于肌肉区的重要性实现电极阵列的精简与布局优化,在保持分类性能的同时减少计算量并提高系统的稳健性。

36、本发明引入可解释性深度森林模型,对 hd-semg 无声语音识别进行建模,具有以下显著区别与优势。首先,深度森林采用级联结构的决策树集成模型,其特征重要性(如基于平均杂质减少mdi的指标)可直接用于解释模型决策来源,从而建立模型输出与肌肉解剖结构之间的联系。本发明利用此特性实现了关键肌群的识别与电极贡献度排序,使模型从“黑箱”转变为“可解释体系”。其次,深度森林可通过数据驱动方式自动调整模型深度,无需对网络层数、卷积核数量、隐藏单元等进行大量超参数搜索,显著降低模型构建难度,提高开发效率。相比之下,深度学习模型常需反复调参才能达到较优性能。此外,决策树集成模型对噪声与输入扰动具有天然鲁棒性,本发明因此在电极移位、信号伪影与环境噪声等条件下依旧保持较高性能。这解决了现有ssr系统在复杂场景中性能大幅下降的普遍问题。最后,通过m di排序确定关键电极,本发明能够在保证识别精度的前提下降低电极数量,从而减少硬件负担,提高系统可部署性,并确保筛选结果与肌肉生理结构一致。这种结合解剖学与模型解释的通道优化方式,是现有方法难以实现的。综上,本发明与现有技术相比,在可解释性、鲁棒性、电极优化机制以及计算效率等方面均具有明显优势,能够有效克服hd-semg无声语音识别领域长期存在的关键问题。

37、本发明通过通道优化、深度森林模型设计及其抗干扰策略,实现了高精度、个体化、可解释且鲁棒的无声及可发声语音分类系统,具有显著的技术、社会和经济价值,可直接应用于辅助康复、智能交互及低资源环境下的可穿戴语音识别等领域。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!