本发明涉及语音处理,尤其涉及用于防录音检测的语音识别唤醒方法、设备及系统。
背景技术:
1、在当前数字化和智能化的时代背景下,语音识别技术作为人机交互的关键环节,其应用日益广泛,涵盖了智能手机、智能家居、智能安防等多个领域。然而,随着技术的不断进步,语音识别系统也面临着日益严峻的安全挑战,尤其是录音攻击问题。录音攻击指的是通过录制用户的真实语音,再对其进行剪辑、拼接或模仿,以绕过系统的身份验证机制,从而达到非法控制或获取敏感信息的目的,为了有效抵御这种攻击,研发高效、准确的防录音检测技术显得尤为重要。
2、如中国专利公开号cn111524528a公开了防录音检测的语音唤醒方法,包括:当检测到用户的初始语音数据时,启动所述语音唤醒模块,获取初始信号;确定所述初始信号对应的防录音检测策略;通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测;当接收到检测通过的目标指令时,关闭麦克风并启动预设应用。本技术实施例能够根据防录音检测策略控制语音唤醒过程,杜绝利用录音回放来唤醒手机,提高了手机的安全性,以及进行语音唤醒的准确性和智能性,进而大大提升用户体验。
3、现有专利技术中,传统的语音识别系统主要依赖于音频信号的波形特征、频谱特征等进行识别,这些特征虽然在一定程度上能够反映语音的独特性,但面对复杂的录音攻击手段,其识别效果往往不尽如人意。录音攻击者可以通过改变录音环境、调整录音设备的参数、使用高质量的录音设备等方式,使得录制的语音在波形和频谱上与真实语音高度相似,从而欺骗传统的语音识别系统。
技术实现思路
1、本技术提供用于防录音检测的语音识别唤醒方法、设备及系统,通过提取多维度特征,可以更全面地描述和区分不同的声音,提高识别的准确性,时间维度对齐消除了时间差异对识别结果的影响,进一步提高了识别的精度。
2、本技术提供了用于防录音检测的语音识别唤醒方法,包括:
3、s101,采集当前音频,对当前音频中的多维度特征进行提取;
4、s102,基于步骤s101中的提取的多维度特征,设定时间维度,将当前音频与历史真实语音在时间轴上进行对齐;
5、s103,基于对齐的当前音频与历史真实语音,构建多维度特征散点图,根据构建的多维度特征散点图,构建散点环,基于构建的散点环,构建散点环组,收集历史散点环组特征构建历史散点环组特征组合,对历史散点环组特征组合进行训练,基于训练好的历史散点环组特征组合识别模型,基于识别模型构建剪切拼接识别模型;
6、s104,基于将步骤s103生成的对齐后音频的多维度散点图与历史真实语音的多维度散点图进行对比,计算综合相似度;
7、s105,根据计算得到的综合相似度,设定相似度阈值并进行判断是否录音,当综合相似度数值高于设定阈值时,当前唤醒音频是真实的用户声音,反之,是录音。
8、优选地,将当前音频与历史真实语音在时间轴上进行对齐的步骤:创建空的数据结构,提取对齐后音频信号的音色、音调、语速和共振峰等特征采样点;将每个特征采样点的特征值和对应的时间点存储到数据结构中,使用可视化工具绘制数据结构中的数据,x轴表示时间维度,y轴表示特征维度的值,对于每个特征维度,构建一个对应的散点图,将生成的多个散点图进行叠加显示,将多个散点图重叠在同一个坐标系中。
9、优选地,综合相似度=,其中,σ表示求和操作,维度相似度表示在当前维度上计算得到的相似度值,权重表示该维度在综合相似度计算中的贡献程度。
10、优选地,基于多维度特征散点图形成散点环的具体步骤:
11、s201,基于步骤s103中构建的多维度特征的散点图,构建散点环;
12、s202,根据步骤s201得出的散点环,构建散点环组;
13、s203,通过构建的散点环组,计算散点环组的形态特征和相邻散点环关系特征,根据计算得出散点环组的形态特征和相邻散点环关系特征计算散点环组的相似度;
14、s204, 基于计算得出的散点环组相似度,设定散点环组相似度阈值对音频进行判断。
15、优选地,散点环为在特定时间点,将音频的多个特征维度以散点形式表示,并通过连线构成的环形结构,散点环构成方法为使用绘图库进行绘图,设置坐标轴:对于x轴,在周向上设置若干个刻度,每个刻度代表一个特征维度,周向表示每个特征维度是围绕一个点以环形方式排列,x轴形成一个圆周;对于y轴,将所有维度的y轴进行重叠,表示不同特征维度的数据点在同一个垂直空间内表示,y轴的值表示每个特征维度的大小或强度;对于每个时间节点,获取特征维度,提取特征值,对于每个特征维度,通过计算每个特征维度的角度确定该特征维度在x轴上的位置,将同一位置的散点使用连接线按顺序进行连接,形成一个散点环。
16、优选地,通过确定散点环的数量构建散点环组,散点环的数量=音频总时长÷时间节点间隔,其中,音频总时长为采集到的当前音频的总时长,时间节点间隔为采样点之间的时间间隔。
17、优选地,通过散点环组形成新的模型的步骤:
18、s301,收集历史散点环组特征构建历史散点环组特征组合;
19、s302,对历史散点环组特征组合进行训练,基于训练好的历史散点环组特征组合识别模型,基于识别模型构建剪切拼接识别模型;
20、s303,设置模型性能监控机制,根据监控的结果对模型进行优化与更新。
21、优选地,剪切拼接识别模型构建的具体步骤:
22、s401,收集真实剪切拼接录音和未经拼接的真实语音,将收集到的真实剪切拼接录音和未经拼接的真实语音作为训练数据;
23、s402,基于步骤s402中收集的训练数据,对剪切拼接识别模型进行选择和训练;
24、s403,基于训练完成的剪切拼接识别模型对音频进行识别。
25、本技术还提供了防录音检测的语音识别唤醒设备,包括音频采集模块、特征提取与处理单元、散点构建与可视化模块、相似度计算与判断模块、模型识别与优化模块和输出与反馈模块,其中,音频采集模块使用高灵敏度麦克风阵列捕捉周围环境中的声音信号;特征提取与处理单元包括集成深度神经网络处理器和时间维度对齐模块,时间维度对齐模块用于当前音频与历史真实语音在时间轴上进行对齐;散点构建与可视化模块包括数据结构存储单元;输出与反馈模块包括识别结果输出单元和异常事件记录与反馈单元。
26、本技术还提供了防录音检测的语音识别唤醒系统,包括音频采集层、数据处理层、模型识别层、决策与输出层和优化与更新层,其中,音频采集层部署在各类智能设备上的麦克风阵列;数据处理层包括特征提取模块、时间对齐模块和散点图构建模块;模型识别层包括综合相似度计算模块、散点环组识别模块和剪切拼接识别模块;优化与更新层包括模型性能监控模块和模型优化与更新模块,模型性能监控模块实时监控模型的识别性能。
27、本技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:通过提取多维度特征,可以更全面地描述和区分不同的声音,提高识别的准确性,时间维度对齐消除了时间差异对识别结果的影响,进一步提高了识别的精度,综合相似度数值的计算考虑了多个维度的贡献,并根据其重要性进行加权,使得识别结果更加可靠,通过设定相似度阈值,可以有效地区分真实用户声音和录音,降低误识别率;
28、通过形成散点环和散点环组,能够更全面地描述和区分不同的声音特征,特别是对于时间轴的拉长或缩短的音频的识别,环组形态特征和相邻环关系特征的计算,进一步细化了对声音特征的描述,提高了识别的准确性,通过设定环组相似度阈值,并结合实施例一中的散点图的综合相似度进行判断,可以更有效地识别真实用户声音和录音攻击,降低误识别率;
29、通过构建历史散点环组特征组合和散点环组识别模型,能够更快速地识别当前唤醒音频是否真实,特别是对于多段录音的拼接攻击具有更强的识别能力,使得识别结果更加客观和准确,减少了人为判断的主观性,通过设定阈值,可以进一步控制识别的准确性和误识别率,满足实际应用的需求;
30、通过构建剪切拼接识别模型,本技术方案能够更准确地识别出通过剪切拼接方式形成的伪造录音,特别是对于解锁语音等特定语段的拼接攻击具有更强的识别能力,模型识别过程的定量关系使得识别结果更加客观和准确,减少了误识别率,通过设定阈值和参数范围,可以进一步控制识别的准确性和稳定性,满足实际应用的需求。