基于语音采集识别的早教终端交互系统的制作方法

文档序号:44661866发布日期:2026-02-13 21:53阅读:9来源:国知局
技术简介:
本发明针对早教终端语音交互存在的声纹授权不精准、语音处理粗放、缺乏动态监测三大问题,提出三级校验机制过滤无效语音,优化幼儿模糊语音识别逻辑,结合声纹特征匹配实现用户精准授权,通过权限等级绑定指令防止越权操作,并构建交互指数量化评估系统性能,实现风险预警与运维保障。
关键词:声纹识别,权限管理

本发明涉及早教终端交互,尤其涉及基于语音采集识别的早教终端交互系统。


背景技术:

1、当前,早教终端设备作为家庭及早教机构辅助幼儿启蒙教育的核心工具,交互方式正从传统按键、触屏向语音交互升级,但常规的语音交互类早教终端仍存在多维度技术短板,难以满足安全、精准、个性化的早教需求,具体问题如下:

2、一方面是缺乏精准的声纹授权机制,无法区分授权用户(如幼儿、家长)与非授权用户,易出现误操作或权限滥用问题,另一方面是语音数据处理粗放,未对语音的时效性、有效性进行分层校验,导致无效语音、失真语音干扰交互准确性,进而降低指令识别效率,同时也无法根据用户身份(幼儿、家长、临时用户)分配差异化操作权限,存在操作安全隐患,缺乏对交互性能的动态监测与反馈机制,以发现识别准确率低、响应时延过长等隐性问题,为此现提出一种解决方案。


技术实现思路

1、本发明的目的在于提供基于语音采集识别的早教终端交互系统,是通过三级校验,过滤无效、失效语音,减少干扰信号对交互的影响,同时针对幼儿模糊语音优化识别逻辑,提升幼儿语音指令的识别精准度,且进一步通过声纹特征提取与授权语音特征库匹配,实现授权用户精准校验,杜绝非授权用户操作,同时为不同用户分配差异化权限,且指令与最低权限等级绑定,避免越权操作,以便精准播放内容,以及基于关键指标分析反馈提前预警性能风险,通过合理化运维保障设备稳定运行,提升用户体验。

2、本发明的目的可以通过以下技术方案实现:基于语音采集识别的早教终端交互系统,包括终端交互中心、语音采集模块、语音处理模块、控制授权模块、语音识别模块、历史体验模块以及内容输出模块;

3、终端交互中心用于存储授权语音特征库和候选语音段;

4、语音采集模块用于采集控制授权对象(如目标幼儿、家长)的语音样本,同时调取预先设置的特征提取算法,基于预先设置的特征提取算法从控制授权对象的语音样本中提取声纹特征,生成授权语音特征库;

5、控制授权模块用于对候选语音段进行声纹-授权测评分析,将得到的提取的声纹特征与授权语音特征库进行匹配分析,得到校验通过或校验不通过结果;

6、当校验通过时,语音识别模块用于对候选语音段进行声纹特征提取和指令-权限匹配分析,将得到的当前权限等级与最低权限等级进行匹配,得到校验失败或通过信号结果;

7、历史体验模块用于对采集的早教交互设备的交互识别数据和交互性能数据进行历史体验反馈分析,对得到的占比值进行判别处理,得到运维信号或常规信号结果。

8、优选的,所述语音处理模块的分析过程如下:

9、t1:实时获取到用户的语音数据,获取到用户的语音数据的语音片段时长,并对语音片段时长进行判别处理,若语音片段时长小于预设语音片段时长阈值,则判定为无效语音,若语音片段时长大于等于预设语音片段时长阈值,则判定为有效语音;

10、t2:当用户的语音数据为有效语音时,则进一步获取到语音数据的信噪比和失真帧占比,并对信噪比和失真帧占比进行判别处理,得到失效语音或样本语音结果。

11、优选的,当用户的语音数据为样本语音时,则对用户的语音数据按预设时长划分为一帧、10ms帧移动进行分帧,计算每帧的短时能量强度,同时调取设定的限定区间:yymax和yymin,若短时能量强度高于yymax,则判定对应帧为强语音,若短时能量强度低于yymin,则判定对应帧为非语音,若短时能量强度位于yymax和yymin之间,则判定对应帧为弱语音;

12、当连续3帧信号为强语音,则标记为语音段起点,得到语音段起点后,若帧为非语音且持续时间≥预设持续时间,标记为语音段终点,提取起点与终点之间的信号作为候选语音段。

13、优选的,所述控制授权模块的分析过程如下:基于预先设置的特征提取算法对用户的候选语音段进行声纹特征提取,将提取的声纹特征与授权语音特征库进行匹配分析,得到校验通过或校验不通过结果。

14、优选的,所述语音识别模块的分析过程如下:

15、基于提取的声纹特征和声纹-权限关联库获取当前控制授权对象的权限等级,若权限等级为临时交互级l2,则获取到当前用户的操作时间,并将操作时间与有效时段进行匹配,得到验证有效或播放提示音“授权时效过期,请调整”;

16、声纹-权限关联库的构建过程:家长完成控制授权对象声纹录入后,为每个声纹分配唯一声纹特征标识,并绑定对应的权限等级。

17、优选的,当验证有效或基础交互级或控制管理级时,将候选语音段输入至预先设置的指令识别模型,输出文本指令;

18、将文本指令与预先设置的指令-权限表进行匹配,输入文本指令所对应的最低权限等级,将当前权限等级与最低权限等级进行匹配,得到通过信号或校验失败结果。

19、优选的,所述历史体验模块的分析过程如下:

20、获取到每日早教交互设备的交互识别数据,交互识别数据包括文本指令识别准确率(文本指令与播放内容正确匹配的比例)和幼儿模糊语音识别率(控制授权对象为幼儿的文本指令的识别准确率);

21、将文本指令识别准确率和幼儿模糊语音识别率与对应的权重系数相乘后的和值设定为交互识别指数;

22、同时获取到每日早教交互设备的交互性能数据,交互性能数据包括指令总响应时延和声纹校验通过率,基于(1-指令总响应时延)×对应的权重系数+声纹校验通过率×对应的权重系数计算得到交互能力指数,对交互识别指数和交互能力指数进行判别处理,得到性能稳定信号或风险信号;

23、基于每日的交互识别指数和交互能力指数的判别处理结果,构建日-结果管理表,基于日-结果管理表获取到早教交互设备连续7日(若连续天数中存在无使用,则将后一日规划至前一日,直至满足连续7日)所对应风险信号的占比值;

24、对占比值进行判别处理,得到常规信号或运维信号结果。

25、本发明的有益效果如下:

26、(1)本发明是通过时长、信噪比、失真帧占比的三级校验,过滤无效、失效语音,减少干扰信号对交互的影响,同时针对幼儿模糊语音优化识别逻辑,结合专属识别率计算,提升幼儿语音指令的识别精准度,适配早教场景核心需求,且进一步通过声纹特征提取与授权语音特征库匹配,实现授权用户精准校验,杜绝非授权用户操作,保障使用安全。

27、(2)本发明还构建声纹-权限关联库,为不同用户分配差异化权限,且指令与最低权限等级绑定,避免越权操作,以便精准播放内容,以及构建交互识别指数与交互能力指数,全面量化识别准确率、响应时延、校验通过率等关键指标,基于关键指标分析反馈提前预警性能风险,通过合理化运维保障设备稳定运行,提升用户体验。


技术特征:

1.基于语音采集识别的早教终端交互系统,其特征在于,包括终端交互中心、语音采集模块、语音处理模块、控制授权模块、语音识别模块、历史体验模块以及内容输出模块;

2.根据权利要求1所述的基于语音采集识别的早教终端交互系统,其特征在于,所述语音处理模块的分析过程如下:

3.根据权利要求2所述的基于语音采集识别的早教终端交互系统,其特征在于,当用户的语音数据为样本语音时,则对用户的语音数据按预设时长划分为一帧、10ms帧移动进行分帧,计算每帧的短时能量强度,同时调取设定的限定区间:yymax和yymin,若短时能量强度高于yymax,则判定对应帧为强语音,若短时能量强度低于yymin,则判定对应帧为非语音,若短时能量强度位于yymax和yymin之间,则判定对应帧为弱语音;

4.根据权利要求1所述的基于语音采集识别的早教终端交互系统,其特征在于,所述控制授权模块的分析过程如下:基于预先设置的特征提取算法对用户的候选语音段进行声纹特征提取,将提取的声纹特征与授权语音特征库进行匹配分析,得到校验通过或校验不通过结果。

5.根据权利要求1所述的基于语音采集识别的早教终端交互系统,其特征在于,所述语音识别模块的分析过程如下:

6.根据权利要求5所述的基于语音采集识别的早教终端交互系统,其特征在于,当验证有效或基础交互级或控制管理级时,将候选语音段输入至预先设置的指令识别模型,输出文本指令;

7.根据权利要求1所述的基于语音采集识别的早教终端交互系统,其特征在于,所述历史体验模块的分析过程如下:


技术总结
本发明涉及早教终端交互技术领域,尤其涉及基于语音采集识别的早教终端交互系统,包括终端交互中心、语音采集模块、语音处理模块、控制授权模块、语音识别模块、历史体验模块以及内容输出模块;本发明是通过时长、信噪比、失真帧占比的三级校验,过滤无效、失效语音,减少干扰信号对交互的影响,同时针对幼儿模糊语音优化识别逻辑,结合专属识别率计算,提升幼儿语音指令的识别精准度,适配早教场景核心需求,且进一步通过声纹特征提取与授权语音特征库匹配,实现授权用户精准校验,杜绝非授权用户操作,保障使用安全,而通过构建声纹‑权限关联库,为不同用户分配差异化权限,且指令与最低权限等级绑定,避免越权操作,以便精准播放内容。

技术研发人员:王文敏,张凌云
受保护的技术使用者:山东同其万疆教育科技有限公司
技术研发日:
技术公布日:2026/2/12
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!