本发明涉及语音识别领域,更具体的说是涉及一种离线会议记录盒子及其语音识别系统。
背景技术:
1、传统的会议记录方式往往难以满足现代快节奏的工作需求。依赖人力进行实时笔记的方式虽然直接且成本较低,但极易受到记录者个人状态的影响。此外,由于个体差异,可能导致重要信息被遗漏或者误解。常见的便携式录音笔等产品虽然能够捕捉整个会议过程中的声音,但它们普遍缺乏将音频转化为文字的能力。随着云计算技术的发展,越来越多的在线服务提供了强大的语音识别及自然语言处理能力,可以帮助用户快速完成从语音到文本的转换。但是,在实际应用中,并非所有场合都具备稳定可靠的互联网接入条件,出于信息安全考虑,往往会限制甚至禁止使用任何形式的外部通信手段。因此,寻找一种既能保证数据安全性又能实现高效办公的方法显得尤为重要。
2、授权公告号为cn110246501b的中国专利公开了用于会议记录的语音识别方法及系统。该方法包括:接收控制端发送的激活指令,根据账户id向第一平台开通云端转写服务权限;在激活成功后,接收到会议开始的指令时,当网络状态没有达到预设网络标准时,进行离线采集,存储至搭载的存储器;响应于收到会议结束的指令停止采集,当网络状态符合预设网络标准时,将会议音频推送至第一平台;接收反馈的会议记录文本,转发至第二平台的推送服务进行多端协作推送,通过多端协作将会议记录文本发送到登录账户id的电子设备中。并且还提供一种用于会议记录的语音识别系统,将声音采集和识别剥离开,避免所连接的网络出现问题时,无法完成识别记录以及断档丢失的问题。
3、尽管现有技术将声音采集和识别剥离开发,避免了由于网络不佳或者当前录音设备没有可以连接的专属的网络而导致的无法完成识别记录或断档丢失的问题;通过添加存储模块,保证有足够的空间进行离线采集;检测网络状态,将离线采集的会议音频尽快的推送到云端识别服务进行识别,尽可能的保证识别效率。它仍未能解决准确、高效地捕捉和识别多个说话人的语音,并降低环境噪声对识别准确性的影响的问题,因此,为了克服这些局限,本发明提出了一种离线会议记录盒子及其语音识别系统。
技术实现思路
1、针对现有技术存在的不足,本发明的目的在于提供一种离线会议记录盒子及其语音识别系统,解决了准确、高效地捕捉和识别多个说话人的语音,并降低环境噪声对识别准确性的影响的问题。
2、为实现上述目的,本发明提供了如下技术方案:
3、一种离线会议记录盒子的语音识别系统,包括语音接收模块、语音处理模块、数据管理模块和交互式模块;
4、语音接收模块用于捕捉来自麦克风阵列的音频信号形成音频数据,基于音频信号的能量值和频率特征,识别出有效音频帧,并计算有效音频帧的综合能量值,以获得静默期长度,根据静默期的持续时间判断是否进行预警反馈,并且,根据音频信号的能量值,动态调整麦克风增益;
5、语音处理模块用于对捕捉到的音频数据进行数据处理,通过对音频数据中原始语音音频信号进行去噪处理、提取音频特征,并通过音频特征的聚类分析进行声纹识别,以获取带有声纹信息标记的音源分离信号;
6、数据管理模块用于根据音源分离信号进行独立语音识别,并组织和管理语音数据,语音数据包括音频数据、日志信息、语音识别模型、语音识别数据;
7、交互式模块用于提供操作界面,根据用户指令输入以使用户通过操作界面查看离线会议记录盒子状态及语音识别结果。
8、具体地,语音接收模块包括音频捕捉单元和音频优化单元;
9、音频捕捉单元内配置有语音检测策略,语音检测策略用于识别环境中的有效语音活动,通过分析音频信号的能量变化和频率特征,判断音频是否包含有效语音内容;
10、音频优化单元内配置有动态调节策略,动态调节策略用于根据会议环境的音频信号的能量值,自动调节麦克风的增益设置。
11、具体地,语音检测策略的具体步骤包括:
12、通过麦克风阵列捕获多通道环境音频信号,检测音频能量变化,计算每帧音频信号的能量值;
13、配置能量阈值,若音频帧能量值超过能量阈值,则判定音频帧包含语音活动,否则判定音频帧不包含语音活动,对包含语音活动的音频帧标记为潜在有效,对不包含语音活动的音频帧标记为潜在无效;
14、获取标记为潜在有效的音频帧的时域信号,并进行频率特征分析,使用快速傅里叶变换分析音频信号的频谱特征,获取音频帧所在的频谱信号;
15、配置频谱阈值,包括频谱上阈值和频谱下阈值,若音频帧所在的频谱信号位于频谱上阈值和频谱下阈值之间,则判定该音频帧所在的频谱信号符合语音频率范围,否则判定该音频帧所在的频谱信号不符合语音频率范围,对符合语音频率范围的音频帧标记为有效,对不符合语音频率范围的音频帧标记为无效。
16、具体地,语音检测策略的具体实施步骤还包括:
17、配置滑动窗口,计算滑动窗口内标记为有效的音频帧的综合能量值,综合能量值计算公式为:
18、;
19、其中,是第帧时滑动窗口内所有标记为有效的音频帧的综合能量值,是滑动窗口的大小,是第帧的滑动窗口中第帧标记为有效的音频帧的能量值,是滑动窗口中标记为有效的音频帧的数量;
20、配置综合阈值与待机阈值,用于判断滑动窗口内音频帧的综合能量状态以及静默期的长度,若滑动窗口的综合能量值小于综合阈值,则判定该滑动窗口处于静默期,否则判定该滑动窗口处于非静默期;持续检测静默期的时间长度,若静默期的时间长度超过待机阈值,则离线会议记录盒子自动进入低功耗模式,并进行预警反馈。
21、具体地,动态调节策略的具体步骤包括:
22、通过分析当前的音频信号的能量值与标准音频信号的能量值的差异,判断当前的环境音量情况,进行增益调节,即:
23、;
24、其中,是第帧的增益,是第帧的音频信号的能量值,是标准音频信号的能量值,是增益最小值,是增益最大值,为增益调节系数,是信噪比调节系数,是第帧的音频信号的信噪比;
25、引入非线性增益调整因子,对增益调整速率进行自适应优化,增益调整速率的计算公式为:
26、;
27、其中,是第帧的增益调整速率,是第帧的增益,是第帧的增益,是增益调整的时间间隔,是增益变化调节系数,是控制增益变化灵敏度的指数。
28、具体地,语音处理模块包括噪声抑制单元和特征提取单元;
29、噪声抑制单元内配置有自适应滤波策略,自适应滤波策略用于实时监测音频信号中的噪声水平,通过动态调整滤波器的参数,去除背景噪声;
30、特征提取单元内配置有深度识别策略,深度识别策略用于对音频信号进行音源分离,并提取音频特征,通过对提取的音频特征进行聚类分析,以及声纹识别,对音频信号中的说话人的聚类与识别。
31、所述自适应滤波策略的具体步骤包括:
32、将麦克风阵列采集到的优化的音频信号组合为一个音频向量信号;
33、获取静默期的音频向量信号片段,对背景噪声强度进行初步估计,即:
34、;
35、其中,是估计的背景噪声强度,是静默期的音频向量信号片段的时间长度,是静默期的音频向量信号片段开始时间帧,是麦克风的数量,是频域变换函数,是第个麦克风采集到第帧的优化的音频信号;
36、根据估计的背景噪声强度,初始化滤波器参数;当静默期结束时,通过递归方式更新背景噪声强度的估计值,即:
37、;
38、其中,是静默期结束后第帧的背景噪声强度估计值,是平滑因子,是静默期结束后第帧的背景噪声强度估计值,是静默期结束后第个麦克风采集到第帧的音频信号,是麦克风的数量,是频域变换函数。
39、具体地,所述自适应滤波策略的具体步骤还包括:
40、根据更新的背景噪声强度对滤波器参数进行更新,即:
41、;
42、其中,和分别是静默期结束后第帧和第帧的滤波器参数,和分别是静默期结束后第帧和第帧的背景噪声强度估计值,是参数抑制因子;
43、基于滤波器参数,通过最小均方误差滤波器对音频向量信号进行去噪处理,并将各个麦克风自适应滤波后的音频信号进行加权合成,得到去噪后的音频信号,即:
44、;
45、其中,是去噪后的第帧的音频信号,是第个麦克风音频信号的加权系数,是麦克风的数量,是第帧的滤波器参数,是第个麦克风采集到第帧的音频信号,是最小均方误差滤波器函数。
46、具体地,所述深度识别策略的具体步骤包括:
47、获取经过去噪后的音频信号,对音频信号进行分帧处理,构成短时帧音频信号,对每个短时帧音频信号应用窗函数进行加窗处理,平滑短时帧音频信号的边缘;
48、对每个短时帧音频信号进行傅里叶变换,得到频谱信号,基于频谱信号,进行音源信号分离,以获得每个短时帧音频信号的音源分离信号集合;
49、对短时帧音频信号中的每一个音源分离信号进行音频特征提取,并对音频特征进行特征融合,构成音频特征向量;
50、基于提取的音频特征向量,使用聚类算法对音源分离信号进行初步聚类,当新的短时帧音频信号出现时,使用增量式聚类算法对新增音频特征向量进行实时聚类,更新已有的聚类类别。
51、具体地,所述深度识别策略的具体步骤还包括:
52、配置新增阈值,实时监测聚类类别的数量,计算每个新增短时帧音频信号的聚类类别数量的增加类别数,若新增短时帧音频信号的增加类别数大于新增阈值,则触发类别区分度检测,否则继续进行聚类;
53、进行类别区分度检测,配置聚类阈值,实时通过聚类间距离和聚类的内部密度计算聚类类别间的区分度,当区分度小于聚类阈值,进行类别合并,否则保存聚类类别的划分,并进行异常预警;
54、建立声纹库,将每个聚类类别的特征向量,与预先建立的声纹库进行匹配,若匹配成功,则标记为对应的说话人身份,若匹配失败,则为该聚类类别分配一个新的临时身份,并在后续处理时进一步更新,根据识别结果输出每个短时帧音频信号,并且对短时帧音频信号中的音源分离信号进行说话人标记。
55、一种离线会议记录盒子,包括处理器单元、内存单元、存储单元、麦克风阵列、电源管理单元和交互界面;
56、处理器单元用于对捕获的音频信号进行计算和分析,包括语音活动检测、噪声抑制、特征提取、声纹识别、音源分离和语音识别;
57、内存单元用于存储实时数据,包括音频缓存、处理中的音频帧、噪声估计、短时帧音频信号、说话人标记,语音识别模型、说话人特征库、音频特征向量、聚类信息;
58、存储单元用于存储原始音频数据、处理后的音频特征、声纹数据、语音识别结果、日志信息;
59、麦克风阵列用于接收会议环境中的音频信号,提供音频输入,通过语音活动检测和动态增益调节,优化音频信号;
60、电源管理单元用于优化离线会议记录盒子的能耗,在静默期或无语音活动时,自动进入低功耗模式,并根据语音活动检测反馈实时调整功耗;
61、交互界面用于通过触摸屏提供用户交互操作界面,显示设备状态和语音识别结果。
62、本发明的有益效果:
63、1.通过自适应滤波和深度识别策略,能够实时去除环境噪声,显著提升语音信号的质量,特别是在复杂环境中能够有效分离不同说话人的音频信号,并进行独立的语音识别,保证了语音识别的准确性,减少了因背景噪声或交叉讲话造成的识别错误。
64、2.通过提取每个说话人的独特音频特征并进行聚类,能够有效地区分不同的说话人,使得会议记录能够精准地标注发言人身份,避免了混淆不同发言人的问题,提高了会议记录的可靠性。
65、3.通过动态调节策略,能够根据实时环境音量和信号质量自动调节麦克风的增益,不仅减少了人工干预,还确保了在音量波动较大时,依然能够获取清晰的音频信号。并且通过静默期检测自动进入低功耗状态,有效延长设备的使用时间,同时在检测到音频恢复时自动恢复正常工作状态,提升了智能化和能源使用效率。