本发明涉及语音信息识别处理,具体涉及基于疫情流调过程电话录音处理方法及系统。
背景技术:
1、在疫情流调过程中,感染者的活动轨迹和行为信息是流调过程的关注重点。随着信息科学的快速发展,获得感染者活动信息的手段也越来越多源化,流调电话询问感染者的活动信息是流调信息主要的信息来源之一,但是由于流调电话录音时间过长,且存在大量噪声与空白声段,对其进行总结分析所需要的人力资源和时间资源过大,不利于感染者活动信息的捕捉。因此需要一种提高流调录音的利用效率和语音识别的高效性的疫情流调过程电话录音的处理方法。
2、近年来语音识别技术发展迅速,是人机之间交互的重要通道,被应用于各个领域当中。但在疫情流调领域暂时还未得到广泛利用,故很难对现有的疫情流调过程电话录音处理方法进行优缺点分析。但可以从不同的应用领域对电话录音处理方法进行分析比较,来对疫情流调领域的电话录音处理方法进行调整和优化。
3、公布号为cn115083411a的现有发明专利申请文献《一种基于特征融合的语音识别方法》,该方法包括以下步骤:步骤s1:获取语音数据,并对其中的文本内容进行标签标注,将语音数据和标注标签组合成训练集。步骤s2:构建基于特征融合的语音识别网络,该网络包括特征提取模块、数据处理模块、特征融合模块、注意力模块和识别模块。步骤s3:利用第一步的训练集对语音识别网络进行训练,从而得到可用于语音转文本的语音识别模型。步骤s4:将待识别的语音数据输入到第三步得到的语音识别模型中,经过识别分析后输出高质量的识别文本。这项发明还提供了一种语音识别装置。通过提取语音中的多种特征进行识别。但前述现有方法对于训练集数据的要求较高,难以满足针对特定领域内语音识别的需求,融合特征过程也使模型结构更复杂,实时性有所下降。
4、公布号为cn115691500a的现有发明专利申请文献《一种基于时延神经网络的电力客服语音识别方法及装置》,该现有方法包括以下步骤:步骤s1:语音预处理:接入客户语音,利用kaldi工具对客户语音进行预处理;步骤s2:音素提取:基于时延神经网络tdnn的声学模型,获得多段语音间的影响因子和关联特征,从而识别出多段语音的音素;步骤s3:语音转文本:利用声学模型提取的音素组合,结合电网发音字典和tri-gram语言模型,将声学模型识别的音素转化成最优的文本序列,进行音文转换;步骤s4:回复客服咨询:依据语言模型获得语音的文本信息,利用tf-idf算法计算同电网客服问答库中各咨询语句的相似度距离,获得最相似咨询语句对应的答案,回复客户的咨询。该发明引入用户意图的连贯性因素,但该方法采用的tdnn神经网络训练周期过长且聚焦于局部最优解而并非全局最优解,且解码时采用传统语言模型,各部分独立,构成较为复杂,且可能造成错误的累加。
5、综上,现有技术存在实时性较差以及识别结果准确性低的技术问题。
技术实现思路
1、本发明所要解决的技术问题在于:如何解决现有技术中实时性较差以及识别结果准确性低的技术问题。
2、本发明是采用以下技术方案解决上述技术问题的:基于疫情流调过程电话录音处理方法包括:
3、s1、获取流调电话录音数据,以作为输入数据。
4、s2、预处理输入数据,对输入数据进行音频格式转换、采样率转换以及位深度转换,以得到录音转换数据;
5、s3、对录音转换数据进行vad检测,以得到端点检测结果,据以对输入数据进行端点分割操作,以去除输入数据中的空白时间段,获得有效对话时间段,以分割得到不少于2段的短句音频;
6、s4、将短句音频送入基于wenet模型构建的端到端语音识别模型,以将短句音频转换为识别文本,提取被调查者的行为轨迹信息,据以处理得到训练集以及训练配置文件;
7、s5、将识别文本输出至后续的端到端语音识别模型,以根据训练集、训练配置文件进行后续训练,据以得到电话录音处理结果。
8、本发明本发明针对疫情流调领域电话录音的时间过长和包含较难识别的领域词汇的特点,通过去除空白语音段将长语音裁剪为短语音来减少计算成本并提高检测准确率,在wenet模型训练阶段引入真实流调电话录音进行训练,并在提高领域词汇识别准确率方面做了一系列相关工作。本发明能够更快的将较长的流调电话录音转换为短句文本,以备作为后续文本实体提取的输入部分,来缩短流调信息调研过程。
9、在更具体的技术方案中,步骤s2包括:
10、s21、将输入数据转换为wav格式数据;
11、s22、设定输入音频的采样率;
12、s23、设定输入音频为预设位置的有符号整数。
13、本发明的语音预处理过程主要是对输入的音频格式进行规范调整,来符合后续wenet模型的预期设置,避免不必要的数据损失,主要针对音频数据格式、音频采样率、音频位深度进行规范,获得最佳的识别性能。
14、在更具体的技术方案中,步骤s3中,采用基于短时能量阈值的vad方法,在短时语音中的信噪比低于预设阈值时,将该段短时语音设为静默状态,抛弃该短时语音,其中,利用下述逻辑求取短时语音的信噪比snr:
15、
16、式中,ps表示信号的功率,pn表示噪声的功率。
17、在更具体的技术方案中,步骤s3中,利用下述逻辑处理得到短时语音的能量信噪比esnr:
18、
19、式中,es表示信号的能量,en表示噪声的能量。
20、在更具体的技术方案中,步骤s3包括:
21、s31、对输入数据中的录音文件进行分帧及加窗处理,以将连续的音频信号切分为短时窗口;
22、s32、对每个短时窗口内的音频信号进行能量计算,以得到音频能量数据;
23、s33、判断音频能量数据是否大于预设阈值;
24、s34、若是,则判定当前的音频信号为语音活动;
25、s35、若否,则判定当前的音频信号为非语音活动;
26、s36、针对语音活动,合并处理连续的语音活动帧,将小于预置长度阈值的语音活动帧滤除,以得到短句音频。
27、本发明先对录音文件进行分帧和加窗处理,将连续的音频信号切分为短时窗口,减少窗口边界处的信号跳变,提升能量计算的准确性。本发明通过进行帧重新对齐的迭代过程,来进一步优化语音活动检测效果。并采用中值滤波方法对vad结果进行进一步检测,通过在滑动窗口内取中值,去除由于噪声或其他因素引起的短时错误的语音活动检测结果,来提高其稳定性和可靠性。
28、在更具体的技术方案中,步骤s4包括:
29、s41、采用wenet模型的工具包,根据短句音频进行端到端语音识别模型的训练及解码操作,对短句音频进行预处理,以得到音频预处理数据,提取音频预处理数据的fbank特征,将fbank特征送入预置编码器;
30、s42、利用预置解码器进行模型训练,根据帧级别解码器ctc损失lctc、标注级别解码器aed损失laed,求取模型训练损失loss,融合模型训练损失loss以简化训练通道;
31、s43、对真实流调录音数据进行切割并标注,以得到录音标注数据,利用文本标签与录音标注数据,通过语音增强方法构成训练集,并生成训练配置文件。
32、本方法在真实数据的基础上对wenet工具包中的预训练模型进行微调,使其更适合于在流调录音领域内进行语音识别,避免由于真实流调录音数据太少,数据量不足,使得本发明采用的语音识别模型更加完善。
33、在更具体的技术方案中,步骤s41中,预置编码器采用conformer结构,预置解码器包括:ctc解码器以及attention解码器,利用ctc解码器以及attention解码器,对fbank特征进行联合解码。
34、在更具体的技术方案中,attention解码器包括不少于2个transformer层,据以利用下述逻辑处理短句音频中的上下文信息,以得到并输出得分最高结果scoresfinal:
35、scoresfinal=λ*scoresctc+scoresattention (3);
36、利用下述逻辑设置预置编码器的激活函数:
37、swish(x)=x*sigmoid(x) (8)
38、式中,sigmoid(x)是sigmoid函数:
39、sigmoid(x)=1/(1+exp(-x)) (9)
40、式中,exp表示自然指数函数,sigmoid函数的输入可以是任意实数,输出值范围在0到1之间。
41、本技术采用的wenet模型采用联合解码打分机制,故引入热词奖励模块,通过设置热词文件,将较难识别和需要保证识别准确率的词汇放入热词文件,然后设置奖励分数,来人为改变模型解码输出倾向,使其偏向于更希望输出的结果。本发明训练得到的语音识别模型,更聚焦于疫情流调领域,可以提高在该领域内语音的识别准确性,特别是对活动的时间地址等方面,从而降低后续文本实体提取阶段的错误率,采用的编码解码机制也可以保证语音识别的鲁棒性。
42、swish激活函数有着更好的非线性表达能力,可以帮助模型更好的学习和表示输入语音特征。本发明提出的疫情流调录音处理方法各模块更轻量化,处理的实时性较好、计算成本较小,且易于封装部署。
43、在更具体的技术方案中,步骤s42中,利用下述逻辑,根据帧级别解码器ctc损失lctc、标注级别解码器aed损失laed,求取模型训练损失loss:
44、lcombined(x,y)=λlctc(x,y)+(1-λ)laed(x,y) (4)
45、式中,x是输入的声学特征,y是对应的模型输出结果,λ是平衡ctc和aed损失的权重。
46、本发明在模型训练过程中,融合模型训练损失loss,极大简化训练通道,也帮助模型转换速度变快,取得比较好的效果。
47、在更具体的技术方案中,基于疫情流调过程电话录音处理系统包括:
48、接收录音模块,用以获取流调电话录音数据,以作为输入数据。
49、语音预处理模块,用以预处理输入数据,对输入数据进行音频格式转换、采样率转换以及位深度转换,以得到录音转换数据,语音预处理模块与接收录音模块连接;
50、端点检测模块,用以对录音转换数据进行vad检测,以得到端点检测结果,据以对输入数据进行端点分割操作,以去除输入数据中的空白时间段,获得有效对话时间段,以分割得到不少于2段的短句音频,端点检测模块与语音预处理模块连接;
51、语音识别模块,用以将短句音频送入基于wenet模型构建的端到端语音识别模型,以将短句音频转换为识别文本,提取被调查者的行为轨迹信息,据以处理得到训练集以及训练配置文件,语音识别模块与端点检测模块连接;
52、后续训练模块,用以将识别文本输出至后续的端到端语音识别模型,以根据训练集、训练配置文件进行后续训练,据以得到电话录音处理结果,后续训练模块与语音识别模块连接。
53、本发明相比现有技术具有以下优点:本发明本发明针对疫情流调领域电话录音的时间过长和包含较难识别的领域词汇的特点,通过去除空白语音段将长语音裁剪为短语音来减少计算成本并提高检测准确率,在wenet模型训练阶段引入真实流调电话录音进行训练,并在提高领域词汇识别准确率方面做了一系列相关工作。本发明能够更快的将较长的流调电话录音转换为短句文本,以备作为后续文本实体提取的输入部分,来缩短流调信息调研过程。
54、本发明的语音预处理过程主要是对输入的音频格式进行规范调整,来符合后续wenet模型的预期设置,避免不必要的数据损失,主要针对音频数据格式、音频采样率、音频位深度进行规范,获得最佳的识别性能。
55、本发明先对录音文件进行分帧和加窗处理,将连续的音频信号切分为短时窗口,减少窗口边界处的信号跳变,提升能量计算的准确性。本发明通过进行帧重新对齐的迭代过程,来进一步优化语音活动检测效果。并采用中值滤波方法对vad结果进行进一步检测,通过在滑动窗口内取中值,去除由于噪声或其他因素引起的短时错误的语音活动检测结果,来提高其稳定性和可靠性。
56、本方法在真实数据的基础上对wenet工具包中的预训练模型进行微调,使其更适合于在流调录音领域内进行语音识别,避免由于真实流调录音数据太少,数据量不足,使得本发明采用的语音识别模型更加完善。
57、本技术采用的wenet模型采用联合解码打分机制,故引入热词奖励模块,通过设置热词文件,将较难识别和需要保证识别准确率的词汇放入热词文件,然后设置奖励分数,来人为改变模型解码输出倾向,使其偏向于更希望输出的结果。本发明训练得到的语音识别模型,更聚焦于疫情流调领域,可以提高在该领域内语音的识别准确性,特别是对活动的时间地址等方面,从而降低后续文本实体提取阶段的错误率,采用的编码解码机制也可以保证语音识别的鲁棒性。
58、swish激活函数有着更好的非线性表达能力,可以帮助模型更好的学习和表示输入语音特征。本发明提出的疫情流调录音处理方法各模块更轻量化,处理的实时性较好、计算成本较小,且易于封装部署。
59、本发明在模型训练过程中,融合模型训练损失loss,极大简化训练通道,也帮助模型转换速度变快,取得比较好的效果。本发明解决了现有技术中存在的实时性较差以及识别结果准确性低的技术问题。