基于声纹特征识别实现通话相关风险性判断系统及方法与流程

文档序号:29851857发布日期:2022-04-30 08:06阅读:216来源:国知局
基于声纹特征识别实现通话相关风险性判断系统及方法与流程

1.本发明涉及声纹识别技术领域,具体为基于声纹特征识别实现通话相关风险性判断系统及方法。


背景技术:

2.声纹识别作为生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认,声纹识别的过程,就是把声信号转换成电信号,再用计算机进行识别,不同的任务和应用会使用不同的声纹识别技术,例如交易过程中,需要通过确认说话人技术,判断通话风险性,判定交易是否正常;
3.所谓声纹,是用电声学仪器显示的携带言语信息的声波频谱,人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官
‑‑
舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的,这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关;
4.而现有的声纹特征识别在通话中应用的过程中,其及时性和效率大多较为一般,难以及时检测到监控通话过程的风险性,很容易因为通话质量差而出现误判的情况,影响判断的准确性,影响用户的使用体验。


技术实现要素:

5.(一)解决的技术问题
6.针对现有技术所存在的上述缺点,本发明提供了基于声纹特征识别实现通话相关风险性判断系统及方法,能够有效地解决现有技术的声纹特征识别在通话中应用的过程中,其及时性和效率大多较为一般,难以及时检测到通话过程的风险性,很容易因为通话质量差而出现误判的情况,影响判断的准确性,影响用户的使用体验等问题。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.本发明公开了基于声纹特征识别实现通话相关风险性判断的方法,包括以下步骤:
10.step1:对通话音频进行记录监控,并上传至数据库;
11.step2:对双通道音频进行通道分离,提取用户侧通话;
12.step3:通过智能去静音手段,去除静音音频片段,将其他有效音频重新合并为新音频;
13.step4:通过人工智能深度学习算法,基于训练好的模型,提取用户通话音频的声纹特征;
14.step5:将通话音频上传至数据库;
15.step6:对留存的通话音频进行筛选,并依据质量因素进行评定分级;
16.step7:以质量高的通话音频为参照优先级;
17.step8:基于余弦相似度,通过相对相似度来表示不同轮次通话之间声纹特征的差异,分析相似度大小和两两比对低于阈值的总次数,相似度高与低于阈值的总次数少的通话信息,其决策偏向于有效;
18.step9:决策该通话与其他通话是否为同一用户;
19.step10:决策通过,判定正常;
20.step11:决策未通过,判定不正常;
21.step12:对疑问数据进行留存;
22.step13:进行二次人工核验后,重新提交。
23.更进一步地,所述步骤step2中的提取用户侧的通话过程中,需要通过python转换音频格式,调整到适配格式,以进行双通道音频的分离,区别对话的双方。
24.更进一步地,所述步骤step3中的智能去静音手段是基于波形图的vad静音检测,在进行音频切割和有效音频合并后,最终截取得到一通电话的有效音频数据。
25.更进一步地,所述步骤step4中的人工智能,基于resnet深度学习算法,依据多层神经网络的特征提取能力,通过数据训练得到声纹特征相关参数,最终可提取到通话对应的声纹特征,根据每个人声色等固有特征的本身差别,通过声纹特征区分不同说话人。
26.更进一步地,所述步骤step6中的质量因素包括:音频清晰度、音频数据大小、音频数据存储时间。
27.更进一步地,所述步骤step13中的人工核验方式包括:比对历史音频信息、查验系统故障。
28.更进一步地,所述步骤6中的筛选触发因素为:每当同一用户有通话信息更新添加时,即可在同一用户的音频信息中再次进行筛选,即新通话信息的加入,会与历史信息逐一对比筛选。
29.基于声纹特征识别实现通话相关风险性判断的系统,包括:
30.中心控制端,用于总控系统的运作,发送运行指令;
31.信息采集模块,用于在通话过程中,采集通话音频数据;
32.存储模块,用于作为数据的总留存处,可读入与写入信息;
33.处理模块,用于处理通话音频信息,对通话音频进行去静音,合并有效的通话音频;
34.提取模块,用于提取用户通话音频的声纹特征;
35.比对模块,用于分析用户实时通话音频,与历史留存的声纹信息进行比对;
36.暂存模块,用于对未通过决策的通话音频进行记录,进行转存;
37.审验模块,用于人工检查未通过决策的通话音频,分析是否有干扰信息,影响决策结果;
38.筛选模块,用于对留存的历史音频数据进行筛选;
39.分级模块,用于对筛选后的历史音频数据进行分级,将质量高的音频数据作为优先级参照信息。
40.更进一步地,所述审验模块与存储模块通过无线网络交互连接,审验信息进行上交保存,进行读入存储。
41.更进一步地,所述比对模块通过无线网络交互连接有警示模块:用于在声纹信息不一致时,为工作人员进行报警提醒。
42.(三)有益效果
43.采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
44.1、本发明能够大大提升声纹特征识别过程中的效率和及时性,及时监控发现通话过程中的风险性,提升安全性,降低危险隐患,有利于保障用户的财产安全,降低公司在风险事件中的损失。
45.2、本发明能够对有疑问的数据进行二次人工核验,降低因为环境因素,而导致的系统误判情况,提升判断的准确性,避免出现误判,而造成大的损失,能够对同一用户的声纹数据进行不断比对,以高质量的声纹数据作为优先的参考依据,进一步提升的判断的准确性。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为基于声纹特征识别实现通话相关风险性判断的方法的流程示意图;
48.图2为基于声纹特征识别实现通话相关风险性判断的系统的结构示意图;
49.图3为基于声纹特征识别实现通话相关风险性判断的方法的实施过程的演示示意图;
50.图中的标号分别代表:1、中心控制端;2、信息采集模块;3、存储模块;4、处理模块;5、提取模块;6、比对模块;7、警示模块;8、暂存模块;9、审验模块;10、筛选模块;11、分级模块。
具体实施方式
51.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
52.下面结合实施例对本发明作进一步的描述。
53.实施例1
54.本实施例提供一种基于声纹特征识别实现通话相关风险性判断的系统的方法,如图1和3所示,包括以下步骤:
55.step1:对通话音频进行记录监控,并上传至数据库;
56.step2:对双通道音频进行通道分离,提取用户侧通话;
57.step3:通过智能去静音手段,去除静音音频片段,将其他有效音频重新合并为新音频;
58.step4:通过人工智能深度学习算法,在训练好的模型上,提取用户通话音频的声
纹特征;
59.step5:将通话音频上传至数据库;
60.step6:对留存的通话音频进行筛选,并依据质量因素进行评定分级;
61.step7:以质量高的通话音频为参照优先级;
62.step8:基于余弦相似度,通过呈现相对相似度来表示不同轮次通话之间声纹特征的差异,分析相似度大小和低于阈值的总次数;
63.step9:决策该通话与其他通话是否为同一用户;
64.step10:决策通过,判定正常;
65.step11:决策未通过,判定不正常;
66.step12:对疑问数据进行留存;
67.step13:进行二次人工核验后,重新提交。
68.如图1所示,所述步骤step2中的提取用户侧的通话过程中,需要通过python转换音频格式,调整到适配格式,以进行双通道音频的分离,区别对话的双方。
69.如图1所示,所述步骤step3中的智能去静音手段是基于波形图的vad静音检测,在进行音频切割和有效音频合并后,最终截取得到一通电话的有效音频数据。
70.如图1所示,所述步骤step6中的质量因素包括:音频清晰度、音频数据大小、音频数据存储时间。
71.如图1所示,所述步骤step13中的人工核验方式包括:比对历史音频信息、查验系统故障。
72.如图1所示,所述步骤6中的筛选触发因素为:每当同一用户有通话信息更新添加时,即可在同一用户的音频信息中再次进行筛选。
73.经由此设置,使得本系统,能够大大提升声纹特征识别过程中的效率和及时性,及时监控发现通话过程中的风险性,提升安全性,降低危险隐患,有利于保障用户的财产安全,降低公司在风险事件中的损失;
74.能够对有疑问的数据进行二次人工核验,降低因为环境因素,而导致的系统误判情况,提升判断的准确性,避免出现误判,而造成大的损失,能够对同一用户的声纹数据进行不断比对,以高质量的声纹数据作为优先的参考依据,进一步提升判断的准确性。
75.实施例2
76.本实施例提供一种基于声纹特征识别实现通话相关风险性判断的系统,如图2所示,包括:
77.中心控制端1,用于总控系统的运作,发送运行指令;
78.信息采集模块2,用于在通话过程中,采集通话音频数据;
79.存储模块3,用于作为数据的总留存处,可读入与写入信息;
80.处理模块4,用于处理通话音频信息,对通话音频进行去静音,合并有效的通话音频;
81.提取模块5,用于提取用户通话音频的声纹特征;
82.比对模块6,用于分析用户实时通话音频,与历史留存的声纹信息进行比对;
83.暂存模块8,用于对未通过决策的通话音频进行记录,进行转存;
84.审验模块9,用于人工检查未通过决策的通话音频,分析是否有干扰信息,影响决
策结果;
85.筛选模块10,用于对留存的历史音频数据进行筛选;
86.分级模块11,用于对筛选后的历史音频数据进行分级,将质量高的音频数据作为优先级参照信息。
87.如图2所示,所述审验模块9与存储模块3通过无线网络交互连接,审验信息进行上交保存,进行读入存储。
88.如图2所示,所述比对模块6通过无线网络交互连接有警示模块7:用于在声纹信息不一致时,为工作人员进行报警提醒。
89.本系统在搭载时,通过中心控制端1进行总控运作,由信息采集模块2在通话过程中,采集通话音频数据,通过存储模块3存储,由处理模块4对音频数据进行去静音,合并有效的通话音频,通过提取模块5提取用户声纹特征,之后,经由比对模块6分析比对用户实时通话音频,当声纹信息不一致时,警示模块7进行报警,并通过暂存模块8对问题数据进行转存记录,最后,通过分级模块11对筛选后的历史音频数据进行分级,并且将质量高的音频数据作为优先级参照信息。
90.实施例3
91.如图1所示,本实施例基于上述实施例的步骤step4中的人工智能,提供一种基于resnet深度学习算法,依据多层神经网络的特征提取能力,通过数据训练得到声纹特征相关参数,最终可提取到通话对应的声纹特征,根据每个人声色等固有特征的本身差别,通过声纹特征区分不同说话人。
92.通过python创建数据列表,数据列表的格式为:语音文件路径\t语音分类标签,语音分类标签作为说话人的唯一id,不同的语音数据集,可以通过编写对应的生成数据列表的函数,把这些数据集都写在同一个数据列表中;
93.将全部的mp3格式的音频转换为wav格式,在创建数据列表之后将错误的数据删除,创建的数据列表和均值标准值,用于训练读取,把语音数据转换短时傅里叶变换的幅度谱,使用librosa可以计算音频的特征;
94.训练模型,使用的是经过修改过的resnet34模型,设置数据输入层后,其大小作为短时傅里叶变换的幅度谱的shape,每训练一轮结束之后,执行一次模型评估,计算模型的准确率,以观察模型的收敛情况,同样的,每一轮训练结束保存一次模型,分别保存了可以恢复训练的模型参数,也可以作为预训练模型参数,还保存预测模型,用于之后预测;
95.训练结束之后保存预测模型,用预测模型来预测测试集中的音频特征,然后使用音频特征进行两两对比,阈值从0到1,步长为0.01进行控制,找到最佳的阈值并计算准确率。
96.综上所述,通过中心控制端1进行总控运作,由信息采集模块2在通话过程中,采集通话音频数据,通过存储模块3存储,由处理模块4对音频数据进行去静音,合并有效的通话音频,通过提取模块5提取用户声纹特征,之后,经由比对模块6分析比对用户实时通话音频,当声纹信息不一致时,警示模块7进行报警,并通过暂存模块8对问题数据进行转存记录,最后,通过分级模块11对筛选后的历史音频数据进行分级,并且将质量高的音频数据作为优先级参照信息;
97.使用本系统,能够大大提升声纹特征识别过程中的效率和及时性,及时监控发现
通话过程中的风险性,提升安全性,降低危险隐患,有利于保障用户的财产安全,降低公司在风险事件中的损失,能够对有疑问的数据进行二次人工核验,降低因为环境因素而导致的系统误判情况,提升判断的准确性,避免出现误判,而造成大的损失,能够对同一用户的声纹数据进行不断比对,以高质量的声纹数据作为优先的参考依据,进一步提升的判断的准确性。
98.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1