一种面向非特定人的语音敏感信息检测和过滤方法_2

文档序号:9289041阅读:来源:国知局
,则认为语音段出错。
[0036] 上述端点检测步骤中,短时能量的高门限值Eh和低门限值E p以及短时过零率的 高门限值Zh和低门限值Z ^可以根据场景进行设置,并经过实验进行微调。
[0037] 例如,在本发明的一个实施实例中,设置Eh= 4, E1= 1,Zh= 4, Z1= 2,经过多次 实验微调为 Eh= 4. 2, E L= L 1,Z H= 4, Z L= L 9。
[0038] 步骤102,对端点检测后的语音进行特征提取,提取频域39维的MFCC语音特征向 量,提取的语音特征具有唯一性。
[0039] 步骤103,参见图2,用提取的语音特征不断更新敏感词特征模板,直至敏感词特 征模板不再变化为止。
[0040] 实现时,本步骤具体包括:采用动态时间规整方法将新提取的语音特征归整为与 敏感词特征模板相同长度的特征;然后通过计算新语音帧与已有语音帧之间的最佳路径, 找到已有语音每一帧f所对应的新语音帧;最后,对于每一对应帧,按照公式(1)更新 每一帧的特征值,其中λ为已训练次数。
[0041 ]
(1)
[0042] 步骤104,将训练的敏感词特征模板存入到敏感词特征数据库中。
[0043] 实现时,敏感词特征数据库表的字段可以包括敏感词序号、敏感词、敏感词特征模 板等信息。
[0044] 在本发明的实施例中,可以根据实际需要设置敏感词特征数据库中敏感词的数 目。
[0045] 在本发明的实施例中,可以敏感词特征数据库进行更新,从而保证敏感词汇的丰 富、正确和实时性。
[0046] 步骤105,接受实时语音或者语音文件的输入,对其进行端点检测。采用的方法与 步骤101中的方法相同。
[0047] 步骤106,对端点检测后的语音进行特征提取。采用的方法与步骤102中的方法相 同。
[0048] 步骤107,在提取的语音特征中通过匹配方法确定是否存在特征数据库中的敏感 词(参见图3)。采用的方法是先采用粗匹配方法确定是否存在敏感词,若存在,则采用细匹 配方法确定敏感词的具体位置,以便于敏感信息的过滤。
[0049] 实现时,步骤107所述的粗匹配方法包括:依次从敏感词特征模板数据库中的每 个特征模板前五帧放入待处理语音帧头开始直接比对(采用欧式距离作为语音距离的度 量方法),若高于粗匹配阈值,则认为该处不存在该敏感词;若低于粗匹配阈值,则认为该 处可能存在当前正在匹配的敏感词,并进入细匹配模式。
[0050] 实现时,步骤107所述的细匹配方法包括:从当前语音帧开始,以当前敏感词为模 板,继续粗匹配若干帧,寻找语音距离最小的帧号标记为敏感词开始,以该敏感词全部帧长 为中心,并变长地计算与该敏感词的DTW距离,判断其最小值是否高于细匹配阈值。若最小 值高于细匹配阈值,则判断不存在该词;若最小值低于细匹配阈值,则判断存在该敏感词, 而且敏感词的长度即为该语音距离所对应的帧长。
[0051] 例如,在本发明的一个实施实例中,设置粗匹配阈值为3. 0,细匹配阈值为1. 25。
[0052] 步骤108,对检测出的敏感信息进行过滤,采用的方法包括:对敏感信息进行静 音,或者替换成"bibo" "didi"等其他声音。
[0053] 根据本发明实施例的面向非特定人的语音敏感信息检测和过滤方法能够对任何 语音信息中的敏感词汇进行自动检测,并过滤掉敏感词汇,从而确保健康、安全的沟通环 境。相对已有的敏感词检测和过滤方法,本发明可以免除了大量的人力劳动,有效降低了成 本,并且准确率高,实时性好,可以运用于电视、广播等语音直播互动节目、语音聊天室、大 型网络游戏等场合中语音敏感词检测和过滤;也可运用于电视、广播、互联网等引进节目的 敏感信息检测。
【主权项】
1. 一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:首先对敏感词语 音进行采集,提取语音特征,生成敏感词特征模板,创建敏感词特征模板数据库; 然后接收待处理的实时语音或语音文件,提取实时语音或语音文件的特征; 最后采用粗匹配与细匹配相结合的方法,将提取的待处理的实时语音或语音文件的语 音特征与敏感词特征模板数据库中的模板进行比对,检测出实时语音或语音文件中的敏感 词,并将检测出的敏感词进行过滤。2. 根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征 在于:对敏感词语音进行语音特征提取的过程为:对敏感词语音进行信号处理,采用端点 检测判断出语音信号的开始帧和结束帧,提取频域39维语音特征向量,提取的语音特征具 有唯一性。3. 根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征 在于:敏感词特征模板的生成过程为:采集多段非特定人的敏感词语音,提取语音特征,采 用自学习机制迭代更新敏感词特征模板,直至敏感词特征模板不再变化为止。4. 根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征 在于:所述对待处理的语音特征与敏感词特征模板数据库中的模板进行比对的过程为:提 取待处理的实时语音或语音文件的语音特征后,先采用粗匹配方法确定是否存在敏感词, 若存在,则采用细匹配方法确定敏感词的具体位置,以便于进行过滤处理; 粗匹配时,依次从敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧 头开始直接比对,若高于粗匹配阈值,则认为该处不存在该敏感词;若低于粗匹配阈值,则 认为该处可能存在当前正在匹配的敏感词,并进入细匹配模式; 细匹配时,从当前语音帧开始,以当前敏感词为模板,继续粗匹配若干帧,寻找语音距 离最小的帧号标记为敏感词开始,以该敏感词全部帧长为中心,并变长地计算与该敏感词 的欧氏距离,判断其最小值是否高于细匹配阈值;若最小值高于细匹配阈值,则判断不存在 该词;若最小值低于细匹配阈值,则判断存在该敏感词,而且敏感词的长度即为该语音距离 所对应的帧长。5. 根据权利要求4所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征 在于:粗匹配时,敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头进 行比对时,采用计算待处理语音帧的语音特征与敏感词特征模板之间的语音距离的方法, 度量方法可以采用欧氏距离方法、曼哈顿距离方法。6. 根据权利要求4所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征 在于:粗匹配和细匹配阈值的选择是根据敏感信息检测的误判率和漏判率进行调整。
【专利摘要】本发明公开了一种面向非特定人的语音敏感信息检测和过滤方法,可以实现对实时语音和语音文件的检测和过滤。首先采用改进的双门限端点检测算法对原始语音进行端点检测,提取语音的Mel频率倒谱系数特征,采用自学习的动态时间归整算法训练出合适的语音特征模板,存入数据库。然后采用改进的双门限端点检测算法对原始语音进行端点检测,提取MFCC特征,然后采用粗匹配与细匹配相结合的方法将提取的语音特征与敏感词特征模板数据库中的模板进行比对,从而检测出输入语音中的敏感词,并将检测出的敏感词进行过滤。
【IPC分类】G10L15/18, G10L15/06, G10L25/54
【公开号】CN105006230
【申请号】CN201510320065
【发明人】苏兆品, 张国富, 岳峰, 齐美彬, 蒋建国, 胡东辉
【申请人】合肥工业大学
【公开日】2015年10月28日
【申请日】2015年6月10日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1