一种面向非特定人的语音敏感信息检测和过滤方法

文档序号：9289041阅读：1133来源：国知局

一种面向非特定人的语音敏感信息检测和过滤方法
【技术领域】
[0001] 本发明涉及多媒体内容安全技术，具体是一种面向非特定人的语音敏感信息检测和过滤方法。
【背景技术】
[0002] 随着电信网络技术的发展，电话语音、网络音频为首的语音应用日渐成熟。但是，含有敏感信息、非法信息的语音传播不利于社会和谐稳定和和国家长治久安。如何从海量的语音数据中检测敏感信息已经成为亟待解决的问题。
[0003] 传统的方法是采用人工聆听，这种方式仅适用于处理少量语音，而对海量语音信息进行人工检测时，其效率低下，往往耗费巨大的人力物力，却难以达到令人满意的检测准确率。随着语音识别技术的发展，人们首先将语音识别成文字，再采用文本过滤的方法检测出敏感词并对文字进行处理，然后返回到相应的语音帧将其过滤。虽然该方法采用计算机自动处理，避免了人力资源浪费，但是语音识别过程缓慢，很难应用于电视、广播等实时互动语音节目、语音聊天室等对实时性要求较高的场合。
[0004] 综上，现有技术中，面向非特定人的语音敏感信息检测和过滤方法局限性大，漏检率、误检率高，很难满足实时性需求。

【发明内容】

[0005] 本发明的目的是提供一种面向非特定人的语音敏感信息检测和过滤方法，以解决现有技术存在的问题。
[0006] 为了达到上述目的，本发明所采用的技术方案为：
[0007] -种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：首先对敏感词语音进行采集，提取语音特征，生成敏感词特征模板，创建敏感词特征模板数据库；
[0008] 然后接收待处理的实时语音或语音文件，提取实时语音或语音文件的特征；
[0009] 最后采用粗匹配与细匹配相结合的方法，将提取的待处理的实时语音或语音文件的语音特征与敏感词特征模板数据库中的模板进行比对，检测出实时语音或语音文件中的敏感词，并将检测出的敏感词进行过滤。
[0010] 所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：对敏感词语音进行语音特征提取的过程为：对敏感词语音进行信号处理，采用端点检测判断出语音信号的开始帧和结束帧，提取频域39维语音特征向量，提取的语音特征具有唯一性。 [0011] 所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：敏感词特征模板的生成过程为：采集多段非特定人的敏感词语音，提取语音特征，采用自学习机制迭代更新敏感词特征模板，直至敏感词特征模板不再变化为止。
[0012] 所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：所述对待处理的语音特征与敏感词特征模板数据库中的模板进行比对的过程为：提取待处理的实时语音或语音文件的语音特征后，先采用粗匹配方法确定是否存在敏感词，若存在，则采用细匹配方法确定敏感词的具体位置，以便于进行过滤处理；
[0013] 粗匹配时，依次从敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头开始直接比对，若高于粗匹配阈值，则认为该处不存在该敏感词；若低于粗匹配阈值，则认为该处可能存在当前正在匹配的敏感词，并进入细匹配模式；
[0014] 细匹配时，从当前语音帧开始，以当前敏感词为模板，继续粗匹配若干帧，寻找语音距离最小的帧号标记为敏感词开始，以该敏感词全部帧长为中心，并变长地计算与该敏感词的欧氏距离，判断其最小值是否高于细匹配阈值。若最小值高于细匹配阈值，则判断不存在该词；若最小值低于细匹配阈值，则判断存在该敏感词，而且敏感词的长度即为该语音距离所对应的帧长。
[0015] 所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：粗匹配时，敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头进行比对时，采用计算待处理语音帧的语音特征与敏感词特征模板之间的语音距离的方法，度量方法可以采用欧氏距离方法、曼哈顿距离方法。
[0016] 所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：粗匹配和细匹配阈值的选择是根据敏感信息检测的误判率和漏判率进行调整。
[0017] 本发明中，首先建立敏感词特征模板数据库；当需要对实时语音或语音文件进行敏感词检测和过滤时，先对待处理的实时语音或语音文件提取具有唯一性的语音特征，然后与敏感词特征模板数据库中的特征进行匹配，检测出敏感词，并进行过滤。
[0018] 采用本发明，对待处理的语音特征进行敏感词的依次匹配，采用多线程方法进行。
[0019] 采用本发明，根据实际需要，建立不同规模的敏感词特征模板数据库。
[0020] 采用本发明，根据敏感词检测方法的正确率，设置粗匹配和细匹配的阈值，并进行微调。
[0021] 与已有技术相比，本发明有益效果体现在：
[0022] (1)本发明是基于语音特征实现敏感词的检测和过滤，保证了本发明是面向非特定人的，只与说话人说话的内容有关；
[0023] (2)本发明采用了自学习机制迭代生成敏感词特征模板的方法，保证了语音特征模板的准确性，提高敏感词检测的正确率。
[0024] (3)本发明采用了粗匹配和细匹配相结合的匹配方法，提高了敏感词检测的速度，保证了本发明实施的实时性。
[0025] (4)本发明可运用于电视、广播等语音直播互动节目、语音聊天室、大型网络游戏等场合中语音敏感词检测和过滤；也可运用于电视、广播、互联网等引进节目的敏感信息检测。
【附图说明】
[0026] 图1为本发明进行敏感词检测和过滤的方法示意性流程图。
[0027] 图2为本发明设计的敏感词特征模板生成方法示意图。
[0028] 图3为本发明设计的敏感词匹配方法示意图。
【具体实施方式】
[0029] 本发明构建敏感词特征模板数据库，并基于敏感词特征模板数据库实现对实时语音或语音文件中敏感词的检测和过滤。
[0030] 参见图1，为本发明进行敏感词检测和过滤的方法示意性流程图。该方法通过特征模板训练模块构建敏感词特征模板数据库；然后通过检测和过滤模块实现对实时语音和语音文件中敏感词的检测和过滤。
[0031] 本发明中的敏感词可以包括脏话等不文明词汇、涉及到国家安全等的涉密词汇等。
[0032] 图1的流程包括以下步骤：
[0033] 步骤101，接受敏感词语音输入，对其进行端点检测。根据语音的统计特性，语音段分为清音、浊音以及静音（含背景噪声）三种。但由于清音能量较小，采用短时能量检测会因为低于能量门限而被误判为静音。因此，在本发明中，利用短时能量检测浊音和静音，利用短时过零率检测静音和清音。
[0034] 实现时，本步骤具体包括：对接受到的敏感词语音进行分帧，计算每帧的短时能量，确定短时能量的高门限值E h和低门限值E u计算每帧的短时过零率，确定短时过零率的高门限值Zh和低门限值Z u检测每一帧的短时能量和短时过零率，当某一帧的短时能量高于Eh而且短时平均过零率高于Z H时，则该帧标记为语音开始帧；当某一帧的短时能量低于 ^而且短时过零率低于h时，则该帧标记为语音结束帧。
[0035] 上述端点检测步骤应用于敏感词的端点检测时，需要进行循环检测，找到一个语音文件的第一个开始帧和最后一个结束帧；同时，如果检测到的语音段长度小于一定的帧数

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏兆品;张国富;岳峰;齐美彬;蒋建国;胡东辉;
技术所有人：合肥工业大学;
我是此专利的发明人