垃圾语音过滤的方法及系统的制作方法

文档序号:7691670阅读:147来源:国知局
专利名称:垃圾语音过滤的方法及系统的制作方法
技术领域
本发明涉及网络语音通信领域,特别涉及一种垃;及语音过滤的方法、 一种垃圾语音过滤的系统、 一种语音邮件系统及一种基于信令交互的垃 圾语音过滤装置。
背景技术
为充分利用资源、降低运营成本、丰富业务样式,使得用户无论在固定还是移动环境中,都可以享受同样的服务,FMC (Fixed Mobile Convergence,固定与移动网络融合)目前已成为网络发展的必然趋势。 FMC是指网络的业务提供与接入技术和终端设备相独立。从用户角度看, FMC的目的是使用户通过不同接入网络,享受相同的服务,获得相同的 业务。其主要特征是用户订阅的业务与接入点和终端无关,也就是允许 用户从固定或移动终端通过任何合适的接入点使用同一业务。FMC可以 使得用户在一个终端、 一个帐号的前提下,在办公室或家里使用固定网 络进行通信,而在户外,则通过无线/移动网络进行通信。FMC同时也包 含了这样一个概念,就是在固定网络和移动网络之间,终端能够无缝漫 游。对于用户而言,这也意味着简单和方l更。在FMC的这种大趋势下,具有实现简单、扩展性好、多媒体会话提 供能力强等特点的SIP协议(Session Initiation Protocol,会话初始协议) 成为了当前应用的主流。SIP协议是基于IP的一个应用层控制协议,也 是一个基于纯文本的信令协议,可以管理不同接入网络上的会晤等。会 晤可以是终端设备之间任何类型的通信,如视频会晤、即时信息处理或 协作会晤等。支持SIP协议的网络将提供一个网桥,以扩展向互联网和无 线网络的各种设备提供融合业务能力。这将允许运营商为其移动用户提 供大量的信息处理业务,通过SMS互通能力与固定用户和2G无线用户 交互。SIP也是在UMTS3GPP R5/R6版本中使用的信令协议,因此可以 保护运营商目前的投资而极具技术优势和商业价值。然而,由于SIP协议在设计之初缺乏完善的安全机制,导致垃圾语音信息(Spam over Internet Telephony, SPIT)作为一种非预期的语音发送 行为,成为基于SIP协议的应用中(如VoIP, (Voice over IP,基于IP的 语音技术)) 一种重要的安全威胁。一种常见的SPIT攻击方式为,通过伪造和篡改发送方URI的方式对 被叫方实施攻击。现有技术中,通常采用"黑名单"和/或"白名单"的垃圾 语音防护机制,即每次接收到语音呼叫,则提取该呼叫用户URI,如果 该呼叫用户URI属于"黑名单"的用户列表,则阻止该语音呼叫;如果该 呼叫用户URI属于"白名单"的用户列表,则接收该语音呼叫。但这种黑/ 白名单机制存在的缺点在于不能正确鉴别首次出现的呼叫用户,即"黑 名单"机制的采用不能对一些首次呼叫的垃圾语音信息进行过滤;而"白名 单"机制对于首次呼叫的IP语音用户会造成应用上的困难;如果垃圾语音 攻击者通过伪造或篡改发送方URI的方式,4吏当前URI发生改变,成为 首次呼叫的用户,则很容易达到实施攻击的目的,所以,目前需要本领域技术人员迫切解决的一个技术问题就是如 何能够创新的提出一种垃圾语音的过滤机制,用以简单、实时、准确地 进行垃圾语音过滤,有效避免非黑/白名单用户首次呼叫的攻击,提高应 用SIP协议的业务安全性。发明内容本发明所要解决的技术问题是提供一种垃圾语音的过滤方法及系 统,用以简单、实时、准确地进行垃圾语音过滤,有效避免非黑/白名单 用户首次呼叫的攻击,提高应用SIP协议的业务安全性。本发明还提供了一种语音邮件系统和一种基于信令交互的垃圾语音 过滤装置,用以保证上述方法及装置在实际中的实现及应用。为解决上述技术问题,本发明实施例公开了 一种垃圾语音的过滤方 法,包括获取语音数据包,提取所述语音数据包中的发送方标识信息; 若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不 存在匹配项,则获取所述语音数据包的声紋特征;将所述声紋特征在预置的垃圾语音声紋特征库中进行匹配,若存在匹配项,则将所述发送方标识信息添加至所述黑名单数据库中;否则,对所述发送方标识信息添加灰名单标签。优选的,所述获取语音数据包为接收并緩存语音数据包,所述的方法还包括将所述具有灰名单标签的发送方标识信息发送的语音数据包,从緩 存转移至接收方。优选的,所述获取语音数据包的步骤包括接收方向发送方发起语 音数据获耳又请求,发送方依据该请求向接收方发送语音数据包; 所述的方法还包括所述接收方接收所述具有灰名单标签的发送方发送的语音数据包。 优选的,所述获取语音数据包的步骤还包括接收方在向发送方发 起语音数据获取请求的同时启动计时程序,监控是否超过预置时间阈值; 所述的方法还包括若超过预置时间阈值,则将所述发送方标识信息添加至所述黑名单 数据库中。优选的,所述的方法,还包括依据接收方的垃圾语音鉴别信息将所述具有灰名单标签的发送方标 识信息添加至黑名单数据库或白名单数据库。 优选的,所述的方法,还包括提取所述黑名单数据库中发送方所发语音数据包的声紋特征,添加 至垃圾语音声紋特征库。优选的,所述语音数据包的获取为从VoIP网络中实时获取。 优选的,所述的方法,还包括所述具有灰名单标签的发送方标识信息形成灰名单数据库。 优选的,所述的方法,还包括若所述发送方标识信息在所述黑名单数据库存在匹配项,则过滤所 述语音数据包;若所述发送方标识信息在所述白名单数据库存在匹配项,则接收所 述语音数据包。本发明实施例还公开了 一种垃圾语音的过滤系统,所述过滤系统包 括用于存储黑名单用户标识信息的黑名单数据库、用于存储白名单用户 标识信息的白名单数据库、以及用于存储垃圾语音声紋特征的垃圾语音声紋特征库,所述的过滤系统还包括语音数据获取单元,用于获取语音数据包;发送方标识提取单元,用于提取所述语音数据包中的发送方标识信白 匹配单元,用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项;声紋特征提取单元,用于在所述发送方标识信息在所述黑名单数据 库和白名单数据库中不存在匹配项时,获取所述语音数据包的声紋特征;声紋特征匹配单元,用于将所述声紋特征在所述垃圾语音声紋特征 库中进行匹配,若获得匹配项,则触发黑名单添加单元;若未获得匹配 项,则触发灰名单标识单元;黑名单添加单元,用于将所述发送方标识信息添加至所述黑名单数 据库中;灰名单标识单元,用于对所述发送方标识信息添加灰名单标签。优选的,所述语音数据获取单元包括用于接收并緩存语音数据包的 緩存子单元,所述系统还包括转移单元,用于将所述具有灰名单标签的发送方标识信息发送的语 音数据包,从緩存转移至接收方。优选的,所述语音数据获取单元包括接收方请求子单元,用于向发送方发起语音数据获取请求;发送方发送子单元,用于依据该请求向接收方发送语音数据包;所述的系统还包括接收方接收单元,用于接收所述具有灰名单标签的发送方发送的语 音数据包。优选的,所述语音数据获取单元还包括计时子单元,用于在向发送方发起语音数据获取请求的同时启动计 时器,监控是否超过预置时间阈值,若超过预置时间阈值,则触发黑名单添加单元。优选的,所述的系统,还包括数据库更新单元,用于依据接收方的垃圾语音鉴别信息,将所述具 有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。 优选的,所述的系统,还包括声紋特征库添加单元,用于提取所述黑名单数据库中发送方所发语 音数据包的声紋特征,添加至垃圾语音声紋特征库。 优选的,所述的系统,还包括灰名单数据库,用于存储所述具有灰名单标签的发送方标识信息。 优选的,所述的系统,还包括过滤单元,用于在所述发送方标识信息在所述黑名单数据库存在匹 配项时,过滤所述语音数据包;保留单元,用于在所述发送方标识信息在所述白名单数据库存在匹 配项时,接收所述语音数据包。优选的,所述系统位于服务器端或客户端。本发明实施例还公开了一种语音邮件系统,包括接口判断模块,用于接收并緩存语音邮件,并判断所述语音邮件的 发送方是否为新用户,若是,则触发垃圾语音过滤组件;所述垃圾语音过滤组件包括发送方标识提取模块,用于提取所述语音邮件中的发送方标识信息; 匹配模块,用于判断所述发送方标识信息在所述黑名单用户列表和白名单用户列表中是否存在匹配项;声紋特征提取模块,用于在所述发送方标识信息在所述黑名单用户列表和白名单用户列表中不存在匹配项时,获取所述语音数据包的声紋特征;声紋特征匹配模块,用于将所述声紋特征在所述垃圾语音声紋特征 库中进行匹配,若获得匹配项,则触发黑名单添加模块;若未获得匹配 项,则触发灰名单标识模块;黑名单添加模块,用于将所述发送方标识信息添加至所述黑名单用 户列表中;灰名单标识模块,用于对所述发送方标识信息添加灰名单标签。 优选的,所述的系统还包括老用户邮件处理组件,所述老用户邮件处理组件包括鉴别模块,用于在所述接口判断模块判断所述语音邮件的发送方为 老用户时,鉴别所述老用户发送的语音邮件是否为垃圾邮件;如果是, 则触发所述黑名单添加模块和声紋特征库添加模块;如果否,则触发白 名单添加模块;声紋特征库添加模块,用于提取所述老用户所发语音数据包的声紋 特征,添加至垃圾语音声紋特征库。白名单添加模块,用于将所述老用户的标识信息添加至所述白名单 用户列表中。优选的,所述的系统,还包括转移模块,用于将所述具有灰名单标签的发送方标识信息发送的语 音数据包,从緩存转移至邮件接收方。本发明实施例还公开了 一种基于信令交互的垃圾语音过滤装置,包括接收方请求模块,用于向发送方发起语音数据获取请求; 发送方发送模块,用于依据该请求向接收方发送语音数据包; 发送方标识提取模块,用于提取所述语音数据包中的发送方标识信台 匹配模块,用于判断所述发送方标识信息在所述黑名单数据库和白 名单数据库中是否存在匹配项;声紋特征提取模块,用于在所述发送方标识信息在所述黑名单数据 库和白名单数据库中不存在匹配项时,获取所述语音数据包的声紋特征;声紋特征匹配单元,用于将所述声紋特征在所述垃圾语音声紋特征 库中进行匹配,若获得匹配项,则触发黑名单添加单元;若未获得匹配 项,则触发灰名单标识单元;黑名单添加单元,用于将所述发送方标识信息添加至所述黑名单数 据库中;灰名单标识单元,用于对所述发送方标识信息添加灰名单标签。12优选的,所述的装置,还包括计时子单元,用于在向发送方发起语音数据获取请求的同时启动计 时器,监控是否超过预置时间阈值,若超过预置时间阈值,则触发黑名单添加单元。优选的,所述的装置,还包括接收方接收单元,用于接收所述具有灰名单标签的发送方发送的语 音数据包。与现有技术相比,本发明实施例具有以下优点首先,本发明通过对既不属于黑名单用户,也不属于白名单用户的 发送方所发送的语音数据包进行声紋检测,判断是否为垃圾语音,从语 音内容上对垃圾语音进行防范,提高垃圾语音的识别率,并能避免垃圾 语音消息语义级别翻译所造成的复杂度,获得了实时的效果。再者,本发明利用声紋特征的唯一性进行垃圾语音识别,能够有效 防止基于身份伪造和篡改的垃圾语音攻击,具有更普遍的适用性和有效 性。此外,本发明的垃圾语音过滤可以在接收方接收语音数据包前过滤, 也可以在接收方接收语音数据包后过滤,可以适用于实际中的各种应用 情形,具有很好的通用性。最后,本发明对于服务提供商来说,技术实现简单,无技术障碍, 无特殊保密算法,成本和风险较低。


图1是本发明的一种垃圾语音的过滤方法实施例1的流程图;.图2是本发明的一种垃圾语音的过滤方法实施例2的流程图;图3是本发明的一种垃圾语音的过滤方法实施例3的流程图;图4是本发明的一种垃圾语音的过滤方法实施例4的流程图;图5是本发明的一种垃圾语音的过滤系统实施例1的结构框图;图6是本发明的 一 种语音邮件系统实施例的结构框图;图7是应用图6所示的优选实施例进行邮件处理的流程图;图8是本发明的一种基于信令交互的垃圾语音过滤装置实施例的结构框图;图9是应用图8所示的优选实施例进行垃圾语音过滤的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合 附图和具体实施方式
对本发明作进一步详细的说明。本发明可用于众多通用或专用的计算系统环境或配置中。例如个 人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处 理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网 络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计 算环境等等。本发明可以在由计算机执行的计算机可执行指令的 一般上下文中描 述,例如程序模块。 一般地,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布 式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络 而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块 可以位于包括存储设备在内的本地和远程计算机存储介质中。本发明实施例的核心构思之一在于,将IP语音的声紋特征过滤方式 与改进的黑白名单控制机制相结合,来完成语音数据包的分类和处理。 设计核心在于,在发送方既不属于黑名单用户,也不属于白名单用户的 情况下,采用对其语音信息通过声紋特征提取及匹配的方法,对垃圾语 音进行过滤,从垃圾语音的内容程度上对其进行防范。从而避免垃圾语 音消息语义级别翻译所造成的复杂度,达到实时的效果。且利用声紋特 征的唯一性,能够有效防止基于身份伪造和篡改的垃圾语音攻击,因此 具有更普遍的适用性和有效性。参考图1,示出了本发明的一种垃圾语音的过滤方法实施例1的流程 图,可以包括以下步骤步骤IOI、获取语音数据包,提取所述语音数据包中的发送方标识信息;步骤102、若所述发送方标识信息在预置的黑名单数据库和白名单数 据库中不存在匹配项,则获取所述语音数据包的声紋特征;
步骤103、将所述声紋特征在预置的垃圾语音声紋特征库中进行匹 配,若存在匹配项,则执行步骤104;若不存在匹配项,则执行步骤105;
步骤104、将所述发送方标识信息添加至所述黑名单数据库中;
步骤105、对所述发送方标识信息添加灰名单标签。
由于网络上可用的每种资源,例如,HTML文档、图像、视频片段、 程序等,都可以通过一个通用资源标志符(Universal Resource Identifier, URI)进行定位,因而所述标识信息可以为URI。在这种情况下,所述黑 名单数据库与白名单数据库可以由黑名单URI列表或白名单URI列表构 成。在判断发送方标识信息在预置的黑名单数据库和白名单数据库中是 否存在匹配项时,则可以判断邮件发送者的URI,是否全部或部分与黑 名单URI列表和白名单URI列表中的某个URI匹配,如果是,则为存在 匹配项;否则为不存在匹配项。当然,以上但J叉作为一种示例,本领i或 技术人员采用任一种用户标识信息按照任一 匹配规则进行处理都是可行 的,本发明对此无需作出限定。
如果发送方的标识信息在黑名单数据库中不存在匹配项,在白名单 数据库中也不存在匹配项,则需要对该发送方所发送的语音数据包进行 声紋检测。进行声紋检测的主要目的在于,判断该用户是否为已有的黑 名单用户通过篡改、伪造呼叫用户URI的方式对被叫用户进行重复骚扰, 从而避免这种伪造身份的用户首次呼叫的攻击。
所谓声紋(Voiceprint),是用电声学仪器显示的、携带言语信息的声 波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生 理物理过程,人在讲话时使用的发声器官-舌、牙齿、喉头、肺、鼻腔在 尺寸和形态方面每个人的差异很大,所以任何两个人的声紋图i普都有差 异。声紋识别有两个关键问题, 一是声紋特征提取,二是声紋模式匹配。 (一)声紋特征提取
声紋特征提取的任务是提取并选择对语音数据的声紋具有可分性 强、稳定性高等特性的声学或语言特征。该特征能有效地区分不同说话 人的语音数据,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和声紋识别系统性能的评价问题。目前主要对 较低层次的声学特征进行识别。说话人特征大体归为以下几类
1. 基音轮廓、共振峰频率带宽及其轨迹。基于发声器官生理结构提 取的特征参数。
2. 谱包络参数。声音通过滤波器组输出,并以合适的速率对输出抽
样作为声紋识别特征。
3,听觉特性参数。模拟人耳对声音频率感知特性而提出的,如美倒 谱系数、感知线性预测等。
4.线性预测系数。线性预测与声道参数模型相符合,由它导出的各 种参数,如反射系数、自相关系数、线性预测系数等作为识别特征,效 果较好。
(二)声紋模式匹配
目前常用的匹配方式包括
1. 矢量量化。通过把每个人的特定文本编成码本,识别时将测试文 本按此码本进行编码,以量化产生的失真度作为判决标准。其识别精度 较高,判断速度较快。
2. 概率统计。考虑到短时间内声音信息相对平稳,通过对稳态特征 如基音、声门增益、低队反射系数的统计分析,利用均值、方差等统计 量和概率密度函数进行判决。其优点是不用对特征参量在时域上进行规 整,适合文本无关的说^舌人识别。
3. 动态时间规整。说话人声音信息既有稳定的因素如发声习惯、发 声器官结构,又有时变的因素如请速、语调、重音、韵律等。将识别模 板与参考模板进行时间.对比,并按照某种距离测定得出两模板间的相似 程度。常用方法是基于最近邻原则的动态对间规整DTW。
4. 人工神经网络。这种分布式并行处理结构的网络模型在某种程度 上模拟生物感知特性,具有自组织和自学习能力、很强的复杂分类边界 区分能力,及对不完全信息的鲁棒性,其性能近似理想的分类器。缺点 是训练时间长、动态时间规整能力弱,且网络规模可能随说话人数目增 加到难以训练的程度。
5. 隐马尔可夫模型。这种基于转移概率和传输概率的随机模型,最早被美国的IBM公司用于声音识别。它把声音看成由可观察到的符号序
列组成的随机过程,该序列是发声系统状态序列的输出。识别时,为每 个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概 率矩阵。具体应用时,计算未知声音在状态转移过程中最大概率,根据 最大概率对应的模型进行判决。它不需时间规整,可节约判决的计算时 间和存储量。这是目前广泛采用的一种技术,其缺点是训练时的计算量 较大。
优选的,本发明的声紋;险测过程可以包括以下子步骤
子步骤A1、提取语音数据包的声紋特征,所述声紋特征包括线性
预测倒谱系数LPCC以及美尔倒数谱MFCC 。
具体地,序列的傅氏变换取复对数后的傅氏反变换结果称为复倒谱。如果将序列的傅氏变换的模取对数后再计算傅氏反变换,得到的序列称
为原序列的倒谱(Cepstmm)。所述LPCC倒谱系数的提取过程为 al、将原始语音信号切割成多个独立帧(frame); a2、对每帧语音信号通过一阶高通滤波器进行预加重处理; a3、将预加重后的取样值进行加窗处理,通常为对取样值乘以一个汉
明窗;
a4、利用Durbin轮回程序求出线性预估系数LPC; a5 、利用线性预估系数求出倒频谱系数LPCC; a6、计算差分LPCC; a7、输出保存。
Mel倒谱是说话人识别中另 一个最常用的声紋特征参量,其计算是基 于语音信号的滤波器组分析。 -所述Mel倒i普的提取过程为
bl、原始语音信号s(n)经过预加重、分帧、加窗等处理,得到每个语 音帧的时域信号x(n);
b2、将时域信号x(n)后补若干0以形成长为N(—般取N=512)的 序列,然后经过离散傅立叶变换(DFT)后得到线性频谱X(k),转换公式 为<formula>formula see original document page 18</formula>
b3、将上述线性频谱X(k)通过Mel频率滤波器组得到Mel频谦并 通过对数能量的处理,得到对数频谱S(m)。
<formula>formula see original document page 18</formula>
b4、将上述对数频谦S(m)经过离散余弦变换(DCT)变换到倒频语域, 即可得到Mel频率倒谱系数(MFCC参数)c(n),
<formula>formula see original document page 18</formula>
子步骤A2、采用混合高斯模型GMM以及矢量量化(VQ)方法对上 述声紋特征进行建模以及匹配。
具体地,基于矢量量化的声紋特征处理方法为
矢量量化用于声紋识别,是将说话人的语音作为信源,利用矢量量 化技术对其建模,由训练n维特征参数序列聚类,生成矢量量化码书, 建立说话人和码书——对应的关系;在辨别时,用所有的码书对测试的 特征序列进行编码,计算平均失真进行比较,取失真最小的码书对应的 说话人为辨别结果;在鉴别时,则取测试者声明的身份所对应的码书对 测试特征序列进行失真度计算,与失真阈值比较,若大于则接受,否则 拒绝。
例如,设X={xl, x2,…,xT》是灰名单用户的特征矢量,共有T 帧。在训练阶段所形成的码书为{Bl, B2,…,BN}(N表示黑名单用 户数目)。则对于灰名单用户声紋匹配的具体步骤如下
cl、设i二l根据第i个码书Bi依据最小距离原则对X进行聚类,即 求出
附G似 J
其中j表示X中第j (j=l, 2,…,T)帧的特征向量,m表示第i 个说话人的第m个码字,共有M个码字,d为欧氏距离测度。
c2、按照平均失真测度J j'=1 —— 计算X到第i个码书的平均失真距离Di。如果小于某一阈值,则予以确认,否则拒绝,执
行步骤c3;
c3、 i=i+l,计算D(i+l),直到i=N,求出所有的D1, D2,…,DN。
本发明中使用的码书设计算法可以为LBG算法,LBG算法是一个迭
代的算法,其基本思想是在每次迭代时都用最小距离准则对训练样本重
新分类,使每次迭代后总的量化失真减小。例如,可以包括以下步骤 Stepl:设置量化失真阀值s、初始量化失真d(o)及最大迭代次数Max
以及码字初值 7(j=l,…,M); Step2:设迭代次数m二l;
《附) 《附)
Step3:以码字为中心,根据最近邻准则将Y分成M类1 ,''" M , 若d(yi , 7) ^ d(yi , ) V/t #7则把yi归入^ ,且
其中,上标m表示迭代次数。距离d(.)表示某种距离度量, 一般可 以采用欧氏距离。
Step4:计算总量化失真d;
Step5:计算量化失真改进量A" 的相对值,其中 —l^)—^-1) I ^ 。
基于混合高斯模型的声紋特征处理方法为
在基于GMM的说话人识别系统中,训练阶段首先用高斯混合模型
为系统中的每个说话人建立概率模型;在识别阶段,利用系统中所有人
的GMM模型计算待识别矢量集的对数似然函数,根据最大似然准则作
出判决。基于GMM模型的说话人辨识系统结构框图如图5所示。
GMM以M个垃圾语音发送者的密度函数的加权和表示,
卓|义)=2>,;|>,1 ^m
'=1 '=1。其中X是D维随机向量,A ;表示为成员密度;z'表示混合权重。每个成员密度是一个D维变量的高<formula>formula see original document page 20</formula> 斯分布函数,为 训练阶段首先用高斯混合模型为系统中的每个说话人建立概率模型;在识别阶段,利用系统中所有人的GMM模型计算待识别矢量集的对数似然函数,根据最大似然准则作出判决。dl、将原始声音信号经过声紋特征提取得到声紋特征序列X;d2、将声紋特征序列X输入混合高斯模型GMM中,寻找黑名单用户i*,其对应的模型2 ,可以使待测语音特征矢量组X具有最大后验概率I I ),且该最大后验概率大于门限值,则判定为垃圾 语音发送者。当然,本领域技术人员采用任一种声紋检测的方法都是可行的,本 发明对此不作限制。当^r测出声紋特征在预置的垃圾语音声紋特征库中存在匹配项时, 则可以判定该发送方属于黑名单用户,所以需要将所述发送方标识信息 添加至黑名单数据库中;当检测出声紋特征在预置的垃圾语音声紋特征 库中不存在匹配项时,则可以判定该发送方发送的是有效信息,但对于 其是否为白名单用户,最好是由经过进一步鉴别后再将其添加至白名单 数据库,所以暂时只对该发送方标识信息添加灰名单标签。可以理解,所述垃圾语音声紋特征库中至少包含所有黑名单用户发 送过的语音数据包的声紋特征。在这种情况下易于得知,所述垃圾语音 声紋特征库的生成和更新方法可以为提取所述黑名单数据库中发送方 所发语音数据包的声紋特征,添加至垃圾语音声紋特征库。优选的,在本实施例中,还可以依据^接收方的垃圾语音鉴别信息, 将所述具有灰名单标签的发送方标识信息添加至黑名单数据库或白名单别的情形,例如,尽管当前发送方用户依据上述流程被添加灰名单标签, 但接收方用户仍认为其发送的内容是不想要获得的内容,那么,则可以 判定该发送方是垃圾语音发送方,在这种情况下,就将该发送方URI添加至黑名单数据库;反之,在用户鉴别当前发送方用户为合法语音发送 方的情况下,就可以将发送方URI添加至白名单数据库。筒而言之,本 发明还可以依据用户针对具有灰名单标签的发送方标识信息的,垃圾语音发起者或合法语音发起者的鉴别,将相应的发送方标识信息添加至黑 名单数据库或白名单数据库中。优选的是,在将垃圾语音发起者的发送方标识信息添加至黑名单数 据库的同时,还可以提取其所发送语音数据包的声紋特征,添加至垃圾 语音声紋特征库,以实时更新所述垃圾语音声紋特征库。参考图2,示出了本发明的一种垃圾语音的过滤方法实施例2的流程 图,可以包括以下步骤步骤201、获取语音数据包,提取所述语音数据包中的发送方标识信息;在实际中,所述语音数据包的获取为可以从VoIP网络中实时获取。 步骤202、判断所述发送方标识信息在所述黑名单数据库是否存在匹 配项,如果是,则执行步骤203;如果否,则执行步骤204; 步骤203、过滤所述语音数据包;步骤204、判断所述发送方标识信息在所述白名单数据库是否存在匹 配项;如果是,则执行步骤205;如果否,则执行步骤206; 步骤205、接收所述语音数据包; 步骤206、获取所述语音数据包的声紋特征;步骤207、将所述声紋特征在预置的垃圾语音声紋特征库中进行匹 配,若存在匹配项,则执行步骤208;若不存在匹配项,则执行步骤209; 步骤208、将所述发送方标识信息添加至所述黑名单数据库中; 步骤209、对所述发送方标识信息添加灰名单标签。参考图3,示出了本发明的一种垃圾语音的过滤方法实施例3的流程 图,可以包括以下步骤步骤301、接收并缓存语音数据包,提取所述语音数据包中的发送方 标识信息;步骤302、若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项,则获取所述语音数据包的声紋特征;步骤303、将所述声紋特征在预置的垃圾语音声紋特征库中进行匹配,若存在匹配项,则执行步骤304;若不存在匹配项,则执行步骤305; 步骤304、将所述发送方标识信息添加至所述黑名单数据库中; 步骤305、对所述发送方标识信息添加灰名单标签; 步骤306、将所述具有灰名单标签的发送方标识信息发送的语音数据包,从緩存转移至接收方。其中,所述接收方标识信息可以从所述语音数据包中获得,在实际中,为满足传输需求,语音数据包中都会包含相应的发送方和接收方的标识信息。参考图4,示出了本发明的一种垃圾语音的过滤方法实施例4的流程 图,可以包括以下步骤步骤401、接收方向发送方发起语音数据获取请求,发送方依据该请 求向接收方发送语音lt据包;步骤402、从所述语音数据包中提取发送方标识信息,判断所述发送 方标识信息在预置的黑名单数据库和白名单数据库中是否存在匹配项; 若所述发送方标识信息在所述黑名单数据库存在匹配项,则过滤所述语 音数据包;若所述发送方标识信息在所述白名单数据库存在匹配项,则 接收所述语音数据包;若所述发送方标识信息在预置的黑名单数据库和 白名单数据库中不存在匹配项,则执行步骤403;步骤403、获取所述语音数据包的声紋特征;步骤404、将所述声紋特征在预置的垃圾语音声紋特征库中进行匹 配,若存在匹配项,则执行步骤405;若不存在匹配项,则执行步骤406; 步骤405、将所述发送方标识信息添加至所述黑名单数据库中; 步骤406、对所述发送方标识信息添加灰名单标签; 步骤407、所述接收方接收所述具有灰名单标签的发送方发送的语音 数据包。优选的,本实施例还可包括以下步骤语音数据获取请求的同时启动计时程序,监控是否超过预置时间阈值;若超过预置时间阔值,则执行步骤405。在本发明的方法实施例中,还可以包括将所述具有灰名单标签的发 送方标识信息整理至灰名单数据库中的步骤,以便于后续应用。需要说明的是,在本发明的实施例中,对各个实施例的描述都各有 侧重,每个实施例重点说明的都是与其他实施例的不同之处,某个实施 例中没有详述的部分,参见其他实施例的相关描述即可。再者,对于前 述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合, 但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制, 因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本 领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例, 所涉及的动作和模块并不 一 定是本发明所必须的。参考图5,示出了本发明的一种垃圾语音的过滤系统实施例1的结构 框图,所述过滤系统可以包括用于存储黑名单用户标识信息的黑名单数 据库、用于存储白名单用户标识信息的白名单数据库和用于存储垃圾语 音声紋特征的垃圾语音声紋特征库,所述的过滤系统还可以包括以下单 元语音数据获取单元501,用于获取语音数据包; 发送方标识提取单元502,用于提耳又所述语音数据包中的发送方标识 信息;黑白名单匹配单元503,用于判断所述发送方标识信息在所述黑名单 数据库和白名单数据库中是否存在匹配项;声紋特征提取单元504,用于在所述发送方标识信息在所述黑名单数 据库和白名单数据库中不存在匹配项时,获取所述语音数据包的声紋特 征;可以理解的是,若所述发送方标识信息在所述黑名单数据库和白名 单数据库中存在匹配项时,还可以按照现有技术中的黑/白名单处理机制 进行处理,本发明对此不作限制。声紋特征匹配单元505,用于将所述声紋特征在所述垃圾语音声紋特触发黑名单添加单元506;若未获得 匹配项,则触发灰名单标识单元507;黑名单添加单元506,用于将所述发送方标识信息添加至所述黑名单 数据库中;灰名单标识单元507,用于对所述发送方标识信息添加灰名单标签。 应用所述系统实施例1进行垃圾语音过滤的过程可以对应前述方法实施例1的描述,在此就不赘述了。作为本发明的一种垃圾语音的过滤系统实施例2,所述语音数据获取单元可以包括用于接收并緩存语音数据包的緩存子单元,在这种情况下,所述系统还可以包括以下单元转移单元,用于将所述具有灰名单标签的发送方标识信息发送的语音数据包,从缓存转移至接收方。应用所述系统实施例2进行垃圾语音过滤的过程可以对应前述方法实施例3的描述,在此就不赘述了 。作为本发明的一种垃圾语音的过滤系统实施例3,所述语音数据获取单元可以包括以下子单元接收方请求子单元,用于向发送方发起语音数据获取请求; 发送方发送子单元,用于依据该请求向接收方发送语音数据包; 在这种情况下,所述的系统还可以包括接收方接收单元,用于接收所述具有灰名单标签的发送方发送的语音数据包。在本实施例3中,所述语音数据获取单元还可以包括 计时子单元,用于在向发送方发起语音数据获取请求的同时启动计对器,监控是否超过预置时间阈值,若超过预置时间阈值,则触发黑名单添力口单元。应用所述系统实施例3进行垃圾语音过滤的过程可以对应前述方法 实施例4的描述,在此就不赘述了。优选的,在本发明的系统实施例中,还可以包括以下单元数据库更新单元,用于依据接收方的垃圾语音鉴别信息,将所述具 有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。和/或,声紋特征库添加单元,用于提取所述黑名单数据库中发送方所发语 音数据包的声紋特征,添加至垃圾语音声紋特征库。 和/或,灰名单数据库,用于存储所述具有灰名单标签的发送方标识信息。 和/或,过滤单元,用于在所述发送方标识信息在所述黑名单数据库存在匹配项时,过滤所述语音数据包;保留单元,用于在所述发送方标识信息在所述白名单数据库存在匹 配项时,接收所述语音数据包。在实际应用中,可以所述系统设置于服务器端,也可以设置于客户 端,本发明对此不作限制。对于系统实施例而言,由于其基本相应于方法实施例,所以描述的 比较简单,相关之处可以参见方法实施例的部分说明。本领域技术人员 易于想到的是上述实施例中相应单元的任意组合应用都是可行的,都 是本发明的实施方案,但是由于篇幅限制,本说明书在此就不——详述 了。参考图6,示出了本发明的一种语音邮件系统实施例的结构框图,可 以包括以下才莫块接口判断模块601,用于接收并緩存语音邮件,并判断所述语音邮件 的发送方是否为新用户,若是,则触发垃圾语音过滤组件602; 所述垃:敗语音过滤组件可以包括发送方标识提取模块,用于提取所述语音邮件中的发送方标识信息; 黑白名单匹配模块,用于判断所述发送方标识信息在所述黑名单用户列表和白名单用户列表中是否存在匹配项;声紋特征提取模块,用于在所述发送方标识信息在所述黑名单用户列表和白名单用户列表中不存在匹配项时,获取所述语音数据包的声紋特征;可以理解的是,若所述发送方标识信息在所述黑名单数据库和白名 单数据库中存在匹配项时,还可以按照现有技术中的黑/白名单处理机制进行处理,本发明对此不作限制。声紋特征匹配模块,用于将所述声紋特征在所述垃圾语音声紋特征库中进行匹配,若获得匹配项,则触发黑名单添加模块;若未获得匹配 项,则触发灰名单标识模块;黑名单添加模块,用于将所述发送方标识信息添加至所述黑名单用 户列表中;灰名单标识模块,用于对所述发送方标识信息添加灰名单标签。 优选的,所述语音邮件系统还可以包4舌老用户邮件处理组件603,所述老用户邮件处理组件可以包括以下模块鉴别模块,用于在所述接口判断模块判断所述语音邮件的发送方为老用户时,鉴别所述老用户发送的语音邮件是否为垃圾邮件;如果是,则触发所述黑名单添加模块和声紋特征库添加模块;如果否,则触发白 名单添加模块;声紋特征库添加模块,用于提取所述老用户所发语音数据包的声紋 特征,添加至垃圾语音声紋特征库。白名单添加模块,用于将所述老用户的标识信息添加至所述白名单 用户列表中。优选的,所述语音邮件系统还可以包括转移模块,用于将所述具有 灰名单标签的发送方标识信息发送的语音数据包,从緩存转移至邮件接 收方。在实际中,可以将所述垃圾语音过滤组件作为插件添加至服务器中,圾语音邮件进行防范。再者,应用本实施例的服务器还可以根据鉴别模 块的处理对于语音邮件的反馈,提供垃圾语音声紋库与黑白名单的修改。 优选的,所述鉴别模块可设置在邮箱客户端。可以看出,所述语音邮件系统中定义了两种消息,第一种为新用户 发送的语音邮件的提示信息,如果邮件系统接收到新用户发送的语音邮 件,则调用垃圾语音过滤组件进行处理;如果邮件系统接收到老用户发 送的语音邮件,则调用老用户处理组件进行处理。参考图7,示出了应用 图6所示的优选实施例进行邮件处理的流程图,具体可以包括以下步骤步骤701、接口判断模块接收并緩存语音邮件,并判断所述语音邮件 的发送方是否为新用户,若是,则触发垃圾语音过滤组件执行步骤702—708;若否,则触发鉴别模块执行步骤709—711;步骤702、发送方标识提取模块提取所述语音邮件中的发送方标识信 息和接收方标识信息;步骤703、黑白名单匹配模块于判断所述发送方标识信息在所述黑名 单用户列表和白名单用户列表中是否存在匹配项;若所述发送方标识信 息在所述黑名单数据库存在匹配项,则过滤所述语音数据包;若所述发 送方标识信息在所述白名单数据库存在匹配项,则接收所述语音数据包; 若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在 匹配项,则执行步骤704;步骤704、声紋特征提取模块获取所述语音数据包的声紋特征;步骤705、声紋特征匹配模块将所述声纹特征在所述垃圾语音声紋特 征库中进行匹配,若获得匹配项,则触发黑名单添加模块执行步骤706; 若未获得匹配项,则触发灰名单标识模块执行步骤707;步骤706、黑名单添加模块将所述发送方标识信息添加至所述黑名单 用户列表中;步骤707、灰名单标识模块对所述发送方标识信息添加灰名单标签。步骤708、转移模块将所述具有灰名单标签的发送方标识信息发送的 语音数据包,从緩存转移至邮件接收方。鉴别模块主要通过对发送语音邮件的老用户进行鉴别,从而对已有 的黑白灰名单用户以及垃圾语音声紋特征库进行修改。,步骤709、鉴别模块鉴别所述老用户发送的语音邮件是否为垃圾邮 件;如果是,则触发所述黑名单添加模块和声紋特征库添加模块执行步 骤710;如果否,则触发白名单添加模块执行步骤711;步骤710、黑名单添加模块将所述老用户的标识信息添加至所述黑名 单用户列表中,声紋特征库添加模块提取所述老用户所发语音数据包的 声紋特征,添加至垃圾语音声紋特征库;步骤711 、白名单添加模块将所述老用户的标识信息添加至所述白名 单用户列表中。采用本发明的语音邮件系统,可以有效防止通过篡改、伪造发送方URI方式的垃圾语音邮件的传播,由于在垃圾语音声紋特征库中添加了 所有被识别为垃圾语音的声紋特征,因此,仅通过更改发送方URI方式 的垃圾语音邮件将无法达到垃圾语音传播的目的。并且,所述语音邮件 系统实施例还可以应用于客户端,从而到达更细粒度级别上的垃》及语音 防范。基于声纹信息的唯一性,本发明还可以通过将声紋鉴别引入信令交 互流程,达到从源头上防范垃圾语音传播的目的。参考图8,示出了本发 明的一种基于信令交互的垃圾语音过滤装置实施例的结构框图,由于信 令交互过程中并没有发送方的多媒体数据流,因此,在判断发送方URI 时,需要在声纹特征获取过程中向发送方发起声紋获取请求,等待发送 方发送含有IP语音的数据包后,再进行声紋特征提取,具体可以包括以 下模块接收方请求模块801,用于向发送方发起语音数据获取请求; 发送方发送模块802,用于依据该请求向接收方发送语音数据包; 发送方标识提取模块803,用于提取所述语音数据包中的发送方标识 信息;黑白名单匹配模块804,用于判断所述发送方标识信息在所述黑名单 数据库和白名单数据库中是否存在匹配项;声紋特征提取模块805,用于在所述发送方标识信息在所述黑名单数 据库和白名单数据库中不存在匹配项时,获取所述语音数据包的声紋特征;可以理解的是,若所述发送方标识信息在所述黑名单数据库和白名 单数据库中存在匹配项时,还可以按照现有技术中的黑/白名单处理机制 进行处理,本发明对此不作限制。声紋特征匹配模块806,用于将所述声紋特征在所述垃圾语音声紋特 征库中进行匹配,若获得匹配项,则触发黑名单添加模块807;若未获得 匹配项,则触发灰名单标识才莫块808;黑名单添加模块807,用于将所述发送方标识信息添加至所述黑名单 数据库中;灰名单标识模块808,用于对所述发送方标识信息添加灰名单标签。 优选的,在本实施例中,还可以包括计时子单元,用于在向发送方发起语音数据获取请求的同时启动计 时器,监控是否超过预置时间阈值,若超过预置时间阈值,则触发黑名 单添加单元。优选的,在本实施例中,还可以包括接收方接收单元,用于接收所述具有灰名单标签的发送方发送的语 音数据包。在实施例,所述装置可以设置于服务器端。参考图9,示出了应用图8所示的优选实施例进行垃圾语音过滤的流 程图,具体可以包括以下步骤步骤9011、接收方请求模块向发送方发起语音数据获取请求,并执 行步骤9012;步骤9012、通过计时子单元在向发送方发起语音数据获取请求的同 时启动计时器,监控是否超过预置时间阈值,若超过预置时间阈值,则 直接触发黑名单添加单元执行步骤907;步骤902、发送方发送模块依据该请求向接收方发送语音数据包; 步骤903、发送方标识提取模块提取所述语音数据包中的发送方标识 4吕息;步骤904、黑白名单匹配模块判断所述发送方标识信息在所述黑名单 数据库和白名单数据库中是否存在匹配项,如果不存在,则触发声紋特 征提取模块执行步骤905;可以理解的是,若所述发送方标识信息在所述黑名单数据库和白名 单数据库中存在匹配项时,还可以按照现有技术中的黑/白名单处理机制 进行处理,本发明对此不作限制。步骤905、声紋特征提取模块获取所述语音数据包的声紋特征;步骤906、声紋特征匹配单元将所述声紋特征在所述垃圾语音声紋特 征库中进行匹配,若获得匹配项,则触发黑名单添加单元执行步骤907; 若未获得匹配项,则触发灰名单标识单元执行步骤908;步骤907、黑名单添加单元将所述发送方标识信息添加至所述黑名单数据库中;步骤908、灰名单标识单元对所述发送方标识信息添加灰名单标签; 步骤909、 语音数据包。实施例重点说明的都是与其他实施例的不同之处。需要说明的是,在本文中,术语"包括"、"包含"或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、装 置或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、方法、装置或者系统所固有的要素。在没有 更多限制的情况下,由语句"包括一个......"限定的要素,并不排除在包括所述要素的过程、方法、装置或者系统中还存在另外的相同要素。以上对本发明所提供的 一 种垃圾语音过滤的方法、 一 种垃圾语音过 滤的系统、 一种语音邮件系统及一种基于信令交互的垃圾语音过滤装置行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心 思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体 实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应 理解为对本发明的限制。
权利要求
1、一种垃圾语音的过滤方法,其特征在于,包括获取语音数据包,提取所述语音数据包中的发送方标识信息;若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项,则获取所述语音数据包的声纹特征;将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配,若存在匹配项,则将所述发送方标识信息添加至所述黑名单数据库中;否则,对所述发送方标识信息添加灰名单标签。
2、 如权利要求l所述的方法,其特征在于,所述获取语音数据包为 接收并緩存语音数据包,所述的方法还包括将所述具有灰名单标签的发送方标识信息发送的语音数据包,从緩 存转移至接收方。
3、 如权利要求l所述的方法,其特征在于,所述获取语音数据包的 步骤包括接收方向发送方发起语音数据获取请求,发送方依据该请求 向接收方发送语音数据包;所述的方法还包括
4、 如权利要求3所述的方法,其特征在于,所述获取语音数据包的 步骤还包括接收方在向发送方发起语音数据获取请求的同时启动计时 程序,监控是否超过预置时间阈值;所述的方法还包括若超过预置时间阈值,则将所述发送方标识信息添加至所述黑名单 数据库中。
5、 如权利要求l、 2或3所述的方法,其特征在于,还包括 依据接收方的垃圾语音鉴别信息将所述具有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。
6、 如权利要求5所述的方法,其特征在于,还包括提取所述黑名单数据库中发送方所发语音数据包的声紋特征,添加 至垃圾语音声紋特征库。
7、 如权利要求l所述的方法,其特征在于,所述语音数据包的获取为从VoIP网络中实时获取。
8、 如权利要求l所述的方法,其特征在于,还包括 所述具有灰名单标签的发送方标识信息形成灰名单数据库。
9、 如权利要求l所述的方法,其特征在于,还包括 若所述发送方标识信息在所述黑名单数据库存在匹配项,则过滤所述语音数据包;若所述发送方标识信息在所述白名单数据库存在匹配项,则接收所 述语音数据包。
10、 一种垃圾语音的过滤系统,其特征在于,所述过滤系统包括用 于存储黑名单用户标识信息的黑名单数据库、用于存储白名单用户标识 信息的白名单数据库、以及用于存储垃圾语音声紋特征的垃圾语音声紋 特征库,所述的过滤系统还包括语音数据获取单元,用于获取语音数据包;发送方标识提取单元,用于提取所述语音数据包中的发送方标识信自.匹配单元,用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项;声紋特征提取单元,用于在所述发送方标识信息在所述黑名单数据 库和白名单数据库中不存在匹配项时,获取所述语音数据包的声紋特征;声紋特征匹配单元,用于将所述声紋特征在所述垃圾语音声紋特征 库中进行匹配,若获得匹配项,则触发黑名单添加单元;若未获得匹配 项,则触发灰名单标识单元;黑名单添加单元,用于将所述发送方标识信息添加至所述黑名单数 据库中;灰名单标识单元,用于对所述发送方标识信息添加灰名单标签。
11、 如权利要求IO所述的系统,其特征在于,所述语音数据获取单 元包括用于接收并緩存语音数据包的緩存子单元,所述系统还包括转移单元,用于将所述具有灰名单标签的发送方标识信息发送的语 音数据包,从緩存转移至接收方。
12、 如权利要求IO所述的系统,其特征在于,所述语音数据获取单 元包括接收方请求子单元,用于向发送方发起语音数据获取请求; 发送方发送子单元,用于依据该请求向接收方发送语音数据包; 所述的系统还包括接收方接收单元,用于接收所述具有灰名单标签的发送方发送的语 音数据包。
13、 如权利要求12所述的系统,其特征在于,所述语音数据获取单 元还包括计时子单元,用于在向发送方发起语音数据获取请求的同时启动计 时器,监控是否超过预置时间阈值,若超过预置时间阈值,则触发黑名 单添力口单元。
14、 如权利要求10、 11或12所述的系统,其特征在于,还包括 数据库更新单元,用于依据接收方的垃圾语音鉴别信息,将所述具有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。
15、 如权利要求14所述的系统,其特征在于,还包括 声紋特征库添加单元,用于提取所述黑名单数据库中发送方所发语音数据包的声紋特征,添加至垃圾语音声紋特征库。
16、 如权利要求IO所述的系统,其特征在于,还包括 灰名单数据库,用于存储所述具有灰名单标签的发送方标识信息。
17、 如权利要求10所述的系统,其特征在于,还包括 过滤单元,用于在所述发送方标识信息在所述黑名单数据库存在匹配项时,过滤所述语音数据包;保留单元,用于在所述发送方标识信息在所述白名单数据库存在匹 配项时,接收所述语音^t据包。
18、 如权利要求10所述的系统,其特征在于,所述系统位于服务器 端或客户端。
19、 一种语音邮件系统,其特征在于,包括接口判断模块,用于接收并緩存语音邮件,并判断所述语音邮件的 发送方是否为新用户,若是,则触发垃圾语音过滤组件;所述垃圾语音过滤组件包括发送方标识提取模块,用于提取所述语音邮件中的发送方标识信息; 匹配模块,用于判断所述发送方标识信息在所述黑名单用户列表和白名单用户列表中是否存在匹配项;声紋特征提取模块,用于在所述发送方标识信息在所述黑名单用户列表和白名单用户列表中不存在匹配项时,获取所述语音数据包的声紋特征;声紋特征匹配模块,用于将所述声紋特征在所述垃圾语音声紋特征 库中进行匹配,若获得匹配项,则触发黑名单添加模块;若未获得匹配 项,则触发灰名单标识模块;黑名单添加模块,用于将所述发送方标识信息添加至所述黑名单用 户列表中;灰名单标识模块,用于对所述发送方标识信息添加灰名单标签。
20、 如权利要求19所述的系统,其特征在于,还包括老用户邮件处 理组件,所述老用户邮件处理组件包括鉴别模块,用于在所述接口判断模块判断所述语音邮件的发送方为 老用户时,鉴别所述老用户发送的语音邮件是否为垃圾邮件;如果是, 则触发所述黑名单添加模块和声紋特征库添加模块;如果否,则触发白 名单添加模块;声紋特征库添加模块,用于提取所述老用户所发语音数据包的声紋 特征,添加至垃圾语音声紋特征库;白名单添加模块,用于将所述老用户的标识信息添加至所述白名单 用户列表中。
21、 如权利要求19所述的系统,其特征在于,还包括 转移模块,用于将所述具有灰名单标签的发送方标识信息发送的语音数据包,从緩存转移至邮件接收方。
22、 一种基于信令交互的垃圾语音过滤装置,其特征在于,包括 接收方请求模块,用于向发送方发起语音数据获取请求; 发送方发送模块,用于依据该请求向接收方发送语音数据包; 发送方标识提取模块,用于提取所述语音数据包中的发送方标识信匹配模块,用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项;声紋特征提取模块,用于在所述发送方标识信息在所述黑名单数据 库和白名单数据库中不存在匹配项时,获取所述语音数据包的声紋特征;声紋特征匹配单元,用于将所述声紋特征在所述垃圾语音声紋特征 库中进行匹配,若获得匹配项,则触发黑名单添加单元;若未获得匹配 项,则触发灰名单标识单元;黑名单添加单元,用于将所述发送方标识信息添加至所述黑名单数 据库中;灰名单标识单元,用于对所述发送方标识信息添加灰名单标签。
23、 如权利要求22所述的装置,其特征在于,还包括 计时子单元,用于在向发送方发起语音数据获取请求的同时启动计时器,监控是否超过预置时间阈值,若超过预置时间阈值,则触发黑名 单添力口单元。
24、 如权利要求23所述的装置,其特征在于,还包括 接收方接收单元,用于接收所述具有灰名单标签的发送方发送的语音数据包。
全文摘要
本发明公开了一种垃圾语音的过滤方法,包括获取语音数据包,提取所述语音数据包中的发送方标识信息;若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项,则获取所述语音数据包的声纹特征;将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配,若存在匹配项,则将所述发送方标识信息添加至所述黑名单数据库中;否则,对所述发送方标识信息添加灰名单标签。本发明可以简单、实时、准确地进行垃圾语音过滤,有效避免非黑/白名单用户首次呼叫的攻击,提高应用SIP协议的业务安全性。
文档编号H04M7/00GK101262524SQ20081009424
公开日2008年9月10日 申请日期2008年4月23日 优先权日2008年4月23日
发明者李大鹏, 铭 罗, 骏 胡, 闻英友, 剑 陈 申请人:沈阳东软软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1