一种垃圾短信监控的方法和系统的制作方法

文档序号:7756772阅读:138来源:国知局
专利名称:一种垃圾短信监控的方法和系统的制作方法
技术领域
本发明涉及移动通信领域中的短消息业务,尤其涉及一种基于发送者行为特征的 垃圾短信监控系统及方法。
背景技术
据统计,中国手机用户数量已超过6亿,平均每天有超过6. 5亿条短信在用户的拇 指之间传送。然而随着手机使用的普及和短信业务的迅速发展,人们享受着快捷方便的通 信手段的同时,伴随而来的却是日趋泛滥的垃圾短信。垃圾短信产生的根源在于短信的发 送成本极其低廉,而获得的广告效益却非常之高。垃圾短信不仅对运营商的网络产生冲击, 给广大用户的利益也带来了巨大的损害,更造成了严重的不良的社会影响。国外在垃圾短 信的治理上,主要通过立法和先进的技术手段来识别并处理欺诈性的信息及手机,还有一 整套的打击手机犯罪的先进技术手段。在国内,垃圾短信防控任务主要由运营商主导和负 责,通常从技术和管理上采取措施,立法方面还比较欠缺。在目前普遍采用的垃圾短信监控技术中,主要采用的是垃圾短信过滤机制。从原 理上,又可以分为黑白名单过滤、基于流量的过滤、基于关键字的内容过滤几种方式。基于 黑名单的过滤方式是将确定已知垃圾短信制造者的主叫号码,将其整理成黑名单,并部署 在短消息中心或者短信网关,就可以拒绝来自黑名单的主叫号码发送短消息。对黑名单可 以进行号段或号码的拦截。对于白名单的主叫号码不做任何形式的拦截。基于流量的过滤 方式对用户在某个时间段内的群发数量进行统计,当群发量超过预先设定的阈值时,将其 手动或自动添加到黑名单中去。基于关键字的内容过滤方式对手机内容进行关键字查询, 一旦命中,即将发送号码加入到黑名单中去。不管是基于流量的过滤方式还是基于关键字的内容过滤方式,都有其自身的弊 端。基于流量的方式很容易通过“在多个手机发送少量信息的形式”进行屏蔽,同时这种方 式在很多手机终端实现了群发功能之后容易对过节类的祝贺短信产生大量的误杀,而造成 用户的投诉率的上升。基于关键词的方法可以通过“同音词”、“错别字”、“结构拆分”、“换 词”等方式规避。目前运营商已部署了大量的垃圾监控系统,评价一个垃圾监控系统监控效果有两 个重要的指标查准率和查全率。查准率即在检测出的垃圾短信发送名单中真正为垃圾短 信发送者所占的比例;查全率为检测出的真正为垃圾短信发送者的数量占网络中实际垃圾 短信发送者数量的比例。显然,一个好的垃圾监控系统具备较高的查准率和查全率。目前 运营商已部署的基于以上传统技术或基于传统技术的改良的垃圾监控系统这两个方面的 指标都不够理想,而不得不依靠大量人力辅助检查垃圾短信。因此如何提高垃圾短信查准 率和查全率成为当前迫切需要解决的问题。

发明内容
本发明要解决的技术问题是提供一种垃圾短信监控的方法和系统,以提高垃圾短信查准率和查全率。为了解决上述技术问题,本发明提供了一种垃圾短信监控的方法,包括若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑 名单,进行垃圾短信的监控,所述预定规则至少包括若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,则将所述短 信发送者规定为垃圾短信发送者;或若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录 的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发 送者。进一步地,上述方法还具有下面特点在根据预定规则检测短信发送者为垃圾短 信发送者的步骤之前,还包括提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征 来训练出所述预定时序特征;或将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃 圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节 点之间两两相连的总边数的比值训练出所述预定值。进一步地,上述方法还具有下面特点所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤之前,还包括检测所述短信发送者在单位时间内发送短信的条数超过 阈值。进一步地,上述方法还具有下面特点所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤具体包括在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者 发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾短信发送者;或在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者 与其发送短信的所有接收者之间以有相互通信记录的对数与其两两组合的总对数的比例 小于所述预定值,则判断所述短信发送者为垃圾短信发送者。进一步地,上述方法还具有下面特点所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤之前,还包括提取所述短信发送者在当前一段时间内的短信话单;对所述短信话单进行预处理。进一步地,上述方法还具有下面特点所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤之前,还包括检测所述短信发送者不在黑名单和白名单上。为了解决上述问题,本发明还提供了一种垃圾短信监控的系统,包括检测模块,用于若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短 信发送者列入黑名单,然后将所述黑名单发送给监控模块;监控模块,用于根据所述黑名单进行垃圾短信的监控,所述预定规则至少包括若检测短信发送者在预定时间段内发送短信的时序特征为预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或若检测在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信 记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短 信发送者。进一步地,上述系统还具有下面特点还包括,训练模块,用于提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信 记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征,然 后将所述预定时序特征发送给所述检测模块;或用于将所述历史短信记录中的有相互通信 记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间 的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预 定值,然后将所述预定值发送给所述检测模块。进一步地,上述系统还具有下面特点所述检测模块包括,在线检测模块,用于在线检测所述短信发送者在当前一段时间内的短信话单,若 检测所述短信发送者发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为 垃圾短信发送者;或用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测 所述短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的 总对数的比例小于所述预定值,则判断所述短信发送者为垃圾短信发送者。进一步地,上述系统还具有下面特点所述在线检测模块在检测短信发送者是否 为垃圾短信发送者之前还用于,检测所述短信发送者在单位时间内发送短信的条数超过阈 值。进一步地,上述系统还具有下面特点还包括话单预处理模块,用于提取所述短信发送者在当前一段时间内的短信话单,对所 述短信话单进行预处理后发送给所述在线检测模块。进一步地,上述系统还具有下面特点所述检测模块根据预定规则检测短信发送 者为垃圾短信发送者之前还用于,检测所述短信发送者不在黑名单和白名单上。有益效果传统的基于内容的垃圾监控系统对垃圾短信过滤在查准率和查全率两个指标上 都不是很理想,并且需要扫描短信内容,系统资源开销较大。而本发明提供的垃圾短信监控 的方法和系统是基于发送者行为在时序和空间上的特征进行垃圾短信监控,具有较高的查 准率和查全率,同时也提高了垃圾短信制造者的规避成本,并且不需要扫描短信内容,系统 性能上也有了很大的提升。


图1为本发明的垃圾短信监控系统的示意图;图2为本发明的垃圾短信监控的方法的流程图;图3为本发明实施例的垃圾短信监控系统的示意图;图4为本发明实施例的垃圾短信监控的方法的流程图;图5为本发明实施例的训练垃圾短信发送者的行为特征的流程图;图6为本发明实施例的在线检测的流程图。
具体实施例方式短信发送者在行为上具有一定的时间特征和空间特征,比如很多垃圾短信发送者 采用机器群发的方法发送商业广告,在发送时序上所表现的频率特征和普通短信发送者有 明显的区别。机器群发频率往往比较固定,比如发送短信的时间间隔一定,普通短信发送频 率不固定,规律性不强。同样在空间特征上,正常短信的发送者具有稳定而独特的社会关系网络特征,且 关系较为隐蔽,而垃圾短信发送者体现出来的社会关系网络混乱且不稳定。因为,每个人都 有自己较为固定的社交圈,正常发送短信的对象大部分为社交圈内的,并且每个人的社交 圈都不同,也就是社会关系网络不同;而垃圾短信发送的对象之间往往没有任何关系。垃圾 短信制造者如果要规避基于社会关系网络的监控,就必须要获取每个人的社会关系网络, 正因为每个人都有自己独特的社会关系网络,所以垃圾短信制造者很难获取到每个人的社 会关系网络。简单地说,关系较为隐蔽就是说我们通常并不知道别人的社交网络怎样,垃圾 短信制造者群发垃圾短信要获取很多人的社交网络更困难。本发明正是利用了垃圾短信发送者与正常短信发送者行为在时间特征和/或空 间特征上的不同进行垃圾短信的监控。通过分析垃圾短信制造者的时间特征和空间特征, 来提取时序特征和社会关系网络特征,训练构造垃圾短信制造者的时序特征和社会关系网 络的度量模型,并用该模型用来度量短信发送者属于垃圾制造者的概率。训练构造垃圾短信制造者的时序特征和社会关系网络的度量模型的过程实际上 就是,在获取了一组已知的垃圾短信制造者名单的前提下,通过分析这组垃圾短信制造者 在时间和空间上的特征,提取出在时序上以及在社会关系网络上具有共性的特征,以参数 值的形式体现,作为检验其他短信发送者是否为垃圾短信发送者的参照。时序特征模型就是从垃圾短信发送者的历史短信记录中训练分析得出的一组发 送短信的频率特征参数,例如,在某段时间内所发送的每条短信之间在发送时间间隔上有 一定的规律,比如某个垃圾短信发送者每隔1秒发送一条短信,那么表现出的特征就是时 间间隔为1秒。而有些低频的垃圾短信发送用户可能为了逃避监控发送的时间间隔会故意 设置得长一些,但是只要是通过机器群发的,在发送时间间隔上总会表现出一定的规律性。社会关系网络特征(即空间特征模型)可以从一定时期内发送者与接收者之间的 短信通信记录的情况体现出来。垃圾短信接收者之间的社会关系比较疏远,即相互之间的 通信记录较少。可以利用所有短信接收者(包括短信发送者)之间有相互通信记录的对数 (例如,有发信有回信的两用户为一对)与所有短信接收者(短信发送者)之间两两组合的 总对数的比例,来衡量短信发送者与所有接收者之间的社会关系密切度。对垃圾短信的发 送者和接收者之间的社会关系比例一般很小。可以通过历史短信记录构造出包含短信发送者与所有短信接收者之间的社会关 系网络图,将各个短信发送者与所有短信接收者分别视为一个节点,互相有通信记录的节 点之间以边相连,然后可以根据该图计算出的节点聚合程度参数,具体可以用图中实际相 连的边数与各节点两两相连的总边数的比例来衡量。图的边数越多意味着节点聚合程度越 高,通常由垃圾短信制造者构造的社会关系网络图中节点聚合程度较低。垃圾短信制造者有高频发送用户和低频发送用户之分。高频发送用户由于在短时
7间内发送大量垃圾短信,造成的危害性较大;低频发送用户不会在短时间内产生大量垃圾 短信,短期内不会造成危害。针对两种情况,垃圾监控系统需要在短时间内检测出高频发送用户,在一定时期 内检测出低频发送用户。为了满足该要求,本发明采用了在线检测和离线检测相结合的方 法。在线检测针对高频发送用户,考察当前一段时间内数据,具有较强的时效性;离线检测 考察一定时期(比如1周内的数据),作为在线检测的补充,离线检测可以检测出在线检测 无法发现的低频垃圾短信发送用户。为了实现基于时序特征和空间特征的垃圾短信检测,首先需要对一定时间内历史 话单中的垃圾短信制造者的短信发送记录作为短信训练集合进行离线的训练,以得到垃圾 短信制造者的时序特征和社会关系网络度量模型,训练过程包括提取发送者时序特征和社 会关系网络特征,进行聚类分析,统计得到垃圾短信发送者的规律,最终生成包含垃圾短信 发送规律参数的模型文件。在进行垃圾短信检测时,同样提取实时短信中发送者的时序特征和社会关系网络 特征,通过计算该样本与模型文件相似度从而确定发送者是否为垃圾短信发送者。训练的 过程是自适应的,系统会定期取话单进行训练,并调整模板库。在系统进行垃圾短信检测时,首先,进行基于黑白名单的检测,如果短信发送者在 黑白名单列表上,则直接跳过该用户。因为黑名单为已经确定为垃圾短信发送者用户或者 是被运营商设定禁止发送短信的特定用户,对黑名单用户再作检测没有意义,垃圾短信监 控的目的就是找出垃圾短信发送者,将其加入到黑名单列表,既然已经在黑名单列表上了 就无需再检测了。同样,白名单用户通常为运营商设定的不作监控的用户,白名单用户不管 发送什么样的短信,垃圾短信监控系统都不能作为垃圾短信制造者来处理,因此对白名单 监控也没有意义。然后,可以进行基于时序特征和/或空间特征的检测,并且可以在线检测 和离线检测并行进行;最后,可以对几种不同的检测方法导出的黑名单取并集,并将黑名单 同步给BOSS (业务操作支撑系统)。为了更好地理解本发明,下面结合附图和具体实施例对本发明作进一步地描述。图1为本发明的垃圾短信监控系统的示意图,如图1所示,本发明的垃圾短信监控 系统主要包括检测模块和监控模块,其中,检测模块,用于若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短 信发送者列入黑名单,然后将所述黑名单发送给监控模块;监控模块,用于根据所述黑名单进行垃圾短信的监控,所述预定规则至少包括若检测短信发送者在预定时间段内发送短信的时序特征为预定时序特征,例如在 单位时间内发送短信的时间间隔一定,则将所述短信发送者规定为垃圾短信发送者;或若检测在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信 记录的对数与其两两组合的总对数的比例小于预定值,例如小于10%,则将所述短信发送 者规定为垃圾短信发送者。这样,本发明的垃圾短信监控系统即可以根据垃圾短信发送者的时序特征和/或 空间特征,实现对垃圾短信的监控,以提高垃圾短信的查准率和查全率。进一步地,本发明的垃圾短信监控系统还可以包括
训练模块,用于提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信 记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征,然 后将所述预定时序特征发送给所述检测模块;或将所述历史短信记录中的有相互通信记 录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的 社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定 值,然后将所述预定值发送给所述检测模块。这样,本发明的垃圾短信监控系统可以针对不同运营商,训练出不同的时序特征 模型和空间特征模型。图2为本发明的垃圾短信监控的方法的流程图,如图2所述,本发明的方法包括下 面步骤步骤10,根据预定规则检测短信发送者是否为垃圾短信发送者,若是,则执行步骤 20,否则重复执行步骤10;步骤20,将所述短信发送者列入黑名单,进行垃圾短信的监控。其中,所述预定规则至少包括若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,例如在预定 时间段内发送短信的时间间隔一定,则将所述短信发送者规定为垃圾短信发送者;或若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录 的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发 送者。这样,根据本发明的垃圾短信监控的方法即可基于垃圾短信发送者的时序特征和 /或空间特征,实现对垃圾短信的监控,以提高垃圾短信的查准率和查全率。优选地,在步骤10之前,还可以包括下面步骤提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征 来训练出所述预定时序特征;或将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃 圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节 点之间两两相连的总边数的比值训练出所述预定值。下面通过具体实施例对本发明作详细的说明。图3为本发明实施例的垃圾短信监控系统的示意图,如图3所示,本实施例的垃圾 监控系统包括话单预处理模块、训练模块、人工标注模块、检测模块和黑白名单管理模块。话单预处理模块,负责对短信中心话单进行预处理,主要功能为去除重复记录,去 除非点对点短信,去除非目标运营商话单,提取有用字段,转换格式为系统内部格式和入库 操作。话单记录中有些记录是因为系统原因发送失败重试的记录,这种记录只能当作1 条短信来处理;有些短信记录是运营商客服系统群发给用户的,并非用户发送的,无需监控 要去除;运营商只监控属于本运营商的用户,对于非本运营商用户发送短信给本运营商用 户,在短信中心也会产生话单记录,对这类记录也无需监控;话单记录会有很多字段,但对 于垃圾短信监控只需要用到其中很少一部分字段,只需要提取有用字段。另外,还需要把话单转换为系统内部能够识别的格式。其中,话单预处理模块可以通过FTP(File Transfer Protocol,文件传输协议)方 式获取短信中心的原始话单。训练模块,用于训练已知为垃圾短信发送者的历史话单,产生用于垃圾短信检测 的模型文件。人工标注模块、主要用于在训练垃圾短信发送者的模型前对候选出的可能为垃圾 短信发送者的用户正确地进行用户类别的标注,以便模型训练得到的模型文件更加准确地 符合垃圾短信发送者的规律特征。本实施例中的检测模块可以包括在线时序检测模块,用于在线检测短信发送者的时序特征并导出黑名单。在线空间检测模块,用于在线检测短信发送者的社会关系网络特征并导出黑名 离线空间检测模块,用于离线检测短信发送者的社会关系网络特征并导出黑名黑白名单管理模块,对以上3个检测模块导出的黑名单取并集后,将结果同步给 BOSS,并从BOSS获取黑白名单列表同步给检测模块。黑白名单管理模块和BOSS之间也可以通过FTP方式同步黑白名单。图4为本发明实施例的垃圾短信监控的方法的流程图,如图4所示,具体流程包括 如下步骤步骤201,获取短信中心的原始话单,进行预处理。话单预处理模块预处理包括去除重复记录,去除非点对点短信,去除非目标运营 商话单,提取有用字段,转换格式为系统内部格式,同时按提交短信的时间顺序进行排序, 其中,提取的有用字段包括消息id、发送者号码、接收者号码、短信提交时间、短信长度和 短信内容。然后,话单预处理模块将预处理后的短信话单发送给检测模块。步骤202,检测模块逐条扫描预处理后的话单,只记录提交时间和发送者号码和接 收者号码。步骤203,检测模块对每条记录进行基于黑白名单的过滤,如果用户在黑白名单列 表上,则直接忽略该用户。步骤204,根据训练模块训练产生的模型文件,基于短信发送者时序特征和/或空 间特征的进行检测。本实施例中可以进行在线检测,也可以进行离线检测,在线检测可以对短信发送 者的时序特征进行检测,也可以对短信发送者的空间特征进行检测。离线检测一般检测短 信发送者在历史一段时间内的空间特征。在线时序检测模块、在线空间检测模块和离线空间检测模块可以并行操作,也可 以单独操作。在线时序检测模块、在线空间检测模块分析当前一段时间内扫描到的用户发送短 信的特征,离线空间检测通常分析用户在历史较长一段时间内(例如,一周)的社会关系网 络特征。
10
步骤205,将检测出的垃圾短信发送者列入黑名单。若以上3种检测模块并行操作,将独立产生黑名单,黑白名单管理模块对3个检测 模块导出的黑名单取并集得到最终的黑名单列表。这3个检测模块可以从3个角度检测垃圾短信发送者,从检测结果看,这3种方法 检测出来的大部分黑名单都是相同的。这3种方法并行使用的目的是为了互补,可能有少 部分垃圾短信发送者,有些方法能监控到,有些监控不到。比如低频率的垃圾短信发送者通 过在线检测方法比较难监控到,而通过离线方法能监控到。另外3种方法并行使用也起到 了提高垃圾短信制造者规避成本的目的。步骤206,黑白名单管理模块将黑名单列表同步给BOSS。BOSS会把黑名单提供给短信中心的临控模块,短信中心在发送短信时会首先检查 发送者是否在黑名单上,如果在黑名单上则禁止该用户发送短信。图5为本发明实施例的训练垃圾短信发送者的行为特征的流程图;如图5所示,具 体流程包括如下步骤步骤301,提取一段时期的历史话单作预处理并入库。步骤302,根据已有的经验模型初步获取认为可能为垃圾短信发送者的候选训练集。所述已有的经验模型是指通过分析运营商历史话单数据中垃圾短信制造者的时 序特征和空间特征规律得出的一组参数。步骤303,评估训练集规模,如果训练集规模不够,表明其中垃圾短信发送者数量 不大,则由该训练集训练得到的模型文件统计意义不大,须要重新返回步骤301获取更多 话单重新进行训练。如果认为训练集规模足够则进入步骤304进行下一步工作。步骤304,对训练集进行人工标注,利用人工标注模块提供的标注工具,查看训练 集每个用户所发送的短信,根据人工判断对训练集用户进行分类标注。人工分类标注通常通过查看短信内容,根据发送的短信内容来判定该用户有没有 发送垃圾短信,通常垃圾短信的判定标准还要结合运营商的要求。人工分类标注通常将用户分成4类,即正常短信发送者、垃圾短信发送者、混合短 信发送者和其它短信发送者。其中,混合短信发送者既发送了正常的短信又发送了垃圾短 信,其他短信发送者通常为乱码或运营商群发的祝福类短信。步骤305,根据标注结果提取垃圾短信发送者的历史话单,来训练时序特征和空间 特征。其中,可以将时序特征转换为频域信息,提取的空间特征参数可以包括发送短信 条数、接收短信条数、回复短信的接收者的数量、有相互通信记录的接收者的对数等,可以 通过回复短信的数量,即有相互通信记录的对数,训练出空间特征模型。步骤306,通过频域分析和社会关系网络分析,确定垃圾短信发送者发送规律,分 别产生基于时序特征的模型文件和基于空间特征的模型文件。步骤307,将生成的模型文件同步给检测模块。根据不同运营商对查准率和查全率的不同要求,模型文件可以灵活调整。比如,如 果运营商希望更高的查全率,则训练时对标注为混合短信发送者这类用户将归为垃圾短信 来处理;如果运营商希望更高的查准率,则训练时只对标注为垃圾短信发送者的用户进行训练。图6为本发明实施例的在线检测的流程图,如图6所示,具体流程包括如下步骤步骤401,逐条扫描预处理后的话单,只记录提交时间和短信发送者和接收者的号 码。步骤402,进行在线检测条件触发判断,满足一定触发条件才会进入步骤403启动 在线检测算法,否则返回步骤401继续扫描话单。比如用户在单位时间内发送短信条数超过一定阈值,这个阈值可以根据实际检测 状况进行调整,则启动在线检测相关算法。步骤403,提取实时短信发送者的时序特征和空间特征。步骤404,确定该短信发送者的时序特征和空间特征后,与训练出的模型文件相比 较,从而判断该发送者是否为垃圾发送者。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令 相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘 等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应 地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的 形式实现。本发明不限制于任何特定形式的硬件和软件的结合。以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本 发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变 和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
一种垃圾短信监控的方法,包括若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,进行垃圾短信的监控,所述预定规则至少包括若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。
2.如权利要求1所述的方法,其特征在于在根据预定规则检测短信发送者为垃圾短 信发送者的步骤之前,还包括提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训 练出所述预定时序特征;或将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短 信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之 间两两相连的总边数的比值训练出所述预定值。
3.如权利要求1所述的方法,其特征在于所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤之前,还包括检测所述短信发送者在单位时间内发送短信的条数超过阈值。
4.如权利要求3所述的方法,其特征在于所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤具体包括在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者发送 短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾短信发送者;或在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者与其 发送短信的所有接收者之间以有相互通信记录的对数与其两两组合的总对数的比例小于 所述预定值,则判断所述短信发送者为垃圾短信发送者。
5.如权利要求4所述的方法,其特征在于所述根据预定规则检测短信发送者为垃圾 短信发送者的步骤之前,还包括提取所述短信发送者在当前一段时间内的短信话单; 对所述短信话单进行预处理。
6.如权利要求1-5任一项所述的方法,其特征在于所述根据预定规则检测短信发送 者为垃圾短信发送者的步骤之前,还包括检测所述短信发送者不在黑名单和白名单上。
7.一种垃圾短信监控的系统,包括检测模块,用于若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发 送者列入黑名单,然后将所述黑名单发送给监控模块; 监控模块,用于根据所述黑名单进行垃圾短信的监控, 所述预定规则至少包括若检测短信发送者在预定时间段内发送短信的时序特征为预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或若检测在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录 的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发 送者。
8.如权利要求7所述的系统,其特征在于还包括,训练模块,用于提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录 中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征,然后将 所述预定时序特征发送给所述检测模块;或用于将所述历史短信记录中的有相互通信记 录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的 社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定 值,然后将所述预定值发送给所述检测模块。
9.如权利要求7所述的系统,其特征在于所述检测模块包括,在线检测模块,用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测 所述短信发送者发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾 短信发送者;或用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述 短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对 数的比例小于所述预定值,则判断所述短信发送者为垃圾短信发送者。
10.如权利要求9所述的系统,其特征在于所述在线检测模块在检测短信发送者是否 为垃圾短信发送者之前还用于,检测所述短信发送者在单位时间内发送短信的条数超过阈值。
11.如权利要求9所述的系统,其特征在于还包括话单预处理模块,用于提取所述短信发送者在当前一段时间内的短信话单,对所述短 信话单进行预处理后发送给所述在线检测模块。
12.如权利要求7-11任一项所述的系统,其特征在于所述检测模块根据预定规则检 测短信发送者为垃圾短信发送者之前还用于,检测所述短信发送者不在黑名单和白名单上。
全文摘要
本发明提供一种垃圾短信监控的方法和系统,该方法,包括若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,进行垃圾短信的监控,所述预定规则至少包括若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。本发明基于发送者行为在时序和空间上的特征进行垃圾短信监控,具有较高的查准率和查全率。
文档编号H04W24/00GK101909261SQ20101025275
公开日2010年12月8日 申请日期2010年8月10日 优先权日2010年8月10日
发明者冯亚军, 王飞, 谢钢锋, 邢刚 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1