一种电信运营商垃圾短信处理系统及处理方法

文档序号:7871276阅读:350来源:国知局
专利名称:一种电信运营商垃圾短信处理系统及处理方法
技术领域
根据12321网络不良与垃圾信息举报受理中心对其分类为商业广告、色情、诈骗、病毒、政治敏感言论、其它。据12321调查,2012年上半年,我国手机短信息用户平均每周收到垃圾短信息10. 6条。垃圾短信的数量有下降的趋势。2012年上半年用户对垃圾短信治理满意程度UFI仅达到31. 5,但仍维持在较低水平。2012年上半年中国手机短信状况调查报告显示,被调查的用户收到的垃圾短信息主要内容中,67. 4%的用户收到过中奖类诈骗短信,而收到违法出售票据、证件类垃圾短信的用户达到48. 9%,收到过冒充银行扣款类诈骗短信的用户为47. 7%,收到房地产推销垃圾短信的用户,居第四位,为34. 9%,收到零售业推销短信的用户比2011年下半年下降3. 7个百分点,为31. 2%。与2011年下半年相比,收到违法诈骗类信息的人数有增长的趋势。用户最反感的垃圾短信息第一位是“中奖类诈骗”,反感比例为33. 5%,“违法出售票据、证件”比 例达到15. 3%,“冒充银行扣款类诈骗”为12. 4%。总体来看,用户违法诈骗类信息的反感度远超于商业推广类信息,违法诈骗已经严重的危害到了用户的生活和工作。12321是举报中心,它公布的数据是从用户角度来看待垃圾短信的。从实际数据来看,商业推广类的垃圾短信数量是最大的,但是用户的反感程度并不是最大的。而诈骗类短信,仅从单条内容上不一定很容易判断。因此,在与电信运营商沟通过程中,初步确定垃圾短信处理策略。垃圾短信的发送方式主要有从手机端发送和从平台接ロ端发送两类,以下讨论的只针对从手机端发送垃圾短信。从总体上看现行方法从作用范围上看可分为在运营商端进行处理和在用户手机端进行处理两类。下文从已发布的文献和公开的专利中,对现有垃圾短信处理情况进行了综述。1.用户终端处理方法在用户终端进行处理主要方式是由用户主动判断后将垃圾短信反馈回短信监控数据库,从而不断积累垃圾短信库,从而更好地在后续处理中发挥作用。2.运营商端处理方法运营商早期实施的垃圾短信处理的方法比较简单黒白名单机制;内容关键词过滤机制。这两种方法的不足之处是需要过多人工干预;准确率不高。目前运营商端进行处理的手段主要分为两大类基于单条短信的阻止机制和基于单个用户的阻止机制。2.1单条短信处理方法之一考虑该短信所属发件人的所有短信中与该条短信内容相同的短信数量来判断该短信是否为垃圾短信。缺点主要是计算量较大且有延时。方法之ニ采用文本分类,大致分为特征构造、分类器训练以及分类器在线分类。至于分类器的选择,一般会采用I)垃圾邮件中广泛采用的贝叶斯;2) SVM分类器。当然也可采用神经网络、决策树。文本特征的选取对性能影响很大。2. 2单个用户处理基于单个用户的阻止机制主要从用户的社会网络中进行分析,简单方法可考虑节点的出弧和入弧数,大体思想为若用户的短信的回复率很低且用户短信发送量大,则判为垃圾短信发送者。更为复杂方法需要考虑所有用户的通话网,再根据发送短信的用户与其所有短信接收者节点在通话网中的距离是否大于某一门限来判断该发送用户是否有嫌疑。通过阅读文献和专利,可以看到现行的垃圾短信处理方法从作用时间上可以分成及时处理和延时处理;从作用对象上看可分为针对单条短信和针对某ー发信人。具体方法如下表所示
针对单条短信针对发信人
及时处理 I判断单条短信发件人是否在 I通过已经积累的黑黑名单。白名单及时处理。
2判断短信内容是否为垃圾短 信,可采用关键词或者文本分类等。延时处理 I将大量短信加入短信库,发 I利用话单分析机制
现被重复发送的短信,将其加入短统计发信人在一段时间内 信黑名单,将发件人加入发件人黑的表现。
名单。2通过更复杂的通话
2利用短信库,训练模型,提网络或短信网络来发现其 供模型质量。网络特性。现行的处理垃圾短信都是从“及时处理”和“延时处理”、“单条短信”和“短信发件人”等多个角度进行处理,各种方法也是相互协同组成一个系统工作的。综上所述,现有技术的缺点如下( I)及时处理情况下,没有结合延时处理,未能形成线上及吋,线下统计分类。很容易导致,某个用户号码某天发送过垃圾短信后,之后所发的短信,全部定义为垃圾短信。或者带有垃圾信息的短信未及时处理。(2)对于运营商垃圾短信分类未做系统化归类。

发明内容
本发明技术解决问题克服现有技术的不足,提供ー种电信运营商垃圾短信处理系统及处理方法,能够对海量垃圾短信进行细致分类,增强垃圾短信鉴定能力。本发明技术解决方案ー种电信运营商垃圾短信处理系统,包括线上及时处理内核子系统、线下数据挖掘子系统和数据库;所述数据库包括黒白名单库和短信模板库;(I)线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;其中简单规则匹配模块该模块分别根据短信的发送号码和短信长度进行简单的规则判断,首先对短信的发送号码进行黒白名单匹配,如果匹配上白名单,则认为该短信为正常 短信,短信可正常发送;如果被黑名单匹配上,则判断为垃圾短信,不能正常发送;如果短信的发送号码不在黒白名单之列,则进行短信长度判断;由于垃圾短信所需传递的信息量较丰富,几乎不存在长度小于10个字的垃圾短信,如果输入短信的长度小于10个字,则可判定其为正常短信,可以正常发送,反之则输出给后续模型进行处理和判断;短信预处理模块对简单规则匹配模块输出的短信进行归一化处理,所述处理包括大小写转化、繁体转简体、去掉无效符号;然后进行分词,并对短信中包含的具体电话号码、数字、字母分别进行号码类、数字类、字母类符号替换,得到本系统所需要的短信分词结果,以方便后续模块进行匹配和分类处理;快速模板匹配模块将短信预处理模块输出的短信与系统预置的模板短信进行匹配,计算短信内容的相似度,相似度用距离值来衡量;若相似距离与系统设定的阈值范围内,即判定输入短信为与模板短信同类,所述同类的意思是,如果模板短信为垃圾类,则判定该输入短信为垃圾短信,如果模板短信为正常类,则判定该输入短信为正常短信;若相似距离超过系统设定的阈值,则输出给后续的分类处理模块进行再次判断处理;快速模板匹配模块中使用的模板短信存储在短信模板库中;分类处理模块对快速模板匹配模块输出的短信,利用已训练的类别相关N-gram模型进行似然值计算,对不同类别的似然值进行最大似然判决,给出短信分类結果;若垃圾短信模型在该短信上似然值最高,则认定该短信为垃圾短信;若非垃圾短信模型在该短信上似然值最高,则认为该短信不是垃圾短信;训练的N-gram模型计算时需要采用模板短信库模块中存储记录的垃圾短信、正常短信;(2)线下数据挖掘子系统,包括短信粗选模块和模板聚类模块;其中短信粗选模块,在积累的历史数据中,从用户号码、短时间收发量、发送范围判定是否为垃圾短信,若短时间内,同一号码发送短信量超过阈值Tl,并且发送给N个不同用户,短信重复短信占比超过阈值T2,发送时间间隔小于阈值T3,则判定这些短信为备选的垃圾短信,其中Tl、T2、T3和N均是根据短信的实际情况确定的先验阈值;模板聚类模块,将经过短信粗选模块的备选垃圾短信进行聚类,对聚类结果中确定为垃圾短信的短信数据输入到短信模板库,确定为正常的短信数据也输入到短信模板库中,由短信模板库根据模板库中已有情况确定每条短信是否需要新建模板,或是追加到已有模板;同时,若发现有个别用户存在持续发送垃圾短信,或用户连续几个月均是发送正常短信,为正常用户,则将这些数据输入到黒白名单库,维护黒白名単。本发明中ー种电信运营商垃圾短信处理方法,实现步骤如下(I)线下数据挖掘子系统根据运营商的历史数据进行挖掘工作,生成一定数据的垃圾模板短信、正常模板短信,这些模板可以单独使用,也可以与其他省份运营商得到的模板合并使用;同时也可以得到一定数量的垃圾短信发送者号码;(2)系统接收短信网关输送的短信数据,简单规则匹配模块对短信发送号码和短信长度进行规则判断,被明确判断为正常的短信可以进入短信发送系统,被明确判断为垃圾的短信则不能发送,而其余即不属于垃圾短信、也不属于正常短信的短信输入给线上及时处理内核子系统进行后续判断处理;(3)简单规则匹配模块对输入的短信进行短信预处理,得到方便后续模块使用的短信分词结果,快速模板匹配模块对分词后的词串与模板短信库中的短信进行短信内容相似度匹配计算,根据相似距离判断是否存在与输入短信一样的模板短信;如果存在匹配的模板短信,则根据模板短信的垃圾或正常类别标记得到输入短信的类别属性;如果输入短信与模板短信的匹配失败,分类处理模块将对输入短信的内容进行统计分类器判决,得到最大似然判决下的垃圾类或正常类短信的分类结果;(4)经过上述处理,将判决为正常短信的输入短信发送给运营商的短信发送系统,同时对处理结果进行系统日志记录,以便供线下数据挖掘子系统使用。本发明与现有技术相比的优点在于(I)本发明基于电信运营商垃圾短信业务处理规则分为三大部分线上及时处理子系统、线下大数据挖掘子系统、业务层处理组件。线上系统通过简单处理方式,快速响应垃圾短信处理;线下大数据挖掘系统,能够补充补充线上模板中资源,使得线上系统识别能力不断提升;业务层处理组件,将整个系统串联起来,满足业务层对接需求。这种线上和线下系统配合的架构是主要亮点之一。(2)本发明的线上及时处理方法建立快速模板机制,并结合分类器进行垃圾短信 分类。这种分析方法,能够快速地响应垃圾短信分类要求。(3)本发明的线下大数据挖掘方法不断积累垃圾短信分类,不断丰富分类,形成模板聚类。通过这种方式,不断提高线上的及时处理准确率。


图1为本发明电信运营商垃圾短信处理系统组成示意图;图2为本发明的简单规则匹配模块实现流程图;图3为本发明的短信预处理处理流程图;图4为本发明的快速模板匹配模块实现流程图。
具体实施例方式如图1所示,本发明由线上及时处理内核子系统、线下数据挖掘子系统和数据库组成,其中线上及时处理系统,重点利用线下数据挖掘子系统积累的垃圾短信分类资源,和简单的在线分析算法,实现垃圾短信处理的快速响应。1.数据库1.1黑白名单库黒白名单库中存储记录了简单规则匹配模块中需要的用户在是否发送垃圾短信上的“信誉度”,由“简单规则匹配模块”调用而发挥作用。通过与运营商合作有些该模块需要与运营商后台系统进行协同工作。运营商的根据用户对业务的使用情况和用户个人信誉,创建包含高品质用户的电话号码的白名单,并认为其发送的短信可视为正常短信。反之,运营商也可以将有垃圾短信发送历史的用户号码列入到黑名单中。由于黑白名单只能涵盖一部分用户号码,对于大量的且不在黒白名单范围的用户号码发送的短信,则将进入后续判断。1. 2短信模板库短信模板库中存储记录了快速模板匹配模块和分类处理模块所需的短信数据,为快速模板匹配模块提供模板,为分类处理模块提供训练数据;另一方面线上处理的结果经过分类结果处理模块、线下大数据挖掘子系统处理又会反馈给短信模板库,为之后的线上处理提供更好的支持,实现知识迭代更新。短信模板库即存储了垃圾短信的模板,也存储了常用的正常短信模板。2.线上及时处理内核子系统如图1所示,线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块。其中简单规则匹配模块对输入短信的发送号码和短信长度进行简单规则匹配判断。短信预处理模块,对输入的自然语言短信进行规整,将电话号码、字母、数据替换成相应的类别符号,然后用最长词匹配算法对短信进行分词,经过该模块处理后短信内容变成了规整后的词序列。快速模板匹配模块利用短信预处理模块输出的词序列对模板短信库进行快速的倒排检索,并对检索出的候选模板短信进行文本相似度计算。根据相似距离判断是否存在与输入短信相似的模板短信。如果存在则输入短信与匹配上的模板短信有同样的类别属性ー即垃圾类或正常类短信。如果匹配失败,分类处理模块将利用贝叶斯统计分类模型判断输入短信的类别属性。
2.1简单规则匹配模块如图2所示,该模块分别根据短信的发送号码和短信长度进行简单的规则判断。首先对短信的发送号码进行黒白名单匹配。如果匹配上白名单,则认为该短信为正常短信,短信可正常发送。如果被黑名单匹配上,则判断为垃圾短信,不能正常发送。如果短信的发送号码不在黒白名单之列,则进行短信长度判断。由于垃圾短信所需传递的信息量较丰富,几乎不存在长度小于10个字的垃圾短信。如果输入短信的长度小于10个字,则可判定其为正常短信,可以正常发送。反之则输出给后续模型进行处理和判断。2. 2短信预处理模块如图1所示,短信预处理模块的作用有两个,一是将短信进行规整处理,将短信中号码、数字、字母等即便值不同也对短信分类不产生影响的符号进行规整处理;ニ是分词处理。如图3所示,短信预处理流程如下首先对短信中的数字和字母进行替换,采用统ー的标记,因为具体的号码、数字值为多少、具体的字母为哪ー个,对短信的判定不产生影响,所以可采用统一的标记,这样减少了模板库的压力,減少了由于不同数字、字母对系统判决产生的影响,増大了匹配的准确性和分类的准确性;其次对整句话进行分词处理,将分词后的结果输入给后续的快速模板匹配模块。例如“大家好,我换号了,新号码是13912345678”,这类垃圾短信最終被替换为“大家好,我换号了,新号码是#号码”。后续的快速模板匹配模块和分类处理模块处理时,则认为类似的,出现了 “换号、新号码、#号码”相关的短信,则定义为垃圾短信。分词采用的是常用的前向最长匹配分词2. 3快速模板匹配模块快速匹配模块可直接将发送数量较大的短信模式识别出来。通过数据挖掘、人工标注等方式得到的被大量重复发送的短信模式积累起来,输入该模块的短信与模板库中模板进行匹配,若相似程度较高,则直接处理。如图4所示,在现已实现的系统中该模块采用了基于倒排表的相似度匹配处理模块。该模块的优点是处理速度快,准确率高。
快速模板匹配模块调用短信模板库储存的模板短信,将输入的短信的分词结果与短信模板库中的模板的分词结果进行比较,计算输入短信与模板库中各条模板的相似度,从而实现判決。2. 4分类处理模块未被快速模板匹配模块分类的短信将被分类处理模块处理。分类处理模块不再将输入短信与模板库中単一短信进行比对,而是从大量短信数据中得到统计信息,从而计算出输入短信属于哪类短信。分类器相对快速处理模块的不同点是泛化能力強。该模块可采用基于生成模型的朴素贝叶斯分类器,通过已知的各类短信数据进行统计,训练N-Gram模型,再根据输入短信中各个词汇在每个N-Gram模型中的得分之和计算出短信数据在各个N-Gram模型上的得分值,从而进行贝叶斯分类。短信预处理模块已经将输入的短信进行了分词处理,可以得到若干N元组,在每个N-gram模型中可以得到这些N元组的概率值对数值,将所有概率值对数值相加后即可得到该模型在该输入短信上的似然 值,对所有模型得到的似然值进行排序,取似然值最高的模型,从而完成对该输入短信的分类。3.线下数据挖掘子系统由于短信数据量大,即便去重后短信的样式也是千变万化,但在线及时处理内核子系统中的两大模块均需要数据支持,所以大量采用人工标注的方式是不现实的,需要采用数据挖掘的方式提取出模板短信以供其使用。如图1所示,包括短信粗选模块和模板聚类模块。其中通过分析短信历史库中收发方、收发量、短信重复度,简单粗选出一部分垃圾短信,可以用来补充黑白名単。历史库中的其他短信,经过人为分析,确定是否可以添加到模板聚类中,不断扩展快速模板或者分类器。3.1短信粗选模块正如图1所示,短信粗选模块利用一段时间内各个发件人的。a)收发量b)联系人网络特性c )短信重复度d)收发时间等特性得到垃圾短信可疑发件人和正常短信联系人,从而得到可疑短信备选集合、正常短信备选集合。收发量。由于垃圾短信发件人在行为上表现为发送短信的回复率很低且用户短信发送量大,所以根据该信息可作为嫌疑人的判定依据之一。联系人网络特性。垃圾短信发送者需要将垃圾信息传递给许多用户,所以在联系人数量上会很多且多为单向的发送联系,所以根据该信息可作为嫌疑人的判定依据之一。短信重复度。垃圾短信一般需要将相同信息的内容传递出去,所以在内容上有着高度的相似,所以如果用户在行为上表现为连续、大量发送重复的短信则可基本判断其为垃圾短信嫌疑人。在实际试验中,正常用户群发信息通知其他朋友时如果门限取值不合适,会发生误判,这就需要将门限设置较严格,可将时间窗长设置成几天、重复量设置较大即可有效避免误判,所以该信息可作为嫌疑人的判定依据之一。
收发时间。在实际统计中可以发现正常发件人发送短信量在时间轴上分布是随时间而变化的。垃圾短信发件人发送量在时间轴上分布则有两种模式,ー为在24小时内均大量发送;ニ为在某一时间窗内大量发送,其余时段保持静默。3. 2模板聚类模块粗选出的垃圾短信、正常短信数量都较大,不适合直接加入在线及时处理核心子系统,否则会严重影响系统的效率,所以需要对短信进行模板聚类,提取出常用模板。在该系统中采用分治的思想对数以千万计的短信进行聚类,并对聚类结果中可覆盖实际短信条目数较多的模板提取出来加入模板库。3. 3系统性回到垃圾短信处理的理论角度看整个系统各个模块的工作情況。在短信内容及时处理的角度上看,本发明的规则处理、快速模板匹配模块、分类器模块均在此发挥作用;在发件人及时处理方面,黒白名单制度在此发挥作用;线下数据挖掘子系统在短信内容、发件人的延时处理上发挥着作用,通过收发量角度挖掘、联系人网络特性角度挖掘、短信重复度角度挖掘、其他辅助信息角度挖掘、文本聚类提取模板短信等角度的挖掘提供候选的黒/白名单、垃圾/正常模板短信,以便维护黑白名单、模板短信库,为短信内容、发件人的及时处理提供更有力的支撑,从而形成系统的自学习。本发明未详细阐述部分属于本领域公知技木。以上所述,仅为本发明部分具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在 本发明的保护范围之内。
权利要求
1.一种电信运营商垃圾短信处理系统,其特征在于包括线上及时处理内核子系统、 线下数据挖掘子系统和数据库;所述数据库包括黑白名单库和短信模板库;(1)线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;其中简单规则匹配模块该模块分别根据短信的发送号码和短信长度进行简单的规则判断,首先对短信的发送号码进行黑白名单匹配,如果匹配上白名单,则认为该短信为正常短信,短信可正常发送;如果被黑名单匹配上,则判断为垃圾短信,不能正常发送;如果短信的发送号码不在黑白名单之列,则进行短信长度判断;由于垃圾短信所需传递的信息量较丰富,几乎不存在长度小于10个字的垃圾短信,如果输入短信的长度小于10个字,则可判定其为正常短信,可以正常发送,反之则输出给后续模型进行处理和判断;短信预处理模块对简单规则匹配模块输出的短信进行归一化处理,所述处理包括大小写转化、繁体转简体、去掉无效符号;然后进行分词,并对短信中包含的具体电话号码、数字、字母分别进行号码类、数字类、字母类符号替换,得到本系统所需要的短信分词结果,以方便后续模块进行匹配和分类处理;快速模板匹配模块将短信预处理模块输出的短信与系统预置的模板短信进行匹配, 计算短信内容的相似度,相似度用距离值来衡量;若相似距离与系统设定的阈值范围内,即判定输入短信为与模板短信同类,所述同类的意思是,如果模板短信为垃圾类,则判定该输入短信为垃圾短信,如果模板短信为正常类,则判定该输入短信为正常短信;若相似距离超过系统设定的阈值,则输出给后续的分类处理模块进行再次判断处理;快速模板匹配模块中使用的模板短信存储在短信模板库中;分类处理模块对快速模板匹配模块输出的短信,利用已训练的类别相关N-gram模型进行似然值计算,对不同类别的似然值进行最大似然判决,给出短信分类结果;若垃圾短信模型在该短信上似然值最高,则认定该短信为垃圾短信;若非垃圾短信模型在该短信上似然值最高,则认为该短信不是垃圾短信;训练的N-gram模型计算时需要采用模板短信库模块中存储记录的垃圾短信、正常短信;(2)线下数据挖掘子系统,包括短信粗选模块和模板聚类模块;其中短信粗选模块,在积累的历史数据中,从用户号码、短时间收发量、发送范围判定是否为垃圾短信,若短时间内,同一号码发送短信量超过阈值Tl,并且发送给N个不同用户,短信重复短信占比超过阈值T2,发送时间间隔小于阈值T3,则判定这些短信为备选的垃圾短信,其中Tl、T2、T3和N均是根据短信的实际情况确定的先验阈值;模板聚类模块,将经过短信粗选模块的备选垃圾短信进行聚类,对聚类结果中确定为垃圾短信的短信数据输入到短信模板库,确定为正常的短信数据也输入到短信模板库中, 由短信模板库根据模板库中已有情况确定每条短信是否需要新建模板,或是追加到已有模板;同时,若发现有个别用户存在持续发送垃圾短信,或用户连续几个月均是发送正常短信,为正常用户,则将这些数据输入到黑白名单库,维护黑白名单。
2.一种电信运营商垃圾短信处理方法,其特征在于实现步骤如下(I)线下数据挖掘子系统根据运营商的历史数据进行挖掘工作,生成一定数据的垃圾模板短信、正常模板短信,这些模板可以单独使用,也可以与其他省份运营商得到的模板合并使用;同时也可以得到一定数量的垃圾短信发送者号码;(2)系统接收短信网关输送的短信数据,简单规则匹配模块对短信发送号码和短信长度进行规则判断,被明确判断为正常的短信可以进入短信发送系统,被明确判断为垃圾的短信则不能发送,而其余即不属于垃圾短信、也不属于正常短信的短信输入给线上及时处理内核子系统进行后续判断处理;(3)简单规则匹配模块对输入的短信进行短信预处理,得到方便后续模块使用的短信分词结果,快速模板匹配模块对分词后的词串与模板短信库中的短信进行短信内容相似度匹配计算,根据相似距离判断是否存在与输入短信一样的模板短信;如果存在匹配的模板短信,则根据模板短信的垃圾或正常类别标记得到输入短信的类别属性;如果输入短信与模板短信的匹配失败,分类处理模块将对输入短信的内容进行统计分类器判决,得到最大似然判决下的垃圾类或正常类短信的分类结果;(4)经过上述处理,将判决为正常短信的输入短信 发送给运营商的短信发送系统,同时对处理结果进行系统日志记录,以便供线下数据挖掘子系统使用。
全文摘要
一种电信运营商垃圾短信处理系统及处理方法,包括线上及时处理内核子系统、线下数据挖掘子系统;线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;线下数据挖掘子系统,包括短信粗选模块和模板聚类模块。本发明能够对海量短信进行多维度有效分类,并具有良好的系统维护性。
文档编号H04W12/12GK103024746SQ201210592920
公开日2013年4月3日 申请日期2012年12月30日 优先权日2012年12月30日
发明者吴及, 吕萍, 徐伟, 沈明花, 周正友, 张磊 申请人:清华大学, 安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1