短信过滤、分类方法及系统的制作方法

文档序号:6483675阅读:121来源:国知局
专利名称:短信过滤、分类方法及系统的制作方法
技术领域
本发明用于垃圾短信的拦截,尤其涉及电信运营商短信中心短信过滤和二次分类
的方法及系统。
背景技术
手机短信已经成为国人一种非常重要的通讯形式,然而我们在享受拇指间便捷的 同时不得不随时面对"垃圾短信"的骚扰。垃圾短信不仅给我们带来骚扰,更严重的是垃圾 短信变成了一些不法分子散布和传播违法犯罪信息的工具。 目前常用短信过滤方法及机制主要有基于关键词过滤、基于内容过滤、基于短信 发送量及发送方分析过滤等。其中大多数过滤方式沿用了通用垃圾信息处理方式,如贝叶 斯、SVM、人工神经网络等算法,任何一种方式应用都有一定的弊端。如,关键词过滤的误报 率及漏报率较高,诸如"某某公司长期提供某某服务",这条短信文本如果用"公司","长 期","提供","服务"等词作为关键词单一过滤,会存在误识别率高或漏识别率高的现象。同 一主叫号码的发送频次过滤机制,如采用多个号码分批次发送,这样可以逃避同一主叫号 码的发送频次过滤机制。而且,目前常用短信过滤功能是对整体垃圾短信进行不区分地完 全过滤方式,不能针对用户进行个性化定制,比如某用户想要获得"房产类"短信,则"房产 类"短信对于该用户不应当作垃圾短信处理。如何结合多种过滤算法及机制,保证较低误报 率及漏报率,并且能够方便客户定制信息,能够真正的防范垃圾短信滥发是急待解决的问 题。

发明内容
本发明专利为了克服上述技术中的不足,在传统垃圾短信过滤的基础上,创新性 提出基于发送量特征及垃圾短信内容特征方式,结合"汉字正则表达式"、及"改进型贝叶斯 算法"过滤垃圾短信的方法,在提高垃圾短信识别准确率的同时,降低了垃圾短信的误报率 和漏报率。本发明将垃圾短信进行二次分类,方便用户个性化设置,有选择地屏蔽垃圾信 息。 为实现上述发明目的,本发明的垃圾短信过滤方法,包括以下步骤 步骤l,对短信文本进行预处理(关键字处理,黑白名单处理)。 步骤2,发送量匹配,匹配发送的内容与发送数量。 步骤3,运用"汉字正则表达式"及"词典加词性"方法进行词法分词。 步骤4,使用垃圾短信分类器的分类,运用"汉字正则表达式"定义的短信特征规
则, 通过改进型贝叶斯算法进行计算概率,识别垃圾/非垃圾短信。
步骤5,使用短信类型归属分类器的分类,对已识别的垃圾短信进行分类处理。
步骤2中发送量匹配,是指目标短信与一定时间内发送短信内容进行比较与匹 配,计算相应的加权值,作为进一步计算的参数。
3
步骤4中"汉字正则表达式"定义的短信特征规则是指,基于短信文本长度、电话 号码、地址、网址(单位)及数字符号比率、词组概率之间的关系规律,来判断是否为垃圾短 信的策略。 步骤4中改进型贝叶斯算法是指在传统贝叶斯算法基础上,将各特征属性的相关 度作为权值进一步融合到算法中。 步骤5中短信类型归属分类器是对已判断为垃圾短信的信息,进行二次分类的功 能。 本发明创新地结合以上算法及机制,将各种方法的优势相结合,有效过滤垃圾短 信的同时,采用分类定制方式,将对于用户需要的短信免除过滤,是更加人性化用于垃圾短 信过滤的系统性方法。


图1是本发明提供的短信过滤、分类系统的工作流程图
图2是本发明提供的短信过滤、分类方法的原理流程图
图3是本发明提供的短信过滤和二次分类流程图
具体实施例方式
本发明提供了短信过滤和二次分类的方法步骤如下 步骤l,对短信文本进行预处理(关键字处理,黑白名单处理)。 分词前,首先需要对短信内容进行预处理,包括删除、规范、标记等处理内容。预处
理可以起到语义分割的作用,提高分词的准确性,对垃圾短信内容一些重要特征进行标记,
为后续分析奠定基础。 首先删除或标记短信内容中无效的部分,减少干扰,提高后续处理的效率。 针对短信内容进行统一转换,如全角数字符号转换成统一的半角标准数字符号,
针对短信内容中 一些特别的变化进行识别,如"0"表示"0 "、" I"表示"1"等。 对一些重要标识,如电话号码、地址、单位名称、人名、网址邮箱等重要垃圾短信内
容特征进行提取和标识。 在预处理算法中,使用"汉字正则表达式",对标点符号、英文、数字等处理更为灵 活,同时根据短信内容的最新变化,添加新的规则带来了便利。 系统分两级采用黑白名单和关键词过滤,一级是系统统一提供的黑白名单和关键
词,用户级用户可以根据自身的需要设置。 步骤2,发送量匹配,匹配发送的内容与发送数量。 发送量是判断是否垃圾短信的重要特征。根据同一发送号码在单位时间发送短信 数量或同一内容单位时间短信数量,都是判断的重要依据。 发送量监控模块接入移动运营商的短信中心实时获取所有手机号码的发送量,并 记入相同内容, 一个时间段,发送不同用户的短信数量。 步骤3,运用"汉字正则表达式"及"词典加词性"方法进行词法分词。 词法分词使用Hash索引在内存中存放词典,这样可以有效提高分词效率。建立二
次索引词典,词典由首字Hash索引,次字Hash索引和剩余字串组组成。
分词算法采用逆向最大匹配算法,使用倒序方式从句末尾开始分词,分词采用最 大词组长度匹配和关键词语句结构分析的方法。在文本中截出不超过最大词组长度文本进 行匹配,如果这段文本是词,提取这段文本,并在剩余的文本使用相同方法进行分词。
文本分词后成为一串词组,很多词组都有多种词性,也可能存在多种语义,这些词 组的意义需要根据上下文特定语境下才能确认它的词性和语义。使用语法分词能很好解决 这个问题。分析每个语句的词性排列顺序,并通过模型训练获得常见句型。经过训练的马 尔可夫链可有效的进行词性分词,利用马尔可夫性质的离散时间随机过程,在给定当前知 识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状 态)是无关的。 使用马尔可夫链的优点 A.词性标注能满足自动标注模型,使用近似方式是可以接受的。
B.提供了一个有力的理论框架,为排除歧义提供了一个直接有效手段。
C.所需的模型参数可以从已知数据估算中计算出来,即可以通过训练得到。
在短信过滤系统中,分词性能极大影响分类性能,所以在测试时需要使用两个标 准计算分词性能 句子级性能=正确的句子数/总句子数X 100%
词级性能=正确的词数/总词数X 100% 步骤4,使用垃圾短信分类器的分类,运用"汉字正则表达式"定义的短信特征规 则,通过改进型贝叶斯算法进行计算概率,识别垃圾/非垃圾短信。 垃圾短信分类器采用归纳算法,提取垃圾短信特征,并结合概率统计知识进行分 类的算法。短信长度及信息内容有别于垃圾邮件,经过长时间研究进行数据挖掘,提取特征 数据、并测试归纳,垃圾短信特征主要包括长度特征、电话号码特征、地址、网址、单位名称 特征,发送量特征,词语概率特征等。
长度特征 垃圾短信相对短信长度的比例为正态分布,使用统计方法统计汉字数量在正常短
信与垃圾短信中的分布情况。
统计规则 A.没有汉字的短信不统计。 B.使用删除相似样本的短信进行统计。
测试结论 A.垃圾短信普遍较长; B.正常短信普遍较短; C.特长的短信,正常短信占的比例稍大; 电话号码特征 大量垃圾短信属于推销类,大部分留有电话号码等联系方式。电话号码有多种组 成方式全英文数字,全中文全角数字,混合方式,长度有一定的范围。 垃圾短信发送者,为了逃避单词过滤往往采用混合方式,甚至经常使用字符'0'替 代数字'0'、"I"代替"1"等方式逃避过滤。使用汉字正则表达式,可以效的解决多种组合 方式电话号码的识别。
地址、网址、单位名称特征 垃圾短信经常含有除电话号码外的其他联系方式,经常出现地址、地点、网站名 称、网址、单位名称等内容。使用汉字正则表达式模式可以成功的匹配相关内容。
网址常见格式xxx. xxx. xxx,其中xxx代表英文字母或数字。
IP方式nnn. nnn. nnn. nnn,其中nnn代表0 255之间的数字。
汉字表达式如下 {(http|HTTP):〃[a-zA-Z0_9/_-] + (\. [a-zA-Z0_9/_-]+)+}
{(丽I www) V [a-zA-Z0-9__] + (\. [a-zA-Z0_9/_-] +) +}
... 电子邮箱常见格式XXX@XXX. xxx,其中xxx代表英文字母、数字或部分符号等。
汉字表达式如下 {[a-zA-Z0-9V _-]+@[a-zA-Z0_9_-]+(\. [a-zA-Z0_9_-]+)+}
... 地址的格式比较多,如XXX路XXX街NNN号等
汉字表达式如下 {[ ]+ (路I大道I大街)
+号}
… 单位名称格式就更多了,如XXX商场、XXX酒店、XXX宾馆、XXX公司等。
汉字表达式如下 {[ ][ ]+ (公司|集团|经营部|店|餐厅|营…))
... 数字符号比率 数字符号比率作是垃圾短信的分辨重要依据之一,如订单类短信属于正常短信,
数字符号在短信内容中占的比例较大。
统计规则 A.没有汉字的短信不统计(纯粹数字的短信一般是正常短信)。
B.使用删除相似样本的短信进行统计。 C.每个连续的数字字母串算一个计量单位,每个汉字算一个计量单位。
基本结论 A.垃圾短信数字字母块占比普遍较小。
B.数字字母块占比较大的基本是正常短信。
垃圾短信分类器 短信文本进行二维方式(垃圾/非垃圾)的划分。词组和其他特征作为区分的属 性。统计各种特征在垃圾与非垃圾中出现的概率。对多种文本分类器,如Bayes、K-近邻、支 持向量机算法在垃圾短信过滤效果比较,首先采用改进型贝叶斯算法,每个特征当作属性, 在垃圾/非垃圾中的概率向量,在短信文本到达时,根据分词及特征,然后计算归属垃圾与 非垃圾的概率。 在训练短信文本时,需要对停用词进行处理,停用词即出现频率很高、无意义词 组、感叹词、助词等。这样做法的好处有
A.减少词组的干扰,提高分类器的准确程度。 B.停用词往往出现频率高,如进行停用词处理即可以减少训练的文本,也减少识 别词语识别次数,这样大大提高识别的效率和性能。 分类器概率修正,如果一个词组在很少的垃圾短信的文本中出现,而且在非垃圾
短信文本从未出现,这样这个词组的垃圾短信的概率很高,非垃圾短信的概率为零。所以这
种情况分类器在只要出现这个词组的情况下就会识别这个文本就是垃圾短信,这样会导致
分类器的误报率较高,以至于必须对分类器的训练结果进行修正,在词组在某一类型中出
现概率为零的情况下,修正为词组概率库中最低的概率值。 计算公式 假设4= {wn,wi2,…,wj为一任意文档,它属于文档类C = {Cl,c2,…,cj中 的某一类Cj。根据Bayes分类器有
户(W I c )尸(c )
户(。I《)=:C《户(《I 。)
尸W) 其中i5(《I 。) = fji50^ I ~) 考虑到Bayes属性的相关性,在文本分类中经常简化分类算法,如假设所有属性 是相互独立的,但在垃圾短信分类效果评测中,独立性的假设极大降低了分类性能,考虑到 算法的复杂度,和目前设备速度等问题,采用两两相关属性算法极大提高分析性能。
步骤5,使用短信类型归属分类器的分类,对已识别的垃圾短信进行分类处理。
由于垃圾与非垃圾对于不同的人定义不同,垃圾短信里有很多类型比如房产促 销类,发票类、教育类等。每个人可能需要收到某一类别短信,这样必须在垃圾分类器增加 一个类型归属分类器。 类型归属分类器只对词组进行概率计算,处理方式与垃圾短信分类器类似,但必 须处理多种类型的分类。
权利要求
短信过滤、分类方法及系统,该方法包括步骤1,对短信文本进行预处理(关键字处理,黑白名单处理)。步骤2,发送量匹配,匹配发送的内容与发送数量。步骤3,运用“汉字正则表达式”及“词典加词性”方法进行词法分词。步骤4,使用垃圾短信分类器的分类,运用“汉字正则表达式”定义的短信特征规则,通过改进型贝叶斯算法进行计算概率,识别垃圾/非垃圾短信。步骤5,使用短信类型归属分类器的分类,对已识别的垃圾短信进行分类处理。本发明专利在传统垃圾短信过滤的基础上,创新性提出基于特征的方法过滤,提高了垃圾短信识别的准确率,同时降低了垃圾短信的误报率和漏报率。
2. 如权利要求1所述说的利用短信过滤、分类方法,其特征在于,步骤1中还包括预处理算法使用汉字正则表达式算法,对标点符号、英文、数字等处理更为灵活。
3. 如权利要求1所述说的利用短信过滤、分类方法,其特征在于,步骤2中还包括根据相同短信内容,相似短信内容,单位时间内的短信数量。
4. 如权利要求1所述说的利用短信过滤、分类方法,其特征在于,步骤3中还包括逆向匹配词典,并使用马尔可夫链进行词性修正。
5. 如权利要求1所述说的利用短信过滤、分类方法,其特征在于,步骤4中还包括基于短信文本分词后,提取特征向量数量的属性。
6. 如权利要求1、5所述说的利用短信过滤、分类方法,其特征在于,步骤4中还包括基于电话号码中的识别方法以及正则表达式。
7. 如权利要求1、5、6所述说的利用短信过滤、分类方法,其特征在于,步骤4中还包括地址、网址(单位)特征的识别方法、正则表达式内容。
8. 如权利要求1、5、6、7所述说的利用短信过滤、分类方法,其特征在于,步骤4中还包括改进型贝叶斯算法的修正算法。
9. 如权利要求1所述说的利用短信过滤、分类方法,其特征在于,步骤5中还包括垃圾短信过滤后的二次分类,进行类型归属。
全文摘要
本发明在传统短信过滤的基础上,创新性提出基于发送量特征及短信内容特征方式,结合“汉字正则表达式”、及“改进型贝叶斯算法”过滤垃圾短信的方法,在提高垃圾短信识别准确率的同时,降低了垃圾短信的误报率和漏报率。同时将垃圾短信进行二次分类,方便用户个性化设置。包括以下步骤步骤1对短信文本进行预处理;步骤2发送量匹配,匹配发送的内容与发送数量;步骤3运用“汉字正则表达式”及“词典加词性”方法进行词法分词;步骤4使用垃圾短信分类器的分类,运用“汉字正则表达式”定义的短信特征规则,通过改进型贝叶斯算法进行计算概率,识别垃圾/非垃圾短信;步骤5使用短信类型归属分类器的分类,对已识别的垃圾短信进行分类处理。
文档编号G06F17/30GK101784022SQ20091007712
公开日2010年7月21日 申请日期2009年1月16日 优先权日2009年1月16日
发明者柳呈文 申请人:北京炎黄新星网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1