基于行为分析的垃圾邮件判定系统的制作方法

文档序号:7791437阅读:162来源:国知局
专利名称:基于行为分析的垃圾邮件判定系统的制作方法
技术领域
本发明涉及电子邮件系统领域,具体涉及一种基于行为分析的垃圾邮件判定系统。
背景技术
垃圾邮件一般是指包括下述属性的电子邮件(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假的信息源、发件人、路由等信息的电子邮件。自从第一封垃圾邮件诞生以来,垃圾邮件成了困扰邮件用户的难题,也成了邮件运营商的提高用户体验、吸引用户的重要考虑因素。反垃圾邮件的任务是将垃圾邮件阻挡在邮件系统或者用户收件箱以外。主流的的反垃圾技术是邮件级别的,也就是基于邮件内容和邮件发信行为。基于邮件内容的反垃圾邮件技术主要有开源系统DsDam(从网站httD //www. nucleareleohant. com/可以下载),腾讯科技(深圳)有限公司的申请号为200810227762、 发明名称为“对垃圾邮件进行拦截的方法和装置”的专利文献,浙江大学的申请号为 200810059602、发明名称为“基于Logistic回归的中文垃圾邮件过滤方法”的专利文献,北京大学的申请号为200810115584、发明名称为“一种垃圾邮件检测方法”的专利文献等。基于实时发信行为的反垃圾邮件策略型的邮件发信行为的反垃圾策略主要有 Checksum(从网站http://www. rhyolite. com/dcc/可以下载),哈尔滨工程大学的申请号为200810064806、发明名称为“一种基于拓扑行为的垃圾邮件判定方法”的专利文献等。邮件内容和实时发信行为相结合是目前商业反垃圾邮件系统方面的主流代表性的技术有开源系统的 SpamAssassin (义人网立占 http //spamassassin. apache, org/ bT \>X 下载)、华南理工大学的申请号为200710(^9369、发明名称为“基于综合决策的防垃圾邮件误过滤方法及系统”的专利文献,商业系统赛门铁克公司的bright mail系统(从网站 http //www. Symantec, com/business/products/family, isp ? familyid = brifihtmail 可以下载),汉启科技的KBAS系统(从网站可以下载http://www, hanainet. com/pro iectl. html)等。但是从用户角度出发,堵住垃圾邮件的源头,是一种较早提出,但是一直未获得有效改进的邮件系统层次的垃圾邮件治理思路。如广泛使用的用户黑名单、反垃圾账户批量注册策略、IP黑名单(参见网站www. spamhaus. org)、网易率先提出的诚信联盟(参见网站 http://tech. 163. com/special/00093F41/chengxinyou. html)、以及以实时威胁识别网络 (“RTIN”)数据库为基础的电子消息源信誉信息系统(具体参见波斯蒂尼公司的申请号为 200580016715,发明名称为“电子消息源信誉信息系统”的专利文献)等,都属于从用户源头角度堵住垃圾邮件的思路。但是,上述方法需要较多人工干预,对由于用户行为的变化而产生的垃圾邮件不能及时发现,导致不能及时有效地过滤垃圾邮件。
建立一个实时的,自动学习的邮件用户信誉体系,对于减少垃圾邮件账号,辅助发现垃圾邮件,降低外发垃圾邮件量具有较大的意义。目前来说,我们暂时没有发现在邮箱账号领域的用户信誉度相关专利。现有反垃圾邮件系统主要存在以下几个方面的不足1)以邮件内容或发送行为为基础的反垃圾邮件系统,只能被动地去阻止已经发送的垃圾邮件,而不能从源头上阻止垃圾邮件的爆发,因此,相关系统具有反垃圾效率低,维护代价大等不足,基于内容或简单发信行为的反垃圾邮件系统对部分邮件具有较大的漏判率,由于部分垃圾邮件从单封邮件或者从单封邮件的发信行为来看,非常类似于正常邮件,比如部分非法的邮件等,但是从一个账号的历史记录结合账号特征很容易发现这部分账号发送出来的垃圾邮件;幻现有IP 黑名单、用户黑名单等技术需要大量人工审核,滞后性比较严重,目前来说,IP黑名单和用户黑名单都是要基于管理员审核的,这种滞后的审核方法不仅需要大量的人力资源,而且针对很多发送一批垃圾后随即作废的垃圾邮件账号,不能起到反垃圾邮件的作用,因为这种这部分账号已经完成了发送垃圾邮件的目的,再禁用账号已经不能起到反垃圾邮件的作用;3)居于源IP地址的信誉度的系统,其粒度较大,不可避免存在对某些大流量IP的正常用户误判情况,且由于IP特征信息来源单一等,无法及时自调整该IP信誉度;4)现有基于图片识别技术的反垃圾邮件技术,在图片去干扰方面能力不强,且对图片等大型文件进行扫描时,需要消耗较多系统资源,不能有效地该类垃圾邮件进行拦截。

发明内容
为了克服现有技术的上述缺陷,本发明提出了一种基于行为分析的垃圾邮件判定系统,该系统基于用户的行为特性建立用户信誉度的实时评估思路,能够从用户的源头抓起,使用机器学习的原理结合用户特有特征以及发信行为特征,能够较为实时、准确地对垃圾邮件进行有效拦截。本发明的基于行为分析的垃圾邮件判定系统包括系统接口,用于人机接口操作, 从线上邮件系统实时获取用户行为数据,与用户行为收集模块、用户信誉度模型学习模块以及用户信誉度评估模块进行连接;用户行为收集模块,负责从系统接口获得各种用户行为信息,并进行初步的分析和统计,相关结果通过数据库接口保存到用户行为数据库;用户信誉度模型学习模块,用于接收来自用户设定的各种模型参数和来自用户行为数据库的用户行为信息,对用户信誉度模型进行学习,学习到的用户信誉度模型保存到用户信誉度模型库中;用户信誉度评估模块,用于在被调用时,首先分别从用户行为数据库和用户信誉度模型库中提取最新的用户行为数据集和用户信誉度模型,然后采用用户信誉度模型以用户行为数据为依据,评估各个用户的信誉度,评估结果更新到用户信誉度数据库中。本发明的垃圾邮件判定系统由于考虑了用户历史行为,其不仅考虑当前邮件的发信行为,还同时考虑了其历史发信行为,因此能够发现一些现有反垃圾邮件系统漏过的垃圾邮件;基于用户行为分析的垃圾邮件判定系统能够提供实时用户信誉度查询,可以方便的与现有反垃圾系统相结合,具有较广泛的使用场景;通过精心选择的用户行为特征、支持向量机回归模型以及误判反馈机制,基于用户行为分析的垃圾邮件判定系统具有较低误判;与用户黑名单等系统相比,系统仅需要少数的训练样本及用户反馈样本需要人工审核, 人工审核量非常少;依赖垃圾邮件内容,对带有文字、图片等干扰类型的垃圾邮件有较好的识别能力;自适应能力强;依据用户信誉度波动的阈值可以自动进行机器学习调整,训练新的用户模型,可以在较短时间内对新型垃圾邮件行为进行学习。


图1为本发明基于用户行为分析的垃圾邮件判定系统的结构框图;图2为用户行为收集子系统的结构框图;图3为用户信誉度模型学习子系统的结构框图;图4为用户信誉评价子系统的结构框图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。首先介绍一下本发明的基于行为分析的垃圾邮件判定系统的工作原理,该系统的提出是基于用户行为特性建立用户信誉度的实时评估思路,能够从用户的源头抓起,使用机器学习的原理结合用户特有特征以及发信行为特征,能够实现较为实时、准确的用户级别垃圾邮件拦截。本发明利用机器学习的方法,根据用户的行为特性建立用户信誉度的实时评估系统。在这方面可以候选的算法或模型有支持向量机回归模型(参见网站http:// en.wikipedia.org/wiki/Support_Vector_Machine)、逻辑回归(参见网站 http:// en. wikipedia. org/wiki/Logistic_regression) > 神经网络(参见网立占 http:// en. wikipedia. org/wiki/Artificial_neural_network)等。其中支持向量机回归模型综合考虑了最终模型的结构风险和经验风险,是目前较为有效的回归或分类模型,也是在本方案中采取的模型,具体相关技术可以参考http //en. wikipedia. org/wiki/Support_ Vector_Machine。用户信誉度是W,l]间的实数,越高表示该用户是好用户的概率越高,发垃圾邮件的概率越低。图1为本发明基于用户行为分析的垃圾邮件判定系统的结构框图。参照图1,该系统包括系统接口、用户行为收集模块、用户信誉度模型学习模块、用户信誉度评估模块、用户信誉度查询模块、数据库接口、用户行为数据库、用户信誉度模型库、用户信誉度数据库。系统接口,用于提供设定用户行为收集模块参数、设定用户信誉度模型、修改用户信誉度、修改用户信誉度模型、审核用户信誉度等人机接口操作、从线上邮件系统实时获取用户行为数据等。用户行为收集模块,负责从系统接口获得各种用户行为信息,并进行初步的分析和统计,相关结果通过数据库接口保存到用户行为数据库。用户信誉度模型学习模块,用于接收来自用户设定的各种模型参数和来自用户行为数据库的用户行为信息对用户信誉度模型进行学习。学习到的用户信誉度模型将通过数据库接口保存到用户信誉度模型库中。用户信誉度评估模块由系统管理员调用或按照特定的规则定时触发。用户信誉度评估模块被调用时,首先分别从用户行为数据库和用户信誉度模型库中提取最新的用户行为数据集和用户信誉度模型,然后采用用户信誉度模型以用户行为数据为依据,评估各个用户的信誉度,评估结果通过数据库接口更新到用户信誉度数据库中。用户信誉度查询模块使用缓存、分布式数据库存储技术,实现大量用户信誉度的实时查询响应。数据库接口实现用户行为数据库、用户信誉度模型库、用户信誉度数据库的数据更新、查询。用户行为数据库存储用户的历史行为统计信息,由用户行为收集模块通过数据库接口辅助更新,相关信息被用户信誉度模型学习模块和用户信誉度评估模块使用。用户信誉度模型库存储学习到的用户信誉度模型,由用户信誉度模型学习模块更新,并被用户信誉度评估模块使用。用户信誉度数据库负责海量用户信誉度信息的存储及各种实时查询的响应。相关数据由用户信誉度评估模型更新,在用户信誉度查询模块中被实时查询。上述模块一起构成用户行为收集、用户信誉度模型学习、用户信誉度评估、用户信誉度查询这四个子系统,各个子系统的流程如下图2为用户行为收集子系统的结构框图。本子系统负责从邮件系统的UD日志、MTA 日志和RCPT日志中提取用户行为信息,并将信息统计更新后存入用户行为数据库。用户行为信息由两部分组成,分别存储于用户行为数据的用户信息统计表和用户信息临时表。参照图2,用户行为收集子系统包括系统接口、用户行为收集模块以及数据库接口。用户行为数据库主要由两部分信息组成,分别为用户信息统计表、用户信息临时表。用户信息统计表保存了此前若干日(例如前30日)的用户行为统计信息;用户临时信息表为用户每日信息的一个临时表,该临时表按照特定时间间隔(例如一个月)经用户行为收集模块统计后结果存入用户信息统计表。其中各个属性及其含义分别如表1-表2所示。表1.用户信息统计表
权利要求
1.一种基于行为分析的垃圾邮件判定系统,该系统包括系统接口,用于人机接口操作,从线上邮件系统实时获取用户行为数据;用户行为收集模块,负责从系统接口获得各种用户行为信息,并进行初步的分析和统计,相关结果通过数据库接口保存到用户行为数据库;用户信誉度模型学习模块,用于接收来自用户设定的各种模型参数和来自用户行为数据库的用户行为信息,对用户信誉度模型进行学习,学习到的用户信誉度模型保存到用户信誉度模型库中;用户信誉度评估模块,用于在被调用时,首先分别从用户行为数据库和用户信誉度模型库中提取最新的用户行为数据集和用户信誉度模型,然后采用用户信誉度模型以用户行为数据为依据,评估各个用户的信誉度,评估结果更新到用户信誉度数据库中,基于用户信誉度确定该用户的邮件是否为垃圾邮件;用户行为数据库,用于存储用户的历史行为统计信息,相关信息被用户信誉度模型学习模块和用户信誉度评估模块使用;用户信誉度模型库,用于存储学习到的用户信誉度模型,被用户信誉度评估模块使用;用户信誉度数据库,用于负责海量用户信誉度信息的存储及各种实时查询的响应。
2.如权利要求1所述的基于行为分析的垃圾邮件判定系统,其特征在于,该系统进一步包括用户信誉度查询模块,与系统接口相连接,用于实现大量用户信誉度的实时查询响应。
3.如权利要求2任一项所述的基于行为分析的垃圾邮件判定系统,其特征在于,用户信誉度评估模块由系统管理员调用或按照特定的规则定时触发。
4.如权利要求1 3所述的基于行为分析的垃圾邮件判定系统,其特征在于,用户信誉模型学习模块从用户行为数据库中获取已知信誉度的用户样本学习用户信誉模型,并将上述模型保存在用户信誉度模型库中。
5.如权利要求4所述的基于行为分析的垃圾邮件判定系统,其特征在于,在用户信誉度模型学习时,采用支持向量机分类算法。
6.如权利要求5所述的基于行为分析的垃圾邮件判定系统,其特征在于,用户信誉度模型学习包括初始学习和自动反馈学习两个阶段。
7.如权利要求6所述的基于行为分析的垃圾邮件判定系统,其特征在于,用户信誉度评估模块利用保存在用户信誉度模型库中的用户信誉模型,对用户行为数据库中的用户行为进行评估,其中使用的用户信誉度模型为在用户信誉度模型学习阶段获得的支持向量机模型。
8.如权利要求7所述的基于行为分析的垃圾邮件判定系统,其特征在于,在通过用户信誉度查询模块进行查询时,利用memcache和分布式数据库机制实现实时的用户信誉度查询。
9.如权利要求8所述的基于行为分析的垃圾邮件判定系统,其特征在于,在通过用户信誉度查询模块进行查询时,首先,邮件传输代理通过系统接口向用户信誉度查询模块发起针对特定邮箱账号的查询请求,若用户信誉度查询模块的memcache缓存有需要查询的邮箱账号的信誉度信息,则直接将该用户的信誉度通过系统接口返回给邮件传输代理,否则用户信誉度查询模块根据查询账号计算哈希值,然后找到保存该用户信誉度信息的具体数据库,通过数据库接口发起查询请求,查询结果通过系统接口返回给邮件传输代理。
全文摘要
一种基于行为分析的垃圾邮件判定系统。该系统包括系统接口,用于人机接口操作,从线上邮件系统实时获取用户行为数据;用户行为收集模块,负责从系统接口获得各种用户行为信息,并进行初步的分析和统计,相关结果通过数据库接口保存到用户行为数据库;用户信誉度模型学习模块,用于接收来自用户设定的各种模型参数和来自用户行为数据库的用户行为信息,对用户信誉度模型进行学习,学习到的用户信誉度模型保存到用户信誉度模型库中;用户信誉度评估模块,用于评估各个用户的信誉度,评估结果更新到用户信誉度数据库中。本发明的垃圾邮件判定系统不仅考虑当前邮件的发信行为,还同时考虑了其历史发信行为,并大大降低人工审核量。
文档编号H04L12/58GK102413076SQ201110434088
公开日2012年4月11日 申请日期2011年12月22日 优先权日2011年12月22日
发明者向东, 洪陆驾, 熊卫华, 肖科, 蔡瑞初, 龙世增 申请人:网易(杭州)网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1