一种基于关系图的海量电子邮件分析方法及系统的制作方法

文档序号:6399580阅读:740来源:国知局
专利名称:一种基于关系图的海量电子邮件分析方法及系统的制作方法
技术领域
本发明涉及网络信息安全技术领域,涉及电子邮件检测与分析技术,特别是涉及一种基于关系图的海量电子邮件分析方法及系统。
背景技术
电子邮件,英文名称“Electronic mail”(简称“Email”),是一种通过电子通信系统进行信息交换的通信工具,现在往往与互联网(Internet)联系在一起,成为了最受欢迎的互联网应用服务之一。随着互联网的高速发展与网民数量的持续增长,电子邮件的服务商与用户越来越多,功能也趋于多样化;产生的数据量越来越大,格式也趋于复杂化。即时通信、社交网络、微博等流行的互联网应用服务与电子邮件有着密切的关系,例如:用户能够利用邮箱来验证其他应用服务的账户或找回密码,也可以通过电子邮件获得其他应用服务推送的信息。可见,用户通过电子邮件进行信息交流,构建成了一个基于通信行为的社会化网络,可称其为“电子邮件网络”。电子邮件网络不仅反映了电子邮件用户之间的关系,而且可以利用节点属性与边的权值,进一步表示用户间的通信频率、通信时间、通信内容和社交范围等特征。电子邮件在给人类的工作与生活带来便利的同时,也带来了许多网络信息安全问题。攻击者利用软硬件漏洞与社会工程学手段,通过发送大量电子邮件从事多种非法活动,例如:推送广告、散布谣言、宣扬色情暴力、反动串联、网络钓鱼和传播恶意代码等,我们把这些电子邮件统称为“垃圾邮件”。为了应对垃圾邮件的危害与威胁,电子邮件服务商与安全研究人员设计并实现多种反垃圾邮件系统来检测、过滤、追踪、定位垃圾邮件与其制造者。垃圾邮件防御者首先对大量垃圾邮件的源码与行为进行分析研究,提取其区别于正常邮件的特征与属性,然后根据这些特征和属性对未知邮件进行分类识别。现有的技术包括基于黑名单的检测技术、基于特征串的检测技术以及基于模式序列的检测技术等。在反垃圾邮件技术中,垃圾邮件的检测与过滤技术比较成熟,主要针对单个用户的收发电子邮件内容进行分析,很多电子邮件服务系统都有垃圾邮件过滤功能,能够较为准确识别垃圾邮件并采取相应措施;垃圾邮件的追踪与定位技术相对滞后,防御者只有通过对海量电子邮件与大量相关用户进行关联分析,进而构造出特定的电子邮件网络进行深入挖掘,并综合其他信息数据库的线索,才有可能真正定位攻击源,抓到犯罪分子。然而,业界和学术界尚缺乏对海量电子邮件的快速解析与深入挖掘技术,也没有与其他信息数据库相关联的综合分析手段,从而无法有效追踪与定位垃圾邮件攻击源与制造者,达到“治标治本”与惩戒不法分子的目的。

发明内容
本发明所要解决的技术问题是提供一种基于关系图的海量电子邮件分析方法及系统,用于解决现有电子邮件分析方法无法快速有效处理海量电子邮件数据及追踪定位垃圾邮件攻击源的问题。
本发明解决上述技术问题的技术方案如下:一种基于关系图的海量电子邮件分析方法,包括:并行解析步骤:采用并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中。附件存储检测步骤:将并行解析步骤中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并进行检测;关系图生成步骤:基于并行解析步骤与附件存储检测步骤得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;关联分析步骤:引入IP地址地理信息数据库与电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示。对于上述技术方案,相关名词解释如下:所述电子邮件头部信息,是基于电子邮件源码可获取的除电子邮件正文与附件之外的所有信息,一般包括发件人IP地址、路由信息、发送时间、发件人姓名、发件人电子邮箱地址、收件人姓名、收件人电子邮箱地址、抄送人姓名、抄送电子邮箱地址、密送人姓名、密送人电子邮箱地址、电子邮件标题、编码格式等字段信息。所述电子邮件表,是指海量电子邮件数据库中存放解析后的电子邮件头部信息、正文信息与其他属性信息的数据表。所述电子邮件附件表,是指海量电子邮件数据库中存放解析后的电子邮件附件相关信息的数据表,该表包括附件文件名、附件存储路径、处理状态、检测结果等字段。另外,由于附件文件本身占用空间较大,因此附件文件本身直接存储到服务器磁盘中,而不在海量电子邮件数据库中保存。所述电子邮件关系表,是指海量电子邮件数据库中存放用于生成关系图的相关信息的数据表,主要包括电子邮箱地址、收发角色、状态信息、电子邮件表标识等字段。所述单点关系图,是指关系图围绕一个电子邮箱展开,根据电子邮件关系表,提取其发件人集合与收件人集合生成点,根据往来的电子邮件关系生成边。所属多点关系图,是指关系图围绕若干个电子邮箱展开,根据这些电子邮箱生成点,根据电子邮件关系表中的往来电子邮件关系生成边。所述IP地址地理信息数据库,是指IP地址对应的相关地理信息的数据库,包括国家、城市、互联网服务提供商等信息。所述电子邮件用户身份信息数据库,是指电子邮件用户对应的其他相关身份信息的数据库,包括即时通信ID、手机号、身份证号、性别、住址等信息。在上述技术方案的基础上,本发明还可以做如下改进。进一步,所述并行解析步骤还包括:对加密压缩格式的电子邮件源数据进行解压缩和解密,并对提取的电子邮件头部信息进行检测。进一步,所述附件存储检测步骤中将附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,具体包括:根据电子邮件附件表的条目标识生成新的附件文件名,再按照“数据源编号/年/月/日/时”的文件存储结构存储至电子邮件附件表;所述附件存储检测步骤中对存储的附件信息的摘要信息进行检测,具体包括:通过恶意附件识别引擎检测附件信息的摘要信息是否可疑。进一步,所述关系图生成步骤还包括:对生成的关系图进行多级显示模式的处理。所述多级显示模式,是指可以基于已有关系图中的某点或者某条边进行扩展,围绕其生成新的下一层关系图。进一步,所述关联分析步骤具体包括:步骤A,获取待分析的电子邮件表,若电子邮件表为单点,则从电子邮件关系表中获取与该单点相关的条目,提取关联节点,形成新的电子邮件表;步骤B,结合电子邮件用户身份信息数据库,使用步骤A形成的新的电子邮件表,生成带有属性特征的关系图点集合;步骤C,根据电子邮件关系表,获取步骤B的关系图点集合中的每个元素关联的边集合,合并这些边集合,并结合IP地址地理信息数据库,生成带有属性特征的边集合,且所述属性特征包括权值;步骤D,将步骤B与步骤C生成的关系图点集合与边集合,转化为对应的图形化描述语言,再调用图形化展示接口生成新的关系图。对应上述系统的技术方案,本发明还提出了一种基于关系图的海量电子邮件分析系统,包括通过海量电子邮件数据库进行数据交互的并行解析模块、附件存储检测模块、关系图生成模块和关联分析模块:所述并行解析模块,其用于通过并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,并将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中;所述附件存储检测模块,其用于将并行解析模块中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并对其进行检测;所述关系图生成模块,其用于根据并行解析模块与附件存储检测模块得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;所述关联分析模块,其用于引入IP地址地理信息数据库与电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于所述关系图生成模块生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示电子邮件表。进一步,所述并行解析模块包括多数据源导入子模块、解析任务调度分配子模块和电子邮件源码解析子模块;所述多数据源导入子模块,用于自动化轮询与拷贝多源电子邮件数据,对不同数据源进行编号,并对压缩或加密的原始数据进行解压缩和解密处理,生成统一的带有数据源编号的电子邮件源码;所述解析任务调度分配子模块,用于评估电子邮件源码数据解析任务量,并将其基于负载均衡的原则分配给所述电子邮件源码解析子模块;所述电子邮件源码解析子模块,用于并行化解析电子邮件源码,提取电子邮件头部信息、正文信息与附件信息,存储到海量电子邮件数据库的电子邮件表中。进一步,所述附件存储检测模块包括附件信息解析子模块、附件文件存储子模块和可疑附件文件检测接口;所述附件信息解析子模块,用于从电子邮件源码中提取附件摘要信息与附件文件,并将附件摘要信息存储到电子邮件附件表中,将附件文件交予所述附件文件存储子模块处理;所述附件文件存储子模块,用于根据设定的文件存储结构存储相关附件文件到电子邮件附件文件数据库;所述可疑附件文件检测接口,用于调用恶意附件识别引擎检测附件信息,并将检测结果和具体描述反馈给所述附件信息解析子模块进行保存。进一步,所述关系图生成模块包括分析数据交互接口、点边属性计算子模块、图形化描述语言转换子模块和关系图展示与编辑子模块;所述分析数据交互接口,用于获取电子邮箱列表;所述点边属性计算子模块,用于从获取的电子邮箱列表中得到相关的电子邮箱用户与往来电子邮件,并结合电子邮件表信息,生成带属性的关系图点集合与边集合;所述图形化描述语言转换子模块,用于将生成的点集合与边集合,转化为相关的图形化描述语言;所述关系图展示与编辑子模块,用于根据图形化描述语言进行多级关系图的绘制与展示,并提供用户编辑与交互功能。进一步,所述关联分析模块包括地理信息关联分析子模块和用户信息关联分析子模块;所述地理信息关联分析子模块,用于根据电子邮件表的IP地址字段,利用IP地址地理信息数据库获取其对应的地理信息,并保存至电子邮件表相关字段,供用户进行关联分析;所述用户信息关联分析子模块,用于结合电子邮件用户身份信息数据库,关联更新电子邮件关系表相关字段。本发明的有益效果是:主要包括以下几点:一、能够高效解析多源海量电子邮件数据,并具有较高的可扩展能力。本发明所涉及的电子邮件自动化解析技术能够处理存在源码加密、格式复杂、内容残缺等情况的电子邮件源数据,并且能够自适应地进行硬件设备的扩展,达到准确实时的分析水平。二、能够利用关系图刻画电子邮件网络,重现垃圾邮件攻击脉络,帮助防御者定位攻击源。本发明所涉及的关系图生成技术采用了单表结构,优化了传统的“点表边表”双表结构,提高了数据检索更新的速度,并减少了数据存储空间的开销。三、能够结合用户扩展信息、IP地理信息等数据库进行关联分析,并进行图形化展示。本发明所涉及的系统能够根据防御者需求,把海量电子邮件数据库与用户扩展信息库、IP地理信息库等数据库相融合,可视化地追踪、定位和展示可疑攻击源。


图1为本发明所述基于关系图的海量电子邮件分析方法的流程示意图2为实施例一中海量电子邮件并行解析处理流程图;图3为实施例一中电子邮件附件存储与检测流程图;图4为实施例一中基于关系图的动态生成与关联流程图;图5为实施例一中基于关系图的海量电子邮件分析系统原理框图。附图中,各标号所代表的部件列表如下:1、并行解析模块,2、附件存储检测模块,3、关系图生成模块,4、关联分析模块,5、多数据源导入子模块,6、解析任务调度分配子模块,7、电子邮件源码解析子模块,8、附件信息解析子模块,9、附件文件存储子模块,10、可疑附件文件检测接口,11、分析数据交互接口,12、点边属性计算子模块,13、图形化描述语言转换子模块,14、关系图展示与编辑子模块,15、地理信息关联分析子模块,16、用户信息关联分析子模块。
具体实施例方式以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。如图1所示,本发明所述的一种基于关系图的海量邮件分析方法主要包括四个步骤:并行解析步骤:采用并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中。附件存储检测步骤:将并行解析步骤中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并进行检测;关系图生成步骤:基于并行解析步骤与附件存储检测步骤得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;关联分析步骤:引入IP地址地理信息数据库与电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示。实施例一基于上述方法,具体由三个实施部分组成:一、海量电子邮件并行解析处理如图2所示,给出了海量电子邮件并行解析处理的流程图,其具体实施步骤如下:I)从海量电子邮件数据库配置表中获取解析任务、源数据访问路径等配置信息,利用配置表构建互斥机制,采用并行处理方式对电子邮件源数据进行解析,包括检测获取的配置信息中是否有新数据,若有则执行下一步,否则等待下次轮询周期后再重新获取配
置信息。2)对于每个解析程序,首先从电子邮件数据源获取原始数据,若这些数据为加密压缩格式,则先对其进行解压缩和解密,从而获取源码明文。3)对电子邮件源码明文进行转换,统一其格式,并解析、提取其电子邮件头部信息,对提取的头部信息作检验,若不符合要求(如相关字段信息残缺严重),则记录异常日志,结束程序;若符合,则继续。4)保存电子邮件头部信息至数据库电子邮件表,然后解析提取电子邮件正文信息,同样保存至电子邮件表。5)检测电子邮件是否带有附件,若存在附件,则执行附件存储检测步骤;若不存在,则直接结束流程。二、电子邮件附件存储与检测如图3所示,给出了电子邮件附件存储与检测的流程图,其具体实施步骤如下:I)从带有附件的电子邮件源码中获取附件文件以及其他摘要信息,保存到电子邮件附件表,根据电子邮件附件表的条目标识等信息生成新的附件文件名,格式如“(标识号)_(存储时间)_(原附件名)”。2)按照电子邮件发送时间生成“数据源编号/年/月/日/时”存储目录,若该目录不存在,则创建,以步骤I)所述的新附件文件名重命名附件,并保存至该存储目录。3)以附件作为输入,调用恶意附件识别引擎,检测该附件是否可疑,根据检测结果(“正常”或“可疑”),更新电子邮件附件表检测结果字段,并对以完成检测的附件条目处理状态字段更新为“已处理”。 三、基于关系图的动态生成与关联分析如图4所示,给出了基于关系图的动态生成与关联的流程图,其具体实施步骤如下:I)从前端界面接口或者其他模块调用接口获取待分析的电子邮件表,若电子邮件表仅有一个元素(单点),则从数据库电子邮件关系表中获取与该点相关的条目,提取关联节点,形成新的电子邮件表。2)结合电子邮件用户身份信息数据库,使用步骤I)的电子邮件表,生成带有属性特征的关系图点集合。3)对于步骤2)点集合中的元素,根据电子邮件关系表,对每个元素获取其关联的边集合,合并这些边集合,并结合IP地址地理信息数据库,生成带有权值等属性特征的边
隹A
口 O4)根据步骤2)与步骤3)生成的关系图点集合与边集合,转化为对应的图形化描述语言(例如XML语言),然后调用图形化展示接口绘制关系图。实施例一公开的基于关系图的海量电子邮件分析系统主要根据上述三步进行部署实施,使用c/C++、Python语言开发后台程序,使用PHP、JavaScript、XML语言完成前台界面与图形化展示,使用Mysql搭建相关数据库,并设计实现自定义文件存储结构存放相关大数据量的附件信息。如图5所示,对应给出的基于关系图的海量电子邮件分析系统,本实施例还公开了相应的系统,其由并行解析模块1、附件存储检测模块2、关系图生成模块3、关联分析模块4四部分组成,且这四个模块通过海量电子邮件数据库进行数据交互。根据如图5所示的模块划分,实施例一的系统的工作原理可以分为四部分来进行描述。一、并行解析模块I。该模块可分为多数据源导入子模块5、解析任务调度分配子模块6与电子邮件源码解析子模块7,该模块的数据交互涉及海量电子邮件数据库的电子邮件表。其中,多数据源导入子模块5主要负责自动化轮询与拷贝多源电子邮件数据,对不同数据源进行编号,并对压缩或加密的原始数据进行解压缩和解密处理,生成统一的带有数据源编号的电子邮件源码;解析任务调度分配子模块6主要负责评估电子邮件源码数据解析任务量,基于负载均衡的原则分配给电子邮件源码解析子模块7,实现自动化管理与配置,支持解析服务器动态加载与硬件计算资源的可扩展性;电子邮件源码解析子模块7主要负责并行化解析电子邮件源码,提取电子邮件头部信息、正文信息与附件信息,存储到海量电子邮件数据库的电子邮件表中。二、附件存储检测模块2。该模块可分为附件信息解析子模块8、附件文件存储子模块9与可疑附件文件检测接口 10,该模块的数据交互涉及海量电子邮件数据库的电子邮件附件表与电子邮件附件文件数据库。其中,附件信息解析子模块8主要负责从电子邮件源码中提取附件摘要信息与附件文件,并把附件摘要信息存储到电子邮件附件表中,并附件文件交予附件文件存储子模块9处理;附件文件存储子模块9主要负责根据本发明的存储结构存储相关附件文件到电子邮件附件文件数据库;可疑附件文件检测接口 10主要负责调用恶意附件识别引擎进行检测,把检测结果与具体描述,反馈给附件信息解析子模块8,后者保存至电子邮件附件表中。三、关系图生成模块3。该模块可分为分析数据交互接口 11、点边属性计算子模块12、图形化描述语言转换子模块13与关系图展示与编辑子模块14,该模块的数据交互涉及海量电子邮件数据库的电子邮件表与电子邮件关系表。其中,分析数据交互接口 11主要负责获取前台界面输入或者其他来源的的电子邮箱列表;点边属性计算子模块12主要负责根据给定的电子邮箱列表,从电子邮件关系表中获取相关的电子邮箱用户与往来电子邮件,结合电子邮件表信息,生成带属性的关系图点集合与边集合;图形化描述语言转换子模块13主要负责根据上述点集合与边集合,转化为相关的图形化描述语言,如XML ;关系图展示与编辑子模块14主要负责根据图形化描述语言进行多级关系图的绘制与展示,并提供用户编辑与交互功能。四、关联分析模块4。该模块可分为地理信息关联分析子模块15与用户信息关联分析子模块16,该模块的数据交互涉及IP地址地理信息数据库与电子邮件用户身份信息数据库。其中,地理信息关联分析子模块15主要负责根据电子邮件表的IP地址字段,利用IP地址地理信息数据库获取其对应的国家、城市、网络服务提供商等地理信息,保存至电子邮件表相关字段,供用户进行关联分析;用户信息关联分析子模块16主要负责利用电子邮件用户身份信息数据库,关联更新电子邮件关系表相关字段,进而支持关系图的关联信息展示与处理。实施例二基于实施例一的系统原理,设计了一套软件系统“海量邮件智能分析与管理系统”,并对其进行了部署实施。这一套软件系统使用四台高性能服务器,其中两台服务器用于部署并行解析模块,一台服务器用户部署附件存储检测模块,最后一台服务器用户部署关系图生成模块与关联分析模块。通过实际运行,该系统每日解析电子邮件数据量可达100万封以上;支持半年以上数据量的附件存储与快速检索,并能够扩展;支持上亿条电子邮件数据的关联分析,单页能够展示与编辑100以上节点的关系图。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于关系图的海量电子邮件分析方法,其特征在于,包括: 并行解析步骤:采用并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中; 附件存储检测步骤:将并行解析步骤中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并进行检测; 关系图生成步骤:基于并行解析步骤与附件存储检测步骤得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图; 关联分析步骤:引入IP地址地理信息数据库与电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示。
2.根据权利要求1所述的海量电子邮件分析方法,其特征在于,所述并行解析步骤还包括:对加密压缩格式的电子邮件源数据进行解压缩和解密,并对提取的电子邮件头部信息进行检测。
3.根据权利要求1所述的海量电子邮件分析方法,其特征在于,所述附件存储检测步骤中将附件信息的摘要信息以设定的文件存储结构存储至电子邮件附件表中,具体包括:根据电子邮件附件表的条目标识生成新的附件文件名,再按照“数据源编号/年/月/日/时”的文件存储结构存储至电子邮件附件表; 所述附件存储检测步骤中对存储的附件信息的摘要信息进行检测,具体包括:通过恶意附件识别弓I擎检测附件信息的摘要信息是否可疑。
4.根据权利要求1所述的海量电子邮件分析方法,其特征在于,所述关系图生成步骤还包括:对生成的关系图进行多级显示模式的处理。
5.根据权利要求1所述的海量电子邮件分析方法,其特征在于,所述关联分析步骤具体包括: 步骤A,获取待分析的电子邮件表,若电子邮件表为单点,则从电子邮件关系表中获取与该单点相关的条目,提取关联节点,形成新的电子邮件表; 步骤B,结合电子邮件用户身份信息数据库,使用步骤A形成的新的电子邮件表,生成带有属性特征的关系图点集合; 步骤C,根据电子邮件关系表,获取步骤B的关系图点集合中的每个元素关联的边集合,合并这些边集合,并结合IP地址地理信息数据库,生成带有属性特征的边集合,且所述属性特征包括权值; 步骤D,将步骤B与步骤C生成的关系图点集合与边集合,转化为对应的图形化描述语言,再调用图形化展示接口生成新的关系图。
6.一种基于关系图的海量电子邮件分析系统,其特征在于,包括通过海量电子邮件数据库进行数据交互的并行解析模块、附件存储检测模块、关系图生成模块和关联分析模块: 所述并行解析模块,其用于通过并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,并将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中; 所述附件存储检测模块,其用于将并行解析模块中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并对其进行检测; 所述关系图生成模块,其用于根据并行解析模块与附件存储检测模块得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图; 所述关联分析模块,其用于引入IP地址地理信息数据库和电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于所述关系图生成模块生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示。
7.根据权利要求6所述的海量电子邮件分析系统,其特征在于,所述并行解析模块包括多数据源导入子模块、解析任务调度分配子模块和电子邮件源码解析子模块; 所述多数据源导入子模块,用于自动化轮询与拷贝多源电子邮件数据,对不同数据源进行编号,并对压缩或加密的原始数据进行解压缩和解密处理,生成统一的带有数据源编号的电子邮件源码; 所述解析任务调度分配子模块,用于评估电子邮件源码数据解析任务量,并将其基于负载均衡的原则分配给所述电子邮件源码解析子模块; 所述电子邮件源码解析子模块,用于并行化解析电子邮件源码,提取电子邮件头部信息、正文信息与附件信息,存储到海量电子邮件数据库的电子邮件表中。
8.根据权利要求6所述的海量电子邮件分析系统,其特征在于,所述附件存储检测模块包括附件信息解析子模块、附件文件存储子模块和可疑附件文件检测接口 ; 所述附件信息解析子模块,用于从电子邮件源码中提取附件摘要信息与附件文件,并将附件摘要信息存储到电子邮件附`件表中,将附件文件交予所述附件文件存储子模块处理; 所述附件文件存储子模块,用于根据设定的文件存储结构存储相关附件文件到电子邮件附件文件数据库; 所述可疑附件文件检测接口,用于调用恶意附件识别引擎检测附件信息,并将检测结果和具体描述反馈给所述附件信息解析子模块进行保存。
9.根据权利要求6所述的海量电子邮件分析系统,其特征在于,所述关系图生成模块包括分析数据交互接口、点边属性计算子模块、图形化描述语言转换子模块和关系图展示与编辑子模块; 所述分析数据交互接口,用于获取电子邮箱列表; 所述点边属性计算子模块,用于从获取的电子邮箱列表中得到相关的电子邮箱用户与往来电子邮件,并结合电子邮件表信息,生成带属性的关系图点集合与边集合; 所述图形化描述语言转换子模块,用于将生成的点集合与边集合,转化为相关的图形化描述语言; 所述关系图展示与编辑子模块,用于根据图形化描述语言进行多级关系图的绘制与展示,并提供用户编辑与交互功能。
10.根据权利要求6所述的海量电子邮件分析系统,其特征在于,所述关联分析模块包括地理信息关联分析子模块和用户信息关联分析子模块;所述地理信息关联分析子模块,用于根据电子邮件表的IP地址字段,利用IP地址地理信息数据库获取其对应的地理信息,并保存至电子邮件表相关字段,供用户进行关联分析; 所述用户信息关联分析子模块,用于结合电子邮件用户身份信息数据库,关联更新电子邮件关系表相 关字段。
全文摘要
本发明涉及一种基于关系图的海量电子邮件分析方法及系统,所述方法包括并行解析电子邮件源数据,提取出电子邮件头部信息、正文信息保存到电子邮件表中;将并行解析得到的附件摘要信息以设定结构存储至电子邮件附件表,并进行检测;根据解析的电子邮件数据,构建电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;引入IP地址地理信息数据库与电子邮件用户身份信息数据库,对电子邮件表进行关联分析,并在生成的关系图中展示关联信息。所述系统对应包括并行解析模块、附件存储检测模块、关系图生成模块和关联分析模块。本发明有效解决了大数据量电子邮件的分析处理与电子邮件网络中垃圾邮件追踪定位的问题。
文档编号G06Q10/10GK103106573SQ201310054990
公开日2013年5月15日 申请日期2013年2月20日 优先权日2013年2月20日
发明者李书豪, 云晓春, 张永峥, 郝志宇, 霍永亮 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1