邮件检测方法及装置与流程

文档序号:33465360发布日期:2023-03-15 06:23阅读:52来源:国知局
邮件检测方法及装置与流程

1.本技术涉及计算机技术领域,尤其涉及一种邮件检测方法及装置。


背景技术:

2.目前,随着无纸化办公的推广,越来越多的企业采用邮件来进行沟通,但在使用邮件的过程中,以邮件进行攻击的行为也逐步增多。为了避免钓鱼邮件,垃圾邮件对企业中用户的影响,通常会设置检测引擎对邮件进行检测。
3.目前,在对邮件检测的过程中,由于垃圾邮件的种类形式呈现多样化的状态,因此在检测时一般是通过对邮件中的内容、链接、附件等各种项目进行检测,但在实际应用中,现有的检测方式在基于各种项目对邮件进行全方位检测时会消耗大量的时间,尤其在面对企业内部海量的邮件时,当前常规的检测方式往往存在检测效率较低的问题。


技术实现要素:

4.本技术实施例提供一种邮件检测方法及装置,主要目的在于实现一种能够提高邮件检测效率的方法,从而解决当前检测方式检测效率较低的问题。
5.为解决上述技术问题,本技术实施例提供如下技术方案:
6.第一方面,本技术提供了一种邮件检测方法,所述方法包括:
7.通过第一规则对邮件进行检测,得到第一检测结果,其中,所述第一规则用于对所述邮件中的头文件特征进行检测;
8.当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征;
9.当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
10.可选的,所述第一规则包括真实性检测规则以及格式规则;所述真实性规则用于通过所述邮件的头文件特征对所述邮件的真实性进行检测,所述格式规则用于对所述邮件的特定静态特征进行检测,所述特定静态特征包括所述邮件的发件人信息、标题信息以及关联参数;
11.所述通过第一规则对邮件进行检测,得到第一检测结果,包括:
12.从所述邮件中提取头文件特征,并通过所述真实性规则对所述头文件特征执行真实性检测,所述真实性检测包括对所述邮件的邮箱的真实性、发件地址的真实性以及邮件的完整性进行检测;
13.当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
14.可选的,所述通过所述真实性规则对所述头文件特征执行真实性检测包括:
15.通过简单文本传输协议smtp对所述邮件执行邮箱真实性检测;
16.和/或,
17.通过发件人策略框架spf对所述邮件执行发件地址真实性检测;
18.和/或,
19.通过域名密钥识别邮件dkim对所述邮件执行邮件完整性检测;
20.所述当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,包括:
21.当确定所述邮件通过所述邮箱真实性检测、发件地址真实性检测以及所述发件服务器真实性检测时,确定所述邮件通过所述真实性检测,并从所述邮件的静态特征中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
22.可选的,所述从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,包括:
23.检测所述邮件的发件人信息中是否存在发件人姓名异常和发件人地址异常中的至少一种,其中,当所述发件人姓名的长度超过第一预设长度或所述发件人姓名中存在第一预设字符,确定存在发件人姓名异常;当所述发件人地址的长度超过第二预设长度或所述发件人地址中存在第二预设字符,确定存在所述发件人地址异常;
24.和/或,
25.检测所述邮件的标题信息是否存在标题异常,其中,当存在所述标题信息为空、所述标题信息中存在第三预设字符,以及所述标题信息中存在垃圾关键字中的至少一种,确定存在所述标题异常;
26.和/或,
27.获取所述邮件的关联参数,并检测所述邮件的关联参数是否存在参数异常,所述关联参数包括邮件数据量、邮件编码格式以及邮箱密码口令强度,当所述邮件数据量超过预设数据量、所述邮件编码格式为非预设编码格式以及所述邮箱密码口令强度低于预设口令强度中的至少一种,确定存在所述参数异常。
28.可选的,所述通过第二规则对所述邮件进行检测,得到第二检测结果包括:
29.从所述邮件的静态特征中提取目标特征,并利用所述预设检测模型对所述目标特征执行预设操作,得到所述第二检测结果;其中,所述目标特征包括头文件特征、正文特征以及附件特征;
30.其中,所述头文件特征包括元数据特征以及主题特征;所述元数据特征包括传输路径与邮件目标不匹配的数量,以及所述邮件的发件地址是否为黑名单地址;所述主题特征包括邮件主题字符数量、邮件主题中的垃圾字符数据以及主题词数;
31.其中,所述正文特征包括正文描述性特征、可读性特征、正文中统一资源定位符url特征以及词汇特征;所述正文描述性特征包括正文中图像特征、超文本标记html特征以及正文数据类型数量;所述可读性特征包括正文中语言种类数量;所述正文中统一资源定位符url特征包括域名特征以及统一资源定位符url字符特征;所述词汇特征用于表征正文中垃圾词汇出现比例;
32.其中,所述附件特征包括附件总数、附件数据量、附件包含文件类型数量以及附件
包含目标类型文件的数量。
33.可选的,所述通过第三规则对所述邮件进行检测,得到第三检测结果,包括:
34.确定所述邮件中是否存在统一资源定位符url或附件;
35.当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果;
36.当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标文件时,基于所述目标文件提取第一行为特征,并基于所述第一行为特征确定所述第三检测结果;其中,所述第一行为特征为开启所述目标文件后触发的行为的特征;
37.当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果;其中,所述第二行为特征为开启所述附件后触发的行为的特征。
38.可选的,在所述确定所述邮件中是否存在统一资源定位符url或附件之后,所述方法还包括:
39.当确定所述邮件中并未存在所述统一资源定位符url以及所述附件时,从所述邮件中获取邮件内容特征,并基于所述邮件内容特征确定所述第三检测结果;
40.其中,所述邮件内容特征包括文本关联性特征以及图像关联性特征;所述文本关联性特征是基于所述邮件的正文与所述邮件的标题之间的关联性确定的;所述图像关联性特征是基于所述邮件的图像与所述邮件的标题之间的关联性确定的。
41.可选的,所述当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果,包括:
42.根据所述统一资源定位符url确定所述目标页面,并获取所述目标页面的页面属性;
43.根据所述页面属性确定页面类别、相似页面、页面安全排名、被引用次数、访问次数中的至少一种,作为所述页面特征;
44.当基于所述页面特征确定所述目标页面为常规页面时,确定所述第三检测结果为所述正常邮件,其中,当确定所述页面类别为预设页面类别、所述相似页面为常规页面、所述页面安全排名高于预设排名、所述被引用次数高于预设次数以及访问次数高于预设次数中的任意一种条件时,确定所述目标页面为所述常规页面;
45.当基于所述页面特征确定所述目标页面并非为所述常规页面时,确定所述第三检测结果为所述垃圾邮件。
46.可选的,所述当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果,包括:
47.利用预设工具执行对所述附件的开启操作,并将所述开启操作执行后触发的行为作为第二行为特征,并当所述第二行为特征与目标行为相匹配时,确定所述第三检测结果为所述垃圾邮件,其中,所述目标行为包括进程开启行为、网络访问行为、释放文件行为以及域名解析行为中的至少一种。
48.可选的,所述垃圾邮件还包括伪造邮件;
49.在所述通过发件人策略框架spf对所述邮件执行发件地址真实性检测之后,所述方法还包括:
50.当确定所述邮件未通过所述发件地址真实性检测时,确定所述邮件为伪造邮件。
51.可选的,所述垃圾邮件还包括探针邮件;所述探针邮件用于在被触发后盗取接收者的隐私数据
52.所述从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,包括:
53.当确定所述邮件存在图像,获取所述图像比例,并判断所述图像比例是否存在异常,其中,所述图像比例为所述图像的相邻边长间的比例;
54.当确定所述图像比例异常时,将所述邮件确定为探针邮件。
55.第二方面,本技术还提供一种邮件检测装置,包括:
56.第一检测单元,用于通过第一规则对邮件进行检测,得到第一检测结果,其中,所述第一规则用于对所述邮件中的头文件特征进行检测;
57.第二检测单元,用于当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征;
58.第三检测单元,用于当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
59.可选的,所述第一规则包括真实性检测规则以及格式规则;所述真实性规则用于通过所述邮件的头文件特征对所述邮件的真实性进行检测,所述格式规则用于对所述邮件的特定静态特征进行检测,所述特定静态特征包括所述邮件的发件人信息、标题信息以及关联参数;
60.所述第一检测单元,包括:
61.第一检测模块,用于从所述邮件中提取头文件特征,并通过所述真实性规则对所述头文件特征执行真实性检测,所述真实性检测包括对所述邮件的邮箱的真实性、发件地址的真实性以及邮件的完整性进行检测;
62.第二检测模块,用于当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
63.可选的,所述第一检测模块,包括:
64.第一检测子模块,用于通过简单文本传输协议smtp对所述邮件执行邮箱真实性检测;
65.第二检测子模块,用于通过发件人策略框架spf对所述邮件执行发件地址真实性检测;
66.第三检测子模块,用于通过域名密钥识别邮件dkim对所述邮件执行邮件完整性检测;
67.所述第二检测模块,具体用于当确定所述邮件通过所述邮箱真实性检测、发件地
址真实性检测以及所述发件服务器真实性检测时,确定所述邮件通过所述真实性检测,并从所述邮件的静态特征中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
68.可选的,所述第二检测模块,包括:
69.第一检测子模块,用于检测所述邮件的发件人信息中是否存在发件人姓名异常和发件人地址异常中的至少一种,其中,当所述发件人姓名的长度超过第一预设长度或所述发件人姓名中存在第一预设字符,确定存在发件人姓名异常;当所述发件人地址的长度超过第二预设长度或所述发件人地址中存在第二预设字符,确定存在所述发件人地址异常;
70.第二检测子模块,用于检测所述邮件的标题信息是否存在标题异常,其中,当存在所述标题信息为空、所述标题信息中存在第三预设字符,以及所述标题信息中存在垃圾关键字中的至少一种,确定存在所述标题异常;
71.第三检测子模块,用于获取所述邮件的关联参数,并检测所述邮件的关联参数是否存在参数异常,所述关联参数包括邮件数据量、邮件编码格式以及邮箱密码口令强度,当所述邮件数据量超过预设数据量、所述邮件编码格式为非预设编码格式以及所述邮箱密码口令强度低于预设口令强度中的至少一种,确定存在所述参数异常。
72.可选的,所述第二检测单元,具体用于从所述邮件的静态特征中提取目标特征,并利用所述预设检测模型对所述目标特征执行预设操作,得到所述第二检测结果;其中,所述目标特征包括头文件特征、正文特征以及附件特征;
73.其中,所述头文件特征包括元数据特征以及主题特征;所述元数据特征包括传输路径与邮件目标不匹配的数量,以及所述邮件的发件地址是否为黑名单地址;所述主题特征包括邮件主题字符数量、邮件主题中的垃圾字符数据以及主题词数;
74.其中,所述正文特征包括正文描述性特征、可读性特征、正文中统一资源定位符url特征以及词汇特征;所述正文描述性特征包括正文中图像特征、超文本标记html特征以及正文数据类型数量;所述可读性特征包括正文中语言种类数量;所述正文中统一资源定位符url特征包括域名特征以及统一资源定位符url字符特征;所述词汇特征用于表征正文中垃圾词汇出现比例;
75.其中,所述附件特征包括附件总数、附件数据量、附件包含文件类型数量以及附件包含目标类型文件的数量。
76.可选的,所述第三检测单元,包括:
77.第一确定模块,用于确定所述邮件中是否存在统一资源定位符url或附件;
78.第二确定模块,用于当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果;
79.第三确定模块,用于当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标文件时,基于所述目标文件提取第一行为特征,并基于所述第一行为特征确定所述第三检测结果;其中,所述第一行为特征为开启所述目标文件后触发的行为的特征;
80.第四确定模块,用于当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果;其中,所述第二行为特征为开
启所述附件后触发的行为的特征。
81.可选的,所述第三检测单元还包括:
82.第五确定模块,用于当确定所述邮件中并未存在所述统一资源定位符url以及所述附件时,从所述邮件中获取邮件内容特征,并基于所述邮件内容特征确定所述第三检测结果;
83.其中,所述邮件内容特征包括文本关联性特征以及图像关联性特征;所述文本关联性特征是基于所述邮件的正文与所述邮件的标题之间的关联性确定的;所述图像关联性特征是基于所述邮件的图像与所述邮件的标题之间的关联性确定的。
84.可选的,所述第二确定模块包括:
85.获取子模块,用于根据所述统一资源定位符url确定所述目标页面,并获取所述目标页面的页面属性;
86.确定子模块,用于根据所述页面属性确定页面类别、相似页面、页面安全排名、被引用次数、访问次数中的至少一种,作为所述页面特征;
87.结果确定子模块,用于当基于所述页面特征确定所述目标页面为常规页面时,确定所述第三检测结果为所述正常邮件,其中,当确定所述页面类别为预设页面类别、所述相似页面为常规页面、所述页面安全排名高于预设排名、所述被引用次数高于预设次数以及访问次数高于预设次数中的任意一种条件时,确定所述目标页面为所述常规页面;
88.所述结果确定子模块,还用于当基于所述页面特征确定所述目标页面并非为所述常规页面时,确定所述第三检测结果为所述垃圾邮件。
89.可选的,所述第四确定模块,具体用于利用预设工具执行对所述附件的开启操作,并将所述开启操作执行后触发的行为作为第二行为特征,并当所述第二行为特征与目标行为相匹配时,确定所述第三检测结果为所述垃圾邮件,其中,所述目标行为包括进程开启行为、网络访问行为、释放文件行为以及域名解析行为中的至少一种。
90.可选的,所述垃圾邮件还包括伪造邮件;
91.所述第一检测模块还包括:
92.确定子模块,用于当确定所述邮件未通过所述发件地址真实性检测时,确定所述邮件为伪造邮件。
93.可选的,所述垃圾邮件还包括探针邮件;所述探针邮件用于在被触发后盗取接收者的隐私数据
94.所述第二检测模块,包括:
95.判断子模块,用于当确定所述邮件存在图像,获取所述图像比例,并判断所述图像比例是否存在异常,其中,所述图像比例为所述图像的相邻边长间的比例;
96.确定子模块,用于当确定所述图像比例异常时,将所述邮件确定为探针邮件。
97.第三方面,本技术的实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的终端设备的邮件检测方法。
98.第四方面,本技术的实施例提供了一种邮件检测装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行第一方面所述的终端设备的邮件检测
方法。
99.借由上述技术方案,本技术提供的技术方案至少具有下列优点:
100.本技术提供一种邮件检测方法及装置,本技术能够首先通过第一规则对邮件进行检测,得到第一检测结果,然后当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,最后当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,从而基于第三检测结果中的正常邮件和垃圾邮件确定当前邮件的种类,实现邮件检测功能。与现有技术相比,由于本技术中采用了三个规则依次进行检测的方式,得到检测结果,也就是说当通过第一规则或第二规则检测时确定邮件为垃圾邮件,就能够省去后续步骤的检测,从而避免了现有的邮件检测方式在进行全方位检测时需要完全全部检测步骤才能得到检测结果所导致的检测效率较低的问题。同时,由于所述第一规则用于对所述邮件中的头文件特征进行检测,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征,且所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,也就是说第一规则和第二规则都是基于邮件中的特征进行静态检测,而第三规则基于邮件被操作后所触发的行为进行检测,也就是说第三规则属于动态检测,因此在面对大量邮件时能够基于前两个规则的静态检测筛选掉一部分垃圾邮件后,仅对剩余部分的邮件执行动态检测,而由于静态检测要比动态检测所需的检测时间短,这样在面对大量邮件时可以减少执行动态检测的邮件的数量,从而进一步的减少整体的检测时间,从而提高检测效率。另外,对于计算机系统而言,基于第三规则检测时需要模拟邮件触发的情况,也就是说动态检测需要计算机系统消耗更多的系统资源,因此在利用第一规则和第二规则对大批量邮件进行检测时,能够省去在前两个规则就检测出的垃圾邮件执行动态检测的过程,也就可以在整体上减少执行第三规则的邮件的数量,也就减少了动态检测过程中较为占用系统资源的情况,从而减少了执行本技术方法的系统或设备的性能压力。
101.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
102.通过参考附图阅读下文的详细描述,本技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本技术的若干实施方式,相同或对应的标号表示相同或对应的部分,其中:
103.图1示出了本技术实施例提供的一种邮件检测方法流程图;
104.图2示出了本技术实施例提供的一种邮件检测装置的组成框图;
105.图3示出了本技术实施例提供的另一种邮件检测装置的组成框图。
具体实施方式
106.下面将参照附图更详细地描述本技术的示例性实施方式。虽然附图中显示了本技术的示例性实施方式,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实
施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本技术,并且能够将本技术的范围完整的传达给本领域的技术人员。
107.需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本技术所属领域技术人员所理解的通常意义。
108.本技术实施例提供一种邮件检测方法,具体如图1所示,该方法包括:
109.101、通过第一规则对邮件进行检测,得到第一检测结果。
110.其中,所述第一规则用于对所述邮件中的头文件特征进行检测。
111.在实际应用中,发送邮件的有时并不一定是一个邮箱执行的,例如以虚假地址设立的虚拟邮箱,也就是说邮箱的地址的真实性存疑,或者发件人的真实性是存疑的,而对于此类邮件而言,基本上属于垃圾邮件发送所采用的方式。
112.因此,在本实施例中,为了实现对邮件的检测,在接收到大量邮件的过程中,首先就要基于邮件的真实性情况进行分析,即利用第一规则来对邮件进行检测,得到对应的检测结果,即第一检测结果。其中该第一检测结果可以分为两种情况,一种情况是基于第一规则检测的过程中发现邮件的真实性存疑,那么说明该邮件要么是发件人是虚假的,要么邮箱是虚假的等情况,而对于一个正常的邮件来说,发件人、发件地址等信息应该都是真实的,因此在确定该邮件的真实性存疑的情况下,就可以确定这个邮件就是垃圾邮件,反之当该邮件的真实性没有问题时,不能确定该邮件一定不是垃圾邮件,这样就需要采用后续其他的方式进行进一步的检测。
113.102、当第一检测结果为邮件为未知类型邮件时,通过第二规则对邮件进行检测,得到第二检测结果。
114.其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征。
115.当前述步骤确定出基于第一检测结果确定该邮件不是垃圾邮件时,则可以将该邮件执行本步骤的方法,也就是利用第二规则进行检测。在本步骤中该第二规则主要是基于预设检测模型对邮件进行检测,该预设检测模型可以理解为利用机器算法结合邮件样本进行训练得到的,其功能是预测邮件是否为垃圾邮件,因此可以将邮件中提取与训练时邮件样本相同的特征输入至该预设检测模型中,并启动该预设检测模型执行预测功能,从而得到检测结果,即第二检测结果。在本实施例中,第二检测结果分为两种情况,一种是基于预设检测模型能够确定该邮件存在问题,也就是垃圾邮件,而另一类是当前基于预测检测模型确定不是垃圾邮件,而此类邮件仅能说明当前检测方式未检出问题,仍需要后续步骤继续进行检测。
116.需要说明的是,在本实施例中所述的第一检测结果、第二检测结果以及第三检测结果,三者之间并不具备排序性质,仅仅作为三次基于不同的规则进行检测时得到的三个检测结果之间的区分而做出的命名。
117.103、当第二检测结果为邮件为未知类型邮件时,通过第三规则对邮件进行检测,得到第三检测结果。
118.其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
119.由于在本实施例中,通过第二规则进行检测后,虽然确定当前未知类型邮件,但仍
然可能是伪装较好的垃圾邮件,为了确定这种邮件,还需要采用动态检测的方式进行邮件检测。也就是说前述步骤101和102执行的本质在于对邮件被触发前的“静态”特征进行检测,而邮件在被触发或开启后,有很多伪装程度较高的垃圾邮件中的钓鱼邮件、病毒邮件会触发一些行为,这些行为才是这种垃圾邮件实际上的攻击手段,因此在本实施例中还需要通过第三规则对邮件进行进一步的检测。
120.在本步骤中,第三规则就是模拟接收该邮件并对其执行了一些操作后检测是否触发了一些敏感行为,从而确定这样的邮件被执行了一些操作后,例如点击,开启等操作后会不会触发一些后台行为。当出现此类行为时且确定这类行为是一些敏感行为,例如启动网络连接、对注册表进行修改、修改启动项或启动规则等,这时说明该邮件是有问题的垃圾邮件,反之当确定对邮件执行开启等操作后不会触发任何后台行为或者是触发的后台行为都是普通邮件开启后的相同行为,那么就说明该邮件在接收后不会对计算机系统造成影响,是没有问题的,那么此时可以确定该邮件为正常邮件。
121.本技术提供一种邮件检测方法,本实施例能够首先通过第一规则对邮件进行检测,得到第一检测结果,然后当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,最后当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,从而基于第三检测结果中的正常邮件和垃圾邮件确定当前邮件的种类,实现邮件检测功能。与现有技术相比,由于本技术中采用了三个规则依次进行检测的方式,得到检测结果,也就是说当通过第一规则或第二规则检测时确定邮件为垃圾邮件,就能够省去后续步骤的检测,从而避免了现有的邮件检测方式在进行全方位检测时需要完全全部检测步骤才能得到检测结果所导致的检测效率较低的问题。同时,由于所述第一规则用于对所述邮件中的头文件特征进行检测,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征,且所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,也就是说第一规则和第二规则都是基于邮件中的特征进行静态检测,而第三规则基于邮件被操作后所触发的行为进行检测,也就是说第三规则属于动态检测,因此在面对大量邮件时能够基于前两个规则的静态检测筛选掉一部分垃圾邮件后,仅对剩余部分的邮件执行动态检测,而由于静态检测要比动态检测所需的检测时间短,这样在面对大量邮件时可以减少执行动态检测的邮件的数量,从而进一步的减少整体的检测时间,从而提高检测效率。另外,对于计算机系统而言,基于第三规则检测时需要模拟邮件触发的情况,也就是说动态检测需要计算机系统消耗更多的系统资源,因此在利用第一规则和第二规则对大批量邮件进行检测时,能够省去在前两个规则就检测出的垃圾邮件执行动态检测的过程,也就可以在整体上减少执行第三规则的邮件的数量,也就减少了动态检测过程中较为占用系统资源的情况,从而减少了执行本技术方法的系统或设备的性能压力。
122.以下为了更加详细地说明,本技术实施例提供了另一种邮件检测方法,该方法包括:
123.201、通过第一规则对邮件进行检测,得到第一检测结果。
124.其中,所述第一规则用于对所述邮件中的头文件特征进行检测。
125.在本实施例中,所述第一检测结果可以分为两种,一种是检测出该邮件为垃圾邮
件,另一种则是未能检测出当前邮件属于垃圾邮件,但不代表该邮件就是正常邮件,还有待继续检测,因此对于这类邮件可以确定为未知类型邮件。
126.在基于第一规则来检测邮件真实性的过程中,检测过程可以分为两个方面,一方面是通过邮件自身的参数进行地址、发件邮箱、发件服务器的真实性检测,另一方面是基于邮件标题、发件信息、内容等邮件自身的格式情况来分析该邮件是否为非正常的邮件。基于此,所述第一规则可以包括真实性检测规则以及格式规则;所述真实性规则用于通过所述邮件的头文件特征对所述邮件的真实性进行检测,所述格式规则用于对所述邮件的特定静态特征进行检测,所述特定静态特征包括所述邮件的发件人信息、标题信息以及关联参数;
127.具体的,本步骤执行时可以为:
128.步骤a、从所述邮件中提取头文件特征,并通过所述真实性规则对所述头文件特征执行真实性检测,所述真实性检测包括对所述邮件的邮箱的真实性、发件地址的真实性以及邮件的完整性进行检测;
129.步骤b、当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
130.在通过真实性规则对邮件进行真实性检测时,具体可以通过对邮件发送的来源,也就是邮箱的真实性进行检测,也就是说如果一个邮件的发送邮箱本身是不存在的(利用脚本或插件虚拟出来的邮箱,或者是伪造发件来源的邮箱),那么这样的邮件显然不是一个正常普通的邮件,这样就能够确定出垃圾邮件;同时,通过邮件发送的地址,即ip地址(internet protocol,网际互连协议地址,简称,ip地址)确定发件地址的真实性,可以确保当一个邮件属于虚假的ip地址时,反衬出该邮件存在问题,从而确定垃圾邮件;另外在通过邮件发送服务器进行检测时,由于发邮件的过程中都会利用服务器进行转发,那么有些攻击者为了隐藏自己会将其发送的邮件伪造转发服务器,也就是说当邮件发送服务器是虚假的,那么该邮件就不会是正常的普通邮件,因此可以确定出该邮件是否为垃圾邮件。
131.当步骤a对邮件的真实性进行检测之后,若未能确定该邮件为垃圾邮件,那么还可以继续基于步骤b利用格式规则对其进行进一步的检测,在这个过程中,主要是基于邮件的具体内容进行分析,例如发件信息,其中可以包括发件人姓名、发件人地址等信息。在这个过程中主要基于格式规则确定不同的内容的格式是否与垃圾邮件中的格式特点相匹配。
132.进一步的,本实施例中,步骤a中通过所述真实性规则对所述头文件特征执行真实性检测,在具体执行时可以分别按照下述一种或几种进行,其中包括:
133.方式a、通过简单文本传输协议smtp对所述邮件执行邮箱真实性检测;
134.方式b、通过发件人策略框架spf对所述邮件执行发件地址真实性检测;
135.方式c、通过域名密钥识别邮件dkim对所述邮件执行邮件完整性检测。
136.在方式a中,smtp协议(simple mail transfer protocol,简单文件传输协议,简称smtp协议)是在internet传输电子邮件的事实标准,主要作用是基于tcp协议,发送或中转发出的电子邮件,可用来验证邮件的真实性。也就是说当邮件传输方式不符合该smtp协议时,就说明其邮件存在问题,属于垃圾邮件。
137.在方式b中,spf框架(sender policy framework,发件人策略框架)是一个dns记录,其中包含有关允许从特定域名发送电子邮件的服务器的信息,可用来根据ip来验证发件人身份,也就是说当邮件的发件地址,即发件ip地址并未在spf中,就可以确定该邮件的
发件地址存在异常,继而确定该邮件存在问题,属于垃圾邮件。
138.在方式c中,dkim(domainkeys identified mail,域名密钥识别邮件,简称dkim邮件)是一项邮件技术标准,可帮助识别邮件的完整性、以避免发送者冒充合法域名的方式进行垃圾邮件发送。在利用dkim进行邮件完整性检测的过程中,邮件接收服务器通过查询邮件发送服务器所属域的域名系统dns记录中的公钥来对邮件标头的dkim数字签名进行验证,若验证不通过,则说明邮件已被篡改,该邮件就是垃圾邮件。
139.基于前述三种具体的执行方式a至c可知,在实际应用的过程中可以采用上述任意一种或几种,或者全部三种进行邮件的真实性检测,因此前述步骤b中当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,具体为:
140.当确定所述邮件通过所述邮箱真实性检测、发件地址真实性检测以及所述发件服务器真实性检测时,确定所述邮件通过所述真实性检测,并从所述邮件的静态特征中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
141.进一步的,由于格式规则主要用来对邮件中的各种内容进行格式上的分析,那么一般分为三个角度进行检测,一种是对邮件的来源情况进行分析,也就是诸如发件人信息、发件人地址等进行检测,以确定其格式是否与垃圾邮件的格式相同;另一种则是对邮件的标题进行分析,以确定标题的格式是否与垃圾邮件的格式相同;第三种则是对邮件的自身的数据量、附件等相关的参数进行检测。
142.这样,前述步骤b中所述从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,在执行过程中针对上述三种情况分别可以按照下述三种方式执行,包括:
143.方式1、检测所述邮件的发件人信息中是否存在发件人姓名异常和发件人地址异常中的至少一种。
144.其中,当所述发件人姓名的长度超过第一预设长度或所述发件人姓名中存在第一预设字符,确定存在发件人姓名异常;当所述发件人地址的长度超过第二预设长度或所述发件人地址中存在第二预设字符,确定存在所述发件人地址异常。
145.对于方式1而言,主要是监测发件人信息中的发件人姓名和发件人地址是否存在问题,主要的判断依据就是确定发件人姓名的长度是否过长,当超过一定长度时,则该发件人姓名很可能是虚假或伪造的,那么该邮件就属于垃圾邮件。同理,发件人地址也是如此,一旦过长就说明该邮件存在问题。另外,基于邮件命名标准都会规定在邮件发送过程中的姓名和地址不能存在一些特殊字符,也就是说正常邮件的发件人姓名和发件人地址不会存在特定的字符,即第一预设字符和第二预设字符,当存在这样的特定字符时,说明该邮件时存在问题的。
146.方式2、检测所述邮件的标题信息是否存在标题异常。
147.其中,当存在所述标题信息为空、所述标题信息中存在第三预设字符,以及所述标题信息中存在垃圾关键字中的至少一种,确定存在所述标题异常。
148.对于方式2而言,在确定标识是否异常的过程中,主要是确定邮件的标题是否为空,是否有特定字符,即第三预设字符,以及标题信息中是否有垃圾邮件中常见的垃圾关键字。
149.方式3、获取所述邮件的关联参数,并检测所述邮件的关联参数是否存在参数异常。
150.其中,所述关联参数包括邮件数据量、邮件编码格式以及邮箱密码口令强度,所述参数异常用于表征所述邮件数据量超过预设数据量、所述邮件编码格式并非预设编码格式以及所述邮箱密码口令强度低于预设口令强度中的至少一种,确定存在所述参数异常。
151.对于方式3而言,由于正常邮件的邮件数据量都是在一定的范围内的,因此超过这个范围的邮件就可能垃圾邮件。同样,邮件编码格式一般都有固定的编译标准,而有些垃圾邮件为了实现攻击功能,很可能更改邮件编码格式。同理,对于邮件的邮箱密码口令强度也可以作为分析的依据,当邮箱密码口令强度较低时,那么该邮箱就有可能存在被盗用后发送垃圾邮件可能。
152.例如,一个未携带附件的邮件一般也就是几个或几十个千字节,当一个未携带附件的邮件数据量为10mb时,那么该邮件就可能携带木马或其他攻击插件。
153.需要说明的是,在本实施例所述的方法执行时,基于不同具体检测方式检测出的垃圾邮件,还可以基于该垃圾邮件存在问题的具体形式确定垃圾邮件的具体种类,例如所述垃圾邮件还具体包括伪造邮件时,在前述步骤中通过发件人策略框架spf对所述邮件执行发件地址真实性检测之后,所述方法还包括:
154.当确定所述邮件未通过所述发件地址真实性检测时,确定所述邮件为伪造邮件。
155.也就是说当邮件的发件地址在检测的过程中,未能通过基于spf的检测时候,说明该邮件的发件地址是伪造的,那么伪造目的就是为了伪装成某个用户已知的地址,从而骗过用户,因此这类垃圾邮件需要尤为注意,即伪造邮件。
156.另外,在某些情况下,某些垃圾邮件还可以是一种探针邮件,该种邮件主要是将探针伪装成图像,当用户触发时会执行相应的攻击行为,盗取用户的隐私数据,例如地址信息、设备信息等,因此,前述步骤中从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,还可以包括:
157.当确定所述邮件存在图像,获取所述图像比例,并判断所述图像比例是否存在异常,其中,所述图像比例为所述图像的相邻边长间的比例;
158.当确定所述图像比例异常时,将所述邮件确定为探针邮件。
159.由于探针邮件中伪装成图像的部分在被触发时会执行特定的攻击行为,因此对于这类垃圾邮件需要选取上述方式作为识别的手段。一旦确定邮件中存在图像,而图像的比例是异常的,也就是说该图片的长与宽不成比例,这样情况下该图片实际上就是攻击探针所伪装的,因此这样的邮件就属于垃圾邮件里的探针邮件。
160.202、当第一检测结果为邮件为未知类型邮件时,通过第二规则对邮件进行检测,得到第二检测结果。
161.其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征。
162.由于前述步骤在检测的过程中,第一检测结果分为垃圾邮件和未知类型邮件,该未知类型邮件可以理解为在前述步骤201中未检出问题,还需要进一步的检测,基于前述步骤的执行方式,本步骤还可以具体可以为:当所述第一检测结果确定该邮件为未知类型邮件时,还可以进一步的通过所述第二规则对所述邮件进行检测,得到所述第二检测结果。
163.进一步的,在基于第二规则进行检测时,具体可以为:从所述邮件的静态特征中提取目标特征,并利用所述预设检测模型对所述目标特征执行预设操作,得到所述第二检测结果;其中,所述目标特征包括头文件特征、正文特征以及附件特征。
164.具体的,所述头文件特征包括元数据特征以及主题特征;所述元数据特征包括传输路径与邮件目标不匹配的数量,以及所述邮件的发件地址是否为黑名单地址;所述主题特征包括邮件主题字符数量、邮件主题中的垃圾字符数据以及主题词数。
165.另外,所述正文特征包括正文描述性特征、可读性特征、正文中统一资源定位符url特征以及词汇特征;所述正文描述性特征包括正文中图像特征、超文本标记html特征以及正文数据类型数量;所述可读性特征包括正文中语言种类数量;所述正文中统一资源定位符url特征包括域名特征以及统一资源定位符url字符特征;所述词汇特征用于表征正文中垃圾词汇出现比例;
166.此外,所述附件特征包括附件总数、附件数据量、附件包含文件类型数量以及附件包含目标类型文件的数量。
167.具体的,利用预设检测模型进行训练以及执行预设操作的方式与常规的机器模型预测的方式一致,在此不做赘述。但需要说明是,在本实施例中上述多种不同的特征可以基于用户的选取进行自由选取和组合,在此不做限定,仅要确保在本步骤执行时对邮件提取目标特征的过程中要与模型训练时邮件样本的选取的特征的种类相一致。
168.另外,在本实施中,在基于预设检测模型进行检测的过程中,第二检测结果在垃圾邮件和未检出问题邮件的基础上,还可以在垃圾邮件进行进一步的划分,可以包括恶意邮件和钓鱼邮件。当然,具体的结果的种类取决于预设检测模型训练时确定的,例如,当预设检测模型a在训练过程中训练样本里就包含了钓鱼邮件、恶意邮件和一般垃圾邮件时,那么该预设检测模型a在检测邮件s时,就可以基于该邮件s的目标特征确定该邮件是否属于上述三种垃圾邮件的哪一个具体分类,而当确定邮件s不属于上述三种垃圾邮件时,则说明该邮件s为未检出问题邮件,那么后续还需要进行后续步骤进一步检测。
169.203、当第二检测结果为邮件为未知类型邮件时,通过第三规则对邮件进行检测,得到第三检测结果。
170.其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
171.具体的,本步骤在执行时可以为:
172.确定所述邮件中是否存在统一资源定位符url或附件;
173.基于判断结果,分为两种情况,一种是邮件中存在url或者附件中任意一个或全部,另一种是不存在url和附件。
174.基于此,在确定时第一种情况时,即邮件中存在url或者附件中任意一个或全部时,可以按照下述三种方式执行:
175.方式s1、当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果;
176.方式s2、当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标文件时,基于所述目标文件提取第一行为特征,并基于所述第
一行为特征确定所述第三检测结果;其中,所述第一行为特征为开启所述目标文件后触发的行为的特征;
177.方式s3、当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果;其中,所述第二行为特征为开启所述附件后触发的行为的特征。
178.当邮件中存在统一资源定位符url时,说明该邮件中存在链接,那么该链接有可能是钓鱼邮件用来引诱用户点击的,那么就需要分为两种情况,一种是url指向的是一个网页时,那么该网页的安全性将反应该邮件是否为垃圾邮件。而当url指向的是网络中的一个文件时,那么该文件的安全性就能反应该邮件是否为垃圾邮件。同理,当邮件中存在附件时,附件的安全性就能够反应该邮件是否为垃圾邮件。
179.因此,对于方式s1而言,当确定url指向网页时,即目标网页,那么就需要获取该目标网页的一些特征,并基于该特征确定目标网页的安全程度,当确定安全程度较低时,那么说明该邮件在引导收件人通过邮件中附带的url访问一些高风险网站的页面,那么该邮件无疑是垃圾邮件。反之,如果该url指向的目标页面的安全性较高,例如某公司官网,那么说明该邮件中附带的url是一个正常的链接,从而说明该邮件为正常邮件。
180.对于方式s2而言,当确定url指向的是一个文件时,即目标文件,那么就需要提取开启该目标文件时所触发的行为的特征,即第一行为特征,并进行分析,例如,当开启该目标文件后会触发系统后台开启一些进程,且这些进程会对计算机中的敏感区域执行一些写入行为,那么说明该邮件在引导收件人点击目标文件后修改计算机系统的敏感区域,譬如注册表等敏感信息的修改,那么该邮件无疑是垃圾邮件。
181.对于方式s3而言,同理方式s2,当附件被开启后会触发一些损害计算机系统的行为时,那么说明这个附件是不安全的,那么该邮件也就是有问题的,说明该邮件是垃圾邮件。
182.具体的,在方式s1当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果在执行时,具体可以为:
183.首先,根据所述统一资源定位符url确定所述目标页面,并获取所述目标页面的页面属性;
184.然后,根据所述页面属性确定页面类别、相似页面、页面安全排名、被引用次数、访问次数中的至少一种,作为所述页面特征;
185.之后,当基于所述页面特征确定所述目标页面为常规页面时,确定所述第三检测结果为所述正常邮件,其中,当确定所述页面类别为预设页面类别、所述相似页面为常规页面、所述页面安全排名高于预设排名、所述被引用次数高于预设次数以及访问次数高于预设次数中的任意一种条件时,确定所述目标页面为所述常规页面;
186.当基于所述页面特征确定所述目标页面并非为所述常规页面时,确定所述第三检测结果为所述垃圾邮件。
187.在本步骤中,所述页面属性可以理解为体现页面身份的信息,该页面属性中能够反映出该目标页面被访问的一些情况,对于一些安全性较高的网站而言,其页面类别、页面安全性排名、被引用次数、访问次数都是较高的,相反一旦该网页是高危网页,例如攻击者
设置的模仿某官网的虚假网站,那么其上述参数都会在数值上与被模仿的某官网的数值存在较大差别。因此,在确定目标网页的页面特征时可以基于上述页面类别、相似页面、页面安全排名、被引用次数、访问次数中根据用户需要选取一个或几个,甚至全部作为页面特征。而在确定第三检测结果是否为垃圾邮件则可以基于页面特征满足常规页面的条件时,也就是当确定跳转的页面为常规页面时就能够确定该邮件是没有问题的,也就是说当确定页面特征满足“所述页面类别为预设页面类别、所述相似页面为常规页面、所述页面安全排名高于预设排名、所述被引用次数高于预设次数以及访问次数高于预设次数”中的任意一种条件时,确定所述目标页面为所述常规页面,从而可以确定邮件没有问题,是正常邮件,反之则确定该邮件属于垃圾邮件。
188.具体的,在方式s3执行时,具体可以为:利用预设工具执行对所述附件的开启操作,并将所述开启操作执行后触发的行为作为第二行为特征,并当所述第二行为特征与目标行为相匹配时,确定所述第三检测结果为所述垃圾邮件,其中,所述目标行为包括进程开启行为、网络访问行为、释放文件行为以及域名解析行为中的至少一种。
189.在本实施例中,所述预设工具可以理解为沙盒等具备独立执行空间的工具。这样在运行该邮件中的附件过程中,不会影响该计算机的正常系统,即便出现安全风险也能控制在沙盒等独立空间中。同时也能够实现模拟附件开启的效果。另外,在沙盒中模拟开启了附件后,主要需要判断是否存在开启后所触发的行为是否与目标行为相匹配,该目标行为包括进程开启、网络访问、释放文件、域名解析等行为。当然,该目标行为可以理解为对计算机系统存在风险的行为,或者是对用户隐私安全造成风险的行为,具体的,对于目标行为的定义和设置还可以在上述几种的基础上,基于用户的需要进一步的进行添加和选取。也就是说当开启操作触发的行为作为第二行为特征时,确定其与目标行为相匹配,那么就说明该邮件对用户存在风险,也就可以确定第三检测结果为垃圾邮件。
190.进一步的,基于前述分析可知,在确定邮件中是否存在url或附件时,还有一种情况,即邮件中没有url和附件,这时就需要对邮件内容进行分析,具体可以为:
191.当确定所述邮件中并未存在所述统一资源定位符url以及所述附件时,从所述邮件中获取邮件内容特征,并基于所述邮件内容特征确定所述第三检测结果;
192.其中,所述邮件内容特征包括文本关联性特征以及图像关联性特征;所述文本关联性特征是基于所述邮件的正文与所述邮件的标题之间的关联性确定的;所述图像关联性特征是基于所述邮件的图像与所述邮件的标题之间的关联性确定的。
193.当确定邮件中不存在url和附件时,那么说明该邮件中只有正文内容,需要进行分析,那么就需要基于正文进行判断其内容是否存在问题。也就是邮件内容特征。具体的可以是文本关联性特征,即正文和标题的关联性;另一个为图像关联性特征,即邮件中的图像和主题之间的关联性。当确定主题与文本的正文或图像的关联性较小时,则说明有可能是“文不对题”的垃圾邮件。反之,则说明该邮件并未存在问题,那么就可以确定该邮件是正常邮件。
194.进一步的,作为对上述实施例所示方法的实现,本技术另一实施例还提供了一种邮件检测装置。该邮件检测装置实施例与前述方法实施例对应,为便于阅读,本邮件检测装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。具体如图2所示,该邮件检测装置包括:
195.第一检测单元31,可以通过第一规则对邮件进行检测,得到第一检测结果,其中,所述第一规则用于对所述邮件中的头文件特征进行检测;
196.第二检测单元32,可以用于当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征;
197.第三检测单元33,可以用于当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
198.进一步的,如图3所示;所述第一规则包括真实性检测规则以及格式规则;所述真实性规则用于通过所述邮件的头文件特征对所述邮件的真实性进行检测,所述格式规则用于对所述邮件的特定静态特征进行检测,所述特定静态特征包括所述邮件的发件人信息、标题信息以及关联参数;
199.所述第一检测单元31,包括:
200.第一检测模块311,可以用于从所述邮件中提取头文件特征,并通过所述真实性规则对所述头文件特征执行真实性检测,所述真实性检测包括对所述邮件的邮箱的真实性、发件地址的真实性以及邮件的完整性进行检测;
201.第二检测模块312,可以用于当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
202.进一步的,如图3所示,所述第一检测模块311,包括:
203.第一检测子模块3111,可以用于通过简单文本传输协议smtp对所述邮件执行邮箱真实性检测;
204.第二检测子模块3112,可以用于通过发件人策略框架spf对所述邮件执行发件地址真实性检测;
205.第三检测子模块3113,可以用于通过域名密钥识别邮件dkim对所述邮件执行邮件完整性检测;
206.所述第二检测模块312,具体可以用于当确定所述邮件通过所述邮箱真实性检测、发件地址真实性检测以及所述发件服务器真实性检测时,确定所述邮件通过所述真实性检测,并从所述邮件的静态特征中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
207.进一步的,如图3所示,所述第二检测模块312,包括:
208.第一检测子模块3121,可以用于检测所述邮件的发件人信息中是否存在发件人姓名异常和发件人地址异常中的至少一种,其中,当所述发件人姓名的长度超过第一预设长度或所述发件人姓名中存在第一预设字符,确定存在发件人姓名异常;当所述发件人地址的长度超过第二预设长度或所述发件人地址中存在第二预设字符,确定存在所述发件人地址异常;
209.第二检测子模块3122,可以用于检测所述邮件的标题信息是否存在标题异常,其中,当存在所述标题信息为空、所述标题信息中存在第三预设字符,以及所述标题信息中存
在垃圾关键字中的至少一种,确定存在所述标题异常;
210.第三检测子模块3123,可以用于获取所述邮件的关联参数,并检测所述邮件的关联参数是否存在参数异常,所述关联参数包括邮件数据量、邮件编码格式以及邮箱密码口令强度,当所述邮件数据量超过预设数据量、所述邮件编码格式为非预设编码格式以及所述邮箱密码口令强度低于预设口令强度中的至少一种,确定存在所述参数异常。
211.进一步的,如图3所示,所述第二检测单元32具体可以用于从所述邮件的静态特征中提取目标特征,并利用所述预设检测模型对所述目标特征执行预设操作,得到所述第二检测结果;其中,所述目标特征包括头文件特征、正文特征以及附件特征;
212.其中,所述头文件特征包括元数据特征以及主题特征;所述元数据特征包括传输路径与邮件目标不匹配的数量,以及所述邮件的发件地址是否为黑名单地址;所述主题特征包括邮件主题字符数量、邮件主题中的垃圾字符数据以及主题词数;
213.其中,所述正文特征包括正文描述性特征、可读性特征、正文中统一资源定位符url特征以及词汇特征;所述正文描述性特征包括正文中图像特征、超文本标记html特征以及正文数据类型数量;所述可读性特征包括正文中语言种类数量;所述正文中统一资源定位符url特征包括域名特征以及统一资源定位符url字符特征;所述词汇特征用于表征正文中垃圾词汇出现比例;
214.其中,所述附件特征包括附件总数、附件数据量、附件包含文件类型数量以及附件包含目标类型文件的数量。
215.进一步的,如图3所示,所述第三检测单元33,包括:
216.第一确定模块331,可以用于确定所述邮件中是否存在统一资源定位符url或附件;
217.第二确定模块332,可以用于当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果;
218.第三确定模块333,可以用于当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标文件时,基于所述目标文件提取第一行为特征,并基于所述第一行为特征确定所述第三检测结果;其中,所述第一行为特征为开启所述目标文件后触发的行为的特征;
219.第四确定模块334,可以用于当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果;其中,所述第二行为特征为开启所述附件后触发的行为的特征。
220.进一步的,如图3所示,所述第三检测单元33还包括:
221.第五确定模块335,可以用于当确定所述邮件中并未存在所述统一资源定位符url以及所述附件时,从所述邮件中获取邮件内容特征,并基于所述邮件内容特征确定所述第三检测结果;
222.其中,所述邮件内容特征包括文本关联性特征以及图像关联性特征;所述文本关联性特征是基于所述邮件的正文与所述邮件的标题之间的关联性确定的;所述图像关联性特征是基于所述邮件的图像与所述邮件的标题之间的关联性确定的。
223.进一步的,如图3所示,所述第二确定模块332包括:
224.获取子模块,3321可以用于根据所述统一资源定位符url确定所述目标页面,并获取所述目标页面的页面属性;
225.确定子模块3322,可以用于根据所述页面属性确定页面类别、相似页面、页面安全排名、被引用次数、访问次数中的至少一种,作为所述页面特征;
226.结果确定子模块3323,可以用于当基于所述页面特征确定所述目标页面为常规页面时,确定所述第三检测结果为所述正常邮件,其中,当确定所述页面类别为预设页面类别、所述相似页面为常规页面、所述页面安全排名高于预设排名、所述被引用次数高于预设次数以及访问次数高于预设次数中的任意一种条件时,确定所述目标页面为所述常规页面;
227.所述结果确定子模块3323,还可以用于当基于所述页面特征确定所述目标页面并非为所述常规页面时,确定所述第三检测结果为所述垃圾邮件。
228.进一步的,如图3所示,所述第四确定模块334,具体可以用于利用预设工具执行对所述附件的开启操作,并将所述开启操作执行后触发的行为作为第二行为特征,并当所述第二行为特征与目标行为相匹配时,确定所述第三检测结果为所述垃圾邮件,其中,所述目标行为包括进程开启行为、网络访问行为、释放文件行为以及域名解析行为中的至少一种。
229.进一步的,如图3所示,所述垃圾邮件还包括伪造邮件;
230.所述第一检测模块311还包括:
231.确定子模块3114,可以用于当确定所述邮件未通过所述发件地址真实性检测时,确定所述邮件为伪造邮件。
232.进一步的,如图3所示,所述垃圾邮件还包括探针邮件;所述探针邮件用于在被触发后盗取接收者的隐私数据
233.所述第二检测模块312,包括:
234.判断子模块3124,可以用于当确定所述邮件存在图像,获取所述图像比例,并判断所述图像比例是否存在异常,其中,所述图像比例为所述图像的相邻边长间的比例;
235.确定子模块3125,可以用于当确定所述图像比例异常时,将所述邮件确定为探针邮件。
236.本技术实施例提供一种邮件检测方法及装置,本技术能够首先通过第一规则对邮件进行检测,得到第一检测结果,然后当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,最后当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,从而基于第三检测结果中的正常邮件和垃圾邮件确定当前邮件的种类,实现邮件检测功能。与现有技术相比,由于本技术中采用了三个规则依次进行检测的方式,得到检测结果,也就是说当通过第一规则或第二规则检测时确定邮件为垃圾邮件,就能够省去后续步骤的检测,从而避免了现有的邮件检测方式在进行全方位检测时需要完全全部检测步骤才能得到检测结果所导致的检测效率较低的问题。同时,由于所述第一规则用于对所述邮件中的头文件特征进行检测,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征,且所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,也就是说第一规则和第二规则都是基于邮件中的特征进行静态检测,而第三规则基于邮件被操作后所触发的行为进行检测,也就
是说第三规则属于动态检测,因此在面对大量邮件时能够基于前两个规则的静态检测筛选掉一部分垃圾邮件后,仅对剩余部分的邮件执行动态检测,而由于静态检测要比动态检测所需的检测时间短,这样在面对大量邮件时可以减少执行动态检测的邮件的数量,从而进一步的减少整体的检测时间,从而提高检测效率。另外,对于计算机系统而言,基于第三规则检测时需要模拟邮件触发的情况,也就是说动态检测需要计算机系统消耗更多的系统资源,因此在利用第一规则和第二规则对大批量邮件进行检测时,能够省去在前两个规则就检测出的垃圾邮件执行动态检测的过程,也就可以在整体上减少执行第三规则的邮件的数量,也就减少了动态检测过程中较为占用系统资源的情况,从而减少了执行本技术方法的系统或设备的性能压力。
237.本技术实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的邮件检测方法。
238.存储介质可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
239.本技术实施例还提供了一种邮件检测装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行上述所述的邮件检测方法。
240.本技术实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:通过第一规则对邮件进行检测,得到第一检测结果,其中,所述第一规则用于对所述邮件中的头文件特征进行检测;当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征;当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
241.进一步的,所述第一规则包括真实性检测规则以及格式规则;所述真实性规则用于通过所述邮件的头文件特征对所述邮件的真实性进行检测,所述格式规则用于对所述邮件的特定静态特征进行检测,所述特定静态特征包括所述邮件的发件人信息、标题信息以及关联参数;
242.所述通过第一规则对邮件进行检测,得到第一检测结果,包括:
243.从所述邮件中提取头文件特征,并通过所述真实性规则对所述头文件特征执行真实性检测,所述真实性检测包括对所述邮件的邮箱的真实性、发件地址的真实性以及邮件的完整性进行检测;
244.当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
245.进一步的,所述通过所述真实性规则对所述头文件特征执行真实性检测,包括:
246.通过简单文本传输协议smtp对所述邮件执行邮箱真实性检测;
247.和/或,
248.通过发件人策略框架spf对所述邮件执行发件地址真实性检测;
249.和/或,
250.通过域名密钥识别邮件dkim对所述邮件执行邮件完整性检测;
251.所述当所述邮件通过所述真实性检测时,从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,包括:
252.当确定所述邮件通过所述邮箱真实性检测、发件地址真实性检测以及所述发件服务器真实性检测时,确定所述邮件通过所述真实性检测,并从所述邮件的静态特征中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果。
253.进一步的,所述从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,包括:
254.检测所述邮件的发件人信息中是否存在发件人姓名异常和发件人地址异常中的至少一种,其中,当所述发件人姓名的长度超过第一预设长度或所述发件人姓名中存在第一预设字符,确定存在发件人姓名异常;当所述发件人地址的长度超过第二预设长度或所述发件人地址中存在第二预设字符,确定存在所述发件人地址异常;
255.和/或,
256.检测所述邮件的标题信息是否存在标题异常,其中,当存在所述标题信息为空、所述标题信息中存在第三预设字符,以及所述标题信息中存在垃圾关键字中的至少一种,确定存在所述标题异常;
257.和/或,
258.获取所述邮件的关联参数,并检测所述邮件的关联参数是否存在参数异常,所述关联参数包括邮件数据量、邮件编码格式以及邮箱密码口令强度,所述参数异常用于表征所述邮件数据量超过预设数据量、所述邮件编码格式并非预设编码格式以及所述邮箱密码口令强度低于预设口令强度中的至少一种。
259.进一步的,所述通过第二规则对所述邮件进行检测,得到第二检测结果包括:
260.从所述邮件的静态特征中提取目标特征,并利用所述预设检测模型对所述目标特征执行预设操作,得到所述第二检测结果;其中,所述目标特征包括头文件特征、正文特征以及附件特征;
261.其中,所述头文件特征包括元数据特征以及主题特征;所述元数据特征包括传输路径与邮件目标不匹配的数量,以及所述邮件的发件地址是否为黑名单地址;所述主题特征包括邮件主题字符数量、邮件主题中的垃圾字符数据以及主题词数;
262.其中,所述正文特征包括正文描述性特征、可读性特征、正文中统一资源定位符url特征以及词汇特征;所述正文描述性特征包括正文中图像特征、超文本标记html特征以及正文数据类型数量;所述可读性特征包括正文中语言种类数量;所述正文中统一资源定位符url特征包括域名特征以及统一资源定位符url字符特征;所述词汇特征用于表征正文中垃圾词汇出现比例;
263.其中,所述附件特征包括附件总数、附件数据量、附件包含文件类型数量以及附件包含目标类型文件的数量。
264.进一步的,所述通过第三规则对所述邮件进行检测,得到第三检测结果,包括:
265.确定所述邮件中是否存在统一资源定位符url或附件;
266.当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果;
267.当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标文件时,基于所述目标文件提取第一行为特征,并基于所述第一行为特征确定所述第三检测结果;其中,所述第一行为特征为开启所述目标文件后触发的行为的特征;
268.当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果;其中,所述第二行为特征为开启所述附件后触发的行为的特征。
269.进一步的,在所述确定所述邮件中是否存在统一资源定位符url或附件之后,所述方法还包括:
270.当确定所述邮件中并未存在所述统一资源定位符url以及所述附件时,从所述邮件中获取邮件内容特征,并基于所述邮件内容特征确定所述第三检测结果;
271.其中,所述邮件内容特征包括文本关联性特征以及图像关联性特征;所述文本关联性特征是基于所述邮件的正文与所述邮件的标题之间的关联性确定的;所述图像关联性特征是基于所述邮件的图像与所述邮件的标题之间的关联性确定的。
272.进一步的,所述当确定所述邮件中存在所述统一资源定位符url,且确定所述统一资源定位符url被触发后跳转至目标页面时,基于所述目标页面提取页面特征,并基于所述页面特征确定所述第三检测结果,包括:
273.根据所述统一资源定位符url确定所述目标页面,并获取所述目标页面的页面属性;
274.根据所述页面属性确定页面类别、相似页面、页面安全排名、被引用次数、访问次数中的至少一种,作为所述页面特征;
275.当基于所述页面特征确定所述目标页面为常规页面时,确定所述第三检测结果为所述正常邮件,其中,当确定所述页面类别为预设页面类别、所述相似页面为常规页面、所述页面安全排名高于预设排名、所述被引用次数高于预设次数以及访问次数高于预设次数中的任意一种条件时,确定所述目标页面为所述常规页面;
276.当基于所述页面特征确定所述目标页面并非为所述常规页面时,确定所述第三检测结果为所述垃圾邮件。
277.进一步的,所述当确定所述邮件中存在所述附件时,基于所述附件提取第二行为特征,并基于所述第二行为特征确定所述第三检测结果,包括:
278.利用预设工具执行对所述附件的开启操作,并将所述开启操作执行后触发的行为作为第二行为特征,并当所述第二行为特征与目标行为相匹配时,确定所述第三检测结果为所述垃圾邮件,其中,所述目标行为包括进程开启行为、网络访问行为、释放文件行为以及域名解析行为中的至少一种。
279.进一步的,所述垃圾邮件还包括伪造邮件;
280.在所述通过发件人策略框架spf对所述邮件执行发件地址真实性检测之后,所述方法还包括:
281.当确定所述邮件未通过所述发件地址真实性检测时,确定所述邮件为伪造邮件。
282.进一步的,所述垃圾邮件还包括探针邮件;所述探针邮件用于在被触发后盗取接收者的隐私数据
283.所述从所述邮件中提取特定静态特征,通过所述格式规则对所述特定静态特征进行检测,得到所述第一检测结果,包括:
284.当确定所述邮件存在图像,获取所述图像比例,并判断所述图像比例是否存在异常,其中,所述图像比例为所述图像的相邻边长间的比例;
285.当确定所述图像比例异常时,将所述邮件确定为探针邮件。
286.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:通过第一规则对邮件进行检测,得到第一检测结果,其中,所述第一规则用于对所述邮件中的头文件特征进行检测;当所述第一检测结果为所述邮件为未知类型邮件时,通过第二规则对所述邮件进行检测,得到第二检测结果,其中,所述第二规则用于对所述邮件的静态特征进行检测,所述静态特征为所述邮件未被触发时的参数特征;当所述第二检测结果为所述邮件为所述未知类型邮件时,通过第三规则对所述邮件进行检测,得到第三检测结果,其中,所述第三规则用于对所述邮件的动态特征进行检测,所述动态特征为所述邮件被触发后产生的行为特征,所述第三检测结果包括正常邮件和垃圾邮件。
287.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
288.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
289.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
290.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
291.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
292.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/
或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
293.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
294.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
295.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
296.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1