一种互联网邮箱系统的识别方法与流程

文档序号:20203397发布日期:2020-03-27 20:52阅读:446来源:国知局
一种互联网邮箱系统的识别方法与流程

本发明涉及电数字数据处理的技术领域,特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的一种互联网邮箱系统的识别方法。



背景技术:

随着互联网的飞速发展,人们使用邮箱系统的次数日益增多,互联网上也开放了很多邮箱系统的网站,这些网站成为了黑客的目标网站,基于这些网站,黑客窃取了大量的重要文件、信息,并可以基于这些网站传播计算机病毒文件。

在这种大前提下,快速识别互联网上开放的邮箱系统是非常重要的,快速识别互联网邮箱系统是加强对邮箱系统的安全监管的有效途径。

现有技术中,互联网上网站虽多,但识别这些网站的类型的途径却有所欠缺,一般来说,还是主要通过人工进行判断,然而,通过人工判断的工作量巨大,需要先进行识别、再进行匹配,效率低,且识别中易出现疏漏。



技术实现要素:

本发明解决了现有技术中,主要通过人工判断识别互联网邮箱系统,而导致的工作量巨大、效率低、易出现疏漏的问题,提供了一种优化的互联网邮箱系统的识别方法,利用一定规则进行互联网邮箱系统的识别。

本发明所采用的技术方案是,一种互联网邮箱系统的识别方法,所述方法包括以下步骤:

步骤1:收集互联网的网站首页,爬取网站首页信息;

步骤2:获取网站的邮箱服务类型数据的ip及对应的端口数据;

步骤3:清洗步骤1和步骤2得到的数据,分别存储至数据库中;

步骤4:取数据库中的数据,进行规则匹配,对互联网网站进行标注,识别互联网邮箱系统。

优选地,所述步骤1中,以网络爬虫定向获取互联网的网站首页。

优选地,所述步骤1中,网站首页信息还包括网站首页的body、header、title、url、ip和端口。

优选地,所述步骤2中,邮箱服务类型数据的ip及对应的端口数据通过扫描ip开放的端口并识别端口处开通的邮箱服务类型获得。

优选地,所述步骤4包括以下步骤:

步骤4.1:取数据库中步骤1得到的数据,进行规则匹配;

步骤4.2:对匹配成功的数据标注对应的互联网网站,识别互联网邮箱系统;匹配未成功的数据进行下一步;

步骤4.3:取数据中步骤2得到的数据,对匹配未成功的数据进行对应组合,对应组合成功的数据识别为邮箱系统并标注对应的互联网网站;

步骤4.4:输出所有识别的互联网邮箱系统。

优选地,所述规则匹配包括:

获取网站首页的title,title中包含“邮箱系统”,则识别为互联网邮箱系统;

获取网站的url,url中包含邮箱关键字,则识别为互联网邮箱系统;

获取网站首页的header,header中识别到邮箱系统的特征信息,则识别为互联网邮箱系统;

获取网站首页的body,预处理body后得到字符串,字符串小于预设值且字符串中包括标识信息,则识别为互联网邮箱系统。

优选地,所述字符串为去除body中html标签后的字符串。

优选地,所述标识信息为关键字,所述关键字包括mail、用户名、密码、邮箱系统、邮件系统。

优选地,所述步骤4.3中,对应组合的条件为ip相等且端口相等。

本发明提供了一种优化的互联网邮箱系统的识别方法,通过收集互联网的网站首页并爬取信息、获取网站的邮箱服务类型数据的ip及对应的端口数据,对以上数据进行清理并分别存储至数据库中,对数据库中的数据进行规则匹配,对互联网网站进行标注、识别互联网邮箱系统。

本发明获取大量互联网网站,利用网站指纹、网站标题以及利用扫描工具获取ip和ip开放的端口服务等规则,对互联网邮箱系统进行识别,可以在短时间内、从众多的互联网网站中快速识别并标注邮箱系统,极大程度上减少人工参与,快速识别邮箱系统,为相应的监管人提供便利。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。

本发明涉及一种互联网邮箱系统的识别方法,所述方法包括以下步骤。

步骤1:收集互联网的网站首页,爬取网站首页信息。

所述步骤1中,以网络爬虫定向获取互联网的网站首页。

所述步骤1中,网站首页信息还包括网站首页的body、header、title、url、ip和端口。

步骤2:获取网站的邮箱服务类型数据的ip及对应的端口数据。

所述步骤2中,邮箱服务类型数据的ip及对应的端口数据通过扫描ip开放的端口并识别端口处开通的邮箱服务类型获得。

本发明中,扫描可以采用nmap等工具,此为本领域的常规技术,本领域技术人员可以自行设置。

步骤3:清洗步骤1和步骤2得到的数据,分别存储至数据库中。

本发明中,可以采用hive等方式清洗数据并存储到相应的数据库中,此为本领域的常规技术,本领域技术人员可以自行设置。

步骤4:取数据库中的数据,进行规则匹配,对互联网网站进行标注,识别互联网邮箱系统。

所述步骤4包括以下步骤:

步骤4.1:取数据库中步骤1得到的数据,进行规则匹配;

所述规则匹配包括:

获取网站首页的title,title中包含“邮箱系统”,则识别为互联网邮箱系统;

获取网站的url,url中包含邮箱关键字,则识别为互联网邮箱系统;

获取网站首页的header,header中识别到邮箱系统的特征信息,则识别为互联网邮箱系统;

获取网站首页的body,预处理body后得到字符串,字符串小于预设值且字符串中包括标识信息,则识别为互联网邮箱系统。

所述字符串为去除body中html标签后的字符串。

所述标识信息为关键字,所述关键字包括mail、用户名、密码、邮箱系统、邮件系统。

步骤4.2:对匹配成功的数据标注对应的互联网网站,识别互联网邮箱系统;匹配未成功的数据进行下一步;

步骤4.3:取数据中步骤2得到的数据,对匹配未成功的数据进行对应组合,对应组合成功的数据识别为邮箱系统并标注对应的互联网网站;

所述步骤4.3中,对应组合的条件为ip相等且端口相等。

步骤4.4:输出所有识别的互联网邮箱系统。

本发明中,指纹信息是指互联网上常用的邮箱系统的指纹信息,例如coremail、ecmall、eyoumail、winmail。

本发明中,获取的网站首页的title中若不包含“邮箱系统”的关键字,则认为其不是邮箱系统,将未识别的数据放到下一个识别环节中,进行后续的匹配;后续的匹配同理。

本发明中,当url中包含的邮箱关键字为“mail”、“pop3”、”smtp”等时,则识别为“邮箱系统”。

本发明中,基于body去掉html标签以后的字符串长度,根据一般邮箱系统登录页面的内容很少的特征,一般预设值为100,即body的字符串长度小于100且文章中包含mail、用户名、密码、邮箱系统、邮件系统等关键字时,可以判定为互联网邮箱系统。

本发明中,特征信息又可以称为指纹信息,是指非公众所熟知的、需要自行根据邮箱系统的特征进行提取的信息。例如,eyoumail邮箱系统的指纹为header中set-cookie中包含“emphpsid=”,又如“maild邮箱系统”的职位是header,set-cookie中包含“idhttpsessionid=”;每种邮箱系统都或多或少存在诸如此类的特征,将根据这些特征信息、作为指纹进行识别。

本发明中,对于没有一次识别成功的数据,以步骤2得到的数据与其进行二次匹配,当两组数据的ip相等且端口相等时,认为一个ip上开放的端口中既有邮箱服务、又开放了互联网网站,那么这个互联网网站一定是一个邮箱系统。

本发明中,在进行完识别步骤后,给识别的网站打上标签、进行标注,识别到邮箱系统的、满足规则的互联网网站则打上“邮箱系统”的标识,未识别的则标注“未识别”。

本发明通过收集互联网的网站首页并爬取信息、获取网站的邮箱服务类型数据的ip及对应的端口数据,对以上数据进行清理并分别存储至数据库中,对数据库中的数据进行规则匹配,对互联网网站进行标注、识别互联网邮箱系统。

本发明获取大量互联网网站,利用网站指纹、网站标题以及利用扫描工具获取ip和ip开放的端口服务等规则,对互联网邮箱系统进行识别,可以在短时间内、从众多的互联网网站中快速识别并标注邮箱系统,极大程度上减少人工参与,快速识别邮箱系统,为相应的监管人提供便利。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1