一种互联网邮箱系统的识别方法与流程

文档序号：20203397发布日期：2020-03-27 20:52阅读：446来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及电数字数据处理的技术领域，特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的一种互联网邮箱系统的识别方法。

背景技术：

随着互联网的飞速发展，人们使用邮箱系统的次数日益增多，互联网上也开放了很多邮箱系统的网站，这些网站成为了黑客的目标网站，基于这些网站，黑客窃取了大量的重要文件、信息，并可以基于这些网站传播计算机病毒文件。

在这种大前提下，快速识别互联网上开放的邮箱系统是非常重要的，快速识别互联网邮箱系统是加强对邮箱系统的安全监管的有效途径。

现有技术中，互联网上网站虽多，但识别这些网站的类型的途径却有所欠缺，一般来说，还是主要通过人工进行判断，然而，通过人工判断的工作量巨大，需要先进行识别、再进行匹配，效率低，且识别中易出现疏漏。

技术实现要素：

本发明解决了现有技术中，主要通过人工判断识别互联网邮箱系统，而导致的工作量巨大、效率低、易出现疏漏的问题，提供了一种优化的互联网邮箱系统的识别方法，利用一定规则进行互联网邮箱系统的识别。

本发明所采用的技术方案是，一种互联网邮箱系统的识别方法，所述方法包括以下步骤：

步骤1：收集互联网的网站首页，爬取网站首页信息；

步骤2：获取网站的邮箱服务类型数据的ip及对应的端口数据；

步骤3：清洗步骤1和步骤2得到的数据，分别存储至数据库中；

步骤4：取数据库中的数据，进行规则匹配，对互联网网站进行标注，识别互联网邮箱系统。

优选地，所述步骤1中，以网络爬虫定向获取互联网的网站首页。

优选地，所述步骤1中，网站首页信息还包括网站首页的body、header、title、url、ip和端口。

优选地，所述步骤2中，邮箱服务类型数据的ip及对应的端口数据通过扫描ip开放的端口并识别端口处开通的邮箱服务类型获得。

优选地，所述步骤4包括以下步骤：

步骤4.1：取数据库中步骤1得到的数据，进行规则匹配；

步骤4.2：对匹配成功的数据标注对应的互联网网站，识别互联网邮箱系统；匹配未成功的数据进行下一步；

步骤4.3：取数据中步骤2得到的数据，对匹配未成功的数据进行对应组合，对应组合成功的数据识别为邮箱系统并标注对应的互联网网站；

步骤4.4：输出所有识别的互联网邮箱系统。

优选地，所述规则匹配包括：

获取网站首页的title，title中包含“邮箱系统”，则识别为互联网邮箱系统；

获取网站的url，url中包含邮箱关键字，则识别为互联网邮箱系统；

获取网站首页的header，header中识别到邮箱系统的特征信息，则识别为互联网邮箱系统；

获取网站首页的body，预处理body后得到字符串，字符串小于预设值且字符串中包括标识信息，则识别为互联网邮箱系统。

优选地，所述字符串为去除body中html标签后的字符串。

优选地，所述标识信息为关键字，所述关键字包括mail、用户名、密码、邮箱系统、邮件系统。

优选地，所述步骤4.3中，对应组合的条件为ip相等且端口相等。

本发明提供了一种优化的互联网邮箱系统的识别方法，通过收集互联网的网站首页并爬取信息、获取网站的邮箱服务类型数据的ip及对应的端口数据，对以上数据进行清理并分别存储至数据库中，对数据库中的数据进行规则匹配，对互联网网站进行标注、识别互联网邮箱系统。

本发明获取大量互联网网站，利用网站指纹、网站标题以及利用扫描工具获取ip和ip开放的端口服务等规则，对互联网邮箱系统进行识别，可以在短时间内、从众多的互联网网站中快速识别并标注邮箱系统，极大程度上减少人工参与，快速识别邮箱系统，为相应的监管人提供便利。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种互联网邮箱系统的识别方法，所述方法包括以下步骤。

步骤1：收集互联网的网站首页，爬取网站首页信息。

所述步骤1中，以网络爬虫定向获取互联网的网站首页。

所述步骤1中，网站首页信息还包括网站首页的body、header、title、url、ip和端口。

步骤2：获取网站的邮箱服务类型数据的ip及对应的端口数据。

所述步骤2中，邮箱服务类型数据的ip及对应的端口数据通过扫描ip开放的端口并识别端口处开通的邮箱服务类型获得。

本发明中，扫描可以采用nmap等工具，此为本领域的常规技术，本领域技术人员可以自行设置。

步骤3：清洗步骤1和步骤2得到的数据，分别存储至数据库中。

本发明中，可以采用hive等方式清洗数据并存储到相应的数据库中，此为本领域的常规技术，本领域技术人员可以自行设置。

步骤4：取数据库中的数据，进行规则匹配，对互联网网站进行标注，识别互联网邮箱系统。

所述步骤4包括以下步骤：

步骤4.1：取数据库中步骤1得到的数据，进行规则匹配；

所述规则匹配包括：

获取网站首页的title，title中包含“邮箱系统”，则识别为互联网邮箱系统；

获取网站的url，url中包含邮箱关键字，则识别为互联网邮箱系统；

获取网站首页的header，header中识别到邮箱系统的特征信息，则识别为互联网邮箱系统；

获取网站首页的body，预处理body后得到字符串，字符串小于预设值且字符串中包括标识信息，则识别为互联网邮箱系统。

所述字符串为去除body中html标签后的字符串。

所述标识信息为关键字，所述关键字包括mail、用户名、密码、邮箱系统、邮件系统。

步骤4.2：对匹配成功的数据标注对应的互联网网站，识别互联网邮箱系统；匹配未成功的数据进行下一步；

步骤4.3：取数据中步骤2得到的数据，对匹配未成功的数据进行对应组合，对应组合成功的数据识别为邮箱系统并标注对应的互联网网站；

所述步骤4.3中，对应组合的条件为ip相等且端口相等。

步骤4.4：输出所有识别的互联网邮箱系统。

本发明中，指纹信息是指互联网上常用的邮箱系统的指纹信息，例如coremail、ecmall、eyoumail、winmail。

本发明中，获取的网站首页的title中若不包含“邮箱系统”的关键字，则认为其不是邮箱系统，将未识别的数据放到下一个识别环节中，进行后续的匹配；后续的匹配同理。

本发明中，当url中包含的邮箱关键字为“mail”、“pop3”、”smtp”等时，则识别为“邮箱系统”。

本发明中，基于body去掉html标签以后的字符串长度，根据一般邮箱系统登录页面的内容很少的特征，一般预设值为100，即body的字符串长度小于100且文章中包含mail、用户名、密码、邮箱系统、邮件系统等关键字时，可以判定为互联网邮箱系统。

本发明中，特征信息又可以称为指纹信息，是指非公众所熟知的、需要自行根据邮箱系统的特征进行提取的信息。例如，eyoumail邮箱系统的指纹为header中set-cookie中包含“emphpsid=”，又如“maild邮箱系统”的职位是header，set-cookie中包含“idhttpsessionid=”；每种邮箱系统都或多或少存在诸如此类的特征，将根据这些特征信息、作为指纹进行识别。

本发明中，对于没有一次识别成功的数据，以步骤2得到的数据与其进行二次匹配，当两组数据的ip相等且端口相等时，认为一个ip上开放的端口中既有邮箱服务、又开放了互联网网站，那么这个互联网网站一定是一个邮箱系统。

本发明中，在进行完识别步骤后，给识别的网站打上标签、进行标注，识别到邮箱系统的、满足规则的互联网网站则打上“邮箱系统”的标识，未识别的则标注“未识别”。

本发明通过收集互联网的网站首页并爬取信息、获取网站的邮箱服务类型数据的ip及对应的端口数据，对以上数据进行清理并分别存储至数据库中，对数据库中的数据进行规则匹配，对互联网网站进行标注、识别互联网邮箱系统。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：温延龙;范渊
技术所有人：杭州安恒信息技术股份有限公司
我是此专利的发明人

上一篇：组合式多功能电镀砂轮的制作方法
上一篇：一种面料加工用自动熨烫装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。