识别指定类别ip地址的方法及设备、防御方法及系统的制作方法

文档序号:7775429阅读:185来源:国知局
识别指定类别ip地址的方法及设备、防御方法及系统的制作方法
【专利摘要】本发明公开了一种识别指定类别IP地址的方法及设备、防御方法及系统,其中,识别指定类别IP地址的方法包括:收集若干IP地址的行为记录数据;从所述收集的行为记录数据中提取预处理数据,所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息;对所述提取到的预处理数据进行分析,获得用户使用所述IP地址的行为时间分布数据;至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址。通过该方法,利用用户IP地址的时间分布数据来识别用户IP是否属于指定类别IP地址,能够更加精准地定位出某种类别的IP地址,提高了IP地址的识别的准确率。
【专利说明】识别指定类别IP地址的方法及设备、防御方法及系统
【技术领域】
[0001]本发明涉及互联网【技术领域】,具体涉及一种识别指定类别IP地址的方法及设备,以及一种提高用户终端安全防御的方法及系统。
【背景技术】
[0002]计算机的使用在各领域得到了广泛的普及,无论是公司用户还是个人用户,越来越依赖于计算机的使用。对于使用计算机的各个用户群而言,为了更准确地为指定类别的用户群提供更好的服务,需要准确地判断出一个用户IP地址(Internet ProtocolAddress,网际协议地址)是否是指定类别IP地址。目前,解决这个问题的主要方式有:
[0003]依靠用户IP对应的用户终端数的数目来识别此用户IP是否为指定类别IP的地址,例如,要识别某用户IP是否为公司IP地址,可以设置一个阈值5,用户IP对应的用户终端数的个数大于5,即认为是公司IP。这种单纯依靠单个IP对应的用户终端数直接识别该IP是否为公司IP是非常不准确的,因为有一些代理IP每个单IP对应的用户终端数超过几万甚至几十万,还有一些住宅小区的出口 IP可能只有一个,但是其对应的用户终端数却很多,但这些IP均不是公司IP地址。所以单纯使用单个IP对应的用户终端数来判断用户IP是否为公司IP地址的方法,是非常不准确的。
[0004]因此,迫切需要本领域技术人员解决的技术问题就在于,如何能够快速、准确有效地判断出一个用户IP是否为某种类别的IP地址的方法。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别指定类别IP地址的方法及设备,以及一种用于提高用户终端安全防御的方法及系统。
[0006]依据本发明的一个方面,提供了一种识别指定类别IP地址的方法,包括:
[0007]收集若干IP地址的行为记录数据;
[0008]从所述收集的行为记录数据中提取预处理数据,所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息;
[0009]对所述提取到的预处理数据进行处理分析,获得用户使用所述IP地址的行为时间分布数据;
[0010]至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址。
[0011]可选地,所述至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址包括:
[0012]基于每个IP地址的行为时间分布数据,对多个IP地址采用一种或多种聚类组合的方式进行聚类分析,识别出指定类别IP地址。
[0013]可选地,所述基于每个IP地址的行为时间分布数据,对多个IP地址采用多种聚类组合的方式进行聚类包括:[0014]从所述收集的若干IP地址中,选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点,基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据,收集到的多个IP地址采用第一聚类方式进行聚类,识别出各类别的IP地址;
[0015]对识别出的指定类别IP地址,采用第二聚类方式进行抽样聚类分析,获得该指定类别的数据分布特点;
[0016]根据所述采用第二聚类方式获得的数据分布特点,修正第一聚类方式的初始节点,并采用修正后的初始节点,对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类,进一步净化指定类别IP地址。
[0017]可选地,所述第一聚类方式为Kmeans,第二聚类方式为DBScan。
[0018]可选地,所述提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识,所述对提取到的预处理数据进行处理分析包括:
[0019]统计每个IP地址对应的用户终端数量;
[0020]对用户终端数量大于预置阈值的每个IP地址的预处理数据,根据行为时间不同划分为多个维度,并统计在不同时间段用户使用每个IP地址的用户终端数量;
[0021]对所述在不同时间段使用每个IP地址的用户终端数量进行归一化处理,获得用户使用所述IP地址的行为时间分布数据。
[0022]可选地,所述指定类别IP地址,具有特定的行为时间上的分布特点。
[0023]根据本发明的另一方面,提供了一种识别指定类别IP地址的设备,包括:
[0024]数据收集单元,用于收集若干IP地址的行为记录数据;
[0025]数据提取单元,用于从所述收集的行为记录数据中提取预处理数据,所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息;
[0026]数据处理单元,用于对所述提取到的预处理数据进行处理分析,获得用户使用所述IP地址的行为时间分布数据;
[0027]地址识别单元,用于至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址。
[0028]可选地,所述地址识别单元包括:
[0029]聚类分析单元,用于基于每个IP地址的行为时间分布数据,对多个IP地址采用一种或多种聚类组合的方式进行聚类分析,识别出指定类别IP地址。
[0030]可选地,所述聚类分析单元包括:
[0031]第一聚类分析单元,用于从所述收集的若干IP地址中,选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点,基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据,收集到的多个IP地址采用第一聚类方式进行聚类,识别出各类别的IP地址;
[0032]第二聚类分析单元,用于对识别出的指定类别IP地址,采用第二聚类方式进行抽样聚类分析,获得该指定类别的数据分布特点;
[0033]第三聚类分析单元,用于根据所述采用第二聚类方式获得的数据分布特点,修正第一聚类方式的初始节点,并采用修正后的初始节点,对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类,进一步净化指定类别IP地址。
[0034]可选地,所述第一聚类方式为Kmeans,所述第二聚类方式为DBScan。[0035]可选地,所述数据提取单元提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识,所述数据处理单元包括:
[0036]第一统计单元,用于统计每个IP地址对应的用户终端数量;
[0037]第二统计单元,用于对用户终端数量大于预置阈值的每个IP地址的预处理数据,根据行为时间不同划分为多个维度,并统计在不同时间段用户使用每个IP地址的用户终端数量;
[0038]归一化处理单元,用于对所述在不同时间段使用每个IP地址的用户终端数量进行归一化处理,获得用户使用所述IP地址的行为时间分布数据。
[0039]可选地,所述指定类别IP地址,具有特定的行为时间上的分布特点。
[0040]根据本发明的又一方面,提供了一种用于提高用户终端安全防御的方法,包括,预先通过所述识别指定类别IP地址的方法,识别出指定类别IP地址;
[0041]监控各用户终端的信息安全状况以及IP地址;
[0042]当在属于所述指定类别IP地址对应的用户终端中发现恶意程序时,提高安全防御级别或进行特殊安全防御处理。
[0043]根据本发明的再一方面,提供了一种用于提高用户终端安全防御的系统,包括,所述识别指定类别IP地址的设备,所述系统还包括:
[0044]监控单元,用于监控各用户终端的信息安全状况以及IP地址;
[0045]安全防御单元,用于当所述监控单元在所述识别设备识别出的指定类别IP地址对应的用户终端中发现恶意程序时,提高安全防御级别或进行特殊安全防御处理。
[0046]根据本发明提供的一种识别指定类别IP地址的方法及设备,首先通过对用户IP行为记录数据的收集分析处理,得到用户使用用户IP地址的行为时间分布数据,最后根据获得的用户IP地址的行为时间分布数据,识别出指定类别IP地址。本发明利用用户IP地址的时间分布数据来识别用户IP是否指定类别IP地址,从而不必单纯地依靠单个IP对应的用户终端数量来识别IP地址的类别,能够更加精准地定位出某种类别的IP地址,提高了IP地址的识别的准确率。
[0047]另外,本发明还提供了一种用于提高用户终端安全防御的方法及系统,首先通过本发明提供的识别指定类别IP地址的方法及系统,识别出指定类别IP地址。由于在实际应用中,比较关注属于某一类别的IP地址的用户群的安全状况,此时可以监控各用户终端的安全信息状况以及用户终端的IP地址,当发现属于上述识别出的指定类别IP地址的用户终端中存在恶意程序时,由于恶意程序对用户终端的安全性会造成威胁,因此需要提高此用户终端的安全防御级别或进行特殊的安全防御处理,以提高用户终端的安全防御能力,由此实现了有针对性地提高某一类用户群终端的安全防御能力。
[0048]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0049]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0050]图1示出了根据本发明一个实施例的一种识别指定类别IP地址的方法流程图;
[0051]图2示出了根据本发明一个实施例的一种识别指定类别IP地址的系统示意图;
[0052]图3示出了根据本发明一个实施例的一种用于提高用户终端安全防御的方法流程图;
[0053]图4示出了根据本发明一个实施例的一种用于提高用户终端安全防御的系统示意图。
【具体实施方式】
[0054]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0055]参见图1,图1示出了根据本发明一个实施例的一种识别指定类别IP地址的方法流程图,下面根据图1对本发明提供的方法进行描述。本发明提供的一种识别指定类别IP地址的方法包括以下步骤:
[0056]SlOl:收集若干IP地址的行为记录数据。
[0057]具体的,主要是通过记录用户IP使用的行为日志,来获取所要收集的数据,一般的,用户的行为日志主要包括用户使用的历史记录,主要包括搜索历史、点击历史、购买历史和浏览数据历史等。在本发明的一个实施例中,主要是记录用户IP使用安全软件、安全软件主界面、杀毒软件、浏览器这四款产品的行为日志获取数据,在本实施例中,之所以采用这四款产品,主要是因为这四款产品基本上涵盖了所有用户,覆盖面非常大,通过用户IP使用这四款产品的行为日志得到的数据也比较全面。当然,也可以通过其他途径获取IP地址的行为记录数据,例如用户IP对应的终端启动计算机的行为记录,使用音乐播放器或视屏播放器等的行为记录,都可以作为数据来源。
[0058]S102:从收集的行为记录数据中提取预处理数据,该提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息。
[0059]在一个完整的信息系统里面,日志系统是一个非常重要的功能组成部分。它可以记录下系统所产生的所有行为,并按照某种规范表达出来。在本发明的实施例中,主要选取了用户IP使用安全软件、打开安全软件主界面、杀毒软件、浏览器所产生的行为日志数据作为分析对象。在对用户IP的行为日志进行数据提取时,主要是提取使用上述四款产品的用户IP的地址信息以及产生行为的时间信息,即用户IP使用哪款产品的时间。另外,还可以提取用户IP使用这四款产品的产品应用标识,即用户IP使用了哪款产品,应用标识可以是应用的名称,也可以是应用所在的地址,甚至可以先给上述几款产品编号,按照产品对应的编号识别是哪款产品。当然,也可以不提取用户IP使用这四款产品的产品应用标识,因为本发明的目的主要是根据用户IP的行为时间分布数据来识别用户IP是否指定类别IP地址,所以最主要的是要提取用户IP的地址信息以及此IP地址产生行为的时间信息,至于产品的应用标识是可选的,但本发明的一个实施例中希望探究一下用户IP使用不同产品对最后识别IP地址结果的影响,因此也提取了用户IP使用哪款产品的产品应用标识。[0060]在实际应用中,上述提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识,用户终端标识是用以唯一标识一台用户终端的信息,具体实现形式都多种。例如,用户终端标识可以根据用户终端的网卡Mac地址以及安装在此用户终端上的某个软件的软件序列号来获得,而用户终端上的软件序列号可以使用具体的算法来分配,对用户终端唯一标识,具体使用算法如何进行分配软件序列号,通过现有技术来实现,在此不再重复说明。为了方便后面的描述,把上述用户终端标识暂且自定义为mid,提取每个IP地址对应的用户终端数量以及用户终端标识mid主要是为后面对数据的归一化处理做准备,对数据的归一化处理主要是将用户使用IP地址的用户终端mid总数除以此IP地址对应的用户终端mid的总数。其中,每个IP地址对应的用户终端数量以及用户IP产生行为的用户终端mid总数,可以通过用户终端标识mid来统计,即对于每个用户IP,有多少终端在使用。也可以根据上述记录的产品的应用标识,统计用户IP使用哪款产品的mid总数,当然,前面已经说明产品的应用标识是可选地,那么此处的统计用户IP使用哪款产品的mid总数也是可选的。
[0061]S103:对提取到的预处理数据进行处理分析,获得用户使用IP地址的行为时间分布数据。
[0062]在具体实现过程中,本步骤的主要目的是对上述步骤S102提取的预处理数据,通过一定的处理分析,获得用户使用所述IP地址的行为时间分布数据,再采用适当的方法来识别IP是否指定类别IP地址。此处的指定类别可以是公司、网吧、学校或其它的公共场所等,在本发明提供的一实施例中,指定类别是指公司,即以公司为例,来说明本发明所采用的方法。
[0063]首先,对步骤S102中提取的预处理数据做进一步处理:根据用户终端标识mid,统计每个IP地址对应的用户终端数量,即每个IP地址所对应的mid数,然后根据上述统计的每个IP地址对应的用户终端数量,依靠单个IP对应的用户终端数的多少来判断出个人家庭电脑。一般公司电脑或公共场所电脑(比如网吧)同一个IP会对应多个mid数,在具体的实施过程中,可以根据实际经验数据设置一个阈值,比如4,同一个IP对应的mid数大于4的,可以认为是公司电脑或公共场所的电脑;同一个IP对应的mid数小于或等于4的,可以认为是个人家庭电脑。在对提取的预处理数据进行处理分析的过程中,通过这种方法,把数据中的家庭电脑IP找出来,并将这些数据剔除,只留下同一个IP对应的mid数大于4的数据,减少了后续需要处理的数据量。
[0064]当然,也可以不进行这一步的处理,直接对提取的预处理数据根据行为时间的不同划分为多个维度,并统计在不同时间段用户使用每个IP地址的终端数量。因为后续是要进行IP地址识别的,识别IP地址属于哪一类别,因此可以在后续的识别过程中将这些用户终端数量小于预置阈值的IP地址识别出来。此处首先进行这一步处理,主要是因为提取的预处理数据量比较大,将用户终端数量小于阈值的IP地址识别出来,就减少了后面需要处理的数据量,减轻了后面数据处理的负担。
[0065]由于一般公司电脑在工作时间(周一到周五每天08:00-19:00)使用的比较多,在周一到周五的非工作时间和周末使用得比较少;而网吧电脑或公共场所电脑在工作时间使用得相对比较少,在非工作时间和周末使用得相对比较多。因此,对用户终端数量大于预置阈值的每个IP地址的数据,根据用户IP产生行为的时间,将上述数据划分为多个维度,在此处即为多个时间段,并统计在上述不同时间段用户使用IP地址的终端数量。在本发明的一实施例中,将用户IP产生行为的时间主要分为周一到周五的工作时间段,即周一到周五每天08:00-19:00 ;周六到周日每天08:00-19:00 ;周一到周五的非工作时间段,即周一到周五每天不在08:00-19:00 ;周六到周日每天不在08:00-19:00 ;周一到周日每天20:00-22:OO0本发明一实施例中,同时将用户IP产生的行为时间划分为周一到周日的不在08:00-19:00时间段与周一到周日在20:00-22:00的时间段,主要是将范围较大的时间段(不在08:00-19:00)与相对比较小的时间段(在20:00-22:00)同时考虑进去,提高识别用户IP是否为公司IP地址的结果的准确度。最后记录每个用户IP在上述这些时间段使用前述几款产品的mid总数。
[0066]另外,一般公司电脑和家用电脑打开安全软件主界面的概率比较大,而网吧电脑或公共场所电脑打开安全软件主界面的概率相对比较小。因此根据用户IP使用的产品的产品应用标识,又对用户IP使用的产品进行了划分,由于在本发明的实施例中,选取的产品是安全软件、安全软件主界面、杀毒软件和浏览器,因此划分的几个维度分别是每个用户IP使用安全软件的mid数、打开安全软件主界面的mid数、使用杀毒软件的mid数和使用浏览器的mid数。
[0067]上述步骤S103的过程均是通过计算机来完成的,由于需要处理的数据比较大,因此需要选择一个能对大数据进行快速、准确处理的运行环境,例如hadoop系统能够对大量数据进行分布式处理,对大数据能够快速、良好地运行,因此本发明一实施例处理数据是在hadoop运行环境下进行的。通过上述处理过程,将数据处理成如下表1的格式:
[0068]表1
[0069]
【权利要求】
1.一种识别指定类别IP地址的方法,包括: 收集若干IP地址的行为记录数据; 从所述收集的行为记录数据中提取预处理数据,所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息; 对所述提取到的预处理数据进行分析,获得用户使用所述IP地址的行为时间分布数据; 至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址。
2.如权利要求1所述的方法,所述至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址包括: 基于每个IP地址的行为时间分布数据,对多个IP地址采用一种或多种聚类组合的方式进行聚类,识别出指定类别IP地址。
3.如权利要求2所述的方法,所述基于每个IP地址的行为时间分布数据,对多个IP地址采用多种聚类组合的方式进行聚类包括: 从所述收集的若干IP地址中,选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点,基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据,采用第一聚类方式对收集到的多个IP地址进行聚类,识别出指定类别IP地址; 对识别出的指定类别IP地址,采用第二聚类方式进行抽样聚类分析,获得该指定类别的数据分布特点; 根据所述采用第二聚类方式获得的数据分布特点,修正第一聚类方式的初始节点,并采用修正后的初始节点,对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类,进一步筛选出指定类别IP地址。
4.如权利要求3所述的方法,所述第一聚类方式采用Kmeans算法,第二聚类方式采用DBScan 算法。
5.如权利要求1至4中任一项所述的方法,所述提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识,所述对提取到的预处理数据进行分析包括: 统计每个IP地址对应的用户终端数量; 对用户终端数量大于预置阈值的每个IP地址的预处理数据,根据行为时间不同划分为多个维度,并统计在不同时间段使用每个IP地址的用户终端数量; 对所述在不同时间段使用每个IP地址的用户终端数量进行归一化处理,获得用户使用所述IP地址的行为时间分布数据。
6.一种识别指定类别IP地址的设备,包括: 数据收集单元,用于收集若干IP地址的行为记录数据; 数据提取单元,用于从所述收集的行为记录数据中提取预处理数据,所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息; 数据处理单元,用于对所述提取到的预处理数据进行分析,获得用户使用所述IP地址的行为时间分布数据; 地址识别单元, 用于至少根据用户使用所述IP地址的行为时间分布数据,识别出指定类别IP地址。
7.如权利要求6所述的设备,所述地址识别单元包括:聚类分析单元,用于基于每个IP地址的行为时间分布数据,对多个IP地址采用一种或多种聚类组合的方式进行聚类分析,识别出指定类别IP地址。
8.如权利要求7所述的设备,所述聚类分析单元包括: 第一聚类分析单元,用于从所述收集的若干IP地址中,选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点,基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据,采用第一聚类方式对收集到的多个IP地址进行聚类,识别出指定类别IP地址; 第二聚类分析单元,用于对识别出的指定类别IP地址,采用第二聚类方式进行抽样聚类分析,获得该指定类别的数据分布特点; 第三聚类分析单元,用于根据所述采用第二聚类方式获得的数据分布特点,修正第一聚类方式的初始节点,并采用修正后的初始节点,对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类,进一步筛选出指定类别IP地址。
9.一种提高用户终端安全防御的方法,包括,预先通过权利要求1至5中任一项所述识别指定类别IP地址的方法,识别出指定类别IP地址; 监控各用户终端的信息安全状况以及IP地址; 当在属于所述指定类别IP地址对应的用户终端中发现恶意程序时,提高安全防御级别或进行特殊安全防御处理。
10.一种提高用户终端安全防御的系统,包括,权利要求6-8任一项所述识别指定类别IP地址的设备,还包括: 监控单元,用于监控各用户终端的信息安全状况以及IP地址; 安全防御单元,用于当所述监控单元在所述识别设备识别出的指定类别IP地址对应的用户终端中发现恶意程序时,提高安全防御级别或进行特殊安全防御处理。
【文档编号】H04L29/06GK103812961SQ201310535856
【公开日】2014年5月21日 申请日期:2013年11月1日 优先权日:2013年11月1日
【发明者】王艳辉, 王素梅 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1