使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法与流程

文档序号:11161018阅读:372来源:国知局
本发明涉及一种用于整并计算机及其相关网络的威胁情报数据(threatintelligencedata)的系统和方法。特别是,本发明涉及从多个来源收集数量庞大的原始威胁情报数据,并将所收集的数据划分成一公共格式以供进行群集分析(clusteranalysis)。接着其使用无监督式机器学习算法(unsupervisedmachinelearningalgorithm)将经过标准化的数据群集。所产生的经过组织的威胁情报数据其后经历以加权资产(weightedasset)为基础的威胁严重等级相关过程。一特定计算机网络的所有中间网络漏洞均被使用做为此过程的关键整并参数。透过此高速自动化过程所集纳的经过处理的最终情报数据接着在传输至第三方之前被格式化成预定义格式。现有技术概述计算机及其相关网络的安全和健全对于企业每日的正常运作而言已变得极其重要,因为储存于这些计算机和网络之内的信息无日不受到来自各式各样来源的日益复杂的恶意网络威胁的威胁。由于计算技术的进展,对于计算机网络的攻击也已变得日渐复杂,使得现有的安全专家和他们的管理工具均难以应付和减轻这些攻击。这些网络攻击的形式可以是来自计算机病毒、蠕虫(worm)、拒绝服务攻击(denialofserviceattack;DoS)、特洛伊木马(Trojanhorse)、网络钓鱼(phishing)、或者任何其他恶意的软件的威胁,其意图是扰乱基本的计算机运作、收集敏感数据及/或获取限制性计算机网络的存取权。这种性质的软件概括地被称为"恶意软件(malware)"。因此,为了先行预防可能由这些威胁对重要信息资产所造成的任何损害,其需要维持有关这些网络安全威胁的最新情报信息的持续性境况知晓。为了减轻施加到计算机及其相关网络的网络威胁,安全提供者需要有关于这些威胁的概貌及来源的详细信息。此信息将包括特定恶意软件的来源,诸如域名(domainname)、因特网协议(IP)地址、相关网站及其统一资源定位符(URL)、电子邮件地址、国家及全球位置坐标、以及这些恶意软件的检测足迹,使得网络安全提供者能够拿出全面性的策略来预测及缓解这些恶意软件。由于网络安全提供者不可能自己获得这种信息,所以这种信息通常是从诸如开放来源与商业厂商的各种情报来源取得的。这些情报来源供应网络威胁情报数据,所述数据提供有关于已被检测、标识且分类的潜在与现有的网络威胁的信息。从这些信息提供者取得的数据从而可以由网络安全提供者和系统管理者使用,以确保其计算机系统对于这些潜在威胁被妥善保护。多数系统管理者向开放来源和商业网络安全提供者两方均预订所述威胁情报数据。然而,来自每一个这些来源的数据馈入通常被表示成它们自己的专有格式,且取决于研发团队的实力,还带有不同程度有效性和可靠度。错误、不精确、及/或误导信息的传递的可能性特别令人关注,因为此虚假信息可能对使用所接收威胁情报的组织或政府的能力造成广泛的质疑。此虚假信息问题并不容易处理,因为信息的数字传输是以非常高的速度、自由且大量地进行。因此,对于网络管理者而言,其难以正确地采用这些不一致的数据馈入而后将其变成对抗入侵安全威胁的可用的可操作回应。此外,由于数量庞大的原始数据是由各种情报来源每日产生,所以从这些大量原始数据提炼可操作信息是一项令人却步的事情,所述原始数据中甚至可能包含重复的数据。当每一个情报来源均以其自己的语言用其自己的规则、使用其自己的网络协议和事件日志传递数据时,此问题变得格外错综复杂。这造成使用随着来源变动的各种网络协议的各种格式数据的传输。有鉴于此,大多数网络安全威胁情报系统的提供者均将不知所措,且其网络安全威胁情报态势的总体视野将不足、延迟和混淆。因此,实际切入不同格式的大量原始威胁情报数据并且将其转换成有用的情报数据是一个巨大的挑战。这些人力和技术低效的累积将使得数据的传输无法被第三方充分运用。DeloitteDevelopmentLLC名下的标题为"CollectiveThreatIntelligenceGatheringSystem(集体威胁情报收集系统)"的美国专利号8,813,228B2提出一种从多种来源收集威胁情报数据的系统。该系统从而对数据进行聚集、标准化、过滤、评分和分类,以标识出对于一信息网络的威胁。本文档还揭示出,最终而言,传入情报数据的每一馈入均被分类成预定义的威胁类别。还使用市售或公开可用的已知威胁数据对该数据进行分析和评分。得到高恶意分数的数据接着被进一步格式化,而后被分发给消费者。RamakrishnaSatyavolu等人名下的标题为"MethodandApparatusforControlledEstablishmentofaTurnkeySystemProvidingaCentralizedDataAggregationandSummaryCapabilitytoThirdPartyEntities(用于提供集中式数据聚集与摘要能力给第三方实体的成套系统的受控构建的方法与设备)"的美国专利公开号2003/0191832A1揭示了一种用以从一网络收集和聚集数据的软件系统,其中数据从而被区隔、优化和归纳,然后经过处理的数据被分发给第三方。第三方利用建立自该系统的情报以提供及改善他们的安全系统。概括而言,从各种来源取得的数据馈入并不提供即时和自动化的威胁情报分析。特别是,没有网络威胁数据源提供评估流向目标计算机系统的数据的正确性和相关性的"智能"数据馈入。在能从数据产生出任何意义之前,所有取得的数据仍将必须通过由一分析人员进行分析的冗长且耗时的过程。此外,虽然威胁数据可以被分析和评分,但这些数据可能与一特定网络并不相关,并且因此,一计算机网络仍可能被达成高威胁评分的恶意数据淹没或过载。基于以上理由,本领域技术人员一直持续致力于完成一种能够透过多个网络协议从多个来源收集和聚集大量原始网络威胁情报数据,并且在重新分发给有兴趣的第三方之前,将这些原始数据转换成可用格式的系统和方法。发明概述依据本发明的实施例所提供的系统和方法解决上述和其他问题并获得技术的进展。依据本发明的系统和方法的实施例的第一优点在于:可以以一种高效的方式从大量的情报产生来源收集威胁情报数据,无论用于数据收集的数据格式或网络协议为何,仅有相关于受监视目标计算机网络的数据被格式化成该计算机网络的预定义格式。依据本发明的系统和方法的实施例的第二优点在于:来自许多来源的威胁情报数据可以被以高速方式有效且高效地聚集,且能够立即被投入使用,以针对在所接收的威胁情报数据之中所强调的预期网络攻击,防护一特定计算机网络。依据本发明的系统和方法的实施例的第三优点在于:仅有已经过验证且相关于该计算机网络的威胁情报信息被格式化成该计算机网络的预定义格式。这种数据对于该计算机网络的安全团队极为有用,因为这大幅地降低安全分析者必须遍览的数据量。依据本发明的系统和方法的实施例的第四优点在于:针对群集的形成,使用无监督式机器学习算法,从而贯穿采用的网络训练周期,去除对外部协助的需要。此群集分析方法将会把已知和未知的威胁分组成群集地图,其中未知的安全威胁也会被检测到,因为群集分析让未知的恶意威胁或异常状况能够在地图中被标识,而没有具有预定义类别的限制。后群集分析也被应用,藉以使得被群集的数据进一步经历加权严重性分析和漏洞相关性分析,以确保只有相关及精确的数据被提供至一特定计算机网络。以上优点是由以下述方式运作的依据本发明的方法的实施例所提供的。依据本发明的一第一方面,提出一种整并一计算机网络的威胁情报数据的方法,其中该方法将由一计算机系统执行,该方法包括以下步骤:从多个来源收集威胁情报数据并且将所收集的威胁情报数据标准化成公共/一致数据格式、使用无监督式机器学习算法将经过标准化的威胁情报数据分组成群集,其中每一群集均包含代表该威胁情报数据的属性的一群数据、针对对于该计算机网络而言具有严重性的计算机安全威胁的群集进行分类、将被分类为严重的群集与该计算机网络的一安全态势(securityposture)进行比较以确定该计算机系统感兴趣的群集、以及将被确定为该计算机系统感兴趣的群集格式化成该计算机网络的预定义格式。参照该第一方面,在该第一方面的第一可能实施方式之中,对于该计算机网络而言具有严重性的群集的分类包括以下步骤:撷取与该计算机网络相关联的计算机资产的一列表、以及将影响所述计算机资产的一计算特征(computingfeature)的群集标识为具有对于该计算机网络而言具有严重性的计算机安全威胁的群集。参照第一方面的第一可能实施方式,该方式还包括:撷取根据与该计算机网络相关联的每一计算机资产的严重性权重数值;加总所撷取的严重性权重数值;以及将加总后的严重性权重数值分配给该计算机网络。参照第一方面的第一可能实施方式,该计算特征包括一计算机资产的操作系统或者该计算机资产所提供的网络协议。参照第一方面,在第一方面的一第二可能实施方式之中,其中在将被分类为严重的群集与该计算机网络的一安全态势进行比较以确定该计算机系统感兴趣的群集之前,该方法还包括产生该计算机网络的该安全态势。参照第一方面的第二可能实施方式,在第一方面的一第四可能实施方式之中,产生该计算机网络的该安全态势包含建立代表该计算机网络的一对象模型,其中该对象模型包括该计算机网络内所包含的计算机资产的安全信息,以及执行一分析程序,可操作以使用该对象模型执行该计算机网络之中的每一计算机资产的漏洞测试,其中该漏洞测试的结果被用以确定该计算机网络的该安全态势。参照第一方面的第四可能实施方式,在第一方面的一第五可能实施方式之中,使用该对象模型的该计算机网络之中的每一计算机资产的漏洞测试包括涉及该计算机网络的系统层级和拓扑漏洞、以及计算机资产的节点层级漏洞的测试。参照第一方面,在第一方面的一第六可能实施方式之中,将经过标准化的威胁情报数据分组成群集,其中每一群集包括代表该威胁情报数据的一属性的一群数据,还包括使用每一群集之中的威胁情报数据验证所述群集。参照第一方面的第六可能实施方式,在第一方面的一第七可能实施方式之中,验证所述群集包括指派权重数值给所述群集所包含的每一记录,其中相较于被指派给源自一商业来源的记录的一权重数值,源自一开放来源的记录被指派一较低的权重数值;加总每一群集所包含的记录的权重数值;以及验证所具有的加总权重数值超过一预定义阈值的群集。参照第一方面,在第一方面的一第八可能实施方式之中,经过格式化的群集被用以更新该计算机网络的安全态势。参照第一方面,在第一方面的一第九可能实施方式之中,威胁情报数据的属性包括一计算机安全威胁或一因特网协议(IP)地址。附图简述依据本发明的实施例的一系统和方法的特征和优点解决了上述和其他问题,该系统和方法被描述于以下的详细描述并被显示于以下的附图之中。图1例示依据本发明实施例的一种用于聚集和重分发表示成一适当格式的相关威胁情报数据的系统的一网络示意图;图2例示依据本发明实施例的可传输事件格式(transportableincidentformat;TIF)记录的一数据库的一样本;图3例示图2的可传输事件格式(TIF)记录的数据库的一样本,其中所述TIF记录被使用一依据本发明实施例的群集算法(clusteringalgorithm)加以分组;图4例示图3的经过群集的数据库的一样本,其中依据本发明的实施例应用了一验证步骤;图5例示依据本发明实施例的一种用于聚集和重分发表示成一适当格式的相关威胁情报数据的过程的一流程图;图6例示依据本发明实施例的一种用以针对群集的数据执行一严重性分类分析的过程的一流程图;图7例示依据本发明实施例的一种使用每一群集的威胁情报数据项验证群集的过程的一流程图;以及图8例示代表提供依据本发明的实施例的处理系统的框图。详细描述本发明有关于一种用于整并计算机及其相关网络的威胁威胁情报数据的系统和方法。特别是,本发明涉及从多个来源收集数量庞大的原始威胁情报数据,并将所收集的数据划分成一公共可传输事件格式以供群集分析。接着使用无监督式机器学习算法将经过标准化的数据群集。产生的经组织的威胁情报数据其后经历以加权资产为基础的威胁严重等级相关过程。一特定计算机网络的所有中间网络漏洞均被使用做为此过程的关键整并参数。透过此高速自动化过程所收集的经过处理的最终情报数据接着在传输至第三方之前被格式化成预定义格式。图1例示依据本发明实施例的一系统的一网络示意图。此系统包括各种模块和装置,其执行过程以提供一种用于聚集和重分发收集自来源105的相关威胁情报数据。通过认证的数据而后在收集引擎120之内被格式化成预定义格式并被传递至处理引擎125,以在经过处理的数据相应地被重分发至计算机网络131-134之前,进行进一步的处理。当一计算机网络,例如,计算机网络131至134的其中一者,被新加入系统时,新加入的计算机网络的资产,意即计算机资产,的列表将被提供给处理引擎125并储存于其内。此计算机网络的资产的列表将包括计算机网络之内所有被确定为对网络攻击敏感的资产,包括但不限于,台式计算机、大型主机、传真机、路由器、服务器、交换机、个人计算机、膝上型计算机、平板计算机、以及支持信息相关活动的任何装置或组件。依据本发明的实施例,包含于计算机网络的资产的列表之中的资产可以被分配特定的严重性权重,其中对于计算机网络而言重要性较高的资产相较于对于计算机网络相对而言重要性较低的其他资产将被指派一较高的权重。这意味一计算机网络内的资产的严重性权重并非单独受限于被其制造商针对特定类型计算机硬件硬编码或预分配的默认严重性权重。例如,在默认状况下,相较于分配给一传真机的严重性权重数值而言,一台式计算机可能被制造商分配一较高的严重性权重数值。然而,对于计算机网络的管理者而言,相较于台式计算机,传真机维持运作对于计算机网络的正常运行可能更为重要。因此,对比于严重性权重数值的默认或标准指派,相较于台式计算机,管理者实际上将指派一较高的严重性权重数值给传真机。换言之,计算机网络内的资产的严重性权重可以依据资产对于计算机网络日常运作的重要性加以修改。简单地说,这意味计算机网络资产的列表可以被修改和定制,以涵盖网络之中被认定为重要的所有资产。储存于处理引擎125内的计算机网络的计算机资产的此列表之后将被周期性地更新,使得对计算机网络所做的任何变更均将被系统充分获知。在本发明的实施例之中,每当计算机资产被从一特定计算机网络移除或者被加入该计算机网络,该计算机网络的计算机资产的列表将被该计算机网络更新。至于处理引擎125,此装置包括多个模块,诸如数据库127、群集模块128、严重性分类模块129、漏洞过滤模块126以及验证模块124。这些模块中的每一者的功能将在以下段落中被更详细地描述。来源105包括网络威胁/安全情报来源,诸如开放来源106、商业提供者107、社群来源108以及匿名收集者109。开放来源106可以包括,但不限于,列出并追踪各种类型恶意软件或网络威胁的公众可访问的网站或域。有兴趣者可以访问这些网站以下载或取得威胁情报数据而无需付费。缺点在于,虽然开放来源106可以提供珍贵的威胁情报数据,但从开放来源106取得的数据的真实性可能令人怀疑,因为列在开放来源106上的数据多数时间都未经认证。由于开放来源106的性质,开放来源106可能被怀有恶意者利用来分发错误信息。因此,从开放来源106取得的信息必须与其他来源交互对照,以在可以使用数据之前核验所取得数据的正确性。此类开放来源的一些示例包括,但不限于,诸如"www.malwaredomainlist.com"或"www.malware-domains.com"等网站,其列出在网络空间传播的各种网络威胁和恶意软件,或者诸如"ProjectHoneypot"、"ZeuSTracker"、"MalwareDomainList"、"TORNodes"、"Someonewhocares"、及"SecurityTracker"等各种开源项目。商业提供者107可以包括,但不限于,诸如"McAfee"、"FireEye"、"Anubisnetworks"、"TrendMicro"、"Fortinet"、"Norse"等商业网络威胁收集者,或者任何其他收费提供威胁情报数据的此类实体。这些商业提供者通常透过他们自己的专有网络协议并以他们自己的格式提供威胁情报数据。从这些商业提供者取得的威胁情报数据通常更为可靠,因为确保其声誉不受假肯定(falsepositive)损坏才符合其利益。换言之,由这些商业提供者标识出来的肯定威胁或恶意软件的数目通常远超过假肯定的数目。因此,相较于从其他替代来源取得的数据,从这些来源取得的数据通常更为可信且更加值得信赖。社群来源108可以包括在线社群或网络,其使用社群中致力于威胁情报数据收集的用户的主动参与。这些社群可以包括社交网络、聊天室、在线社团、或者因特网上可找到的任何其他此类适当媒体。至于匿名收集者109,这种来源通常将包括种类繁多的匿名来源,诸如被配置成收集和传送威胁情报数据至一集中式收集数据库的网关、路由器、调制解调器、防火墙、或交换机。这些匿名收集者还可以包括来自过去曾经历网络攻击或目前正遭受攻击的计算机网络的用户的自动反馈。从社群来源108和匿名收集者109取得的信息也必须与其他来源交互对照,以在数据可以使用之前核验所取得数据的正确性,因为恶意使用者可以轻易地使用这些数据收集馈入来注入错误信息以伏击其他人。还应注意,接收自每一来源的数据均以该来源本身的格式存在。例如,从"McAfee"(意即,从一商业提供者107的来源)取得的威胁情报数据将使用McAfee的专有格式,而从"ProjectHoneypot"(意即,从一开放来源106的来源)取得的数据将是使用此特定开放来源所特有的另一格式。除了以上所述者之外,取决于威胁情报数据的来源,数据可以使用各式各样的网络协议透过网络115从来源105被传送到收集引擎120。在这些网络协议之中,可以使用的包括,但不限于,传输控制协议(TCP/IP)、安全外壳(SecureShell;SSH)、文件传输协议(FileTransferProtocol;FTP)、简单邮件传输协议(SMTP)、电话网络(Telnet)、超文本咖啡壶控制协议(HTCPCP)、超文本传输协议(HTTP),点对点协议(PPP),因特网消息存取协议(IMAP)、以及可以被任一情报提供者在来源105之中使用的任何其他专有网络协议。至于网络115,网络115是一通信网络,诸如因特网,其让计算装置及/或处理系统能够透过有线方式、无线方式、或其组合彼此通信。本领域技术人员应能领略,有线方式可以包括,但不限于,诸如广域网(WAN)或局域网络(LAN)的一有线网络,而无线方式则可以包含透过射频(RF)信号或红外信号建立的无线通信。依据本发明的实施例,收集引擎120包含多个计算机服务器,其透过一骨干网络(backbonenetwork)全部并联在一起。这些服务器中的每一者均被编程以建立和维持与来源105之内的一分配来源的连接。换言之,这意味着收集引擎120之中的每一服务器均将被分配至一固定来源,且数据传输可以使用分配来源的偏好的网络协议进行。这确保收集自每一来源的威胁情报数据均被有效且高效地使用。举例而言,收集引擎120之中的计算机服务器"A"可以被分派任务以从商业提供者107内的一来源收集数据,例如,从McAfee的网站,使用McAfee的专有网络协议且使用McAfee的数据格式,而计算机服务器"B"则可以被分派任务以从商业提供者107内的另一来源收集数据,例如,从TrendMicro的网站,使用TrendMicro的专有网络协议且使用TrendMicro的数据格式。在后文中,当参照到原始威胁情报数据时,本领域技术人员应理解,该数据将是使用一特定来源的专有格式且被配置成成使用该特定来源的偏好网络协议传送。此外,每一服务器均可以执行多个虚拟机模拟,使得每一服务器的资源均可以被分成多个隔离的虚拟实例,以从一特定来源透过多个信道促成数据收集。在本发明的实施例之中,这可以使用对等模型(peer-to-peermodel)实现。当多个虚拟连接被建立于一服务器与其威胁情报数据源之间,这意味着若一连接在该服务器与该来源之间中断,并不会危害到威胁情报数据的传输,因为其他连接可以暂时覆盖中断的连接直到连接恢复为止。例如,一服务器可以具有二十个隔离的虚拟实例以从开放来源106中的特定来源透过二十个信道促成数据收集。此外,虽然图1之中的收集引擎120仅描绘二十四个计算机服务器,但本领域技术人员应能辨识,可以依据需要使用任何数目的计算机服务器,而不脱离本发明。应注意,收集引擎120可以被编程以周期性地从来源105下载原始威胁情报数据,例如,每小时、每天、等等。或者,可以提供指令给来源105,使得每当在任何特定来源有新数据可用之时,威胁情报数据可以从来源105被推送到收集引擎120,意即,使用一推送机制(push-mechanism)。重述一下要点,收集自一特定来源的原始数据将使用来源本身的专有数据格式且其配置的方式将使得其可以使用该特定来源的偏爱网络协议进行传送。因此,收集引擎120将具有威胁以多种数据格式存在并且被调构成以多种网络协议传输的威胁情报数据的存储。为了将此信息的混合体均质化成可使用的东西,原始数据必须被解析并标准化成一公共格式。为了解决此问题,收集引擎120内的每一服务器均被提供有一解码器模块,用以对收集自一特定来源的原始威胁情报数据进行解析和标准化。与开放来源和商业来源相关的解码器的一些示例包括,但不限于,一Honeypot解码器,用于解析ProjectHoneypot所提供的恶意IP的列表;一ZeuSTracker解码器,用于解析Zeus命令和控制以及ZeuSTracker所提供的伪造URL的列表;一MalwareDomainList解码器,用于解析MalwareDomainList所提供的恶意IP及URL的列表;一TORNode解码器,用于解析dan.me.uk所提供的TOR节点的列表;一AnublisCyberfeed解码器,用于解析来自Anubisnetworks的商业网络威胁馈入;一HostFile(主机文件)解码器,用于解析落入诸如震撼网站(shocksite)、劫持网站(hijacksite)、间谍软件、恶意软件等类别下的域的列表。在单一服务器的解析和标准化过程期间,收集自一特定来源的原始威胁情报数据被从其原始格式,如从其来源取得的格式,转换成一致格式。依据本发明的实施例,该一致格式可以被称为可传输事件格式(TIF)记录。来自收集引擎120中的服务器的TIF记录接着可以被储存于数据库127之中,如处理引擎125之中所提供的。这意味着从一特定来源取得的每一数据项将被解析并被标准化成一TIF记录。从每一服务器取得的所有TIF记录均将包含对一计算机网络的安全分析者特别有用的属性。这些属性包括如从原始威胁情报数据(如从特定于服务器的来源所取得的)的解析和标准化所取得的一感知计算机威胁的SOURCE(来源)、CATEGORY(类别)和DATA(数据)属性威胁。包含于TIF记录之中的属性也可包括其他离散属性,诸如,但不限于,PROTOCOL(协议)、DESTINATIONPORT(目的地端口)、DESCRIPTION(描述)等等。本领域技术人员应能领略,除了SOURCE(来源)、CATEGORY(类别)和DATA(数据)属性之外,其他属性的任何其他组合可以被包括于TIF记录之中,而不脱离本发明。当收集引擎120的每一服务器中的原始威胁情报数据被解析和标准化之后,从每一服务器产生的TIF记录被整理于数据库127之内。在收集自来源105的所有原始威胁情报数据均已在收集引擎120之中被解析和标准化之后,数据库127从而将具有大量珍贵的经过整理的TIF记录形式的威胁情报信息。已由解码器模块解析并标准化成TIF记录且被传送至数据库127的原始威胁情报数据之一简化示例被例示于图2之中。位于TIF记录205之中的列标识符210代表被用以区别一记录与下一记录的标识符,而每一记录被表示成TIF记录205之中的一列。图2例示样本TIF记录205,其包括以下属性:来源215、类别220以及数据225。本领域技术人员应当有所认知,其他类型的字母数字标识符可被用以取代图2之中所示的数字标识符,且例如IP地址、位置等其他属性的任何额外组合均可以包括于TIF记录之中而不脱离本发明。一特定记录的出处或贩卖者被列出于来源215之下,同时就本发明的这个实施例而言,与一特定记录相关联的恶意活动的类型被列出于类别220之下。在本发明的这个实施例之中,数据225包括有关于可能被一特定类型的恶意活动影响的任何计算特征的信息。此例中,dwin代表一Windows操作系统;而demail则代表一种被配置成用以发送/接收电子邮件的资产等等。本领域技术人员应能体认,可以使用其他命名约定来代表数据225之中的计算特征,而不脱离本发明。例如,就TIF记录之中的项目编号1而言,数据225指示恶意活动的类型为一"蠕虫",且此"蠕虫"将透过一电子邮件网络协议影响Windows机器,即"dwin,email"。本领域技术人员应能体认,数据225可以包括其他类型的计算特征而不脱离本发明,且例示于图2之中的示例并非表示为所有计算特征的穷举列表。回头参看图1,处理引擎125从而被配置成用以使用群集模块128以将TIF记录的项目群集在一起,使得每一群集包括代表TIF记录的一属性的一群数据。在本发明的这个实施例之中,群集模块128被配置成用以将TIF记录中具有相同意图或目的的恶意活动或计算机安全威胁的项目聚集在一起。例如,群集模块128可以被配置成用以从TIF记录检测包含诸如病毒、特洛伊木马、蠕虫、拒绝服务攻击(DoS)等计算机安全威胁的记录。群集模块接着将根据所检测到的与记录相关联的恶意活动,把检测到的记录分组成群集。在本发明的其他示例之中,群集模块128可以被配置成用以从TIF记录检测具有相同IP地址、时间、国家等的记录。类似地,群集模块接着将把这些检测到的记录相应地分组成群集。可被处理引擎125使用以利用模式发现方法形成群集的机器学习算法包括,但不限于,排他群集(exclusiveclustering)、重迭群集(overlappingclustering)、阶层群集(hierarchicalclustering)、概率群集(probabilisticclustering)、以及双向群集(two-wayclustering)。由于每一种群集算法的设计均针对特定类型的数据集加以考虑,所以并无单一理想群集算法会适用于处理所有种类的数据集。使用一群集方法而非一分类方法是有利的,因为群集让未知的恶意活动或安全威胁能够透过不同群集的形成而被检测到,不需要具有预定义类别的限制。依据本发明的实施例,优选使用无监督式机器学习算法以进行TIF记录的群集。在本发明的一实施例之中,群集模块可以使用一种诸如k最近相邻(k-nearestneighbour;k-NN)算法的无监督式机器学习算法来形成群集。上述的k-NN算法为储存所有可用示例并且根据所述可用示例的一相似性量度分类新数据的算法。该k-NN算法使得其能够根据各种类别之间的假定相似度分离数据或记录。因此,可以藉由搜寻所提供数据之间的相似度而让类别能够彼此区分。一新记录接着被依据多数所隶属的类别被分类。依据本发明的其他实施例,群集模块可以使用另一类型的无监督式机器学习算法,诸如自我组织特征地图(SOFM或SOM)网络,来形成群集。上述的SOM网络允许无监督下的数据分类。特别是,SOM是一种类型的无监督式人工神经网络(artificialneuralnetwork),其使用竞争式学习(competitivelearning)进行训练,以产生训练样本输入空间的一相对低维度离散表示,其被称为一地图。SOM与其他人工神经网络的差异在于其使用一邻域函数(neighbourhoodfunction)以保留输入空间的拓扑性质。此使得SOM适用于可视化相对高维度数据的相对低维度视图,近似于多维度的尺度调整。一自我组织地图由称为神经元也称为节点的组件所组成。与每一节点相关联的是与输入数据向量维度相同的一权重向量以及位于地图空间之中的一位置。节点的一般布置为在一六角形或矩形网格之中具有规则的间隔。此SOM描绘出一种从一相对较高维度数据空间到一相对较低维度地图空间的映射。将一个来自数据空间的向量放到地图上的程序为先找到其权重向量最接近从数据空间取出的向量的节点。一旦定位了最接近的节点,其即被指派从数据空间取出的向量的数值,且此节点也被称为一"赢家神经元"。位于赢家的半径之内的所有神经元,按照邻域函数的定义,也将更新它们的权重。此训练方法称为"赢者全拿"策略。SOM的优点在于,不像监督式训练技术,SOM之中的网络学习在没有外部协助之下形成其本身的训练数据的分类。本发明的这个实施例之中,在群集模块128(其被配置以运行SOM算法)的输出可以被使用之前,数据库127之中的TIF记录先被提供给群集模块128一段时间,即,介于1到4个礼拜之间,使得群集模块128可以被训练来从现有的TIF记录标识出群集。SOM在群集模块128的训练期间,SOM中的节点之间的相关性规则将被细化,使得当SOM被应用于新的TIF记录之时,该等TIF记录可以在不需要任何外力协助下以高效且有效的方式被群集。因此,依据本发明的实施例,群集模块128可以被配置成使用诸如k-NN或SOM的无监督式机器学习算法,以依据其IP地址、端口、事件类型、恶意活动/计算机安全威胁的种类、等等,将TIF记录之中的项目群集。图3之中例示已被群集的TIF记录205的一个示例。已被群集的TIF记录300例示已依据该群记录被群集于其下的一特定类型的恶意活动被分组的群集。此例中,群集305代表其恶意活动或计算机安全威胁显示为蠕虫的记录,而群集310则代表其恶意活动显示为特洛伊木马的记录。至于群集315,此群集代表其恶意活动显示为根病毒包(rootkits)的记录,而群集320则代表其恶意活动显示为Dos攻击的记录。本领域技术人员应有认知,TIF记录被群集成数据的群组,所述各自代表威胁情报数据的一属性,且并不仅限于图2至图4所例示的恶意活动类型。参照图1,数据库127之中被群集的记录接着经历一严重性等级分类过程,该过程使用严重性分类模块129,如在处理引擎125之内提供的。此过程旨在将计算机网络和与其相关的群集联系起来。此过程使用一特定计算机网络的所有中间网络漏洞做为该过程的关键整并参数。总结而言,严重性分类过程的功能在于,针对每一群集,标识出可以被该群集所代表的属性影响的计算机网络。在本发明的这个实施例之中,严重性分类过程针对每一群集标识出可以被该群集所代表的恶意活动影响的计算机网络。举例而言,经过群集的记录中的一第一群集可以代表相关于计算机网络131和134但不相关于计算机网络132或133的恶意活动。这意味着有关此群集的信息仅应被传送给计算机网络131、134的分析者,但不应被传送给计算机网络132、133的分析者。藉由应用此严重性分类过程,这大幅地增加发送至一特定计算机网络的威胁情报数据的相关性和正确性。此避免一计算机网络的计算机分析者被对其所管理的计算机网络而言毫无作用的不相关数据淹没。依据本发明的实施例,参照图3之中所显示的示例,描述严重性分类过程的运作的一例示性示例。重述一下要点,图3例示已被群集到群集305、310、315和320中的TIF记录300。在此例之中,严重性分类模块129藉由撷取隶属于计算机网络131的计算机资产的一个列表而开始严重性分类过程。针对此示例的目的,假定隶属于计算机网络131的资产包括一计算机和一无线路由器。本领域技术人员应能领略,计算机网络可以由任何类型和数目的计算机资产构成,而不脱离本发明。在此例之中,假定计算机网络131中的计算机具有诸如一Windows操作系统的计算特征,且其被配置成用以发送/接收电子邮件,而计算机网络131中的无线路由器具有诸如一Windows操作系统的计算特征,且其被配置成使用SSH协议进行发送/接收。应注意,所有计算机资产均将具有各种类型的计算特征,诸如其操作系统、其被配置的网络协议、等等,且并非仅限于这些示例。模块129接着将从TIF记录300选择群集305。隶属于计算机网络131的第一计算机资产接着被选择,其为计算机。模块129接着选择计算机的第一计算特征,其为它的Windows操作系统。被选定的这个计算特征接着被与包含于群集305的数据225之内的信息相比较,以确定此计算特征是否可以被群集305所代表的恶意活动(意即,"蠕虫攻击")影响。由于群集305内的数据225指示群集305影响Windows和Linux操作系统("dwin和dlinux"),所以模块129将把群集305标识成对于计算机网络131而言具有严重性的群集。模块129接着针对其他群集重复此过程,意即,群集310和315,其全部均被标识成对于计算机网络131而言具有严重性的群集,因为群集310、315的数据225指示这些群集具有影响Windows操作系统的恶意活动("dwin")。至于群集320,此群集的数据225指示此群集的恶意活动影响Linux操作系统;点对点协定(PPP);以及传真网络协议(faxnetworkprotocol),意即,"dlinux,PPP和dlinux,fax"。由于计算机网络131中的计算机使用一Windows操作系统及电子邮件网络协议,故计算机网络131之中的这个计算机资产并未受此群集影响。模块129接着针对位于计算机网络131之中的其他计算机资产,也就是上述的无线路由器,重复该严重性分类过程。由于无线路由器使用一Windows操作系统且被配置成使用SSH网络协议发送/接收数据,所以模块129将指示此计算机资产也未被群集320影响。由于计算机网络131之中的所有计算机资产均具有未受群集320影响的计算特征,故此群集将被标识为并非对于计算机网络131而言具有严重性的群集。因此,在严重性分类过程完成之时,仅有与群集305、310、和315相关的记录被发现对于计算机网络131而言具有严重性。换言之,来自这三个群集的记录对于一个计算机网络131的计算机分析者而言是相关的,但来自群集320的记录则不相关。因此,计算机分析者不需要花时间审阅包含于群集320之内的数据,从而缩短该分析者的审阅时间并且大幅地增进该分析者的效率。完成计算机网络131的严重性分类过程之后,模块129接着继续执行其他计算机网络的严重性分类过程,意即,计算机网络132、133、和134。接着利用从计算机网络严重性分类所取得的结果相应地更新数据库128。依据本发明的其他实施例,针对每一群集,在严重性分类过程之后,该严重性分类过程接着进一步使用计算机网络之中被分类为具有严重性的计算机资产的严重性权重数值,来确定哪个计算机网络更易受损于该特定群集所代表的计算机安全威胁。举例而言,假设计算机网络131和134二者均受群集305影响。在此例之中,当群集305影响到计算机网络131之中已被分配一较高严重性权重数值的一计算机资产,则严重性分类过程将把此群集强调给计算机网络131的分析者。在同一示例之中,若计算机网络134中受影响的计算机资产被分配一低严重性权重数值,则计算机网络134的分析者将不会被告知此群集,直到具有较高严重性权重数值的其他计算机网络接收到经过处理的情报数据为止。参照图1,在群集的TIF记录经历严重性分类之后,使用漏洞过滤模块126使所述群集的TIF记录经过一漏洞过滤过程。在此过程之中,被发现对于一特定计算机网络具有严重性的群集被与该特定计算机网络的一安全态势进行比较,以确定该计算机网络是否易受损于该严重性群集所代表的威胁。依据本发明的实施例,一计算机网络的安全态势可以藉由先建立代表包含于该计算机网络之内的计算机资产的所有网络安全漏洞的一对象模型而取得。接着使此对象模型经过一严格测试过程以判定该计算机网络易受损于各种类型和形式的网络攻击的程度。该测试过程可以涉及执行一分析程序,此分析程序在该对象模型上循环遍历、选择及执行多个网络攻击,以评估该计算机网络对于各种类型和形式的网络攻击的易受损程度。在该测试过程期间,该计算机网络之中的每一计算机资产均在一系统层级、一拓扑层级和一节点层级被测试。若该对象模型并未受一特定攻击影响,则这将意味着该计算机网络针对这一攻击已被有效地蔽护或者已安装一适当的安全补丁,从而让这一攻击无效。该信息接着被使用以产生该计算机网络的一安全态势。若显示该对象模型在一特定层级受一特定网络攻击影响,则有关于该网络攻击的信息接着被捕捉且该安全态势被相应地更新。藉由将被发现对于一特定计算机网络而言具有严重性的群集与该计算机网络的安全态势进行比较,对该计算机网络而言已免疫的群集将不会针对该计算机网络被进一步处理。这是因为若该计算机网络已经针对一特定类型的恶意活动被打补丁,则该计算机网络的安全分析者不需要接收有关于这些恶意活动的类似信息,因为相关的计算机安全威胁将无害于该计算机网络。因此,这进一步降低安全分析者在他们那端必须筛滤的无关威胁情报数据的量。接着利用从计算机网络的漏洞过滤所取得的结果相应地更新数据库128。回到前述的示例,其中群集305、310及315被发现是对于计算机网络131而言具有严重性的群集。若计算机网络131的安全态势被与群集305、310、315比较且发现计算机网络131仅易受损于群集305,则这将意味着群集310、315之内所包含的记录可以不必考虑进一步的处理。换言之,计算机网络131的安全态势的漏洞测试显示计算机网络131易受损于透过电子邮件、SSH、以及HTTP网络协议影响Windows和Linux操作系统的"蠕虫"类攻击。与每一计算机网络相关的最终过滤群集接着依据每一计算机网络的预定义格式被格式化,且接着被相应地提供给每一计算机网络。例如,对于计算机网络133而言,在经过格式化的记录被提供给计算机网络133之前,一黑名单或一白名单被应用于针对计算机网络133被过滤的群集可以是先决条件。在本发明的其他实施例之中,在此经过处理的数据被转送至第三方以供其进一步使用之前,其可以裁制一定制遮蔽物并应用于被过滤的群集。依据本发明的实施例,经过格式化的群集可以被接收方计算机网络使用,以更新相应计算机网络的安全态势。这将确保计算机网络的安全态势维持在最新状态,且因此进一步降低必须被计算机网络的分析者审阅的威胁情报数据的量。依据本发明的实施例,在经过标准化的威胁情报数据被群集模块128分组为群集之后,且在严重性分类过程之前,被群集的数据经历使用验证模块124的验证过程。如同本说明书的较先前部分所述,从某些来源取得的威胁情报数据倾向于比从其他来源取得的威胁情报数据更为可信。特别是,从商业来源107取得的数据将比从开放来源106、社群来源108和匿名来源109取得的数据具有较高的权重。透过验证过程的使用,群集的TIF记录被验证以滤除被认为是"噪声"的记录或者可本质上无足轻重的记录。这可以藉由根据记录的来源应用一特定权重至群集的TIF记录之中的记录以及藉由验证具有的总权重高于一预定阈值的群集来达成。所提出的验证过程参照图3所示的示例得到最佳的解释。在此例之中,源自开放来源106的记录被赋予一权重数值1,源自商业来源107的记录被赋予一权重数值5,源自社群来源108的记录被赋予一权重数值1而源自匿名来源109的记录被赋予一权重数值1。当权重数值针对每一群集被加总之时,这产生以下权重数值:具有一加总权重8的群集305;具有一加总权重6的群集310;具有一加总权重3的群集315;以及具有一加总权重6的群集320。此例中,该预定义阈值因此被设定成5;所具有的加总权重小于5的任何群集将未通过验证,且因此将被认定为是"噪声"。这被例示于图4,其中TIF记录400将群集305、310、320例示成已经过验证,而群集315则已被略去,不再进行进一步处理。依据本发明的实施例,一种用于整并一计算机网络的威胁情报数据的方法包含以下五步骤:步骤1,从多个来源收集威胁情报数据,且将所收集的威胁情报数据标准化成一种一致数据格式;步骤2,将经过标准化的威胁情报数据分组成群集,其中每一群集均包含代表该威胁情报数据的一属性的一群数据;步骤3,就对于该计算机网络而言具有严重性的计算机安全威胁分类所述群集;步骤4,将被分类成具有严重性的群集与该计算机网络的一安全态势比较以确定该计算机系统感兴趣的群集;以及步骤5,将被确定为该计算机系统感兴趣的计算机安全威胁的群集格式化成该计算机网络的一预定义格式。在本发明的实施例之中,需要一过程以仅整并一目标计算机网络的来自多个来源的相关威胁情报数据。以下描述和图5=7描述提供依据本发明的过程的过程的实施例。图5例示依据本发明实施例的过程500,其由一计算机系统执行,以整并一计算机网络的威胁情报数据。过程500开始于步骤505,其中威胁情报数据被收集自多个来源。此混合的原始威胁情报数据包括呈多种格式以及被配置成用于使用各种网络协议进行传输的数据。过程500接着继续进行至步骤510,其中全部的原始威胁情报数据被标准化成一致格式。在本发明的实施例之中,此一致格式可以包括TIF记录。在步骤515,呈该一致格式的数据被分组成群集,其中每一群集均代表威胁情报数据的一属性,诸如一种恶意活动类型、IP地址、位置、出处、来源、或者计算机安全威胁。过程500接着继续进行至步骤520,其中群集的数据从而经历一严重性分类过程以滤除对于该计算机网络而言具有严重性的群集。被认为对于该计算机网络而言具有严重性的群集接着在步骤525进一步经历一漏洞过滤过程。在此步骤之中,具有严重性的群集被与该计算机网络的一安全态势比较以确定该计算机网络易受其损害的群集。经过进一步过滤的群集接着在步骤530被格式化成该计算机网络的一预定义格式。过程500接着结束。图6例示过程600,其由一计算机系统执行,以针对计算机安全威胁过滤群集的记录或者过滤对于该计算机网络而言具有严重性的群集。过程600开始于步骤602,其撷取隶属于该计算机网络的计算机资产。过程600接着在步骤605从所述群集的记录选定一第一群集。在步骤610,程序600从所撷取的计算机资产之中选定一第一计算机资产。过程600接着继续进行以选定与所选定计算机资产相关联的一第一计算特征。此发生于步骤615。所选定的计算特征在步骤620被与位于所选定群集中的数据进行比较。若过程600确定该选定计算特征并未受该选定群集影响,则过程600继续进行至步骤625。在步骤625,过程600确定该选定计算机资产是否具有尚未被选定的另一计算特征。若有要被选定的另一计算特征,则过程600继续进行至步骤630。该选定计算机资产的下一计算特征被在步骤630选定,且过程600接着继续进行至步骤620,其中该选定计算特征被在步骤620评估。回到步骤625,若该选定计算机资产的计算特征已全部被选定过,则过程600接着继续进行至步骤650。在步骤650,过程600确定该计算机网络是否具有尚未被选定的另一计算机资产。若有要被选定的另一计算机资产,则过程600进行至步骤655,在此另一计算机资产被选定。过程600接着继续进行至步骤615,其中该选定资产的一第一计算特征被选定且随后在步骤620被评估。回到步骤650,若该计算机网络的计算机资产已全部被选定过,则过程600改为继续进行至步骤640。在步骤640,过程600确定群集的记录之中是否有尚未针对该计算机网络评估的另一群集。若有另一群集,则过程600继续进行以在步骤645选择此下一群集。过程600接着继续进行至步骤610,在此选定该第一计算机资产。过程600接着进行历经如前所述的各个步骤。回到步骤620,若过程600确定该选定计算特征可以受该选定群集影响,则过程600改为进行至步骤635。在步骤635,过程600将该选定群集标识为对于该计算机网络而言具有严重性的群集且过程600接着直接继续进行至步骤640,而不评估计算机资产的其他计算特征。一旦群集的记录之中的所有群集均已经过过程600评估,过程600接着即结束。图7例示依据本发明实施例的过程700,其由一计算机系统执行,以验证经过解析与标准化的威胁情报数据的群集。过程700开始于步骤705,在此步骤之中,取决于记录的出处或来源,适当的权重被指派给每一记录。一较高的权重被指派给源自诸如商业来源的可信和可靠来源的数据,而一较低的权重被指派给源自诸如开放、社群和匿名来源的可信度较低的来源的数据。过程700接着继续进行至步骤710,其中每一群集之中的记录的权重全部被加总以得到每一群集的一总权重。在步骤715,过程700选定一群集,并在步骤720确定该选定群集的加总权重是否超过一预定义阈值。若过程700确定该选定群集的该加总权重超过该预定义阈值,则过程700继续进行至步骤735。在步骤735,该选定群集将被过程700验证,且过程700接着继续进行至步骤725。回到步骤720,若该选定群集的加总权重并未超过该预定义阈值,则过程700将改为继续进行至步骤725。在步骤725,过程700将确定是否存在另一群集要被过程700选定。若过程700确定有另一群集,则过程700将继续进行至步骤730。在步骤730,过程700将选定下一个群集并且接着继续进行至步骤720。过程700会重复步骤720至725,直到群集全部被选定过为止。换言之,一旦其在步骤725确定没有更多群集要被选定,则过程700接着将结束。上述的过程可以由储存于一非瞬态计算机可读介质之中的指令提供,且由一计算机系统之中的一处理单元执行。为了避免疑义,非瞬态计算机可读介质应被视为包括除了瞬态传播信号之外的所有计算机可读介质。一计算机系统可以被提供在用以提供本发明的一或多个移动装置及/或计算机服务器之中。所述指令可以被储存为固件、硬件、或软件。图8例示这样的处理系统的一示例。处理系统800可以是位于移动装置及/或服务器之中的处理系统,其执行指令以执行用以提供一种依据本发明实施例的方法及/或系统的过程。本领域技术人员应能领略,每一处理系统的确切配置可以有所不同,且每一移动装置之中的处理系统的确切配置可以有所变化,而图8仅是作为示例给出的。处理系统800包含中央处理单元(CPU)805。中央处理单元805为一处理器、微处理器、或者处理器与微处理器的任何组合,其执行指令以执行依据本发明的过程。中央处理单元805连接至存储器总线810和输入/输出(I/O)总线815。存储器总线810将中央处理单元805连接至存储器820及825,以在存储器820、825与中央处理单元805之间传送数据和指令。输入/输出总线815使中央处理单元805连接至外围装置,以在中央处理单元805与所述外围装置之间传送数据。本领域技术人员应能体认,输入/输出总线815和存储器总线810可以被结合成一个总线或者被分成许多其他总线,而确切的配置则留给本领域技术人员决定。一非易失性存储器820,诸如只读存储器(ROM),连接至存储器总线810。非易失性存储器820储存操控处理系统800的各种子系统和在开机时启动系统所需要的指令和数据。本领域技术人员应能体认,可以使用任何数目和类型的存储器来执行此功能。一易失性存储器825,诸如随机存取存储器(RAM),也连接至存储器总线810。易失性存储器825储存中央处理单元805执行针对过程的软件指令所需要的指令和数据,所述过程诸如是用于提供依据本发明实施例的系统所需的过程。本领域技术人员应能体认,可以使用任何数目和类型的存储器做为易失性存储器,且所使用的确切类型留给本领域技术人员的设计选择。输入/输出(I/O)装置830、键盘835、显示器840、存储器845、网络装置850以及任何数目的其他外围装置均连接至输入/输出总线815,以与中央处理单元805交换数据而使用于中央处理单元805所执行的应用程序。输入/输出装置830为从中央处理单元805传送及/或接收数据的任何装置。键盘835为一特定类型的输入/输出装置,其接收用户输入并将所述输入传送给中央处理单元805。显示器840从中央处理单元805接收显示数据并在屏幕上显示图像以供用户观看。存储器845为传送数据至中央处理单元805并自其接收数据的装置,以储存数据至一介质。网络装置850将中央处理单元805连接至一网络,以往来于其他处理系统进行数据的传输。以上为对于依据本发明的系统和方法的实施例的描述,本发明的范围如在以下权利要求书中所阐述的。可设想到,其他人可以且将要设计出落入以下权利要求书的范围内的替代实施例。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1