一种信息资产识别方法及装置与流程

文档序号:16331557发布日期:2018-12-19 06:13阅读:350来源:国知局
一种信息资产识别方法及装置与流程

本发明涉及计算机安全技术领域和机器学习技术领域,特别是涉及一种信息资产识别方法及装置。

背景技术

信息安全风险评估是信息系统建设和运维过程中不可或缺的一部分。而信息资产的识别是信息安全风险评估所要解决的首要问题。

现有的信息资产识别方法主要通过人工统计或在信息系统中附着大量额外设备来实现。虽然通过人工统计的方法可以对信息系统进行较全面的资产识别,但考虑其中加入了人的因素,故该方法需要消耗大量的时间和人力资源,资产识别结果的更新时间较长,而且受统计人员素质能力等因素的限制,逻辑层面的资产识别结果往往存在一些错误或遗漏,主观性过强。而通过在信息系统中附着额外设备来完成信息系统资产识别的方法,同样存在无法在逻辑层面实现对系统中资产的识别的问题。



技术实现要素:

为解决上述技术问题,本发明实施例提供了一种信息资产识别的方法及装置,技术方案如下:

一种信息资产识别方法,包括:

获取信息系统中每一逻辑实体的资产特征数据,所述资产特征数据包括系统指纹、网络指纹和虚拟身份信息;

根据所述资产特征数据,确定训练样本集合,所述训练样本集合中的每一样本对应唯一的所述逻辑实体,所述每一样本包括由与该样本对应的逻辑实体的分类和资产特征数据构成的特征集合;

采用所述训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型;

在更新周期到来时,获取所述信息系统中每一目标逻辑实体的目标资产特征数据;

根据所述目标资产特征数据,由所述信息系统资产识别分类模型确定所述每一目标逻辑实体的分类。

优选地,所述根据所述资产特征数据,确定训练样本集合,包括:

对于所述每一逻辑实体,将所述资产特征数据聚合成特征集合,并获得人工标注的每一逻辑实体的分类;

生成样本集合,其中每个逻辑实体的特征集合与其关联的分类构成所述样本集合中的一个样本;

从所述样本集合中随机确定部分样本作为所述训练样本集合。

优选地,所述样本集合中除所述训练样本集合之外的样本构成测试样本集合;

所述采用所述训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型之后,还包括:

对于所述测试样本集合中的每一测试样本,判断所述信息系统资产识别分类模型根据所述测试样本中的特征集合输出的结果是否与所述测试样本中的分类一致;

若否,利用所述样本集合,重新确定训练样本集合,并以重新确定的训练样本集合代替所述训练样本集合、返回执行采用所述训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型的步骤。

优选地,还包括:

依据分类结果,判断是否存在不能确定分类的目标逻辑实体,所述分类结果为所述信息系统资产识别分类模型根据所述目标资产特征数据所确定的所述每一目标逻辑实体的分类的结果;

若是,接收用户对所述不能确定分类的目标逻辑实体的目标分类的标注;

以所述不能确定分类的目标逻辑实体的资产特征数据和目标分类构成的样本更新所述样本集合,并以更新后的样本集合替代样本集合,并返回执行从所述样本集合中随机确定部分样本作为所述训练样本集合的步骤。

优选地,所述获取信息系统中每一逻辑实体的资产特征数据之后,还包括:

获取所述每一逻辑实体的第一属性和第二属性,所述第一属性包括所述资产特征数据、所述逻辑实体的分类、ip地址、mac地址、端口信息索引表,所述第二属性包括源ip地址、目的ip地址、源端口号、目的端口号、协议类型、信息系统逻辑实体模型单元索引表;

利用所述第一属性建立与所述每一逻辑实体对应的信息系统逻辑实体模型单元,同时利用所述第二属性建立信息系统逻辑实体关系模型单元,所述信息系统逻辑实体关系模型单元用于描述所述信息系统逻辑实体模型单元索引表中的不同信息系统逻辑实体模型单元索引对应的信息系统逻辑实体模型单元之间的连接关系。

优选地,还包括:

获取所述目标逻辑实体的第一属性;

利用所述目标逻辑实体的第一属性和所述逻辑实体的第一属性,实现所述目标逻辑实体与所述逻辑实体的比对,得到比对结果;

当所述比对结果表示所述目标逻辑实体为新增加的逻辑实体时,根据所述目标逻辑实体的第一属性建立对应的信息系统逻辑实体模型单元,并利用所述目标逻辑实体的第一属性中的网络通信情况建立对应的信息系统逻辑实体关系模型单元;

当所述比对结果表示所述目标逻辑实体为所述信息系统中删除的逻辑实体时,删除与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元,或标记与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元。

优选地,所述利用所述目标逻辑实体的第一属性和所述逻辑实体的第一属性,实现所述目标逻辑实体与所述逻辑实体的比对,得到比对结果,包括:

对于每一所述目标逻辑实体,将所述目标逻辑实体的第一属性逐一与每一所述逻辑实体的第一属性进行比对,以判断是否存在与所述目标逻辑实体具有完全相同的第一属性的逻辑实体;

若否,则表明所述目标逻辑实体为所述新增加的逻辑实体;

判断是否已完成对所有所述目标逻辑实体的比对;

若是,判断所有所述逻辑实体中是否存在与任一所述目标逻辑实体的第一属性不完全相同的逻辑实体;

若是,表明所述与任一所述目标逻辑实体的第一属性不完全相同的逻辑实体为所述信息系统中删除的逻辑实体。

优选地,所述利用所述第一属性建立与所述每一逻辑实体对应的信息系统逻辑实体模型单元,同时利用所述第二属性建立信息系统逻辑实体关系模型单元之后,还包括:

根据所述信息系统逻辑实体模型单元和所述信息系统逻辑实体关系模型单元建立信息系统资产清单;

相应地,

所述在根据所述目标逻辑实体的第一属性建立对应的信息系统逻辑实体模型单元,并利用所述目标逻辑实体的第一属性中的网络通信情况建立对应的信息系统逻辑实体关系模型单元之后,还包括:

将与所述目标逻辑实体的第一属性对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元增加至所述信息系统资产清单中;

所述删除与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元,包括:

删除所述信息系统资产清单中的、与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元;

所述标记与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元,包括:

在所述信息资产清单中标记与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元。

优选地,所述利用所述第一属性建立与所述每一逻辑实体对应的信息系统逻辑实体模型单元,同时利用所述第二属性建立信息系统逻辑实体关系模型单元之前,还包括:

预先建立信息系统资产清单;

相应地,所述利用所述第一属性建立与所述每一逻辑实体对应的信息系统逻辑实体模型单元,同时利用所述第二属性建立信息系统逻辑实体关系模型单元之后,还包括:

将所述信息系统逻辑实体模型单元和所述信息系统逻辑实体关系模型单元增加至所述信息系统资产清单中;

相应地,

所述在根据所述目标逻辑实体的第一属性建立对应的信息系统逻辑实体模型单元,并利用所述目标逻辑实体的第一属性中的网络通信情况建立对应的信息系统逻辑实体关系模型单元之后,还包括:

将与所述目标逻辑实体的第一属性对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元增加至所述信息系统资产清单中;

所述删除与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元,包括:

删除所述信息系统资产清单中的、与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元;

所述标记与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元,包括:

在所述信息资产清单中标记与所述目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元。

一种信息资产识别装置,包括:

第一获取单元,用于获取信息系统中每一逻辑实体的资产特征数据,所述资产特征数据包括系统指纹、网络指纹和虚拟身份信息;

确定单元,用于根据所述资产特征数据,确定训练样本集合,所述训练样本集合中的每一样本对应唯一的所述逻辑实体,所述每一样本包括由与该样本对应的逻辑实体的分类和资产特征数据构成的特征集合;

训练单元,用于采用所述训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型;

第二获取单元,用于在更新周期到来时,获取所述信息系统中每一目标逻辑实体的资产特征数据;

识别单元,用于根据所述目标资产特征数据,由所述信息系统资产识别分类模型确定所述每一目标逻辑实体的分类。

本发明实施例提供的技术方案,在对信息资产进行识别时,利用信息系统中已有的信息资产的特征集合和分类构成的训练样本集合对机器学习模型进行训练,得到信息系统资产识别分类模型,从而在更新周期到来时,利用信息系统资产识别分类模型对信息系统中的信息资产进行识别。相对于现有技术,本实施例的方案不仅不用人工统计,而且能对逻辑层面中的资产进行识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种信息资产识别方法的一种流程示意图;

图2为本发明实施例所提供的一种信息资产识别方法的另一种流程示意图;

图3为本发明实施例所提供的一种信息资产识别方法的另一种流程示意图;

图4为本发明实施例所提供的一种信息资产识别方法的另一种流程示意图;

图5为本发明实施例所提供的一种信息资产识别装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1为本发明实施例提供的一种信息资产识别方法的一种实现流程图,该方法包括:

步骤s101、获取信息系统中每一逻辑实体的资产特征数据。

信息系统中的逻辑实体为本发明中所要识别的资产。

本发明实施例中,信息系统中的各逻辑实体之间除了相互通信之外,还可以与信息系统之外的其它逻辑实体进行交互,因此为了提高数据处理效率,步骤s101只获取ip地址属于本信息系统ip范围的逻辑实体的资产特征数据,而对于ip地址在本信息系统ip范围外的逻辑实体的资产特征数据不做考虑。

实际应用中可以基于信息系统的网络流量获取资产特征数据,其中网络流量包括信息系统传输的各类业务数据和网路访问日志数据。

资产特征数据包括系统指纹、网络指纹和虚拟身份信息。

网络指纹主要包括各逻辑实体的ip地址、各逻辑实体对外提供服务的端口、ip报文上承载的协议类型、网络通联情况。网络通联情况包括逻辑实体之间交互报文的平均长度、平均生存时间和标志位的常用设置等。获取网络指纹时,可以采用传统报文检测方法对各类业务数据中的报头进行分析,获得ip报文四层以下的内容,包括源地址、源端口、目的地址、目的端口、协议类型和网络通信情况。

系统指纹包括系统类型和版本、软件应用和版本、应用框架类型和版本、使用的域名等。获取系统指纹时,可以采用dpi技术对各类业务数据中的报头中的关键字进行分析,以获取系统类型与版本,软件应用类型与版本,应用框架类型与版本等信息,另外结合对各类后台文件的分析,还可以获得web服务应用类型、数据库类型、页面程序开发语言、开发环境等信息,综合以上数据最终可以获得每一逻辑实体的系统指纹。实际应用中,报文头中的关键字可以为content-type、server、cache-control、set-cookie、accept-ranges、mime-version、pragma或www-authenticate。

虚拟身份信息主要包括使用信息系统的用户的虚拟身份,包括邮箱及使用时间、im帐号及使用时间等。通过对网络访问日志的分析可以获得信息系统的用户的虚拟身份信息。

步骤s102、根据资产特征数据,确定训练样本集合。

所述训练样本集合中的每一样本对应唯一的所述逻辑实体,所述每一样本包括由与该样本对应的逻辑实体的分类和资产特征数据构成的特征集合。

在获取资产特征数据后,可以将属于同一逻辑实体的资产特征数据聚合在一起,形成特征集合,同时接收人工对每一逻辑实体的分类的标注,并将每一逻辑实体的特征集合与该逻辑实体对应的分类进行关联,从而得到样本集合,其中每个逻辑实体的特征集合与其关联的分类构成样本集合中的一个样本。

确定样本集合后,可以随机从样本集合中确定部分样本作为训练样本集合。如,从样本集合中确定90%的样本作为训练样本集合。

步骤s103、采用训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型。

机器学习模型的网络输入为逻辑实体的特征集合,网络输出为逻辑实体的分类。

本发明实施例使用的机器学习模型是分类模型,其所使用的算法可以为决策树(decisiontree)算法、随机森林算法或bp(backpropagation)算法或其他分类算法。实际应用中,可以由用户根据对信息系统资产识别的正确率确定使用哪一种分类算法。当然,为提高对目标信息系统资产识别的正确率,也可以同时将多种机器学习算法以适当的形式组合起来,实现集成学习,完成对信息系统资产的识别。

步骤s104、在更新周期到来时,获取信息系统中每一目标逻辑实体的资产特征数据。

更新周期可根据具体工作规程要求灵活设定,为及时反应信息系统的资产情况,一般更新周期可以选择为1天或者1周,当然,本实施例对此不做具体限定。

更新周期到来时需要对信息系统中的资产进行识别,由于信息系统资产识别分类模型也是以逻辑实体的特征集合作为输入、以逻辑实体的分类作为输出,因此需要获取目标逻辑实体的资产特征数据。

在更新周期到来之前,对信息系统中的逻辑实体存在删除或新增的可能,因此当更新周期到来时,信息系统中的目标逻辑实体与更新周期到来之前的逻辑实体可能相同也可能不同。当目标逻辑实体为信息系统中新增的逻辑实体时,则目标逻辑实体与逻辑实体不同;当目标逻辑实体为信息系统中原有的逻辑实体,则目标逻辑实体与逻辑实体相同。

步骤s105、根据所述目标资产特征数据,由所述信息系统资产识别分类模型确定所述每一目标逻辑实体的分类。

更新周期到来时,若信息系统中的资产有增加,那么信息系统资产识别分类模型可以依据目标资产特征数据识别出新增加的资产的分类。

本发明实施例提供的技术方案,在对信息资产进行识别时,利用信息系统中已有的信息资产的特征集合和分类构成的训练样本集合对机器学习模型进行训练,得到信息系统资产识别分类模型,从而在更新周期到来时,利用信息系统资产识别分类模型对信息系统中的信息资产进行识别。相对于现有技术,本实施例的方案不仅不用人工统计,而且能对逻辑层面中的资产进行识别。

请参阅图2,图2为本发明实施例提供的一种信息资产识别方法的另一种实现流程图,该方法包括:

步骤s201、获取信息系统中每一逻辑实体的资产特征数据。

该步骤中只获取ip地址属于本信息系统ip范围的逻辑实体的资产特征数据。

资产特征数据包括系统指纹、网络指纹和虚拟身份信息。

步骤s202、对于所述每一逻辑实体,将所述资产特征数据聚合成特征集合,并人工标注每一逻辑实体的分类。

步骤s203、生成样本集合,其中每个逻辑实体的特征集合与其关联的分类构成所述样本集合中的一个样本。

步骤s204、从样本集合中随机确定训练样本集合和测试样本集合。

训练样本集合和测试样本集合构成样本集合。

本实施例中,训练样本集合和测试样本集合在样本集合中所占的比例可以根据需要随机设定。如从样本集合中确定90%的样本作为训练样本集合,将样本集合中剩下的10%的样本作为测试样本集合。

步骤s205、采用所述训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型。

步骤s206、对于测试样本集合中的每一测试样本,判断信息系统资产识别分类模型根据测试样本中的特征集合输出的结果是否与测试样本中的分类一致,若是,执行步骤s208,若否,执行步骤s207。

步骤s207、根据样本集合,重新确定训练样本集合,并以重新确定的训练样本集合代替所述训练样本集合、返回执行步骤s205。

本实施例由训练样本集合对机器学习模型进行训练,由测试样本集合对训练完的信息系统资产识别分类模型进行校验,若测试通过则进行后续流程,否则重新对样本集合进行划分,并采用重新划分后的训练样本集合对机器学习模型进行训练,并采用重新划分后的测试样本集合对训练后信息系统资产识别分类模型进行测试,直至步骤s206的判断结果为是。

步骤s208、在更新周期到来时,获取信息系统中每一目标逻辑实体的目标资产特征数据。

步骤s209、根据所述目标资产特征数据,由所述信息系统资产识别分类模型确定所述每一目标逻辑实体的分类,并得到分类结果。

步骤s210、依据分类结果,判断是否存在不能确定分类的目标逻辑实体,若是,执行步骤s211。

步骤s211、接收用户对所述不能确定分类的目标逻辑实体的目标分类的标注。

步骤s212、以所述不能确定分类的目标逻辑实体的资产特征数据和目标分类构成的样本更新所述样本集合,并以更新后的样本集合替代所述样本集合,并返回执行步骤s204。

在识别目标逻辑实体的过程中,若发现无法识别的目标资产特征数据,说明在对机器学习模型进行训练时,训练样本集合中不具有由该目标资产特征数据和与之对应的目标逻辑实体的分类构成的样本,此时,需要人工对该目标逻辑实体进行分类标注,并利用标注后的分类以及目标特征数据构成的样本更新样本集合,结合步骤s204、s205实现对机器学习模型的重新训练。

本发明实施例提供的技术方案,在对信息系统中的信息资产进行识别时,采用测试样本集合对信息系统资产识别分类模型进行校验,当信息系统资产识别分类模型检测到不能确定的目标逻辑实体时,能够人工标注无法识别的目标逻辑实体的目标分类,并根据不能确定分类的目标逻辑实体的资产特征数据和目标分类构成的样本更新样本集合,并以更新后的样本集合代替原来的样本集合确定训练样本集合,重新对机器学习模型进行训练,以此提高了信息系统资产识别分类模型识别的准确性。

基于前述方案,为了方便用户了解信息系统中的逻辑实体以及相互之间的连接关系,参阅图3,在步骤s101或步骤s201之后,该方法还可以包括:

步骤s301、获取每一逻辑实体的第一属性和第二属性。

步骤s302、利用第一属性建立与每一逻辑实体对应的信息系统逻辑实体模型单元,同时利用第二属性建立信息系统逻辑实体关系模型单元。

信息系统逻辑实体关系模型单元用于描述信息系统逻辑实体模型单元索引表中的不同信息系统逻辑实体模型单元索引对应的信息系统逻辑实体模型单元之间的连接关系。

信息系统逻辑实体模型单元与逻辑实体一一对应,信息系统逻辑实体模型单元用于描述逻辑实体的第一属性,该第一属性包括资产特征数据、逻辑实体的分类、ip地址、mac地址、端口信息索引表。

信息系统逻辑实体关系模型单元用于描述不同逻辑实体之间的连接关系,信息系统逻辑实体关系模型单元包括第二属性,第二属性包括源ip地址、目的ip地址、源端口号、目的端口号、协议类型、信息系统逻辑实体模型单元索引表。

信息系统逻辑实体模型单元索引表中的信息系统逻辑实体模型单元索引,实现对不同的信息系统逻辑实体模型单元的映射。信息系统逻辑实体关系模型单元利用该信息系统逻辑实体模型索引实现对不同信息系统逻辑实体模型单元的连接关系的描述。

具体在生成信息系统逻辑实体模型单元索引时,根据源ip地址和源端口号进行检索,找出与其相应的信息系统逻辑实体模型单元,并形成信息系统逻辑实体模型单元索引;根据目的ip地址和目的端口号进行检索,找出与其相应的信息系统逻辑实体模型单元,并形成信息系统逻辑实体模型单元索引。

为了方便对信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元的管理和更新,本实施例还可以在步骤s301之前预先建立信息系统资产清单,信息系统资产清单中为空。在步骤s302之后,通过将建立的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元增加至所述信息系统资产清单中实现对信息系统资产清单的首次更新。当然,根据实际需要,也可以在步骤s302之后,根据信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元建立信息系统资产清单。本实施例对此不作具体限定。

在更新周期到来时,为了根据确定的目标逻辑实体及时对已建立的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元进行更新,参阅图4,在步骤s302之后,该方法还可以包括:

步骤s401、获取目标逻辑实体的第一属性。

步骤s402、对于每一目标逻辑实体,将目标逻辑实体的第一属性逐一与每一逻辑实体的第一属性进行比对,以判断是否存在与目标逻辑实体具有完全相同的第一属性的逻辑实体,若是执行步骤s404,否则执行步骤s403。

当确定不存在与目标逻辑实体具有完全相同的第一属性的逻辑实体时,表明该目标逻辑实体为新增加的逻辑实体;当存在与目标逻辑实体完全相同的第一属性的逻辑实体时,表明该逻辑实体为信息系统中已有的逻辑实体,此时不对该目标逻辑实体进行任何处理。

步骤s403、根据目标逻辑实体的第一属性建立对应的信息系统逻辑实体模型单元,并利用目标逻辑实体的第一属性中的网络通信情况建立对应的信息系统逻辑实体关系模型单元。

步骤s404、判断是否已完成对所有目标逻辑实体的比对,若是,执行步骤s405。

步骤s405、判断所有逻辑实体中是否存在与任一目标逻辑实体的第一属性不完全相同的逻辑实体,若是,执行步骤s406,否则返回执行步骤s401。

在完成对所有目标逻辑实体的比对后,若确定在所有逻辑实体中存在与任一目标逻辑实体的第一属性不完全相同的逻辑实体,表明该逻辑实体已从信息系统中删除。

步骤s406、删除与目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元,或标记与目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元。

为便于理解,下面具体举例说明对目标逻辑实体的比对过程:

假定在更新周期到来之前,信息系统中的逻辑实体的分类为逻辑实体a、逻辑实体b、逻辑实体c,更新周期到来之后,由信息系统资产识别分类模型所确定的目标逻辑实体的分类为逻辑实体a、逻辑实体b。

首先,将逻辑实体a的第一属性逐一与逻辑实体a、逻辑实体b、逻辑实体c的第一属性进行比对,经过比对发现,逻辑实体a的第一属性逐一与逻辑实体a的第一属性完全相同,那么表明逻辑实体a为信息系统中已有的逻辑实体;

其次,将逻辑实体b的第一属性逐一与逻辑实体a、逻辑实体b、逻辑实体c的第一属性进行比对,经过比对发现,逻辑实体b的第一属性与逻辑实体a、逻辑实体b、逻辑实体c的第一属性都不完全相同,那么表明逻辑实体b为信息系统中新增加的逻辑实体;

基于此已经完成对所有目标逻辑实体的比对,现在发现信息系统原有的逻辑实体中存在逻辑实体c的第一属性与任一目标逻辑实体(逻辑实体a或逻辑实体b)的第一属性都不完全相同,那么表明逻辑实体c已从信息系统中删除。

在本发明的另一实施例中,当信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元存在于信息系统资产清单中时,若信息中存在新增加的目标逻辑实体或删除的逻辑实体时,需要对信息系统资产清单进行更新,具体的:

当信息中存在新增加的目标逻辑实体时,将与目标逻辑实体的第一属性对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元增加至信息系统资产清单中;

当信息中存在已删除的逻辑实体时,删除信息系统资产清单中的、与目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元;或,在信息资产清单中标记与目标逻辑实体对应的信息系统逻辑实体模型单元和信息系统逻辑实体关系模型单元。

请参阅图5,图5为本发明实施例提供的信息资产识别装置的一种结构示意图,该结构示意图中的各模块的工作过程参照图1对应的实施例中方法的执行过程,该装置包括:

第一获取单元510,用于获取信息系统中每一逻辑实体的资产特征数据,资产特征数据包括系统指纹、网络指纹和虚拟身份信息。

确定单元520,用于根据资产特征数据,确定训练样本集合,训练样本集合中的样本与逻辑实体一一对应,样本包括由资产特征数据构成的特征集合和与该样本对应的逻辑实体的分类。

优选地,该确定单元包括:

处理单元,用于对于每一逻辑实体,将资产特征数据聚合成特征集合,并获得人工标注的每一逻辑实体的分类;

生成单元,用于生成样本集合,其中每个逻辑实体的特征集合与其关联的分类构成所述样本集合中的一个样本;

确定子单元,用于从样本集合中随机确定部分样本作为训练样本集合,在样本集合中除训练样本集合之外的样本构成测试样本集合。

训练单元530,用于采用训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型,利用测试样本集合对信息系统资产识别分类模型进行测试。

优选地,该装置还包括:

判断单元,用于对于测试样本集合中的每一测试样本,判断信息系统资产识别分类模型根据测试样本中的特征集合输出的结果是否与测试样本中的分类一致;

更新单元,用于当确定单元确定信息系统资产识别分类模型输出的结果与测试样本中的分类不一致时,重新确定训练样本集合,并以重新确定的训练样本集合代替训练样本集合、返回执行采用训练样本集合对机器学习模型进行训练,以得到信息系统资产识别分类模型的步骤。

第二获取单元540,用于在更新周期到来时,获取信息系统中每一目标逻辑实体的目标资产特征数据。

识别单元550,用于利用信息系统资产识别分类模型根据目标信息系统的资产特征数据,以确定每一目标逻辑实体的分类。

本发明实施例提供的技术方案,在对信息资产进行识别时,利用信息系统中已有的信息资产的特征集合和分类构成的训练样本集合对机器学习模型进行训练,得到信息系统资产识别分类模型,从而在更新周期到来时,利用信息系统资产识别分类模型对信息系统中的信息资产进行识别。相对于现有技术,本实施例的方案不仅不用人工统计,而且能对逻辑层面中的资产进行识别。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对于装置或系统实施例而言,由于其基本相应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,在没有超过本发明的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本发明的目的。例如,所述单元或子单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或多个子单元结合一起。另外,多个单元可以或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

另外,所描述系统,装置和方法以及不同实施例的示意图,在不超出本发明的范围内,可以与其它系统,模块,技术或方法结合或集成。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1