基于无监督学习的网络空间资源自动分类方法及装置与流程

文档序号:16000974发布日期:2018-11-20 19:27阅读:219来源:国知局

本发明涉及网络空间测绘技术领域,特别涉及一种基于无监督学习的网络空间资源自动分类方法及装置。



背景技术:

网络空间已成为人类社会第五疆域,包含政治、经济、军事、文化、社会、生态等诸多维度,正发展成为一个与物理世界平行的新世界。近年来,随着互联网技术的发展以及互联网多样化,网络空间资源呈现多样化发展的趋势,但其实网络空间目前还缺失最基本概念模型和空间理论基础。网络中许多资源是客观存在的,但是迄今为止我们还没有系统和全面地命名他们,尤其没有真正站在网络空间里面去命名和描述他们。而网络资源的多样性和复杂性给管理者、用户带来了相当大的困扰。

互联网的发展带动了网络空间资源的数目和数据量呈现爆炸式增长。网络空间资源指在网络空间中能够直接感知到的实体资源,包含各种网络应用服务、信息资源和虚拟主体,为了更好表达网络空间与物理世界的衔接关系,特别把网络基础设施也纳入网络空间资源的研究范畴,同时也是为了更加系统及更高效的利用网络资源,提升网络这一“疆域”的安全性,对于网络空间资源进行分门别类显得尤为重要。

网络空间资源的复杂性、多样性、资源数目的增长速度以及新型网络空间资源的诞生速度,这些都决定了单纯靠人工手动标记的方式对网络空间资源进行分类是不可行的,故而利用算法对网络空间资源进行自动分类是必然的。生物都有相应的图谱,网络空间资源也需要图谱给其分类。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种基于无监督学习的网络空间资源自动分类方法,该方法可以对网络资源进行自动分类,并有利于网络空间资源图谱的构建。

本发明的另一个目的在于提出一种基于无监督学习的网络空间资源自动分类装置。

为达到上述目的,本发明一方面实施例提出了一种基于无监督学习的网络空间资源自动分类方法,包括以下步骤:采集分类器所处的网络环境的资源,以生成资源集合;根据预设n维属性对所述资源集合的资源进行属性标记,以生成新的资源集合;通过提取函数对所述新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;通过Parametric Bootstrap方法得到K值,并运用K均值聚类对所述初始样本空间进行分类,以将所述初始样本空间分为K类资源;将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。

本发明实施例的基于无监督学习的网络空间资源自动分类方法,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置;按照聚类结果,可以对网络空间资源框架进行扩增及补充,从而可以对网络资源进行自动分类,并有利于网络空间资源图谱的构建。

另外,根据本发明上述实施例的基于无监督学习的网络空间资源自动分类方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述通过Parametric Bootstrap方法得到K值,进一步包括:在获取所述特征向量之后,先将所述K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型;通过所述统计量的模型的生成数据样本集合;获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS;在所述聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足所述预设条件,以确定所述K值。

进一步地,在本发明的一个实施例中,所述运用K均值聚类对所述初始样本空间进行分类,进一步包括:从所述初始样本空间中任意选择K个特征向量作为初始聚类中心;获取所述初始样本空间中的其他对象与所述聚类中心的距离;将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新所述聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。

进一步地,在本发明的一个实施例中,所述将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,进一步包括:将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入所述相类似的类中。

进一步地,在本发明的一个实施例中,所述将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,还包括:如果特征值与当前每一类的差值都大于上界阈值,则新增一类,以归入新类中。

为达到上述目的,本发明另一方面实施例提出了一种基于无监督学习的网络空间资源自动分类装置,包括:采集模块,用于采集分类器所处的网络环境的资源,以生成资源集合;标记模块,用于根据预设n维属性对所述资源集合的资源进行属性标记,以生成新的资源集合;提取模块,用于通过提取函数对所述新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;初始化模块,用于通过Parametric Bootstrap方法得到K值,并运用K均值聚类对所述初始样本空间进行分类,以将所述初始样本空间分为K类资源;归类模块,用于将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。

本发明实施例的基于无监督学习的网络空间资源自动分类装置,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置;按照聚类结果,可以对网络空间资源框架进行扩增及补充,从而可以对网络资源进行自动分类,并有利于网络空间资源图谱的构建。

另外,根据本发明上述实施例的基于无监督学习的网络空间资源自动分类装置还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述初始化模块进一步用于在获取所述特征向量之后,先将所述K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型,且通过所述统计量的模型的生成数据样本集合,并获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS,并在所述聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足所述预设条件,以确定所述K值。

进一步地,在本发明的一个实施例中,所述初始化模块进一步用于从所述初始样本空间中任意选择K个特征向量作为初始聚类中心,获取所述初始样本空间中的其他对象与所述聚类中心的距离,并将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新所述聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。

进一步地,在本发明的一个实施例中,所述归类模块进一步用于将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入所述相类似的类中。

进一步地,在本发明的一个实施例中,所述归类模块进一步用于在特征值与当前每一类的差值都大于上界阈值时新增一类,以归入新类中。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明一个实施例的基于无监督学习的网络空间资源自动分类方法的流程图;

图2为根据本发明另一个实施例的基于无监督学习的网络空间资源自动分类方法的流程图;

图3为根据本发明一个实施例的基于无监督学习的网络空间资源自动分类方法的具体实施方式示意图;

图4为根据本发明一个实施例的基于无监督学习的网络空间资源自动分类装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于无监督学习的网络空间资源自动分类方法及装置,首先将参照附图描述根据本发明实施例提出的基于无监督学习的网络空间资源自动分类方法。

图1是本发明一个实施例的基于无监督学习的网络空间资源自动分类方法的流程图。

如图1所示,该基于无监督学习的网络空间资源自动分类方法包括以下步骤:

在步骤S101中,采集分类器所处的网络环境的资源,以生成资源集合。

可以理解的是,如图2所示,首先,本发明实施例进行网络空间资源搜集,即实现分类器所部署位置的网络空间资源的搜集,并归入集合U中。

具体而言,如图3所示,网络空间资源的搜集是对分类器所处的网络环境进行资源的搜集,并形成集合U。建立一个网络空间资源的集合U,表示“未分类的网络空间资源”,对应分类器所处的网络环境中搜集到的网络空间资源,将其加入到U中,并顺序标记为C1,C2,…,Ci,…,故而有U={C1,C2,…,Ci,…}。

在步骤S102中,根据预设n维属性对资源集合的资源进行属性标记,以生成新的资源集合。

可以理解的是,如图2所示,本发明实施例进行资源属性标注,是将各种多样的网络空间资源按照人为设定好的n维属性进行标注。也就是说,按照设计好的n维属性,对U中的资源进行属性标注,形成C。

具体而言,U中的每一个元素都是一个分类器所在的网络环境中的资源,由于网络空间资源的多样性,它们在实际中的表现形式可能各不相同,如要对其进行自动分类,则要对每一个元素进行统一的标注,选择若干属性去代表该元素,具体的属性数目及标注方式可根据实际情况自行选择,为了表示方便,设对每一个资源Ci共选择n个属性进行标注,则Ci可表示为:

在步骤S103中,通过提取函数对新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间。

可以理解的是,如图2所示,本发明实施例进行特征向量提取,是将标注好的资源属性进行特征向量的提取,得到特征向量。也就是说,本发明实施例按照需要,自定义特征向量的提取函数Feature_Extraction(),并对Ci进行特征向量的提取,得到Ri,并形成初始样本空间Z。

具体而言,根据第S102步中属性的数目选择以及实际情况,自定义一个特征向量提取函数Feature_Extraction(),用其对标注后的资源Ci进行特征提取,得到Ci的特征向量Ri。Ri←Feature_Extraction(Ci),将所有的Ri作为一个初始样本Z,Z={R1,R2,…,Rn}。

在步骤S104中,通过Parametric Bootstrap方法得到K值,并运用K均值聚类对初始样本空间进行分类,以将初始样本空间分为K类资源。

可以理解的是,如图2所示,本发明实施例进行资源聚类,是利用K均值聚类的方法,将资源对应的特征向量分为K类,并可以运用Parametric Bootstrap方法得到K值,同时,可以运用K均值聚类的方法对初始样本空间Z进行分类,将样本空间分为K类。

也就是说,使用K均值聚类(K-means)算法实现对网络空间资源的自动分类,由于网络空间资源的多样性,对于K均值聚类中的K值的选取就变得难以预测,所以这一步分为两个子部分来进行:K值的确定;用K均值聚类以实现自动分类。

进一步地,在本发明的一个实施例中,通过Parametric Bootstrap方法得到K值,进一步包括:在获取特征向量之后,先将K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型;通过统计量的模型的生成数据样本集合;获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS;在聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足预设条件,以确定K值。

具体而言,在本分类器的实现中,关于K值的确定,用的是Parametric Bootstrap方法。Parametric Bootstrap方法是Bootstrap方法的一种延伸,Bootstrap是一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。中心思想是通过从样本中重抽样,构建某个估计的置信区间。抽象的说,通过样本得到的估计并没有耗尽样本中的信息,Bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。Bootstrap的一个关键之处在于每次重抽样之后的size要与原来数据样本相同,Parametric Bootstrap方法也遵循这一点,但与Bootstrap方法不同的是,它不是从原始集合中重新抽样本,而是设定一个特定的数学模型,然后通过这个模型来重新模拟出样本数据,并且可以进行多次。

在本分类器中,具体操作为:

(1)得到特征向量Ri之后,先将K值取一个较小的值(如K=2),然后按照K-means方法,可以得到K种类的均值和协方差矩阵等一些统计值。

(2)根据实际场景及经验,设定一种数学模型,假定原始数据是从该模型中随机生成的(如假定为高斯模型),这样就可以用具有步骤①中求得的相应统计量的模型来重新生成数据样本集合,重新生成后的size与原样本相同。

(3)设计一个估计聚类好坏的指标(如总体类内误差WSS等),从K+1开始起,每次递增1,逐一考察模拟生成的样本的聚类的WSS。

(4)K值的确定遵循这样的策略:只要K+1类的真实数据经K均值聚类计算的WSS,至少比k类的模拟点下的μ*WSS要小(μ是人为设定的阈值,一般85%≤μ≤1),那么我们就接受K+1类;后面依次增加k,直到不满足小于等于的条件。

进一步地,在本发明的一个实施例中,运用K均值聚类对初始样本空间进行分类,进一步包括:从初始样本空间中任意选择K个特征向量作为初始聚类中心;获取初始样本空间中的其他对象与聚类中心的距离;将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。

具体而言,利用K均值聚类实现资源自动分类的算法如下:

(1)从初始样本Z中,任意选择K个特征向量作为初始聚类中心。

(2)对于初始样本Z中的其他对象Ri,计算它们与上述聚类中心的距离,此

处距离的计算方法可以是每两个点之间的欧氏距离,也可以根据实际效率选择。按

照距离最近的准则将它们归到最近的聚类中心所对应的类。

(3)将每个类别中的所有对象所对应的均值作为该类别的聚类中心,计算目

标函数的值,更新聚类中心。

(4)迭代第2步与第3步,直到新生成的聚类中心与上一步的聚类中心相等

或它们的差小于指定的阈值ζ。

在步骤S105中,将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。

可以理解的是,如图2所示,本发明实施例资源归类,是将U中的每一个资源按照分类好的结果归入其代表特征向量所在的类中,完善网络空间资源图谱。也就是说,将S104中分成的K类资源归入到每一类的聚类中心R’j所对应的网络空间资源图谱类中。

进一步地,在本发明的一个实施例中,将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,进一步包括:将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入相类似的类中。

具体而言,本发明实施例将S104步中实现了将n个特征向量分为了K类,将每一类的聚类中心R’1,R’2,…,R’k作为该类的代表特征向量,将R’j与现有的网络空间资源图谱中的每一类作比较,将其归到与其最为相类似的类中,并将R’j所在类中的其他的特征向量对应的网络资源一并归入该类中。

进一步地,在本发明的一个实施例中,将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,还包括:如果特征值与当前每一类的差值都大于上界阈值,则新增一类,以归入新类中。

具体而言,若R’j的特征值与现有框架中的每一类的差值都大于上界阈值β,则在现有框架中新增一类,并将R’j所在类中的其他的特征向量对应的网络资源一并归入该新类中。另外,本发明实施例的具体实施方式如图3所示。

根据本发明实施例提出的基于无监督学习的网络空间资源自动分类方法,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置,按照聚类结果,对网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。

其次参照附图描述根据本发明实施例提出的基于无监督学习的网络空间资源自动分类装置。

图4是本发明一个实施例的基于无监督学习的网络空间资源自动分类装置的结构示意图。

如图4所示,该基于无监督学习的网络空间资源自动分类装置10包括:采集模块100、标记模块200、提取模块300、初始化模块400和归类模块500。

其中,采集模块100用于采集分类器所处的网络环境的资源,以生成资源集合。标记模块200用于根据预设n维属性对资源集合的资源进行属性标记,以生成新的资源集合。提取模块300用于通过提取函数对新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间。初始化模块400用于通过Parametric Bootstrap方法得到K值,并运用K均值聚类对初始样本空间进行分类,以将初始样本空间分为K类资源。归类模块500用于将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。本发明实施例的装置10按照聚类结果,对网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。

进一步地,在本发明的一个实施例中,初始化模块400进一步用于在获取特征向量之后,先将K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型,且通过统计量的模型的生成数据样本集合,并获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS,并在聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足预设条件,以确定K值。

进一步地,在本发明的一个实施例中,初始化模块400进一步用于从初始样本空间中任意选择K个特征向量作为初始聚类中心,获取初始样本空间中的其他对象与聚类中心的距离,并将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。

进一步地,在本发明的一个实施例中,归类模块500进一步用于将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入相类似的类中。

进一步地,在本发明的一个实施例中,归类模块500进一步用于在特征值与当前每一类的差值都大于上界阈值时新增一类,以归入新类中。

需要说明的是,前述对基于无监督学习的网络空间资源自动分类方法实施例的解释说明也适用于该实施例的基于无监督学习的网络空间资源自动分类装置,此处不再赘述。

根据本发明实施例提出的基于无监督学习的网络空间资源自动分类装置,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置,按照聚类结果,对的网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1