面向网络安全学科新领域出现的量化方法与流程

文档序号:16248095发布日期:2018-12-11 23:46阅读:196来源:国知局
面向网络安全学科新领域出现的量化方法与流程

本发明涉及数据网络分析与挖掘领域,更具体的说,是涉及一种面向网络安全学科新领域出现的量化方法。

背景技术

近年来,由于在学术界和工业界开展了大量的研究工作,而研究进展和结果往往通过发表文章来阐述,这使得世界各地的科学家们通过不断创作出大量的研究论文来促进科学的进步,为全世界科学的发现与传播提供了技术基础。此外,研究人员通过网络共享出他们的研究成果,各种学术数据可以很容易地被访问,这使我们能够以一种新的视角来研究科学本身。然而,大量的学术数据的迅速崛起给数据管理和分析带来了新的问题和挑战,因此需要我们开发更多强大的数据分析技术来分析大数据背后隐藏的信息。

对于学术数据分析,由于数据量和各种数据类型的增加,造成实体与实体之间映射关系呈指数递增,这使得其分析过程具有挑战性。同时,大量的学术数据是科技进步和现代科学各个方面电脑化的直接结果。因此,学者从现有数据中为特定目标提取简明见解至关重要。研究人员通过对这些数据进行清洗来保证数据的准确性,提取研究对象,进而构建了各种数据网络,包括引用网络等等。大量的学术文章构成的引文关系,实现了我们对文章聚集后形成的领域衍生关系的构建,针对有效的领域衍生关系,我们可以探索学科在其发展史上,其所包含的领域的变化模式。



技术实现要素:

本发明的目的是为了克服现有技术中的不足,提供了一种面向网络安全学科新领域出现的量化方法,通过识别新领域的出现与实际意义的衍生关系,构建了领域衍生空间(domain-derivedspace)来呈现学科内不同领域的更替,并且基于这个领域衍生空间,提出了研究领域发展的方法并且分析了其祖先领域的多种特征。

本发明的目的是通过以下技术方案实现的。

本发明的面向网络安全学科新领域出现的量化方法,包括以下步骤:

步骤一,数据预处理阶段:

对收集到的数据提取所需数据,并对无关数据进行筛选、清洗,得到x个大领域、y个领域、z篇文章,构建三者之间的关系映射,根据领域包含的文章,使用量化新领域出现算法获取每个领域的开始文章以及每个领域的开始时间,确定每个领域的开始文章列表f_a(j);

步骤二,构建网络阶段:

(1)根据步骤一已有的关系映射获取领域衍生依赖关系,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到两个领域之间的相对优势ad(i→j);

(2)使用生成随机领域衍生依赖关系网络算法构建随机领域衍生依赖关系网络,重复m次,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到随机网络的每个领域衍生关系的相对优势rad(i→j);

(3)根据所有ad(i→j)与rad(i→j)的值,计算出在原始网络中出现的依赖关系的统计显著性p_value(i→j),并根据p_value(i→j)值对所有领域衍生依赖关系进行筛选,得到领域衍生依赖关系统计验证网络。

步骤一中所述量化新领域出现算法的具体过程为:

(1)确定领域中所有文章出版年份的最大值maxyear和最小值minyear;

(2)初始设定出版年份为minyear,找到该年份对应的文章列表paperlist;

(3)遍历文章列表paperlist中的每一篇文章paper,找到每个paper对应的引文信息citationlist;

(4)遍历每篇paper对应的所有引文信息citationlist,对于citationlist中的每篇引文,判断是否与该paper属于同一领域;如果存在引文与该paper所属领域相同,则确定该paper属于领域的开始文章,加入开始文章列表,并且结束遍历citationlist,返回(3)查找下一篇文章;

(5)如果找到至少一篇开始文章则确定领域的开始时间与领域的开始文章,否则对minyear增加1,返回(2)查找下一个年份。

步骤二中所述生成随机领域衍生依赖关系网络算法的具体过程为:

(1)根据领域j已获取的开始文章列表f_a(j)及其开始时间ey,选择出现在该领域开始时间之前的所有参考文献ralist;

(2)对于f_a(j)中的每一篇开始文章,获取其参考文献数m;

(3)对获取的参考文献ralist执行fisher-yatesshuffle算法得到新的参考文献ralist_new,然后生成一个随机数s,选择ralist_new中的第s个值作为随机生成的参考文献,映射出该参考文献对应的领域,与原始领域形成领域衍生关系映射;重复执行步骤(3)m次;

(4)最终得到的所有领域衍生关系映射形成随机领域衍生依赖关系网络。

与现有技术相比,本发明的技术方案所带来的有益效果是:

(1)本发明构建了一个排除了领域衍生关系随机性的领域衍生依赖关系统计验证网络(domains-deriveddependencystatisticallyvalidatednetwork),可根据网络研究其领域生产动态以及祖先领域动态。针对计算机安全学科的多种实证研究揭示了其演变模式,包括从跨学科到内生的转变,早期阶段的领域角色激发其他新领域的出现等结论。

(2)本发明对于收集到的文章数据进行清洗,根据其所属领域以及文章之间的引用关系,映射出领域之间的衍生关系,进而构建领域衍生空间。对于生成的衍生依赖关系,明确其中的随机性,构建领域衍生依赖关系统计验证网络,来探究领域形成、演化的潜在模式。本发明有三个重要技术实现,具体来说,一是定义了一种量化新领域开始的方法;二是开发了一个生成随机领域衍生依赖关系网络的方法;三是提出了一系列对于网络结构特征的分析方法。

(3)本发明以网络安全学科的科学文章为例,通过识别新领域的出现以及领域之间有效的衍生依赖关系,提出领域衍生空间。在此背景下,对领域生产总量的增长动态的分析表明,新领域的增长遵循相似的模式,并且由于这些领域之间的相互联系日益增加,在一个学科中很难产生新的领域。此外,交叉学科的影响,意味着来自其他学科的影响,在其出现的开始阶段意义重大。然而,随着学科逐渐成熟这种影响正在减少,而新领域越来越受现有领域的启发,这意味着新领域的出现从跨学科驱动转向内生影响。最后,它表明大部分新领域的出现不是受到已发展成熟领域的启发,而是由那些发展还处于早期阶段的领域所驱动的。这些结果将为进一步研究打开一扇门户,预测域的出现和发展,并探索模型的普遍价值。

附图说明

图1为本发明所述数据集的结构特征;

图2为本发明所述量化新领域出现算法实现流程图;

图3为本发明所述生成随机领域衍生依赖关系网络算法实现流程图;

图4为本发明所述领域衍生依赖关系统计验证网络;

图5为本发明所述分组领域累计产量增长率动态图;

图6为本发明所述网络入度与出度数量分布变化图;

图7为本发明所述网络平均入度与平均出度动态变化图;

图8为本发明所述参考文献来源的比例变化图;

图9为本发明所述参考文献在其所属领域的分布图;

图10为本发明所述具有显著意义的子图分布图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明主要解决三个问题:第一,如何识别有效的、有意义的领域衍生关系,以便我们可以量化新领域的出现?第二,新领域如何发展成熟,并且它如何随着时间的推移激发新的领域?第三,激发新领域出现的祖先领域的特征,包括动态模式的特征是什么?针对以上的问题,使用收集到的数据和方法,本发明构建了领域派生空间。对领域生产动态和祖先领域动态进行分析,实证结果将使我们能够确定潜在的新领域及其出现模式,以深入了解进化过程,重点关注新领域出现、逐步成熟以及激发其他新领域的方式。

本发明的面向网络安全学科新领域出现的量化方法,包括以下步骤:

一、数据预处理阶段:

(1)对收集到的数据提取所需数据,并对无关数据进行筛选、清洗,得到x个大领域、y个领域、z篇文章等实体,构建三者之间的关系映射。

(2)根据领域包含的文章,使用量化新领域出现算法获取每个领域的开始文章以及每个领域的开始时间,确定每个领域的开始文章列表f_a(j)。本发明给定所需的开始文章列表f_a(j)的定义,要求其需要满足:①开始文章至少被领域j中的其他文章引用过一次;②没有任何开始文章的参考文献属于领域j;③不能有符合上述两项要求的但出版时间相对于其他开始该文章更早的文章。

其中,量化新领域出现算法的具体过程为:

(a)确定领域中所有文章出版年份的最大值maxyear和最小值minyear。

(b)初始设定出版年份为minyear,找到该年份对应的文章列表paperlist。

(c)遍历文章列表paperlist中的每一篇文章paper,找到每个paper对应的引文信息citationlist。

(d)遍历每篇paper对应的所有引文信息citationlist,对于citationlist中的每篇引文,判断是否与该paper属于同一领域;如果存在引文与该paper所属领域相同,则确定该paper属于领域的开始文章,加入开始文章列表,并且结束遍历citationlist,返回(c)查找下一篇文章。

(e)如果找到至少一篇开始文章则确定领域的开始时间与领域的开始文章,否则对minyear增加1,返回(b)查找下一个年份。

二、构建网络阶段:

(1)根据步骤一中已有的关系映射,我们可以获取领域与文章的包含关系,文章与参考文献的引用关系,进而得到领域与领域之间的衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到两个领域之间的相对优势ad(i→j)。

(2)使用生成随机领域衍生依赖关系网络算法构建随机领域衍生依赖关系网络,重复m次,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到随机网络的每个领域衍生关系的相对优势rad(i→j)。

其中,生成随机领域衍生依赖关系网络算法的具体过程为:

(a)根据领域j已获取的开始文章列表f_a(j)及其开始时间ey,选择出现在该领域开始时间之前的所有参考文献ralist。

(b)对于f_a(j)中的每一篇开始文章,获取其参考文献数m。

(c)对获取的参考文献ralist执行fisher-yatesshuffle算法得到新的参考文献ralist_new,然后生成一个随机数s,选择ralist_new中的第s个值作为随机生成的参考文献,映射出该参考文献对应的领域,与原始领域形成领域衍生关系映射;重复执行步骤(c)m次。

(d)最终得到的所有领域衍生关系映射形成随机领域衍生依赖关系网络。

(3)根据所有ad(i→j)与rad(i→j)的值,计算出在原始网络中出现的依赖关系的统计显著性p_value(i→j),并根据p_value(i→j)值对所有领域衍生依赖关系进行筛选,得到领域衍生依赖关系统计验证网络。

实施例:

本发明提出的面向网络安全学科新领域出现的量化方法,通过领域衍生依赖关系构建网络的方法,通过分析网络结构特征,结合领域生产动态,来描述在计算机安全学科中领域的更替模式,详见下文描述。

一、数据预处理阶段:

(1)在微软学术引擎中提取所需数据,数据结构特征如图1所示,对于计算机安全学科来说,可以分为12个大领域、798个领域,并且包括1824829篇文章,构建这三者之间的关系映射。

(2)使用量化新领域出现算法,算法实现见图2,获取每个领域的开始文章以及每个领域的开始时间,确定每个领域的开始文章列表。

二、构建网络阶段:

(1)根据步骤一中已有的关系映射,我们可以获取领域与文章的包含关系,文章与参考文献的引用关系,进而得到领域与领域之间的衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到两个领域之间的相对优势ad(i→j)。

(2)由于领域衍生关系具有随机性,因此使用生成随机领域衍生依赖关系网络算法构建随机领域衍生依赖关系网络,算法实现见图3,重复m=10000次,生成10000个随机网络,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到随机网络的每个领域衍生关系的相对优势rad(i→j)。

(3)根据所有ad(i→j)与rad(i→j)的值,我们可以计算出在原始网络中出现的依赖关系的统计显著性p_value(i→j),并根据p_value(i→j)值对所有领域衍生依赖关系进行筛选,最终得到领域衍生依赖关系统计验证网络,见图4。

本发明根据已构建的领域衍生依赖关系统计验证网络,可以分析网络中,祖先领域动态、领域依赖关系动态以及早期影响力的影响作用。此外,根据领域包含文章的生产总量,可以确定其增长动态来支撑我们的研究:

不同领域按照它的开始时间,我们把它们分成4组。按照这样的分组,统计其领域生产总量的变化模式,进而计算出各个分组生产增长变化模式,根据其变化模式,我们将每个分组划分成三个阶段,分别为:初始形成阶段(theinitialformationstage)、快速发展阶段(therapiddevelopmentstage)、稳定成熟阶段(thesteadymaturestage),见图5。

如果要研究领域增长的模式,我们需要研究不同领域之间的依赖关系。对于在已构建的网络中的每个节点,入度是指的是其祖先域的数量,出度是指的是受其启发的域的数量。因此,我们描述所有领域入度与出度的数量分布,见图6;以及在不同时间领域平均入度、出度的变化过程,见图7。

产生新领域的祖先领域也具有着变化规律,对于给定领域的每篇开始文章的参考文献,根据其所属领域,我们都可以识别四种不同类型的参考来源。根据这四种参考文献来源,我们可以描述出四个分组的领域在不同时期领域来源的分布比例变化,见图8。

此外,对于所有作为开始文章的参考文献,我们根据它出现在所属领域的位置,来判断什么时期的文章更容易被新领域所参考,见图9。

对于已构建的网络来说,存在着频繁出现的网络模式,根据这个观点,本发明使用fanmod工具,识别出网络中的motif,见图10。

尽管上面结合附图对本发明的功能及工作过程进行了描述,但本发明并不局限于上述的具体功能和工作过程,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1