一种利用复杂网络进行学科热点识别的方法与流程

文档序号:23721566发布日期:2021-01-26 12:48阅读:156来源:国知局
一种利用复杂网络进行学科热点识别的方法与流程

[0001]
本发明是一种针对学科共词网络的建模方法,属于复杂网络分析领域。


背景技术:

[0002]
科学计量学是信息科学的一个分支,国内外通常使用科学计量学进行研究趋势的透视与挖掘。该方法被广泛的应用于图书馆学与数据挖掘工作之中。众多的研究表明,科学计量学能够很好的揭示一个学科的发展规律,透视其热点变化趋势。在大数据的信息时代,科学计量学更是从整体出发,定性、定量地分析学科研究趋势和研究热点必不可少的工具。
[0003]
复杂网络规模大、维数高,具有鲁棒性、随机性、非线性、不规则时空尺度等特点。它不仅包含于各种现实的物理网络,如电网、交通网络、通信网络等,而且也能刻画抽象的逻辑关系,如金融网络、社交网络、只是网络等。复杂网络作为一种研究方式被广泛应用于各个领域,诸如化学、数学、计量学、工程学、金融学和社会科学等,成为许多交叉学科实现新突破的有效助力。
[0004]
科学的发展是交替进行的。托马斯
·
库恩在1962年提出了科学范式理论,认为科学发展的本质是“范式”的交替,即新的科学概念和理论通过对原有概念和理论的替代、包含、发展和补充实现科学的交替。科学的发展可以分为三个阶段:前科学革命期,科学范式期和危机期。众多的学科在此著名的科学-哲学理论的指导下循环往复地演化发展着。


技术实现要素:

[0005]
本发明基于文献数据,借助复杂网络分析建模方法,并通过科学计量学的理论,提出通过k指标作为对学科共词网络发展情况的描述系数,实现其作为学科整体测度的功能,进而为科学研究工作提供整体参考。
[0006]
本发明以文献关键词数据为基础,提出用量化科学范式理论的k指标作为系数,对知识网络的增长模式进行了节点增长的动力学解析,建立具有动态调整的共词网络增长模型。
[0007]
本发明提供的一种利用复杂网络进行学科增长模式模拟的方法,包括有以下步骤:
[0008]
1.定义k指标
[0009]
一篇文章中,由作者给出的关键词可以被看作是一篇文章内容的高度浓缩,且一个关键词通常代表着一个特定的概念。因此,存在描述集合中关键词的两个参数——关键词频次(keyword frequency,kf)和关键词计数(keyword counting,kc)。
[0010]
一个学科的持续发展,都是由知识的相互交流推动的,而这种交流则需要通过科技论文的不断发表实现。在这个过程中,关键词集合中kf和kc的值也会随之变化。然而,不同的学科有时会拥有截然不同的学科规模(publicationamount,a),从而造成这kf和kc的绝对数量在学科间可能存在巨大的差异,进而难以比较或比较起来没有意义。因此,通过将这两个变量对学科规模进行正规化,得到两个可以在学科间比较的参数——kfa、kca:
[0011][0012][0013]
对于某特定学科,kfa指平均每篇文献列出的关键词的个数,kca指平均每篇文献拥有能够代表独立概念的关键词的个数。随着文章的不断发表,kca与kfa间的比值会不断的改变,它们反映着一个学科的概念逐步达到共识的过程:当某个学科中没有任何达成的共识,他们的比值会是1,即隶属此学科的关键词集合中的任意一个关键词都仅出现过一次,每个关键词都代表着作者不同于他人的主张;当此学科达到了完全的共识,即所有发表的文章都选用相同的关键词,kca与kfa的比值则会随着文章发布量的增长最终趋近于0。由此,本发明提出用k指标:
[0014][0015]
k是一个在1到0之间变动的无量纲参数,作为学科共词网络增长的调整系数,实现学科共词网络增长模式的模型的构建。
[0016]
2.知识网络的增长模式
[0017]
共词网络在对一个学科中知识结构的抽象与呈现过程中扮演重要的角色,一般来说,一个学科的共词网络即为此学科的知识网络。在一个共词网络中,每个节点代表唯一的关键词,节点之间的连接表示两个关键字的共同出现,即出现在一篇文章中。因此,一篇文章中的几个关键词均会两两相连。一个学科的关键词集合的增大(不论是kf还是kc的变化),均以文章为载体,所以在共词网络的增长过程中,需要考虑一个学科中的每篇新增文章中的关键词在学科整体的关键词集合中是否存在过,并据此为共词网络中对新兴的关键词创建新的节点,进而模拟网络节点数目的增长。
[0018]
由k指标的定义((3)式)可以发现,虽然其作为一个宏观变量从整体上描述学科的发展阶段,但其微观意义在于描述一个学科的文献中,平均每篇文章的关键词与已有关键词重复的比率。由于k通过整个关键词集合统计求得,是一个复杂系统统计特性的反映,具有一定的鲁棒性。因此,本发明认为基于已有数据求得的k能够代表即将加入学科的文章中关键词的重复比率。一个学科的共词网络会在其发展过程中,根据不同的k有不同的增长表现(图1):假设学科中在已有共词网络基础上,又有一篇文章发表,这篇文章带有的若干关键词(假设为5个)与已有关键词集合的重复比率,便可认为等于k。
[0019]
随着学科的不断演化,学科规模与内涵会不断变化。一方面,在此过程中,总有一些关键词或概念会被作为识别某个学科的特征,并以此作为此学科的基础;另一方面,跟着学科内在的不断扩张,其学科外延也会持续增长,导致学科内的创新或学派的分化。因此,一个知识网络可以看作网络的基础部分与网络的增长部分相互耦合的结果。在此过程中,基础部分会对整个知识体系产生由内而外的“激发作用”,促使网络的增长;而已经存在的网络,不论网络的基础部分还是增长部分都会对知识的传递产生由外而内的“阻碍作用”。二者的相互耦合便会推动学科的演化发展,耦合的结果即指示一个学科特定的发展阶段。因此,本发明根据两种作用的相互耦合提出共词网络的动态调整增长模型,并将k作为了知识网络增长的动态调整参数。
[0020]
2.建立动态调整的知识网络增长模型
[0021]
对于一个学科的知识网络,观察者总会在一个特定的时间段内进行观测。由于知识网络中的各种知识具有传承与累积的效应,因此以实际观测数据,根据式(4)求得其总体增长率r:
[0022]
n
t
=n0(1+r)
t
,t=1,2,
…ꢀꢀꢀꢀꢀꢀ
(4)
[0023]
式中,将初始观测作为第0时间步,则n0表示初始网络规模,n
t
表示最终网络规模,t表示增长步数。r可以用来表示网络中的“激发作用”,网络中的“阻碍作用”通过计算每个时间间隔的累积数据中的k值获得。
[0024]
给出观测时间段0~t,初始为第0时间步,初始网络节点数为n0,网络节点数会在增长率r下增长。这里的r可以看作由基础网络向外的“激发作用”,但由于网络自身所造成的“阻碍作用”,会使得激发作用有所减弱。因此,此处将通过初始网络所得的k作为“阻碍作用”,进而得到动态调整的网络增长模型。对于第一个时间步0

1而言,网络的增长部分为:
[0025]
δn1=n0*(1+r*k0)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0026]
在完成第一时间步的增长以后,网络中的节点数为:
[0027]
n1=n0+δn1=n0+n0*(1+r*k0)
ꢀꢀꢀꢀꢀꢀ
(6)
[0028]
以完成第一时间步的增长后得到的网络为基础部分,可以完成由时间步1

2的节点增长:
[0029]
n2=n1+δn2=n1+n0*(1+r*k0)*(1+r*k1)
ꢀꢀꢀꢀꢀꢀ
(7)
[0030]
此时,网络中的激发和阻碍作用基于n1产生,并且需要通过对构成n1的关键词集合求取k1,进而完成再次修正,进而得到n2。通过此种模式,知识网络中的节点可以获得动态调整的增长:
[0031][0032]
综上,知识网络应当在基础部分的“激发作用”与网络本身的“阻碍作用”的相互耦合下进行增长。并且,根据每一时间步中关键词集合的动态变化获得动态调整参数k,进而实现知识网络的动态调整增长。通过此增长模型所得的网络由自组织效应驱动,且具有喜好性连接与无标度特性。从总体上,正确把握一个学科的发展阶段,有助回避过于激进或过时的研究内容,实现研究工作的精准定位;知识网络的动态增长模式可以模拟预测学科研究内容未来的趋势,为预测学科发展。
附图说明
[0033]
图1 以两篇文章为例,不同的k对应的不同增长表现
[0034]
图2 不同年份下网络增长的拓扑结构
具体实施方式
[0035]
下面用本发明方法实际应用于废水生物处理(biological wastewater treatment,bwt)领域,以做进一步的说明验证。
[0036]
步骤一:数据的获取与统计
[0037]
本实例数据来源于web ofscience核心合集中scie(science citation index expanded)与ssci(social sciences citation index)数据库。检索时间为2017年7月17日,检索主题词为:“biological wastewater treatment”。为避免不完整数据(2017年数
据)对统计结果的影响,将检索时间跨度限定为1998年1月1 日至2016年12月31日。检索式为:主题=(“biological wastewater treatment”);时间跨度=(“1998-2016”);数据库=“scie,ssci”;检索日期:“2017年7月17日”。共检索出各类型文章988篇。
[0038]
步骤二:确定各时间步k值,并计算总体增长率
[0039]
表1以累积数据计算了废水生物处理学科中的k指标。
[0040]
表1 bwt领域中由累积数据所得k值
[0041][0042]
步骤三:构建动态增长网络模型
[0043]
利用gephi可以构建共词网络,直观的展示出共词网络的增长(图2)。共词网络的基础部分由从初始年份到目标年前一年的累积数据构成,为蓝色;增长部分由目标年份中与基础部分不同的节点构成,为红色。例如,2000年共词网络的基础部分由1998年与1999年的累积数据构成,为蓝色;增长部分由2000 年中与基础部分不同的节点构成,为红色。
[0044]
图2给出了若干代表性年份的网络增长图。由于数据库的限制,本实证只能获得自1998年以来的数据。因此,以1998年为网络增长的初始状态。从1998年到1999年为第一个时间步,网络节点数目增长迅速,增长部分的节点数目明显多于基础部分,“激发作用”占据主导,就网络的增长而言,共词网络存在源于自身的“阻碍作用”,会削弱“激发作用”,随着二者达到不同的平衡,呈现出不同的发展模式。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1