一种基于时间序列的科技文献被引用数目预测方法

文档序号:6633319阅读:571来源:国知局
一种基于时间序列的科技文献被引用数目预测方法
【专利摘要】本发明的一种基于时间序列的科技文献被引用数目预测方法,先统计科技文献的被引用数目,然后计算每个月份里文献的平均被引用数目;结合每个月的平均被引用数目对该月份的被引用数目做归一化处理,得到被引用时间序列;根据时间序列进行聚类分析,通过划分训练集和验证集、构建回归模型、进行误差分析,得到被引用数目预测性能最优模型;最后根据待测文献与各类文献时间序列的相似度分析,得到相似度最高的类,用预测最优模型得到待测文献未来一个月的被引用数目。本发明不但能够自动分析每个文献出版后的被引用情况,获得每个月份的平均被引用数目,还通过聚类挖掘出文献的不同引用模式,进而根据待测文献的已有时间序列预测出未来的被引用数目。
【专利说明】-种基于时间序列的科技文献被引用数目预测方法

【技术领域】
[0001] 本发明属于计算机【技术领域】,涉及一种基于时间序列的科技文献被引用数目预测 方法。

【背景技术】
[0002] 被引用数目是指在一段指定的时间段内科技文献被其他文献引用的次数,是评估 科技文献影响力和质量的重要方法。但被引用数目的统计易受到当前时间点的限制,很难 获得未来时间段内的被引用情况,进而影响对科技文献在科技贡献力方面的评估。亟待提 供一种基于时间序列的科技文献被引用数目预测方法,更快的识别有潜力的文献,促进科 学研究和新知识的传播。


【发明内容】

[0003] 本发明的目的在于提供一种基于时间序列的科技文献被引用数目预测方法,通过 获取并分析科技文献的被引用时间序列,预测未来一段时间内的被引用数目,帮助评估文 献的科技潜力,提供快速高效的阅读建议。
[0004] 实现本发明目的技术方案:
[0005] 步骤1 :收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数 目。
[0006] 步骤2 :以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文 献总数,相除得该月份平均被引用数目avecitecount(month);
[0007] 步骤3 :对每个文献,自出版当月起,计算此后每月的被引用数目与 avecitecount(month)的差,得到该文献的被引用时间序列;
[0008] 步骤4 :根据被引用时间序列相似度对文献集合聚类,对每类中的时间序列建立 多个回归模型,利用误差分析选出性能最优模型;
[0009] 步骤5 :利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度 最高的类的回归模型计算待测文献未来一个月的被引用数目。
[0010] 步骤1中,利用数据库检索各文献的索引列表,根据数据库中每个文献的标号及 出版年月,统计文献被引用的具体时间和次数,获取每个文献出版后每个月份的被引用数 目。
[0011] 步骤4中,首先根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是 时间序列的长度。对长度超过N的时间序列,要对超长部分进行截断。对长度低于N的时 间序列,舍弃。N值由用户设定。
[0012] 步骤4中,进行聚类分析时,首先计算各被引用时间序列的距离,距离计算采用欧 几里得距离,然后使用未加权平均距离法生成聚类树。
[0013] 被引用时间序列Xi= (Xn,Xi2,…Xi8):表示文献i的被引用时间序列向量值;
[0014] 被引用时间序列Xj = (Xjl, Xj2,…Xj8):表示文献j的被引用时间序列向量值;
[0015] 距离(!(Xi, Xp :表示文献i和j的被引用时间序列的欧几里得距离;
[0016] 距离计算公式如下:

【权利要求】
1. 一种基于时间序列的科技文献被引用数目预测方法,其特征在于: 步骤1 :收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。 步骤2 :以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总 数,相除得该月份平均被引用数目avecitecount(month); 步骤3 :对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列; 步骤4 :根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的 长;对长度超过N的时间序列,要对超长部分进行截断;对长度低于N的时间序列,舍弃;N 值由用户设定; 进行聚类时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使 用未加权平均距离法生成聚类树; 被引用时间序列Xi = (Xn,Xi2,…Xi8):表示文献i的被引用时间序列向量值; 被引用时间序列\ = (XpX#…X#):表示文献j的被引用时间序列向量值; 距离(!(Xi,Xj):表示文献i和j的被引用时间序列的欧几里得距离; 距离计算公式如下:
通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加 权平均距离法生成聚类树。 类间距离Dm :表示类别Gp,Gq之间的距离。其中Gp的元素个数为np,Gq的元素个数为nq· 元素间距离I.:表示时间序列i,j之间的距离。 类间距离计算公式如下:
通过聚类分析,将集合中的各个文献划分成不同的类,对类中时间序列构建回归模型 时,首先划分训练集和验证集,选中时间序列中的一个时间点,把该时间点以前的数据作为 训练集,该时间点以后的数据作为验证集;在训练集上建立模型,在验证集上评估模型准确 性。最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到 的最优预测模型; 步骤5 :利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高 的类的回归模型计算待测文献未来一个月的被引用数目; 对于两个文献p与文献Pj,分别用(Xn,Xi2,…Xi8)和(Xjl,Xj2,···Xj8)表示对应的时间 序列向量值,则文献间时间序列相似度Similarity(p,Pj)的计算公式如下:
通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。 计算待测文献与各类文献时间序列的相似度的公式如下:
Similarity(p,Ci)表示待测文献p与Ci类文献时间序列的相似度值;Similarity(p,Pj)表示待测文献p与文献Pj的时间序列的相似度值,文献PjeCi类, j= 1,2,…,n(n表示Ci类中文献的总个数)。
2.根据权利要求1所述的基于时间序列的科技文献被引用数目预测方法,其特征在 于:步骤1中,利用数据库检索各文献的索引列表,根据数据库中每个文献的标号及出版年 月,统计文献被引用的具体时间和次数,获取每个文献出版后每个月份的被引用总数。
【文档编号】G06F17/30GK104462215SQ201410618173
【公开日】2015年3月25日 申请日期:2014年11月5日 优先权日:2014年11月5日
【发明者】姚念民, 李梦阳, 谭国真, 战福瑞 申请人:大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1