一种跨社交网络的科研人员评价方法

文档序号:9506655阅读:997来源:国知局
一种跨社交网络的科研人员评价方法
【技术领域】
[0001] 本发明涉及一种人员的评价方法,具体来讲是一种跨社交网络的科研人员评价方 法。
【背景技术】
[0002] 现有的科研人员评价体系主要是通过同行评议、H指数、以及期刊影响因子等进 行,同行无法正确评判某位科研人员的科研贡献。H指数仅通过文章的被引用数量计算,并 没有说明施引文献对该文章的具体引用原因,是褒是贬无从得知,且统计时间较长。期刊影 响因子是通过上一年度某一期刊所有文章的平均引用情况统计,也是需要较长时间才能发 布。上述方法均无法快速实时、准确无误的提供科研人员的实际科研能力。
[0003] 部分科研社交网站中,通过整合科研人员在本网站中的社交网络信息,通过用 户影响力分析方法,计算科研人员在本网站的学术影响力。如ResearchGate. net中的 RG Score值,是通过用户在ResearchGate. net中提交的文章、讲稿等学术贡献,以及在 ResearchGate. net中参与科研讨论的活跃情况、同行在线评议情况和粉丝情况等进行综合 计算。RG Score可以通过本站信息快速构建科研人员的学术声誉,具有较好的实时性和一 定的权威性。该技术中,仅考虑了某一用户在单一社交网络中的相关信息,而现实生活中, 大部分科研人员不仅在研究社交网络中比较活跃,而且也经常在其他社交网络中参与、发 布与科研相关的信息。本发明通过跨社交网络数据分析手段,将同一科研人员信息分析整 合,通过特定算法,分析科研人员在不同社交网络中的相关数据,计算其在社交网络中的整 体影响力。
[0004] 另一种方式是仅通过科研人员的发表文章数量、H指数、G指数等信息进行分别统 计,并可通过相关指数进行排名。如国内的Aminer. org等科研人员开放平台,就是通过搜 索科研人员的在线信息,统计其科研信息,如H指数、文章数量等信息,生成科研信息雷达 图。是评价和查找高水平科研人员先进系统的代表。该技术的缺点是没有充分整合科研 人员信息,而是分别计算,分别排名,没有通过统一的指数信息来进行科研人员学术水平排 名。
[0005] 经过检索发现,现有技术中并没有发现有人对跨平台科研人员评价进行过研究。

【发明内容】

[0006] 本发明的目标为针对现有科研人员评价体系中存在的不足,提供一种具有高准确 率、高时效性的科研人员评价方法,该方法能够将同一用户在不同社交网络中科研人员的 具体属性结合到科研领域的相关参数中,使用大数据分析方法处理海量社交网络数据,进 而形成基于社交网络的科研人员学术声望的多元化评价体系。
[0007] 本发明提供的技术方案为:一种跨社交网络的科研人员评价方法,按照如下步骤 进行:
[0008] 步骤一,数据采集,系统通过网络爬虫自动收集目标网络中的目标数据,所述目标 数据按照用户为基本单元存储备用;
[0009] 步骤二,用户识别,系统对步骤一中获得的目标数据进行处理,根据用户信息特征 对相同用户进行合并,对相同用户名下的其他数据汇总后存储备用;
[0010] 步骤三,数据归并,系统对步骤二中单个用户名下的数据分类,对同类数据进行对 比并剔除重合信息;
[0011] 步骤四,分析计算,系统对用户名下整理好的数据按照如下分析计算模型得出用 户的学术声誉值:SA (i) = aS (i)+bA (i),其中S为社交网络参数计算模型,A为学术领域参 数计算模型,其中a与b为常数。
[0012] 该方法以同一用户在不同社交网络中的海量数据为依据,结合用户的科研领域参 数,如科研人员的H指数,其发表论文的他引数量、影响因子总和,以及项目经费,获奖级 另IJ,成果转化等数据,并整合用户的各类科研贡献在不同社交网络中的传播情况,如文章的 引用数、转发数、好评数,以及用户的粉丝数量与粉丝级别等多元化数据,对科研用户进行 综合的科研声誉分析,建立一种多元化的科研人员学术声誉评价体系,为现有的科研评价 体系建立一种新的参考指标,还能够为科研管理人员提供一套可靠的评判依据。
[0013] 本发明进一步限定的技术方案为:
[0014] 进一步的,步骤一中,目标网络为国内外各大社交、学术网络,目标数据包括:用户 的个人信息、该用户的学术信息和该用户与其他用户之间的互动信息。
[0015] 进一步的,步骤二中,系统主要通过如下条件对用户进行比对、合并:(I)Email或 手机信息,(2)用户名信息,(3)工作经历和学习经历,(4)拥有至少一个相同好友信息,在 上述4个条件中,只要同时满足2个条件,系统认定两个社交网络中的用户为同一用户。
[0016] 进一步的,步骤三中,数据分类采用大数据处理方法,对名称相同的一类数据根据 其特性进行分布式计算。
[0017] 进一步的,步骤四中,计算过程如下:
[0018] (1)根据PageRank公式建立社交网络参数计算模型;
[0021] R表示要计算的科研用户粉丝关注情况值,B为该用户的关注数和粉丝数总和, N(j)表示关注数,c为常数;
[0023]
[0024] T(i)表示某用户的用户评论情况值,G(j)表示好评用户数,N(j)表示差评用户 数,B (i)表示所有用户评论数;
[0025] 根据上述计算得出的R和T确定社交网络影响参数S :
[0026] (2)学术领域参数计算模型
[0028] 式中U(j)表示合作用户的影响力值,L(j)表示该用户在文章中的署名位置,例 如:第一作者j = 1,第二作者j = 2,以此类推……;
[0030] Ab⑴为用户学术影口向参数值,H⑴为H-指数,I⑴表示影口向因子总和,P⑴表 示作者所发文章数量;
[0031] 该模型将合作者影响力参数引入到研究人员影响力值中,确定公式为:
[0032] (3)定义科研社交网络中多元化用户影响力模型SA,公式为:
[0033] SA (i) = aS(i)+bA(i),
[0034] SA表示科研社交网络中用户影响力值,S表示用户社交网络影响参数值,A表示学 术影响从参数值,a与b表示两类影响因子权值。
[0035] 进一步的,步骤三中,大数据处理采用Spark平台处理;所述类别主要为:H指数、 文章数、文章引用数。
[0036] 进一步的,步骤二中,如果两位用户仅同时满足条件(3)和条件(4)但不满足条件 (1)和/或条件(2),则进行二次比对如下:查找同属于两个用户的学术论文,如果无法找 到,则认为这两个用户不是相同用户。如果能够找到,进行后续比对;如果两个用户在文章 中的署名相同,则认为其为相同用户,反之则认为其为不同用户。
[0037] 一种跨社交网络的科研人员评价系统,包括:
[0038] 数据采集单元,用于收集目标网络中的目标数据;
[0039] 用户数据识别单元,用于对数据采集单元获得的用户信息特征进行重复用户合 并,对相同用户名下的其他数据汇总后存储备用;
[0040] 数据归并单元,用于对用户数据识别单元处理好的单个用户名下的数据做精细化 分类,对同类数据进行对比并剔除重合信息;
[0041] 分析计算单元,用于对数据归并单元整理好的单个用户名下的数据按照如下分析 计算模型得出用户的学术声誉值:SA (i) = aS (i)+bA (i),其中S为通过社交网络参数计算 模型,A为学术领域参数计算模型,其中a与b为常数。
[0042] 本发明的有益效果为:该方法以同一用户在不同社交网络中的海量数据为依据, 结合用户的科研领域参数,如科研人员的H指数,其发表论文的他引数量、影响因子总和, 以及项目经费,获奖级别,成果转化等数据,并整合用户的各类科研贡献在不同社交网络中 的传播情况,如文章的引用数、转发数、好评数,以及用户的粉丝数量与粉丝级别等多元化 数据,对科研用户进行综合的科研声誉分析,建立一种多元化的科研人员学术声誉评价体 系,为现有的科研评价体系建立一种新的参考指标,为科研管理人员提供一套可靠的评判 依据。
【附图说明】:
[0043] 图1为跨社交网络科研人员评价方法流程图。
【具体实施方式】
[0044] 下面结合附图和实施例详细说明本发明的技术方案:
[0045] 一种跨社交网络的科研人员评价方法,具体步骤如下:
[0046] 1、数据采集:通过抓取国内外各大社交网络数据和学术社交网络数据,包括用户 社交网络属性和学术领域属性,以及用户关系等。社交网络属性有:(1)该用户的关注与被 关注状况,如关注了多少人,被多少人关注,有多少人之间是相互关注的,而关注该用户的 其他人的科研水平等;(2)用户在社交网络发布的文章、项目、获奖等科研成果的数量和级 另IJ,以及受到多少其他用户的好评、差评、转发等操作。学术领域属性有:(1)该作者的文章 数、H指数、总影响因子等参数;(2)共同完成学术论文、项目等科研合作者的情况,如共同 完成论文时的署名情况,是否是责任作者等,以及该合作者的科研水平等。
[0047] 其具体实施如下:
[0048] 抓取平台:使用Python开源爬虫框架Scrapy作为数据获取平台;
[0049] 抓取步骤:
[0050] 1)首先定义需要抓取的页面URL以及需要获取的字段;
[0051] 2)分析这些字段在URL页面中的具体定位,使用记录该字段所在的xpath信息;
[0052] 3)启动scrapy,将所要item取回,并存放到json文件或者MongoDB数据库中。
[0053] 读取数据库或Json文件进行后续分析。
[0054] 2、用户识别:根据用户在不同社交网络中的属性,识别相同用户。跨社交网络的科 研人员同名识别较为困难,本发明涉及一种跨平台用户识别方法。主要通过如下条件:(1) Email或手机信息,用户登录社交网络时,大多会绑定相同Email或者手机号码;(2)用户名 信息,大部分用户在不同网络中喜欢使用相同用户名;(3)附属信息,如果用户名和Email 均不相同,则可通过工作经历和学习经历等信息进行匹配;(4)好友信息,同一用户,在不 同社交网络中,可能会拥有相同的好友。
[0055] 对于一些特殊情况,例如,在上述4个条件中,如果a,b两位用户仅同时满足(3) 和(4)但不满足(1)和者(2)两条,则只进行一次新的比对。如果新比对不匹配,则认为不 是相同用户,具体如下:
[0056] 1)尝试查找一篇学术论文,同时属于a用户与b用户,如果无法找到,则认为a与 b不是相同用户。如果能够找到,进行后续比对;
[0057] 2)如果a用户与b用户在文章中的署名相同,则认为其为相同用户;
[0058] 3)如
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1