一种跨社交网络的科研人员评价方法

文档序号：9506655阅读：997来源：国知局

一种跨社交网络的科研人员评价方法
【技术领域】
[0001] 本发明涉及一种人员的评价方法，具体来讲是一种跨社交网络的科研人员评价方法。
【背景技术】
[0002] 现有的科研人员评价体系主要是通过同行评议、H指数、以及期刊影响因子等进行，同行无法正确评判某位科研人员的科研贡献。H指数仅通过文章的被引用数量计算，并没有说明施引文献对该文章的具体引用原因，是褒是贬无从得知，且统计时间较长。期刊影响因子是通过上一年度某一期刊所有文章的平均引用情况统计，也是需要较长时间才能发布。上述方法均无法快速实时、准确无误的提供科研人员的实际科研能力。
[0003] 部分科研社交网站中，通过整合科研人员在本网站中的社交网络信息，通过用户影响力分析方法，计算科研人员在本网站的学术影响力。如ResearchGate. net中的 RG Score值，是通过用户在ResearchGate. net中提交的文章、讲稿等学术贡献，以及在 ResearchGate. net中参与科研讨论的活跃情况、同行在线评议情况和粉丝情况等进行综合计算。RG Score可以通过本站信息快速构建科研人员的学术声誉，具有较好的实时性和一定的权威性。该技术中，仅考虑了某一用户在单一社交网络中的相关信息，而现实生活中，大部分科研人员不仅在研究社交网络中比较活跃，而且也经常在其他社交网络中参与、发布与科研相关的信息。本发明通过跨社交网络数据分析手段，将同一科研人员信息分析整合，通过特定算法，分析科研人员在不同社交网络中的相关数据，计算其在社交网络中的整体影响力。
[0004] 另一种方式是仅通过科研人员的发表文章数量、H指数、G指数等信息进行分别统计，并可通过相关指数进行排名。如国内的Aminer. org等科研人员开放平台，就是通过搜索科研人员的在线信息，统计其科研信息，如H指数、文章数量等信息，生成科研信息雷达图。是评价和查找高水平科研人员先进系统的代表。该技术的缺点是没有充分整合科研人员信息，而是分别计算，分别排名，没有通过统一的指数信息来进行科研人员学术水平排名。
[0005] 经过检索发现，现有技术中并没有发现有人对跨平台科研人员评价进行过研究。

【发明内容】

[0006] 本发明的目标为针对现有科研人员评价体系中存在的不足，提供一种具有高准确率、高时效性的科研人员评价方法，该方法能够将同一用户在不同社交网络中科研人员的具体属性结合到科研领域的相关参数中，使用大数据分析方法处理海量社交网络数据，进而形成基于社交网络的科研人员学术声望的多元化评价体系。
[0007] 本发明提供的技术方案为：一种跨社交网络的科研人员评价方法，按照如下步骤进行：
[0008] 步骤一，数据采集，系统通过网络爬虫自动收集目标网络中的目标数据，所述目标数据按照用户为基本单元存储备用；
[0009] 步骤二，用户识别，系统对步骤一中获得的目标数据进行处理，根据用户信息特征对相同用户进行合并，对相同用户名下的其他数据汇总后存储备用；
[0010] 步骤三，数据归并，系统对步骤二中单个用户名下的数据分类，对同类数据进行对比并剔除重合信息；
[0011] 步骤四，分析计算，系统对用户名下整理好的数据按照如下分析计算模型得出用户的学术声誉值：SA (i) = aS (i)+bA (i)，其中S为社交网络参数计算模型，A为学术领域参数计算模型，其中a与b为常数。
[0012] 该方法以同一用户在不同社交网络中的海量数据为依据，结合用户的科研领域参数，如科研人员的H指数，其发表论文的他引数量、影响因子总和，以及项目经费，获奖级另IJ，成果转化等数据，并整合用户的各类科研贡献在不同社交网络中的传播情况，如文章的引用数、转发数、好评数，以及用户的粉丝数量与粉丝级别等多元化数据，对科研用户进行综合的科研声誉分析，建立一种多元化的科研人员学术声誉评价体系，为现有的科研评价体系建立一种新的参考指标，还能够为科研管理人员提供一套可靠的评判依据。
[0013] 本发明进一步限定的技术方案为：
[0014] 进一步的，步骤一中，目标网络为国内外各大社交、学术网络，目标数据包括：用户的个人信息、该用户的学术信息和该用户与其他用户之间的互动信息。
[0015] 进一步的，步骤二中，系统主要通过如下条件对用户进行比对、合并：（I)Email或手机信息，（2)用户名信息，（3)工作经历和学习经历，（4)拥有至少一个相同好友信息，在上述4个条件中，只要同时满足2个条件，系统认定两个社交网络中的用户为同一用户。
[0016] 进一步的，步骤三中，数据分类采用大数据处理方法，对名称相同的一类数据根据其特性进行分布式计算。
[0017] 进一步的，步骤四中，计算过程如下：
[0018] (1)根据PageRank公式建立社交网络参数计算模型；
[0021] R表示要计算的科研用户粉丝关注情况值，B为该用户的关注数和粉丝数总和， N(j)表示关注数，c为常数；
[0023]
[0024] T(i)表示某用户的用户评论情况值，G(j)表示好评用户数，N(j)表示差评用户数，B (i)表示所有用户评论数；
[0025] 根据上述计算得出的R和T确定社交网络影响参数S :
[0026] (2)学术领域参数计算模型
[0028] 式中U(j)表示合作用户的影响力值，L(j)表示该用户在文章中的署名位置，例如：第一作者j = 1，第二作者j = 2,以此类推……；
[0030] Ab⑴为用户学术影口向参数值，H⑴为H-指数，I⑴表示影口向因子总和，P⑴表示作者所发文章数量；
[0031] 该模型将合作者影响力参数引入到研究人员影响力值中，确定公式为：
[0032] (3)定义科研社交网络中多元化用户影响力模型SA，公式为：
[0033] SA (i) = aS(i)+bA(i),
[0034] SA表示科研社交网络中用户影响力值，S表示用户社交网络影响参数值，A表示学术影响从参数值，a与b表示两类影响因子权值。
[0035] 进一步的，步骤三中，大数据处理采用Spark平台处理；所述类别主要为：H指数、文章数、文章引用数。
[0036] 进一步的，步骤二中，如果两位用户仅同时满足条件（3)和条件（4)但不满足条件 (1)和/或条件（2)，则进行二次比对如下：查找同属于两个用户的学术论文，如果无法找到，则认为这两个用户不是相同用户。如果能够找到，进行后续比对；如果两个用户在文章中的署名相同，则认为其为相同用户，反之则认为其为不同用户。
[0037] 一种跨社交网络的科研人员评价系统，包括：
[0038] 数据采集单元，用于收集目标网络中的目标数据；
[0039] 用户数据识别单元，用于对数据采集单元获得的用户信息特征进行重复用户合并，对相同用户名下的其他数据汇总后存储备用；
[0040] 数据归并单元，用于对用户数据识别单元处理好的单个用户名下的数据做精细化分类，对同类数据进行对比并剔除重合信息；
[0041] 分析计算单元，用于对数据归并单元整理好的单个用户名下的数据按照如下分析计算模型得出用户的学术声誉值：SA (i) = aS (i)+bA (i)，其中S为通过社交网络参数计算模型，A为学术领域参数计算模型，其中a与b为常数。
[0042] 本发明的有益效果为：该方法以同一用户在不同社交网络中的海量数据为依据，结合用户的科研领域参数，如科研人员的H指数，其发表论文的他引数量、影响因子总和，以及项目经费，获奖级别，成果转化等数据，并整合用户的各类科研贡献在不同社交网络中的传播情况，如文章的引用数、转发数、好评数，以及用户的粉丝数量与粉丝级别等多元化数据，对科研用户进行综合的科研声誉分析，建立一种多元化的科研人员学术声誉评价体系，为现有的科研评价体系建立一种新的参考指标，为科研管理人员提供一套可靠的评判依据。
【附图说明】：
[0043] 图1为跨社交网络科研人员评价方法流程图。
【具体实施方式】
[0044] 下面结合附图和实施例详细说明本发明的技术方案：
[0045] 一种跨社交网络的科研人员评价方法，具体步骤如下：
[0046] 1、数据采集：通过抓取国内外各大社交网络数据和学术社交网络数据，包括用户社交网络属性和学术领域属性，以及用户关系等。社交网络属性有：（1)该用户的关注与被关注状况，如关注了多少人，被多少人关注，有多少人之间是相互关注的，而关注该用户的其他人的科研水平等；(2)用户在社交网络发布的文章、项目、获奖等科研成果的数量和级另IJ，以及受到多少其他用户的好评、差评、转发等操作。学术领域属性有：（1)该作者的文章数、H指数、总影响因子等参数；(2)共同完成学术论文、项目等科研合作者的情况，如共同完成论文时的署名情况，是否是责任作者等，以及该合作者的科研水平等。
[0047] 其具体实施如下：
[0048] 抓取平台：使用Python开源爬虫框架Scrapy作为数据获取平台；
[0049] 抓取步骤：
[0050] 1)首先定义需要抓取的页面URL以及需要获取的字段；
[0051] 2)分析这些字段在URL页面中的具体定位，使用记录该字段所在的xpath信息；
[0052] 3)启动scrapy，将所要item取回，并存放到json文件或者MongoDB数据库中。
[0053] 读取数据库或Json文件进行后续分析。
[0054] 2、用户识别：根据用户在不同社交网络中的属性，识别相同用户。跨社交网络的科研人员同名识别较为困难，本发明涉及一种跨平台用户识别方法。主要通过如下条件：（1) Email或手机信息，用户登录社交网络时，大多会绑定相同Email或者手机号码；（2)用户名信息，大部分用户在不同网络中喜欢使用相同用户名；（3)附属信息，如果用户名和Email 均不相同，则可通过工作经历和学习经历等信息进行匹配；（4)好友信息，同一用户，在不同社交网络中，可能会拥有相同的好友。
[0055] 对于一些特殊情况，例如，在上述4个条件中，如果a，b两位用户仅同时满足（3) 和（4)但不满足（1)和者（2)两条，则只进行一次新的比对。如果新比对不匹配，则认为不是相同用户，具体如下：
[0056] 1)尝试查找一篇学术论文，同时属于a用户与b用户，如果无法找到，则认为a与 b不是相同用户。如果能够找到，进行后续比对；
[0057] 2)如果a用户与b用户在文章中的署名相同，则认为其为相同用户；
[0058] 3)如

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾瑞春;王静宇;马玲珑;罗强;黄丽媛;
技术所有人：内蒙古科技大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。