一种跨社交网络的科研人员评价方法_2

文档序号：9506655阅读：来源：国知局

果a用户与b用户在文章中的署名不同，则认为其为不同用户。
[0059] 3、数据归并：进行数据整理，通过大数据处理方法，归并相同用户在不同社交网络中的数据；在数据归并阶段，是通过第2个步骤之后，将来自不同网络的相同用户数据进行归类、合并，甚至计算相关参数。如来自不同网络中用户的粉丝数量、H指数等均不相同，但不能单纯将相关参数直接相加，要考虑不同网络中的重合信息。
[0060] (1)大数据处理方法：这里使用Spark平台进行数据处理。Spark是一种开源的高效数据处理框架。这里使用Spark SQL处理Json文件。
[0061] 当多个不同的Json文件被读取，并建立临时表后，便可使用SQL语句进行操作，类似于关系数据库中的多表操作。
[0062] (2)相关参数计算：
[0063] 这里的相关参数，就是指H指数、粉丝数、文章数、引用数等相关信息，如果信息不重叠，则直接采用某社交网络的相关信息，如果重叠，则进行第三条类似处理。
[0064] (3)重叠信息处理：
[0065] 如引用数，在ResearchGate里面有总文章数与总引用情况，Google学术中也有文章数与引用数，如何合理归并这种重叠参数，也十分重要。这里要做如下处理：
[0066] 假设有数据来源于3个不同网络A，B，C，且均有文章数total和引用数cited。
[0067] 首先各自网络计算各自的平均单篇引用数，即total/cited值，分别记为A. tc， B.tc和C.tc，比较这三个单篇引用值，使用最大的值，作为最终的单篇引用数，记为 tc[max]；
[0068] 其次，比较A. total，B. total和C. total，使用最大的文章数值，作为最终的文章数，记为 total [max];
[0069] 最后，使用tc[max]*total [max]作为最终的总引用数cited。
[0070] 4、分析计算：针对用户在不同社交网络中的相应属性、关系、活动等海量数据，使用大数据分析方法，分析用户在社交网络中的影响力值，结合科研领域的相关参数，得出用户的学术声誉值。
[0071] 其完整的计算过程如下：
[0072] 1)将用户科研水平的影响因素分为学术影响参数A与社交网络影响参数S两部分。
[0073] 2)引入PageRank算法进行社交网络用户影响力分析，用于分析用户之间相互关注情况计算；同时引入用户间评论情况，用于分析不同用户间评论情况分析。
[0074] 根据PageRank公式，模型中的S参数定义如下：
[0076] R表示要计算的科研用户粉丝关注情况值，B为该用户的关注数和粉丝数总和， N(j)表示关注数，c为常数。该模型认为拥有越多高影响力粉丝的用户，那么该用户的学术影响力值也就越高。
[0078] T⑴表示某用户的用户评论情况值，G(j)表示好评用户数，N(j)表示差评用户数，B(i)表示所有用户评论数。该公式指出，其他用户对某用户的好评越多，该用户的影响力越高；差评越多，该用户的影响力越小。
[0079] 确定社交网络影响参数为用户关注情况与评论情况之和：
[0080] S(i) = R(i)+T(i)，
[0081] 3)将学术领域用户学术声誉计算参数定义为A。科研领域学术评价影响因子确定为基本影响参数与合作者影响参数两部分。基本影响参数引入用户的H-指数、总影响因子和所发文章总数三个参数。基本影响参数的具体公式定义为：
[0083] Ab⑴为用户学术影口向参数值，H⑴为H-指数，I⑴表示影口向因子总和，P⑴表示作者所发文章数量。该公式表示，如果用户发的论文总数相同的情况下，作者的H-指数和引用数和总影响因子越高，说明该用户的影响力越高。
[0084] 该模型将合作者影响力参数引入到研究人员影响力值中，认为文章合作者的影响力会对用户的影响力有较大的影响。最终确定公式为：
[0086] 式中U(j)表示合作用户的影响力值，L(j)表示该用户在文章中的署名位置，例如：第一作者j = 1，第二作者j = 2。
[0087] 上述公式表示用户的学术影响因子为基本学术影响参数与合作者影响参数之和。合作者影响参数确定为合作用户的影响力值除以在文章中的署名位置。用户影响力与合作者影响力成正比，与合作者署名位置成反比。
[0088] 4)定义科研社交网络中多元化用户影响力模型SA，公式为：
[0089] SA (i) = aS(i)+bA(i),
[0090] SA表示科研社交网络中用户影响力值，S表示用户社交网络影响参数值，A表示学术影响从参数值。a与b表示两类影响因子权值。
[0091] 一种跨社交网络的科研人员评价系统，包括：
[0092] 数据采集单元，用于收集目标网络中的目标数据；
[0093] 用户数据识别单元，用于对数据采集单元获得的用户信息特征进行重复用户合并，对相同用户名下的其他数据汇总后存储备用；
[0094] 数据归并单元，用于对用户数据识别单元处理好的单个用户名下的数据做精细化分类，对同类数据进行对比并剔除重合信息；
[0095] 分析计算单元，用于对数据归并单元整理好的单个用户名下的数据按照如下分析计算模型得出用户的学术声誉值：SA (i) = aS (i)+bA (i)，其中S为通过社交网络参数计算模型，A为学术领域参数计算模型，其中a与b为常数。
[0096] 虽然以上描述了本发明的【具体实施方式】，但是本领域的技术人员应当理解，这些【具体实施方式】仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。
【主权项】
1. 一种跨社交网络的科研人员评价方法，其特征在于：按照如下步骤进行：步骤一，数据采集，系统通过网络爬虫自动收集目标网络中的目标数据，所述目标数据按照用户为基本单元存储备用；步骤二，用户识别，系统对步骤一中获得的目标数据进行处理，根据用户信息特征对相同用户进行合并，对相同用户名下的其他数据汇总后存储备用；步骤三，数据归并，系统对步骤二中单个用户名下的数据分类，对同类数据进行对比并剔除重合信息；步骤四，分析计算，系统对用户名下整理好的数据按照如下分析计算模型得出用户的学术声誉值：SA(i) =as(i)+bA(i)，其中S为社交网络参数计算模型，A为学术领域参数计算模型，其中a与b为常数。2. 根据权利要求1所述的跨社交网络的科研人员评价方法，其特征在于：步骤一中，目标网络为国内外各大社交、学术网络；目标数据包括：用户的个人信息、用户的学术信息和用户与其他用户之间的互动信息。3. 根据权利要求1所述的跨社交网络的科研人员评价方法，其特征在于：步骤二中，系统主要通过如下条件对用户进行比对、合并：（l)Email或手机信息，（2)用户名信息，（3)工作经历和学习经历，（4)拥有至少一个相同好友信息，在上述4个条件中，只要同时满足2个条件，系统认定两个社交网络中的用户为同一用户。4. 根据权利要求1所述的跨社交网络的科研人员评价方法，其特征在于：步骤三中，数据分类采用大数据处理方法，对名称相同的一类数据根据其特性进行分布式计算。5. 根据权利要求1所述的跨社交网络的科研人员评价方法，其特征在于：步骤四中，计算过程如下： (1) 根据PageRank公式建立社交网络参数计算模型； S(i) =R(i)+T(i)，其中：7 R表示要计算的科研用户粉丝关注情况值，B为该用户的关注数和粉丝数总和，N(j)表示关注数，c为常数；T(i)表示某用户的用户评论情况值，G(j)表示好评用户数，N(j)表示差评用户数，B(i)表示所有用户评论数； (2) 学术领域参数计算模型式中U(j)表示合作用户的影响力值，L(j)表示该用户在文章中的署名位置，例如：第一作者j= 1，第二作者j= 2,以此类推......；Ab(i)为用户学术影响参数值，H(i)为Η_指数，I(i)表示影响因子总和，P(i)表示作者所发文章数量； (3)定义科研社交网络中多元化用户影响力模型SA，公式为： SA(i) =aS(i)+bA(i)， SA表示科研社交网络中用户影响力值，S表示用户社交网络影响参数值，A表示学术影响从参数值，a与b表示两类影响因子权值。6. 根据权利要求4所述的跨社交网络的科研人员评价方法，其特征在于：所述大数据处理采用Spark平台处理；所述数据特性包括：Η指数、粉丝数、文章数和文章引用数。7. 根据权利要求3所述的跨社交网络的科研人员评价方法，其特征在于：如果两位用户仅同时满足条件（3)和条件（4)但不满足条件（1)和/或条件（2)，则进行二次比对，步骤如下：查找同属于两个用户的学术论文，如果无法找到，则认为这两个用户不是相同用户；如果能够找到，进行后续比对；如果两个用户在文章中的署名相同，则认为其为相同用户，反之则认为其为不同用户。8. -种跨社交网络的科研人员评价系统，其特征在于：包括：数据采集单元，用于收集目标网络中的目标数据；用户数据识别单元，用于对数据采集单元获得的用户信息特征进行重复用户合并，对相同用户名下的其他数据汇总后存储备用；数据归并单元，用于对用户数据识别单元处理好的单个用户名下的数据做精细化分类，对同类数据进行对比并剔除重合信息；分析计算单元，用于对数据归并单元整理好的单个用户名下的数据按照如下分析计算模型得出用户的学术声誉值：SA(i) =aS(i)+bA(i)，其中S为通过社交网络参数计算模型， A为学术领域参数计算模型，其中a与b为常数。
【专利摘要】一种跨社交网络的科研人员评价方法，按照如下步骤进行：第一步，数据采集，通过网络爬虫自动收集目标网络中的目标数据存储备用；第二步，用户识别，对步骤一中获得的目标数据根据用户信息特征合并相同用户，对相同用户名下数据汇总后存储备用；第三步，数据归并，对步骤二中单个用户名下的数据做精细化分类，对同类数据进行对比并剔除重合信息；第四步，分析计算，对用户名下整理好的数据按照如下分析计算模型得出用户的学术声誉值；本评价方法为现有的科研评价体系建立一种新的参考指标，还能够为科研管理人员提供一套可靠的评判依据。
【IPC分类】G06Q10/06
【公开号】CN105260849
【申请号】CN201510695776
【发明人】顾瑞春, 王静宇, 马玲珑, 罗强, 黄丽媛
【申请人】内蒙古科技大学
【公开日】2016年1月20日
【申请日】2015年10月21日

完整全部详细技术资料下载

当前第2页1 2