同名作者判断方法、装置、电子设备及可读存储介质与流程

文档序号:30220393发布日期:2022-05-31 21:28阅读:139来源:国知局
同名作者判断方法、装置、电子设备及可读存储介质与流程

1.本发明涉及大数据和数据处理技术领域,具体涉及同名作者判断方法、装置、电子设备及可读存储介质。


背景技术:

2.随着大数据和人工智能技术的发展,信息检索的准确和有效性越来越受到重视。然而,在实际的信息检索中,如何尽可能获取真实有效的数据是一项具有挑战性的工作。
3.特别在学科评估和人才评价中,有一项重要的指标是学术论文发表情况,需要依据作者的姓名进行搜索。但是作者的姓名,特别是中国作者的姓名,在外文期刊上往往都是拼音,则会出现大量的重名,这导致检索难度增加。因此,如何确定以不同单位发表的论文的同名作者是否为同一人,是一项非常困难而又必要的工作。


技术实现要素:

4.本发明实施例提供一种同名作者判断方法、装置、电子设备及可读存储介质,以确定以不同单位发表的论文的同名作者是否为同一人。
5.为了解决上述问题,本发明实施例第一方面公开了一种同名作者判断方法,所述方法包括:
6.以发表论文的单位为分类粒度,对搜索出的目标作者姓名的全部论文进行论文分类,并建立所述全部论文的基本词库;
7.根据所述基本词库,提取所述全部论文中每篇论文的核心词,统计得到所述全部论文的所有核心词,并根据所述全部论文的所有核心词,建立所述全部论文中不同论文的核心词归一化词频向量;
8.根据所述不同论文的核心词归一化词频向量,计算所述全部论文中不同论文的相似度,并建立同一单位论文的相似度自相关矩阵以及建立不同单位论文的相似度互相关矩阵;
9.根据所述相似度自相关矩阵和所述相似度互相关矩阵,分别计算论文相似度的自相关矩阵相似度指数和互相关矩阵相似度指数,并判断不同单位以所述目标作者姓名发表论文的作者是否为同一人。
10.基于同一发明构思,本发明实施例第二方面公开了一种同名作者判断装置,所述装置包括:
11.基本词库建立模块,用于以发表论文的单位为分类粒度,对搜索出的目标作者姓名的全部论文进行论文分类,并建立所述全部论文的基本词库;
12.核心词归一化词频向量获得模块,用于根据所述基本词库,提取所述全部论文中每篇论文的核心词,统计得到所述全部论文的所有核心词,并根据所述全部论文的所有核心词,建立所述全部论文中不同论文的核心词归一化词频向量;
13.相似度矩阵建立模块,用于根据所述不同论文的核心词归一化词频向量,计算所
述全部论文中不同论文的相似度,并建立同一单位论文的相似度自相关矩阵以及建立不同单位论文的相似度互相关矩阵;
14.同名作者确定模块,用于根据所述相似度自相关矩阵和所述相似度互相关矩阵,分别计算论文相似度的自相关矩阵相似度指数和互相关矩阵相似度指数,并判断不同单位以所述目标作者姓名发表论文的作者是否为同一人。
15.基于同一发明构思,本发明实施例第三方面公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本发明实施例第一方面所述的同名作者判断方法中的步骤。
16.基于同一发明构思,本发明实施例第四方面公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本发明实施例第一方面所述的同名作者判断方法中的步骤。
17.本发明实施例包括以下优点:
18.本发明实施例应用大数据技术搜索出具有目标作者姓名的全部论文,并按发表论文的单位进行分类,检索出论文的基本词,并应用自然语言处理技术中的词频-逆文档词频方法提取论文的核心词;再由此建立论文的核心词词频向量,计算不同论文之间的相似度,从而建立同一单位论文的相似度自相关矩阵和不同单位论文的相似度互相关矩阵;最后通过相似度自相关矩阵和相似度互相关矩阵,分别计算论文相似度的自相关矩阵相似度指数和互相关矩阵相似度指数,由此可以判断不同单位以所述目标作者姓名发表论文的作者是否为同一人,此种方式大大降低了在海量重名中确定以不同单位发表的论文的同名作者是否为同一人的难度,通过实际检验,取得了很好的效果。
附图说明
19.图1是本发明一实施例提出的同名作者判断方法的步骤流程图;
20.图2是本发明一实施例提出的同名作者判断装置的功能模块图。
具体实施方式
21.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.在学科评估和人才评价中,有一项重要的指标是学术论文发表情况,需要依据作者的姓名进行搜索。但是作者的姓名,特别是中国作者的姓名,在外文期刊上往往都是拼音,则会出现大量的重名,例如:a单位在外文期刊上发表论文的作者姓名为“李想”,b单位在外文期刊上发表论文的作者姓名为“李响”,c单位在外文期刊上发表论文的作者姓名为“历香”,d单位在外文期刊上发表论文的作者姓名为“李响
”……
其中c单位的“李响”与d单位的“李响”为同一人,但由于上述a、b、c、d单位发表论文的作者的姓名拼音均为“lixang”,在英文论文上表示为“xangli”,且这仅是海量的姓名拼音均为“lixang”中的一部分,这导致检索出现大量的重名,这导致如何确定以不同单位发表的论文的同名作者是否为同一人,是一项非常困难而又必要的工作。
23.有鉴于此,本发明提出了一种同名作者判断方法、装置、电子设备及可读存储介质等,旨基于不同单位发表论文的核心词相似度指数判断同名作者是否为同一人,通过检验证明,该方法取得了很好的效果。
24.参考图1,图1是本发明一实施例提出的同名作者判断方法的步骤流程图,如图1所示,该方法包括以下步骤:
25.步骤s101:以发表论文的单位为分类粒度,对搜索出的目标作者姓名的全部论文进行论文分类,并建立所述全部论文的基本词库;
26.在本发明中,可以通过大数据技术在海量的论文数据中搜索出的目标作者姓名的全部论文。其中,目标作者姓名为给定的作者姓名,即需要搜索的作者姓名,如“lixang”。
27.实际中,发表论文的大量同名作者会所属于不同的单位,如姓名拼音为“lixang”的同名作者所属于a、b、c、d等多个不同的单位。因此,本发明可以单位作为分类单元,将搜索出的目标作者姓名的全部论文按单位进行分类。如分类后a单位姓名拼音为“lixang”的作者发表有x篇论文,b单位姓名拼音为“lixang”的作者发表有y篇论文,c单位姓名拼音为“lixang”的作者发表有z篇论文等。当然,同一单位也可能存在多个具有该目标作者姓名的同名作者,如a单位姓名拼音为“lixang”的作者实际有“李想”和“李翔”,其中,“李想”发表有论文x1篇,“李翔”发表有论文x2篇。可见,搜索出的同为目标作者姓名的全部论文仍然是海量的,因此,本发明首先以发表论文的单位为分类粒度,对搜索出的具有目标作者姓名的全部论文进行分类。
28.在将搜索出的目标作者姓名的全部论文以单位为分类粒度进行论文分类的同时,本发明还建立有以目标作者姓名发表的全部论文的基本词库。
29.在本发明一实施例中,可以通过子步骤s101-1~子步骤s101-2公开的方式建立该全部论文的基本词库:
30.子步骤s101-1:通过文本检索方法提取所述全部论文中的每篇论文的基本词;
31.其中,文本检索方法是一种信息检索方法,其可以根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。
32.其中,基本词指论文中除虚词、连词、语气词等之外的实体词,该实体词具体可以是表明该论文核心内容的一些主旨词,如通信、信号、算法等。
33.子步骤s101-2:过滤所述每篇论文的基本词中的停用词,再合并所述全部论文的基本词,得到所述全部论文的基本词库。
34.其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。在本发明中,停用词具体可以是论文中的一些常用词语,如以计算机科学与技术学科为例,停用词具体可以是computer(计算机)、program(程序)等学科常用词,以及of、with、and等语言常用词。
35.本实施例在将每篇论文的基本词中的停用词过滤之后,再将过滤掉停用词的所有论文合并起来,可以得到全部论文的基本词库。相比直接对论文进行停用词过滤再提取基本词的方式,本实施例采用先提取基本词,再过滤基本词中的停用词的方式,一方面能极大减少停用词的过滤量,减少数据处理负担;另一方面也能避免因先过滤停用词所带来的对论文主旨词判断和提取的影响,能有较高概率获得大量能准确表明论文主旨内容的基本词。
36.步骤s102:根据所述基本词库,提取所述全部论文中每篇论文的核心词,统计得到所述全部论文的核心词,并根据所述全部论文的所有核心词,建立所述全部论文中不同论文的核心词归一化词频向量;
37.在本发明一实施例中,可以应用词频-逆文档词频方法提取所述全部论文中每篇论文的核心词,其具体可以包括以下子步骤:
38.子步骤s102-1:计算所述基本词库中的每个基本词在所述全部论文中出现的总次数,并将目标基本词在所述全部论文中出现的次数与所述全部论文中出现次数最多的基本词出现的次数相除,得到所述目标基本词的归一化词频;其中,所述目标基本词为所述基本词库中的任一基本词;
39.本实施例在获得基本词库后,首先可以先统计每个基本词在目标作者姓名的全部论文中出现的总次数,然后对基本词库中的每个基本词进行归一化处理,即:目标基本词的归一化词频=目标基本词在所述全部论文中出现的次数/所述全部论文中出现次数最多的基本词出现的次数。通过对基本词库中的每个基本词进行归一化处理,本实施例可以得到基本词库中的所有基本词的归一化词频。
40.例如,目标基本词为“通信”,其目标作者姓名的全部论文中出现的总次数为200次,而该目标作者姓名的全部论文中出现次数最多的基本词为“分析”,次数为4000次,两者相除,即200/4000=0.05,表明“通信”这一基本词的归一化词频为0.05。
41.子步骤s102-2:统计所述全部论文涉及的学科以及每个学科对应的论文篇数,并在所述全部论文中,将每个学科对应的论文篇数与所述全部论文中的包含有所述目标基本词的论文篇数的商值取对数,得到所述目标基本词在该学科下的逆文档词频;
42.目前,国际颁布有哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学以及艺术学等多个大门类,每个大门类下设若干个一级学科,如理学门下设有数学、物理学、化学等14个一级学科,而一级学科下会设有多个二级学科,如“0701数学”这一一级学科下设有“基础数学”、“计算数学”、“概率论与数理统计”、“应用数学”以及“运筹学与控制论”等二级学科。因此,考虑到学科的复杂性,本实施例中的学科可以指一级学科和/或二级学科,在该全部论文涉及的一级学科数低于预设数值 (预设数值可以设置为6)的情况下,可以以二级学科作为统计粒度,统计该全部论文涉及的二级学科对应的论文篇数。反之,在该全部论文涉及的一级学科数大于预设数值的情况下,可以以一级学科作为统计粒度,统计该全部论文涉及的一级学科对应的论文篇数。
43.接下来,以目标作者姓名的全部论文为统计范围,将每个学科对应的论文篇数与该全部论文下包含有所述目标基本词的论文篇数相除,再取对数,可以得到该目标基本词在每个学科下的逆文档词频。例如,“应用数学”这一学科下在具有目标作者姓名的全部论文中的论文篇数为1篇,目标基本词为“通信”,目标作者姓名的全部论文包含有“通信”这一基本词的论文篇数为 10000篇,如果取10为底的对数,则可计算得到目标基本词在“应用数学”这一学科下的逆文档词频,即0-4的范围内。
44.统计目标基本词在所述全部论文涉及的全部学科下的逆文档词频,可以得到该目标基本词的逆文档词频集合。
45.子步骤s102-3:根据所述目标基本词的归一化词频和所述目标基本词在每个学科下的逆文档词频的乘积,确定所述目标基本词在每个学科下的归一化词频-逆文档词频,以
得到所述目标基本词的归一化词频-逆文档词频集合,其中,所述目标基本词的归一化词频-逆文档词频集合包含有多个归一化词频-逆文档词频,不同的归一化词频-逆文档词频对应不同的学科;
46.同理,由于目标基本词可能在该全部论文所涉及的多个学科中出现,因此,通过将目标基本词的归一化词频和目标基本词在不同学科下的逆文档词频一一进行计算,可以得到多个不同学科下的目标基本词的归一化词频-逆文档词频,即得到目标基本词的归一化词频-逆文档词频集合。
47.子步骤s102-4:根据所述基本词库中的每个基本词的归一化词频-逆文档词频集合,将所述全部论文中每篇论文内归一化词频-逆文档词频大于预设阈值的基本词确定为该篇论文的核心词。
48.根据所述目标基本词的归一化词频-逆文档词频集合,在每个学科下包含有所述目标基本词的每篇论文中,将所述学科对应的归一化词频-逆文档词频与预设阈值进行比较,在所述学科对应的归一化词频-逆文档词频大于预设阈值的情况下,将所述目标基本词确定为该篇论文的核心词。
49.相关技术中,通常采用论文摘要关键词来表明该论文的内容,但实际中,一是很多英文论文存在没有关键词的情况,二是论文摘要关键词数有限,不能体现论文的全部特征。且单一的词频并不能代表词的重要性,因为存在某篇论文中某个词出现的次数很多(词频很高),但并不能说明这个词代表了这篇论文的特征的情况,例如通用词往往出现的词频很高。考虑于此,本发明才采用应用词频-逆文档词频方法提取所述全部论文中每篇论文的核心词,当出现次数多、归一化词频和逆文档词频也大时,这个词才说明对目标作者论文重要,通过归一化词频和逆文档词频计算后,本技术可以确定这个词在这篇论文中的重要性。
50.在提取所述目标作者姓名的全部论文中每篇论文的核心词之后,可以统计得到所述全部论文的核心词,其中,每篇论文的核心词的数量可以为多个。可选的,依据全部论文数量的多少,核心词的数量可以取100~200个。
51.在本发明一实施例中,根据所述全部论文的所有核心词,建立所述全部论文中不同论文的核心词归一化词频向量的步骤包括:
52.子步骤s102-5:根据所述全部论文的所有核心词,计算每个核心词在所述全部论文的各篇论文中出现的次数,并将目标个核心词在本篇论文中出现的次数与所述本篇论文出现次数最多的核心词出现的次数相除,得到目标核心词在所述本篇论文中的归一化词频,其中,所述目标核心词为所述全部论文的所有核心词中的任一个;
53.本实施例在获得目标作者姓名的全部论文的所有核心词后,首先计算每个核心词在各篇论文中出现的次数,然后对每个核心词进行归一化处理。即:目标核心词在本篇论文中的归一化词频=核心词在本篇论文中出现的次数/ 本篇论文出现次数最多的核心词出现的次数。
54.子步骤s102-6:将所述全部论文的各篇论文中的所有核心词的归一化词频进行统计,得到所述全部论文中不同论文的核心词归一化词频向量。
55.其中,论文的核心词归一化词频向量为该篇论文中所有核心词的归一化词频的集合。基于子步骤s102-5~子步骤s102-6所示方法,通过对每篇论文的不同核心词一一进行归一化处理,本实施例可以得到该篇论文中的所有核心词的归一化词频,即为该核心词归
一化词频向量。
56.例如,某篇论文设有设共有w个核心词,则该论文的核心词归一化词频向量=[核心词1的归一化词频,核心词2的归一化词频,
……
,核心词w的归一化词频]。由此得到不同论文的核心词归一化词频向量,即:论文k的核心词归一化词频向量=[论文k核心词1的归一化词频,论文k核心词2的归一化词频,
……
,论文k核心词n的归一化词频]=[k1,k2,
……
,kw]。
[0057]
步骤s103:根据所述不同论文的核心词归一化词频向量,计算所述全部论文中不同论文的相似度,并建立同一单位论文的相似度自相关矩阵以及建立不同单位论文的相似度互相关矩阵;
[0058]
在本发明一实施例中,可以根据所述不同论文的核心词归一化词频向量,利用以下公式计算所述全部论文中不同论文的相似度s
kl

[0059][0060]
上式中,kg、lg分别为所述全部论文中的论文k、论文l的第g个核心词的归一化词频,g=1,2,

,w。
[0061]
从(1)式可以看出,对于所述目标作者姓名的任意两篇论文而言,由于论文中的核心词有多个,因此所算出的相似度也会有多个值,由此,任意两篇论文的相似度s
kl
实际为一种数列矩阵。
[0062]
其中,在获得所述全部论文中不同论文的相似度后,步骤s103建立同一单位论文的相似度自相关矩阵的步骤可以包括:
[0063]
子步骤s103-1:根据所述全部论文中不同论文的相似度,建立所述目标作者姓名以同一单位发表论文之间的相似度,若所述目标作者姓名以第i个单位共发表了m篇论文,则所述同一单位论文的相似度自相关矩阵zi为:
[0064][0065]
其中,在获得所述全部论文中不同论文的相似度后,步骤s103建立不同单位论文的相似度互相关矩阵的步骤可以包括:
[0066]
子步骤s103-2:根据所述目标作者姓名不同论文的相似度,建立所述目标作者姓名以不同单位发表论文之间的相似度,若所述目标作者姓名以第i 个单位和第j个单位分别发表了m和n篇论文,则所述不同单位论文的相似度互相关矩阵h
ij
为:
[0067][0068]
步骤s104:根据所述相似度自相关矩阵和所述相似度互相关矩阵,分别计算论文相似度的自相关矩阵相似度指数和互相关矩阵相似度指数,并判断不同单位以所述目标作者姓名发表论文的作者是否为同一人。
[0069]
在本发明一实施例中,步骤s104的实现步骤可以包括:
[0070]
子步骤s104-1:根据所述相似度自相关矩阵zi,得到以同一单位发表论文数m中的两两论文之间的相似度,去除所述以同一单位发表论文数m中的每篇论文自身的相似度值,把每篇论文与其他论文的相似度累计求和再求平均,计算得到同一单位发表论文相似度的自相关矩阵相似度指数zs:
[0071][0072]
在本实施例中,去除每篇论文自身的相似度值指去除相似度自相关矩阵 zi中的s
11
、s
22
......s
mm
,接着再将zi中剩余的s
12
与s
21
、s
1m
、sm1、sm2、s
2m
等相似度累计求和再求平均,以此可以计算得到同一单位发表论文相似度的自相关矩阵相似度指数zs。本发明通过将所述以同一单位发表论文数m中的每篇论文自身的相似度值去除,能将以同一单位发表论文数m中的两两论文之间的相似度归一化、平均化,保证自相关矩阵相似度指数计算的准确性。
[0073]
子步骤s104-2:根据所述相似度互相关矩阵h
ij
,得到以不同单位发表论文m、n两两之间的相似度,相似度累计求和再求平均,计算得到不同单位发表论文相似度的互相关矩阵相似度指数hs:
[0074][0075]
在本实施例中,通过将不同单位论文的相似度互相关矩阵h
ij
中的所有相似度s'
mn
累计求和再求平均,以此可以计算得到同一单位发表论文相似度的互相关矩阵相似度指数hs。
[0076]
子步骤s104-3:当所述互相关矩阵相似度指数hs与所述自相关矩阵相似度指数zs的比值大于预设阈值时,确定第i个单位以所述目标作者姓名发表论文的作者和第j个单位以所述目标作者姓名发表论文的作者为同一人。
[0077]
其中,预设阈值可以设为0.6。
[0078]
在本实施例中,在通过前述步骤获得互相关矩阵相似度指数hs与所述自相关矩阵
相似度指数zs之后,对互相关矩阵相似度指数hs与所述自相关矩阵相似度指数zs的比值进行计算,并将该比值与预设阈值进行比较,即可以确定第i个单位和第j个单位发表论文的同名作者为同一人。其中,当hs/zs> 0.6时,表明第i个单位以所述目标作者姓名发表论文的作者和第j个单位以所述目标作者姓名发表论文的作者为同一人。
[0079]
需要说明的是,对于多单位发表论文同名作者,则需要单位两两之间采用步骤s103~步骤s104所示的方法进行对比判断。
[0080]
基于同一发明构思,参考图2,图2是本发明一实施例提出的同名作者判断装置的功能模块图,如图2所示,该装置可以包括:
[0081]
基本词库建立模块201,用于以发表论文的单位为分类粒度,对搜索出的目标作者姓名的全部论文进行论文分类,并建立所述全部论文的基本词库;
[0082]
核心词归一化词频向量获得模块202,用于根据所述基本词库,提取所述全部论文中每篇论文的核心词,统计得到所述全部论文的所有核心词,并根据所述全部论文的所有核心词,建立所述全部论文中不同论文的核心词归一化词频向量;
[0083]
相似度矩阵建立模块203,用于根据所述不同论文的核心词归一化词频向量,计算所述全部论文中不同论文的相似度,并建立同一单位论文的相似度自相关矩阵以及建立不同单位论文的相似度互相关矩阵;
[0084]
同名作者确定模块204,用于根据所述相似度自相关矩阵和所述相似度互相关矩阵,分别计算论文相似度的自相关矩阵相似度指数和互相关矩阵相似度指数,并判断不同单位以所述目标作者姓名发表论文的作者是否为同一人。
[0085]
在本发明一实施例中,所述基本词库建立模块201包括:
[0086]
基本词检索子模块,用于通过文本检索方法提取所述全部论文中的每篇论文的基本词;
[0087]
基本词合并子模块,用于过滤所述每篇论文的基本词中的停用词,再合并所述全部论文的基本词,得到所述全部论文的基本词库。
[0088]
在本发明一实施例中,所述核心词归一化词频向量获得模块202包括:
[0089]
基本词归一化词频获得子模块,用于计算所述基本词库中的每个基本词在所述全部论文中出现的总次数,并将目标基本词在所述全部论文中出现的次数与所述全部论文中出现次数最多的基本词出现的次数相除,得到所述目标基本词的归一化词频;其中,所述目标基本词为所述基本词库中的任一基本词;
[0090]
基本词逆文档词频获得子模块,用于统计所述全部论文涉及的学科以及每个学科对应的论文篇数,并在所述全部论文中,将每个学科对应的论文篇数与所述全部论文中的包含有所述目标基本词的论文篇数的商值取对数,得到所述目标基本词在该学科下的逆文档词频;
[0091]
词频-逆文档词频集合获得子模块,用于根据所述目标基本词的归一化词频和所述目标基本词在每个学科下的逆文档词频的乘积,确定所述目标基本词在每个学科下的归一化词频-逆文档词频,以得到所述目标基本词的归一化词频-逆文档词频集合,其中,所述目标基本词的归一化词频-逆文档词频集合包含有多个归一化词频-逆文档词频,不同的归一化词频-逆文档词频对应不同的学科;
[0092]
核心词确定子模块,用于根据所述基本词库中的每个基本词的归一化词频-逆文
档词频集合,将所述全部论文中每篇论文内归一化词频-逆文档词频大于预设阈值的基本词确定为该篇论文的核心词。
[0093]
在本发明一实施例中,所述核心词归一化词频向量获得模块202还包括:
[0094]
核心词归一化词频获得子模块,用于根据所述全部论文的所有核心词,计算每个核心词在所述全部论文的各篇论文中出现的次数,并将目标个核心词在本篇论文中出现的次数与所述本篇论文出现次数最多的核心词出现的次数相除,得到目标核心词在所述本篇论文中的归一化词频,其中,所述目标核心词为所述全部论文的所有核心词中的任一个;
[0095]
核心词归一化词频统计子模块,用于将所述全部论文的各篇论文中的所有核心词的归一化词频进行统计,得到所述全部论文中不同论文的核心词归一化词频向量。
[0096]
在本发明一实施例中,所述相似度矩阵建立模块203包括:
[0097]
论文相似度计算子模块,用于根据所述不同论文的核心词归一化词频向量,利用以下公式计算所述全部论文中不同论文的相似度s
kl

[0098][0099]
上式中,kg、lg分别为所述全部论文中的论文k、论文l的第g个核心词的归一化词频,g=1,2,

,w。
[0100]
在本发明一实施例中,所述相似度矩阵建立模块203还包括:
[0101]
相似度自相关矩阵建立子模块,用于根据所述全部论文中不同论文的相似度,建立所述目标作者姓名以同一单位发表论文之间的相似度,若所述目标作者姓名以第i个单位共发表了m篇论文,则所述同一单位论文的相似度自相关矩阵zi为:
[0102][0103]
相似度互相关矩阵建立子模块,用于根据所述目标作者姓名不同论文的相似度,建立所述目标作者姓名以不同单位发表论文之间的相似度,若所述目标作者姓名以第i个单位和第j个单位分别发表了m和n篇论文,则所述不同单位论文的相似度互相关矩阵h
ij
为:
[0104][0105]
在本发明一实施例中,所述同名作者确定模块204包括:
[0106]
自相关矩阵相似度指数计算子模块,用于根据所述相似度自相关矩阵 zi,得到以同一单位发表论文数m中的两两论文之间的相似度,去除所述以同一单位发表论文数m中的每篇论文自身的相似度值,把每篇论文与其他论文的相似度累计求和再求平均,计算得到同一单位发表论文相似度的自相关矩阵相似度指数zs:
[0107][0108]
互相关矩阵相似度指数计算子模块,用于根据所述相似度互相关矩阵 h
ij
,得到以不同单位发表论文m、n两两之间的相似度,相似度累计求和再求平均,计算得到不同单位发表论文相似度的互相关矩阵相似度指数hs:
[0109][0110]
同名作者确定子模块,用于在所述互相关矩阵相似度指数hs与所述自相关矩阵相似度指数zs的比值大于预设阈值的情况下,确定第i个单位以所述目标作者姓名发表论文的作者和第j个单位以所述目标作者姓名发表论文的作者为同一人。
[0111]
基于同一发明构思,本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本发明实施例所述的同名作者判断方法中的步骤。
[0112]
基于同一发明构思,本发明实施例还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本发明实施例所述的同名作者判断方法中的步骤。
[0113]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0114]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上
实施的计算机程序产品的形式。
[0115]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0116]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0117]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0118]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。“和/或”表示可以选择两者之中的任意一个,也可以两者都选择。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0119]
以上对本发明所提供的同名作者判断方法、装置、电子设备及可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1