一种面向学术论文同名消歧的可视化分析方法

文档序号:27924331发布日期:2021-12-11 11:36阅读:167来源:国知局
一种面向学术论文同名消歧的可视化分析方法

1.本发明涉及深度学习领域、图神经网络领域和可视化技术,具体发明是一种面向学术论文同名消歧的可视化分析方法。该方法首先根据论文的合著者的合作网络,生成了合作关系图,解释了科研团队中作者的合作关系网络。然后为了展示不同作者研究方向之间的相关性,设计了合作关系图和发文期刊图之间的可视化联动。最后通过结合深度学习模型分别对论文和作者进行分类,实现从作者和团队任意主体出发的交叉分析与连贯推理。该方法在保证方法简单直观的基础上,利用图神经网络中的节点分类技术,充分挖掘论文作者之间的合作关系,通过将可视化分析方法与学术论文的消歧过程相结合,从而提高了高校科研管理人员在对高校教师绩效考核时的工作效率。


背景技术:

2.当不同的人使用同一个名字时,就会产生歧义。这是对学术论文进行记录和统计时经常会遇到的问题。这种问题在中文环境中,尤其是两个字的中文名字中极其常见。因为很多中文字虽然拥有不同的含义,不同的写法,但是却有同样的发音,此时单一的姓名信息便难以很好地起到区分不同作者的作用。比如“王伟”和“王韦”的发音完全一样,这两个作者在发表英文论文时,他们的名字写法同为“wang wei”。
3.确保可以正确高效地区分开有歧义的姓名,是学术检索系统以及各大高校科研管理部门面临的重要问题。对于线上的学术检索系统,如acm、dblp、ieee来说,由于算法的局限性,面临着论文作者姓名模糊性以及论文分配错误的问题。这给科研人员在进行信息检索时带来了巨大困难。对于各大高校的科研管理部门来说,因为学术论文是反映高校整体学术水平和科研实力的一个重要指标,所以要定期对本校教师发表的学术论文进行汇总统计。而面对大量由校内教师发表论文而产生的同名问题,科研管理部门需要在短时间内给出准确度较高的消歧结果,这给相关人员带来了巨大困难。如何快速准确的将论文正确地分配到对应的作者名下,是线上学术检索系统及线下科研管理部门工作人员亟待解决的难题。
4.针对同名消歧问题,存在相关的研究对同名作者进行区分。目前通常的做法是利用论文作者的姓名、论文引用网络等来对网络上的公开数据集进行分类。此类算法已经取得了一定的准确率,但依然需要人工进行筛查才能最终完成同名消歧工作。为了更好地进行人工筛查,相关研究便将可视化方法引入人工消歧的工作中。已有的可视化系统将同名消歧算法与可视化方法结合,对学术论文进行消歧。但相关工作的可视化方法较为专业,使用者须具备一定学术背景的同时需经过一定时间的培训,这都为论文消歧增加了成本。
5.为了解决上述问题,本发明面向科研管理人员对论文作者的同名消歧工作,尝试将可视化分析方法与学术论文的消歧过程相结合,提出了面向学术论文同名消歧的可视化分析方法。以直观的可视化方法将复杂的数据进行展示,帮助科研管理人员更高效准确地完成基于学术论文的同名消歧工作。主要做出以下四点改进。
6.(1)面向论文作者同名消歧的过程,设计了交互式可视化分析方法,并研发了面向
学术论文的同名消歧可视化分析系统。
7.(2)引入基于多视图的分类方法,将作者的发文方向体现在可视化方法中,引导使用者分别利用科研团队的研究方向和个人的研究方向两方面信息作为消歧的指导。
8.(3)设计了可交互的合作关系模块,帮助使用者更直观地探索团队中多名作者的合作关系以及研究方向,以达到更高效的消歧效果。
9.(4)增加了可视化方法中不同模块之间的联动,使用者可以对合作关系图、发文期刊图与作者研究方向图之间信息进行交叉比对,辅助使用者验证同名消歧的结果。


技术实现要素:

10.步骤1:获取原始数据并将数据导入可视化系统
11.(1)获取数据;将论文数据从数据库导出为csv格式的文件,并作为本系统的输入;
12.(2)导入csv文件;使用者在进行搜索和消歧之前,需要按照系统指定的格式要求导入csv文件;点击"导入csv"按钮,并选择准备好的csv文件上传即可;上传文件应包含论文名、发文年份、发文期刊、发文关键词和论文作者;
13.步骤2:利用查询模块搜索待消歧论文作者
14.此部分包含了需要查询的两部分内容,以论文作者作为节点的查询和时间范围的查询;在姓名框中输入论文作者的姓名后,在时间栏中选择希望查询的时间;选择完成后点击"搜索"按钮即可;在确定查询作者和查询时间后,系统会在已上传数据集中搜索被查询的作者姓名,而包含被查询姓名的所有论文都会被从上传的总数据集中检索出来,被检索的论文形成一个小型的待消歧数据集;对于论文作者进行同名消歧和其它模块中的可视化渲染都依据这个待消歧数据集;
15.步骤3:利用关联程度模块寻找可疑节点
16.可视化系统将待消歧数据集中所有论文作者看作一个团队,这个团队中的人数是不确定的,规模可能从数人到数十人;因为使用者对团队中的每名成员均详细调查会耗费大量时间和精力;所以系统引入关联程度模块来帮助使用者快速确定这个团队中最有可能被算法错误的分配到这个团队中的论文作者;
17.在关联程度模块中,可以直观地看到每名作者与团队中其他作者之间的关联程度和此作者的发文数量;图中纵坐标代表不同作者,每名作者都被赋予了一种独有的颜色,同一个作者在不同模块均使用同一颜色标识,以增加相同作者在不同模块之间的识别度,保证使用者更快速准确地区分不同作者;
18.圆圈的颜色为作者独有的颜色,圆圈在横坐标的位置代表此作者与整个团队的关联程度得分;关联程度得分情况由每名作者和团队中其他作者的合作发文数和度中心性综合得出,公式如下:
[0019][0020]
其中,gl(v)为节点v的关联程度得分,得分越高,则此节点在团队中重要性越高;h(v)为节点v与团队中其他教师合作发表论文的篇数,z(v)为节点v发表论文的总篇数;n为图中节点的数量;n(v)为节点v的度,即所有与节点v直接相连的节点数量;关联程度得分经过归一化之后的取值范围为(0,1),当得分小于0.2,则此节点可能为错误节点,需要使用者
将此节点作为此步骤的输出和下一步骤的输入,对此节点进行重点了解;
[0021]
步骤4:利用图神经网络进行节点分类
[0022]
考虑到需要消歧的作者虽然拥有相同的姓名,但通常研究方向却不同;故本方法利用相同姓名的作者研究方向不同作为系统消歧的切入点;分别对论文作者以及论文进行分类;
[0023]
(1)论文分类
[0024]
利用论文的关键词和发表期刊信息来对论文进行分类,并将论文分类结果展示在作者发文方向中,以此来辅助使用者确定论文作者的研究方向;
[0025]
(2)论文作者分类
[0026]
利用作者曾经的发文关键词作为作者的特征来对作者进行分类,并将分类结果展示在合作关系图中,以此来帮助使用者在同一张图中快速直观地区分不同研究方向的作者以及作者之间的关系;
[0027]
步骤5:利用合作关系模块确定节点间错误合作关系并修改
[0028]
合作关系模块着重展现了团队中不同作者之间的合作关系,而探索不同作者之间的合作关系也是本方法进行消歧的主要方法;系统默认进入合作关系模块中的普通模式,此时看到模块中包含了网络关系图和发文期刊图;
[0029]
(1)网络关系图与发文期刊图
[0030]
网络关系图中的每个节点代表了一名作者,作者节点的颜色与之前提到过的关联程度模块相同;两名作者曾经合作发表过同一篇论文,两个节点之间就会产生连线;
[0031]
分类算法将多个作者判断为同一研究方向,系统就会用同一颜色的色块将同一研究方向的节点包裹起来,达到更直观的效果;
[0032]
右侧的发文期刊图,采用基于桑基图的呈现方式来展示论文作者的发文期刊;展示的信息分为两列,左列为团队中包含的所有论文作者姓名,且作者姓名颜色与关系图中同一作者颜色一致,便于使用者直观地了解作者发文情况;右列为论文作者的发文期刊;作者在某个期刊发表过文章,那么左列作者名和右列期刊名之间就会产生连线;
[0033]
(2)关系图与期刊图的交叉分析
[0034]
当使用者点击合作关系图中某一节点时,节点会被高亮显示;与此同时,发文期刊图中会自动隐去其他作者所发表的期刊,只显示被点击作者发表期刊情况;此时图中显示的是正确情况,即被点击作者属于此团队的情况;当使用者点击了有可能被错误划分为此团队的作者时,会看到可疑节点与其他节点不同,仅在少数期刊上发表过文章,则此作者并不属于团队内,只是由于人工或算法对论文分配错误导致;要验证猜想,则将鼠标移动到可疑作者发表期刊上;由于同一团队中作者通常都会在一个或几个期刊中发表论文,故看到同一期刊中同时有多位团队中作者发表过文章,则代表此时数据分配正确;
[0035]
(3)关联关系的修改
[0036]
使用者需要进一步了解团队中作者之间的关系,点击合作关系图的全屏模式;全屏模式分为左侧的关联论文、中间的关系图和右侧的强联系三部分;当使用者通过基础信息模块中论文原始信息确定两个节点之间一定有合作关系时,便点击两节点之间的线段,被点击的线段会高亮强调,同时右侧强联系框中会出现两人已添加强联系的显示;被添加强联系的作者会被认定为一定有合作关系,此结果会被反馈到分类算法中,用来提升算法
准确度;使用者同时点击两个节点,在两个节点高亮显示的同时,左侧也会同时显示出被点击的作者因为哪些论文而产生的联系;使用者通过此功能判断节点之间的联系是否正确;当使用者确定可疑节点为错误节点时,通过在错误节点上点击鼠标右键,在弹出窗口中点击添加或删除节点,便可对错误数据做出修改;
[0037]
步骤6:使用基础信息模块验证修改是否正确
[0038]
基础信息模块帮助使用者在使用关联程度和合作关系模块时,了解作者或期刊的详细信息;此模块包含了论文原始数据标签页、作者信息标签页和期刊信息标签页;
[0039]
论文数据标签页:系统会默认进入论文数据标签页,此标签页中包含了待消歧数据集中所有的论文数据,包括论文名、发文年份、发文期刊、发文作者和发文关键词信息;为使用者提供了最原始的论文数据供参考;
[0040]
作者信息标签页:当使用者在合作关系图中点击了某个节点时,基础信息模块会自动显示被点击节点的相关信息;包括作者的发文数量、发文年份、发文关键词和发文方向;其中发文方向是通过分类算法对作者发表的论文进行分类得到的结果;此标签页帮助使用者了解不同作者的研究方向,以便于更好地进行同名消歧;
[0041]
期刊信息标签页:此标签页中包含了待消歧数据集中发文期刊的详细信息,包括期刊名、影响因子和期刊方向信息;使用者通过点击发文期刊图中的右侧期刊名来进行切换。
[0042]
有益效果
[0043]
本发明基于学术论文与学术论文作者之间的关系构建网络结构图,并结合包括发文年份、发文期刊、发文关键词等信息构建可视化界面。同时利用基于深度学习的分类模型对论文的研究方向以及论文作者的研究方向进行分类,最终达到对学术论文同名消歧的目的。
[0044]
本发明在测试过程中,找到了两名来自科研管理部门工作10年以上的专家作为志愿者,开发人员向专家介绍了已有的相关研究是如何进行论文消歧工作的,并记录了专家对可视化系统的点评。专家们表示,本系统可以提供良好的可用性和有效性,以辅助解决现实世界中存在的同名消歧任务。专家对系统的便利性,良好的整合性和交互性都给予了较高的评价,并表示与前人的研究对比,本系统在面临高度模糊的消歧任务中表现虽不及前人的相关研究,但是本系统更直观地体现了团队中教师之间合作关系,方法更易懂,使用者需要较少的培训即可熟练使用。同时,由于大多数科研管理人员并非科研领域内专业人士,而他们在进行论文消歧工作时经常会面临高校内不同领域的专业论文,使得缺少背景知识的人员很难进行消歧工作。而本系统由于作者信息标签页和发文期刊图的加入,使得使用者不一定对消歧领域有所了解,也可以顺利地完成论文消歧任务。
附图说明
[0045]
图1为本发明可视化系统界面
[0046]
图2为本发明的查询模块
[0047]
图3为本发明的关联程度模块
[0048]
图4为本发明的合作关系模块
[0049]
图5(a)为本发明的关系图与期刊图的交叉分析图中作者高亮显示效果
[0050]
图5(b)为本发明的关系图与期刊图的交叉分析图中正确作者发文期刊
[0051]
图5(c)为本发明的关系图与期刊图的交叉分析图中错误作者发文期刊
[0052]
图5(d)为本发明的关系图与期刊图的交叉分析图中正确期刊对应作者
[0053]
图5(e)为本发明的关系图与期刊图的交叉分析图中错误期刊对应作者
[0054]
图6(a)为本发明对关联关系的修改图节点间线段高亮效果
[0055]
图6(b)为本发明对关联关系的修改图添加强联系效果
[0056]
图6(c)为本发明对关联关系的修改图同时选中两名作者效果
[0057]
图6(d)为本发明对关联关系的修改图查看作者间关联论文效果
[0058]
图7为本发明的论文数据标签页
[0059]
图8为本发明的作者信息标签页
[0060]
图9为本发明的期刊信息标签页
[0061]
图10为本发明实施方法中可疑节点发文方向图
[0062]
图11为本发明的消歧结果图
[0063]
具体实施方法
[0064]
以下将结合上述图例对本发明的面向学术论文同名消歧的可视化分析方法作进一步详细描述。
[0065]
步骤1:获取原始数据并将数据导入可视化系统
[0066]
点击"导入csv"按钮,并选择准备好的csv文件上传。上传文件包含论文名、发文年份、发文期刊、发文关键词和论文作者等信息。
[0067]
步骤2:利用查询模块搜索待消歧论文作者
[0068]
经过对科研人员的采访,发现根据"li jie"老师反应,自己团队中教师的论文并没有正确分配。
[0069]
首先在查询模块作者姓名栏中输入"li jie",时间选择从2011年至2020年。点击搜索按钮后,可以通过合作关系图看到所有节点均属于同一团队,并没有明显的分隔边界。且根据作者研究方向进行分类结果也很相似,并不能通过色块代表的研究方向区分不同作者。
[0070]
步骤3:利用关联程度模块寻找可疑节点
[0071]
其次,观察关联程度模块(如图3),发现教师"ao yu"与团队中其他作者关联程度极低,可以猜测教师"ao yu"被工作人员或算法错误的分类了。
[0072]
步骤4:利用合作关系模块确定节点间错误合作关系并修改
[0073]
随后逐个点击节点,并观察作者信息标签页以及发文期刊图。在作者信息标签页中发现团队中其他教师的发文关键词均与计算机相关,而"ao yu"的发文关键词则属于自动化类。与此同时,在发文期刊图中,观察到除"ao yu"以外的教师的发文期刊均与团队中其他教师的发文期刊有重合且所发期刊丰富(如图5b)。只有教师"ao yu"的发文期刊单一(如图5c),并且"ao yu"所发期刊只与教师"li jie"有交集(如图5e),这不合符同一团队中,通常都会互相合作,很少出现团队中某一人只与整个团队中一人合作过的情况。
[0074]
接下来,点击全屏模式,并先后点击"ao yu"与"li jie"节点(如图6c),发现虽然二人发文数量很多,但"ao yu"与"li jie"却之合作过一篇论文(如图6d)。由此可以推断,此论文是"ao yu"与学生合作,而学生名叫"li jie",与教师重名。
[0075]
步骤5:使用基础信息模块验证修改是否正确
[0076]
同时注意到,"ao yu"发文数量很多,但是却集中在2015年之前(如图10),不像团队中其他教师是逐年递增趋势,这不符合同一团队中,不同作者的发文时间比较相似这一特点。
[0077]
最后,在"li jie"上点击右键,标记计算机学院教师为"li jie 01",自动化学院学生为"li jie 02"(如图11)。在与相关学院科研助理询问后,得知消歧结果正确。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1