一种文献作者重名消歧方法和构建系统与流程

文档序号:23419824发布日期:2020-12-25 11:42阅读:702来源:国知局
一种文献作者重名消歧方法和构建系统与流程

本发明属于文献处理技术领域,特别是涉及一种文献作者重名消歧方法。



背景技术:

随着科技的高速发展和信息的不断融合,在处理信息化问题时,尤其是处理灵活多样的自然语言数据时,广泛存在于现实世界中的重名现象会极大的影响数据的检索和处理,因此产生命名实体消歧这项技术,研究如何将歧义实体引用与知识库中的正确实体匹配。作者消歧属于命名实体消歧,在现实世界中,不同的人可能拥有相同的姓名,在诸如科学文献管理和信息集成的许多应用中,人们的姓名用作检索信息的标识符,而姓名的歧义会极大的损害检索信息的质量。作者消歧本质上就是分类问题,需要准确的将文献进行划分并对应到重名的不同作者名下。

利用聚类技术可以完成文献作者重名消歧任务,现有的方法大多都是基于文献所包含的信息,主要包括基于特征区分的方法、基于图分割的方法和基于网络资源的分类等方法,这些方法虽然能够进行重名消歧,但仅仅基于文本特征或者基于图关系的划分方法未能完全利用到文献中包含丰富的信息,难以保证消歧结果具有较高的准确率和召回率水平,并且现有重名消歧方法无法适用了中文文献、英文文献和专利等多语言和多文献类型的情况。



技术实现要素:

本发明主要解决的技术问题是提供一种文献作者重名消歧方法和构建系统,以解决上述技术问题。

为解决上述技术问题,本发明采用的一个技术方案是:一种文献作者重名消歧方法,包括以下步骤:

步骤一:读取数据库中的文献数据及学者数据;

步骤二:使用word2vec模型训练并预测每篇文档的文档向量;

步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;

步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。

进一步地说,所述步骤一具体包括:

从公司的文献数据库和学者数据库中分别读取相关数据,包括:

(1)中文论文数据中的id、标题、作者、机构、摘要、期刊、年份、关键词;

(2)英文论文数据中的id、标题、作者、机构、摘要、期刊、年份、关键词;

(3)专利数据中的id、标题、发明人、摘要、日期、发表单位;

其中,中文论文-作者、英文论文-作者和专利-发明人用于提取合作数据,即合作者网络中的点和边;中文论文-摘要、中文论文-摘要和专利-摘要用于word2vec模型训练词向量模型并提取文档向量,可以使得重名消歧过程中融入文本信息。

进一步地说,所述步骤二具体包括:

文献的主题内容包括标题、关键词和摘要,先将文献的标题和摘要进行字符串合并,然后分词、提取特征词,再将特征词和关键词合并后使用word2vec的skip-gram模型进行训练,设置输出维度,得到词向量模型;

最后计算文档di中所有特征词在所有文档中的idf值αi和词向量ωi,文档向量pi的计算公式为:

进一步地说,所述步骤三具体包括:

(1)获取点的数据,包括待消歧作者姓名和其合作者姓名,其中待消歧作者节点设计为“作者姓名-文献id”形式,节点个数与文献数量相同,合作者节点设计为“作者姓名”;

(2)获取边的数据,提取作者姓名之间一一对应的关系;

(3)将提取出的所有文献的“作者”-“论文”关系表示为图g={v,e,w},其中每个节点v∈v表示一个作者的一个实例,而无向边e∈e表示两位作者合著过一篇文献;

(4)计算待消歧节点相似度,相似度函数为:pij为联结这两个节点路径长度小于等于4的有效路径集合,vi和vj为不同作者名;

(5)构建相似度矩阵,使用ap聚类进行聚类。

进一步地说,所述步骤四具体包括:

(1)计算两个文档向量pi,pj之间的相似度,文档向量相似度sij的计算公式为:

(2)计算两个文献簇ca,cb之间的相似度,文献簇相似度sab的计算公式为:

本发明为解决其技术问题所采用的进一步技术方案是:

一种文献作者重名消歧的构建系统,包括:

数据获取模块,包括数据库连接组件,用于连接数据库;查询组件,用于执行数据库查询语句,并返回对应结果;

数据预处理模块,包括文献去重组件,用于去除重复的文献;错误文献格式修改组件,用于修改错误文献格式;作者机构规范化组件,用于规范化作者的单位信息;关键属性缺失值处理组件,用于处理关键属性缺失的记录;文献结构化组件,将文献数据转化为json文件方便后续处理;

文档向量生产模块,包括自定义分词词典组件,用于读取关键词扩充分词词典;词向量模型训练组件,用于根据word2vec模型的skip-gram模型,分别训练中英文文献数据,得到词向量模型并保存;文档向量生成组件:将文献的每个词放进词向量模型预测词向量并计算idf值作为权值,最终加权词向量合成为文档向量;

合作者关系图聚类模块,包括合作者关系图构建组件,用于读取待消歧作者名下的文献数据,并构建合作者网络图,其中单作者文献单独保存进单作者文献作为一个簇的划分;相似度计算组件,用于计算各待消歧作者节点的路径相似度值,并构建相似度矩阵;聚类组件,在相似度矩阵的基础上进行ap聚类,得到最终的簇;

语义特征聚类模块,包括簇数据加载组件,用于读取合作者关系图聚类模块中的各个簇的文档向量数据和待消歧作者学校数据;相似度计算组件,用于计算文献簇之间的相似度;聚类组件,用于在相似度基础上对文献簇进行聚类,得到最终的文献簇划分信息。

本发明的有益效果至少具有以下几点:

1、本发明不仅考虑了文献合作者关系这种强特征信息,还考虑了文献的语义信息等弱特征信息,可以最大限度挖掘文献数据并最得到更准更全的文献簇划分;

2、本发明可以使用于各种不同格式,不同语言的文献作者重名消歧中,兼容性好。

附图说明

图1是本发明的重名消歧方法的示意图;

图2是本发明的word2vec模型示意图;

图3是本发明的文档向量生成流程图;

图4是本发明的合作者关系图聚类流程图;

图5是本发明的重复路径处理流程图;

图6是本发明的语义特征聚类流程图;

图7是本发明的系统结构图;

图8是本发明的中文论文、专利和英文论文测评结果准确率对比表;

图9是本发明的中文论文、专利和英文论文测评结果召回率对比表;

图10是本发明的中文论文、专利和英文论文测评结果f1值对比表。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

实施例:一种文献作者重名消歧方法,如图1所示,包括以下步骤:

步骤一:读取数据库中的文献数据及学者数据;

步骤二:使用word2vec模型训练并预测每篇文档的文档向量;

步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;

步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。

所述步骤一具体包括:

从公司的文献数据库和学者数据库中分别读取相关数据,包括:

(1)中文论文数据中的id、标题、作者、机构、摘要、期刊、年份、关键词;

(2)英文论文数据中的id、标题、作者、机构、摘要、期刊、年份、关键词;

(3)专利数据中的id、标题、发明人、摘要、日期、发表单位;

其中,中文论文-作者、英文论文-作者和专利-发明人用于提取合作数据,即合作者网络中的点和边;中文论文-摘要、中文论文-摘要和专利-摘要用于word2vec模型训练词向量模型并提取文档向量,可以使得重名消歧过程中融入文本信息。

所述步骤二具体包括:

文献的主题内容包括标题、关键词和摘要,先将文献的标题和摘要进行字符串合并,然后分词、提取特征词,再将特征词和关键词合并后使用word2vec的skip-gram模型进行训练,设置输出维度,得到词向量模型;如图2所示,其中ω(t)表示文本中的目标词,ω(t-2)、ω(t-1)、ω(t+2)、ω(t+1)等为目标词在文本中相邻的词;

最后计算文档di中所有特征词在所有文档中的idf值αi和词向量ωi,文档向量pi的计算公式为:

生成文档向量模型过程具体步骤如图3所示,其中中文和英文步骤相同,但分开训练。

所述步骤三的流程图如图4所示,具体包括:

(1)获取点的数据,包括待消歧作者姓名和其合作者姓名,其中待消歧作者节点设计为“作者姓名-文献id”形式,节点个数与文献数量相同,合作者节点设计为“作者姓名”;

(2)获取边的数据,中文论文、英文论文、专利的合作数据都是多个姓名在一列(例如:张三、李四、王五),需要提取一一对应的关系(例如:张三-李四、张三-王五、李四-王五)。最终相似度计算方法取决于目标作者之间的路径检索,而建立一篇包含目标作者的论文关系时,如果将目标作者以外的节点两两连接,会产生很多次冗余的搜索,不仅没有太大意义,也极大的增加了计算量。如图5所示,若a1与b、c合作过文献p1,那么在计算a1和a2之间路径的时候,可以认为a1→c→a2是值得搜索的路径,a1→b→c→a2是无效路径。因此在合作关系图中添加包含目标作者文献的关系图时,我们只建立目标作者与合著者的联系,而不考虑合著者之间的联系,如图5中在建立p1文献关系图时,只有a1→b和a1→c两条边而无b→c的边;

(3)将提取出的所有文献的“作者”-“论文”关系表示为图g={v,e,w},其中每个节点v∈v表示一个作者名r的一个实例,而无向边e∈e表示两位作者合著过一篇文献,以便后续工作消除冗余路径。针对单作者情况的论文,由于其无合作者,故无法使用合著者关系聚类,对其进行标注并保存,将在语义特征聚类中使用;

(4)构建完图后计算待消歧节点相似度,相似度为了增加图路径搜索效率,我们只取路径小于等于4的所有路径,搜索完有效路径接着进行相似度计算,有效路径的长度和数量都是可以用来设计相似度计算的参数,一个很明显的事实就是,有效路径长度越短,数量越多,两节点相似度就越大。故对于作者vi和vj,pij为联结这两个节点路径长度小于等于4的有效路径集合,相似度函数设计为:若两节点之间无路径,为了后面聚类结果的准确性,将相似度设计为-10而不是负无穷;

(5)计算待消歧节点相似度并构建相似度矩阵后,使用ap(affinitypropagation)进行聚类,初始参数设置为所有数据的中位数并得到聚类结果;

算法伪代码如下:

合著者关系聚类在合著者数量充足的情况的效果较好,但其存在的局限性导致在实际文献数据库中不能完全适用。文献数据库中存在很多合著者关系稀少以及单作者所著文献,在用合著者关系这一强特征进行的聚类结果展现的特征是虽然结果簇中是同一作者的准确率非常高,但与实际结果相比会多出大量的簇。因此我们需要采用文献其他特征对所得结果继续聚类,直到最终结果与实际结果相近或相同。

针对合作者关系图聚类算法的缺陷,本发明使用了主题内容特征,对于主题内容特征,由于作者在一定的时间里会保持相对固定的课题内容和方向,故同一作者名下文献的主题内容的语义相似度也会比较高,反之同名的不同作者名下文献的主题内容相似可能性却不大。在合作者关系图聚类的基础上充分利用主题内容特征辅助进行消歧,能有效降低单一作者以及学者合作不频繁造成的影响,进一步提高消歧的效果。本步骤流程图如图6所示。

本系统涉及到的文献基本都包含作者所属学校特征,但是大部分不包括所属学院或系的信息,故先提取合作者关系聚类出的文献簇中作者的学校特征并进行标记,非同一所学校的文献簇不在后面的聚类步骤进行合并。在本聚类中使用余弦相似度计算文献的主题内容的特征相似度,设前面生成两篇重名作者文献的文档向量分别为pi和pj,文档向量相似度sij的计算公式为:

而由于本次聚类是在合作者聚类后进行的工作,即两个文献簇之间的相似度计算,故不能简单使用两篇文章的计算方法,在两个簇中所有文献两两做完计算后,选取其中最大的结果作为最终相似度。设两个簇分别为ca和cb,文献簇相似度sab的计算公式为:

在得到相似度之后,采用层次聚类方法对目标簇进行再次聚类合并,直到聚类不再改变或达到阈值,经实验采用不同的阈值,为取得最好的效果,最终设置中文论文及专利阈值为0.7,英文论文阈值为0.65。

算法伪代码如下:

一种文献作者重名消歧的构建系统,包括:

数据获取模块(主要用于从数据库中获取相关数据功能,包括中文论文数据、英文论文数据、专利数据),包括数据库连接组件,用于连接数据库;查询组件,用于执行数据库查询语句,并返回对应结果;

数据预处理模块(主要用于预处理数据),包括文献去重组件,用于去除重复的文献;错误文献格式修改组件,用于修改错误文献格式;作者机构规范化组件,用于规范化作者的单位信息;关键属性缺失值处理组件,用于处理关键属性缺失的记录;文献结构化组件,将文献数据转化为json文件方便后续处理;

文档向量生成模块(主要使用google开源的word2vec算法,将文献训练出词向量模型,并预测和生成文档向量),包括自定义分词词典组件,用于读取关键词扩充分词词典;词向量模型训练组件,用于根据word2vec模型的skip-gram模型,分别训练中英文文献数据,得到词向量模型并保存;文档向量生成组件:将文献的每个词放进词向量模型预测词向量并计算idf值作为权值,最终加权词向量合成为文档向量;

合作者关系图聚类模块(主要用于生成待消歧作者合作网络图并计算路径相似度以及聚类),包括合作者关系图构建组件,用于读取待消歧作者名下的文献数据,并构建合作者网络图,其中单作者文献单独保存进单作者文献作为一个簇的划分;相似度计算组件,用于计算各待消歧作者节点的路径相似度值,并构建相似度矩阵;聚类组件,在相似度矩阵的基础上进行ap聚类,得到最终的簇;

语义特征聚类模块(主要提取图聚类结果进行文本相似度计算,最后完成文献簇的聚类),包括簇数据加载组件,用于读取合作者关系图聚类模块中的各个簇的文档向量数据和待消歧作者学校数据;相似度计算组件,用于计算文献簇之间的相似度;聚类组件,用于在相似度基础上对文献簇进行聚类,得到最终的文献簇划分信息。

为证明消歧聚类算法的准确性,设计对照实验对比分步消歧聚类和对照方法的结果。

一、数据准备

本发明采用文献数据均来源于网络爬虫,包括中文论文、中文专利等中文文献和英文论文。由于全部文献数据量较大,故只从中挑选部分数据进行测试。由于网络上标注数据,因此本评测中文数据包括中文论文与专利的测试数据均为手工标注,手工标注主要靠文献中不常出现的邮箱、所属学院名结合百度搜索引擎和学者主页加以判断,某些已退休的教师无法链接,也通过手动进行删除。为保障测试集的客观性和准确性,将同样的数据发给多个人标注,最后统一处理。从中文文献中选择8位不同的作者名所属文献,而英文论文测试数据则来自于aminer曾举办的一个论文消歧比赛,该比赛提供的训练集可作为本次评测的测试数据。在选择作者名时,为保证测试数据的有效性和一般性,我们选择两种不同属性的姓名:

(1)重名现象比较严重的,比如中文文献中的“李东”,英文中的“chen,yong”

(2)重名现象不严重的,例如中文文献中的“赵铁军”,英文文献中的“shi,xianming”。中文文献数据标注情况如表1所示。

表1中文文献标注后数据

英文论文数据选取情况如表2所示。

表2英文论文选取数据

二、评价方法

对于不同方法消歧质量的评价指标,本发明借鉴信息检索和统计学分类中常用的对于聚类指标的评价方法,分别定义成对准确率(pairwiseprecision)、成对召回率(pairwiserecall)以及他们的调和值f1值(pairwisef1)。通过计算正确划分在学者名下的文献成对的数量来评估消歧。具体来说,若待测评的集合与手工标注集合中出现相同标签的两篇文献,我们称之为正确的一对。若待测评集合中具有相同标签的两篇论文,但是在手工标注数据集中没有相同的标签,我们称之为错误预测对。指标定义如下。

假设文献集合p={p1,p2,p3…},c为被评测的消歧算法聚类后的集合,m为人工标注的文献集合真实分类集合,n为集合中文档的数量。

(1)成对准确率(pairwiseprecision)

pairwiseprecision表示需评测集合c中所有准确划分在对应作者名下文献的成对数量tp与c中所有文献划分结果的成对数量pc之间的比值,数值越高代表聚类结果越准确,指标如式5所示:

(2)成对召回率(pairwiserecall)

pairwiserecall表示需评测集合c中所有准确划分在对应作者名下文献的成对数量tp与手工标注集合m中所有文献划分的成对数量总和pm,数值越高代表聚类结果中同类文献集中程度越高,指标如式6所示:

(3)f1值(f1-measure)

f1值为pairwiseprecision和pairwiserecall的调和值,综合考虑准确率和召回率,数值越高代表聚类效果综合表现越好。指标如式7所示:

三、实验结果分析

为评估本发明消歧聚类算法的效果,需设置对照算法来进行对比实验。对比实验分别如下所示。

(1)对于文献与作者集成问题,最简单且最常用的方法就是特征规则rule匹配方法,匹配文献特征与学者信息库的学者特征的学校学院内容,无学院信息就合并有相同合作者的文献。将所有同学校同学院的待消歧作者名下文献进行合并;若无学院信息,则合并有相同合作者的待消歧作者文献。

(2)由于目前市面上效果较好且在重名消歧领域经常被拿来作比较的方法ghost算法,本发明分步聚类中的第一步也是借鉴该算法的一些思想,因此也将本方法作为对比。ghost方法的思想是构建待消歧作者合作关系图,并利用图中待消歧作者之间的路径进行相似度计算并进行ap聚类,为实现对比效果,对比实验中ap聚类的参数与tsc中第一步聚类参数相同,均选取中位数作为初始值。

(3)实验结果展示在表3、表4和表5中,而消歧结果准确率、召回率及f值比较分别展示在图8、图9和图10中。

中文论文对比实验结果如表3所示。

表3中文论文实验结果

专利对比实验结果如表4所示。

英文论文对比实验结果如表5所示。

表5英文论文实验结果

比较实验结果得出以下结论:

(1)在准确率方面,ghost算法由于考虑到的合作者关系属于强区分特征,因此其得到的准确率表现在对比算法中属于最好的,但也由于其只考虑合作者关系属性导致召回率不高,本发明所提出的算法在第一步聚类中与ghost相同只考虑合作者属性,但是在第二步中加入考虑文本属性弱特征的聚类,在准确率略低于并与ghost相近的情况下显著提升召回率。

(2)由于使用规则的方法依赖于所属院校属性,因此在院校信息不准确或缺乏的情况下准确率表现明显低于ghost算法和本发明提出算法。

(3)常见的姓名与不常见的姓名结果相比,不常见的姓名实验结果更好。

(4)在论文数量稀少的情况下,例如只有13篇中文论文的作者“罗浩”,使用本发明提出分步聚类算法的测评结果低于rule方法,因此在作者文献数量少的情况优先考虑采用效率高且效果好的rule方法。

在总体效果f值的比较中,除了专利上rule方法与本发明提出算法几乎相同,在中文论文和英文论文中,本发明提出的算法都极大的提高了f值,证明了算法的有效性。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1