一种作者和作者单位对应关系的识别方法

文档序号：9288460阅读：556来源：国知局

一种作者和作者单位对应关系的识别方法
【技术领域】
[0001]本发明涉及文献检索和信息服务领域，特别是需要提供基于学术文献作者和作者单位准确对应的信息服务领域。
【背景技术】
[0002]近年来，随着大规模文献数据库的应用和普及，研究人员、高校师生等在科研和学习中主要通过互联网检索各类文献数据库开展项目调研、科研创新和学习。按文献作者和作者单位进行检索、分组是文献数据库提供的重要服务。但是在文献出版中，署名的作者和作者单位通常不是一一对应的，除了只有唯一作者及作者单位的少数情况外，大部分是多作者和多作者单位的情况，而且许多文献在出版时因各种原因，作者和作者单位之间并没有通过标号标注对应关系。建设数据库时，对于这种情况，主要采用多对多、顺序分配等简单方法，存在很大误差。不能对作者和作者单位进行严格、准确对应，就会影响到基于作者和作者单位的检索服务质量。

【发明内容】

[0003]本发明旨在提出一种作者和作者单位对应关系的识别方法。该方法基于文献中标注的作者和作者单位对应关系的可靠性分为两类。第一类是能够明确对应上的，例如文献中只有一个作者和作者单位，或者在出版时通过标号已经明确标注了作者和作者单位的对应关系，这部分关系数据形成结果集，在作者和作者单位对应关系数据项中准确标注。第二类是不能明确对应上的多对多关系，生成所有潜在关系对，即每个作者对应所有作者单位，数据库中作者和作者单位对应关系数据项中暂时不标注。利用结果集，对潜在关系集进行自适应机器学习，如果在结果集中找到对应关系，就在作者和作者单位对应关系数据项中标注。如果在结果集中找不到对应关系，将潜在关系标注到数据库中的作者和作者单位候选对应关系数据项中。在提供基于作者和作者单位的检索服务时，同时提供对作者和作者单位对应关系数据项、作者和作者单位候选对应关系数据项两项内容的检索结果，前部分作为准确的检索结果，后部分作为候选的检索结果。这既保证了检索服务的查全率，也提高了检索的准确率，提高了用户的检索体验。
【附图说明】
[0004]图1是作者和作者单位对应关系识别的功能流程图
[0005]图2是根据本发明一个实施例的作者和作者单位对应关系的标注示意图
【具体实施方式】
[0006]下面结合附图和实施例对本发明的实施方式进行详细描述。
[0007]图1是作者和作者单位对应关系识别的功能流程图。如图1所示，首先从文献数据库中读取一篇文献的作者和作者单位数据(步骤11)，对作者和作者单位对应关系的明确性进行判断。判断标准包括:只有唯一的作者和作者单位；作者和作者单位进行了明确的标号。
[0008]如果对应关系明确，将该对应关系添加到结果集中(步骤12)，同时，标注作者和作者单位对应关系数据项(步骤13)。
[0009]如果对应关系不明确，生成潜在关系对(步骤14)。
[0010]基于结果集对潜在关系对进行机器学习(步骤15)。具体方法包括:对每个潜在关系对，在结果集中进行检索。检索方法可以根据业务需要，采用精确检索或模糊检索，或者采用指定的相似性判断条件。学习的结果是判断结果集中是否存在潜在关系对。
[0011]如果在结果集中找到潜在关系对，则将潜在关系标注到作者和作者单位对应关系数据项(步骤16)。
[0012]如果在结果集中没有找到潜在关系对，则将潜在关系标注到作者和作者单位候选对应关系数据项(步骤17)。
[0013]图2是根据本发明一个实施例的作者和作者单位对应关系的标注示意图。
[0014]在实施例中，文献作者有三位:刘天，王小东，李文。作者单位有两个:清华大学计算机系，北京大学中文系(步骤21)。出版时，作者和作者单位并没有标注明确的对应关系。
[0015]根据上述实施例文献，形成6个潜在关系对(步骤22)，包括:
[0016](刘天，清华大学计算机系)
[0017](刘天，北京大学中文系)
[0018](王小东，清华大学计算机系)
[0019](王小东，北京大学中文系)
[0020](李文，清华大学计算机系)
[0021](李文，北京大学中文系)
[0022]在现有结果集中，对每个潜在关系对进行机器学习(步骤23)。例如采用精确检索，得到两个潜在关系对:(刘天，清华大学计算机系)和(李文，北京大学中文系)。认为该潜在关系对是明确的关系对。
[0023]将该两个关系对标注到作者和作者单位对应关系数据项中(步骤24)。
[0024]将其余4个潜在关系对标到作者和作者单位候选关系数据项中(步骤25)。
[0025]基于以上关系标注，数据库提供基于作者和作者单位相关的检索服务时，将同时对作者和作者单位对应关系数据项、作者和作者单位候选关系数据项的索引进行检索。从作者和作者单位对应关系数据项中返回的结果作为准确结果，从作者和作者单位候选关系数据项中返回的结果作为候选结果。这既保证了检索服务的查全率，也提高了检索的准确率，提高了用户的检索体验。
[0026]虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。
【主权项】
1.一种作者和作者单位对应关系的识别方法，其特征在于，包括: 将文献中作者和作者单位对应关系明确的数据添加到结果集，并标注作者和作者单位对应关系数据项，对关系不明确的数据形成多对多的潜在关系对；利用结果集对潜在关系对进行机器学习。对在结果集中找到的潜在关系对，就在作者和作者单位对应关系数据项中标注；在结果集中找不到的潜在关系对，就在数据库中的作者和作者单位候选对应关系数据项中标注；在提供与作者相关的检索服务时，同时提供对作者和作者单位对应关系数据项、作者和作者单位候选对应关系数据项两项内容的检索结果，前部分作为准确的检索结果，后部分作为候选的检索结果。2.如权利要求1所述的方法，其特征在于，所述结果集包括能够明确确定作者与作者单位对应关系的二元组集合，包括作者和作者单位信息，为便于使用，需要对作者和作者单位数据项建立相应的全文索引或标识索引。3.如权利要求1所述的方法，其特征在于，所述作者和作者单位对应关系数据项是指文献数据库中用于记录作者和作者单位对应关系的元数据项，记录格式是作者和作者单位信息二元组。4.如权利要求1所述的方法，其特征在于，所述潜在关系对包括文献中不能明确确定作者与作者单位对应关系的数据，将每个作者与所有单位进行多对多对应，形成的作者与作者单位信息二元组。5.如权利要求1所述的方法，其特征在于，所述对潜在关系对进行机器学习是指将每个潜在关系对在结果集中进行检索，确定潜在关系对在结果集中是否存在。6.如权利要求5所述的方法，其特征在于，所述在结果集中进行检索包括按潜在关系对中的作者和作者单位信息在结果集中进行全文精确检索，模糊检索，或者其他相似性判断操作，以确定潜在关系对在结果集中是否存在。7.如权利要求1所述的方法，其特征在于，所述作者和作者单位候选对应关系数据项是指文献数据库中用于记录作者和作者单位候选对应关系的元数据项，记录格式是作者和作者单位信息二元组。8.如权利要求2、3、4和7所述的方法，其特征在于，所述二元组包括作者和作者单位两部分文本信息，或标识信息，为便于使用，需要对二元组中的各数据元进行全文索引或标识索引。9.如权利要求1所述的方法，其特征在于，所述与作者相关的检索服务包括在文献数据库中提供按作者、作者单位进行精确检索或模糊检索，返回满足条件的检索结果和记录数。
【专利摘要】本发明旨在提出一种文献作者和作者单位对应关系的识别方法。基于文献著录中作者和作者单位对应关系的可靠性将对应关系分为两类：能够明确对应上的，形成结果集，在作者和作者单位对应关系数据项中准确标注；不能明确对应上的多对多关系，生成潜在关系对。在结果集中检索每个潜在关系对，如果找到，就在作者和作者单位对应关系数据项中标注。如果没找到，就在作者和作者单位候选对应关系数据项中标注。在提供作者相关检索服务时，同时对关系数据项和候选对应关系数据项进行检索，前部分作为准确结果，后部分作为候选结果。同时满足了检索查全率和准确率，提高了用户体验。
【IPC分类】G06F17/30
【公开号】CN105005626
【申请号】CN201510478088
【发明人】薛德军
【申请人】薛德军
【公开日】2015年10月28日
【申请日】2015年8月7日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛德军;
技术所有人：薛德军;
我是此专利的发明人

上一篇：基于Spark分布式系统的最短路径关键点查询方法
上一篇：基于计量数据回归的计量结构优化算法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。