一种实体链接方法与系统的制作方法

文档序号:9471483阅读:517来源:国知局
一种实体链接方法与系统的制作方法
【技术领域】
[0001] 本发明设及智能信息处理领域,特别是设及一种实体链接方法与系统。
【背景技术】
[0002] 在飞速发展的信息时代,网络已经成为人类获取信息最主要的渠道。近年来,随着 大型协同创作资源维基百科的兴起和基于维基百科结构化知识提取的知识库的出现,推动 了基于维基百科知识的智能信息处理技术的发展。
[0003] 实体链接就是将自然语言文本中的提及词(mention)映射到知识库中一组已知 目标实体(entity)的过程。通过实体链接,将自由文本中的名称链接到知识库中的一个最 合适的相关实体,使阅读者更加快捷方便地了解领域术语的释义,改进阅读体验,并且实现 了对知识的抽取。
[0004] 但用户的输入文本中可能存在不明确的提及词,进行实体链接复杂度高且可能不 准确。

【发明内容】
阳〇化]有鉴于此,本发明的主要目的在于提供一种实体链接方法与系统,可W快捷准确 地对文本中提及词进行实体链接。
[0006] 为实现上述目的,本发明提供了一种实体链接方法,包括:
[0007] 预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词 的上下文W及所述预设知识库中的实体关键词;
[000引从所述预设知识库中分别检索各所述提及词的候选实体;
[0009] 将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阔值的各 提及词分别设定为明确提及词,将候选实体数量大于或等于预设阔值的各提及词分别设定 为不明确提及词;
[0010] 对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预 设知识库中实体的相似度,W及所述预设知识库中实体间的相似度,利用预设的提及词与 实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
[0011] 根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体 对应关系图方法进行第二阶段的实体链接。
[0012] 优选地,所述提及词的上下文包括:
[0013] 上下文提及词序列和上下文分词序列。 阳014] 优选地,预处理输入文本和预设知识库包括:
[0015] 将所述输入文本中识别出的提及词定义为提及词序列;
[0016] 将所述输入文本进行分词,去掉所述输入文本中的预设停用词,得到分词序列;
[0017] 设定提及词的上下文提及词序列为其周围的预设提及词数量的提及词;
[0018] 设定提及词的上下文分词序列为其周围的预设分词数量的分词;
[0019] 设定实体关键词描述各实体;
[0020] 设定提及词的候选实体集。
[0021] 优选地,根据先验概率、提及词与实体的名称相似度和提及词与实体的上下文相 似度计算各所述明确提及词与所述预设知识库中实体的相似度。 阳02引优选地,所述阔值为3~5。
[0023]优选地,所述带权重的无向图包括提及词对应实体边和实体对应实体边。
[0024]本发明还提供了一种实体链接系统,包括:
[00巧]预处理模块,用于预处理输入文本和预设知识库,获取所述输入文本中的各提及 词、各所述提及词的上下文W及所述预设知识库中的实体关键词;
[00%] 候选实体检索模块,用于从所述预设知识库中分别检索各所述提及词的候选实 体;
[0027] 提及词分类模块,用于将各所述提及词根据其候选实体的数量分类,将候选实体 数量小于预设阔值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阔 值的各提及词分别设定为不明确提及词;
[0028]第一阶段链接模块,用于对各所述明确提及词进行第一阶段的实体链接:通过各 所述明确提及词与所述预设知识库中实体的相似度,W及所述预设知识库中实体间的相似 度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实 体;
[0029]第二阶段链接模块,用于根据已经链接的所述目标实体,对各所述不明确提及词 利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
[0030]优选地,所述系统中所述提及词的上下文包括:
[0031] 上下文提及词序列和上下文分词序列。 阳03引优选地,所述系统中所述阔值为3~5。
[0033]优选地,所述系统中所述提及词与实体对应关系图包括提及词对应实体边和实体 对应实体边。
[0034]应用本发明提供的一种实体链接方法与系统,预处理输入文本和知识库,获取提 及词及其上下文、实体关键词;检索每个提及词的候选实体;将提及词根据其候选实体数 量分为两类,候选实体数量小于预设阔值数量的提及词为明确提及词,其余为不明确提及 词。对明确提及词进行第一阶段的实体链接。通过提及词与知识库中实体的相似度,W及实 体之间的相似度,利用预设的提及词与实体对应关系图方法完成对候选实体的筛选。根据 已经链接的目标实体,对不明确的提及词进行第二阶段的实体链接,根据是否为明确提及 词分别分阶段进行实体链接的计算极大地减少算法的复杂度,通过更新提及词的上下文, 如已经链接的实体,可W更准确、快捷地对文本中提及词进行实体链接。
【附图说明】
[0035] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0036] 图1为本发明一种实体链接方法实施例的流程图;
[0037] 图2为本发明一种实体链接方法的实施例的原理示意图;
[0038] 图3为本发明一种实体链接方法的实施例的又一原理示意图;
[0039] 图4为本发明一种实体链接方法的实施例的又一原理示意图;
[0040] 图5为本发明一种实体链接系统的实施例的结构示意图。
【具体实施方式】
[0041] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0042] 本发明提供了一种实体链接方法,图1示出了本发明实体链接方法实施例的流程 图,包括:
[0043] 步骤S101 :预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各 所述提及词的上下文W及所述预设知识库中的实体关键词;
[0044] 将输入文本中已经由用户或者由实体识别工具识别出的提及词定义为提及词序 列M=咕,…,nvl; W45] 将输入文本进行分词,除去停用词,例如a,化.,只使用实词,得到分词序列 T扭,…為},T3M..
[0046] 提及词上下文包括:上下文提及词序列与上下文分词序列。
[0047] 定义提及词nil的上下文提及词序列为其周围的预设提及词数量个提及词,如化+1 个提及词,=如一,...,,…,妍W-}EM;
[
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1