基于语义相关度的目标实体确定方法及装置的制造方法

文档序号:9818338阅读:328来源:国知局
基于语义相关度的目标实体确定方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理领域,尤其涉及一种基于语义相关度的目标实体确定方法及 装置。
【背景技术】
[0002] 命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体,如"老人 与海"、"清华大学"、"北医三院"等。更广泛的命名实体还包括数字、日期、货币、地址等。随 着语义研究以及命名实体(以下简称实体)研究技术的深入发展,多数情况下都需要在获知 当前实体的情况下,根据语义相关度计算求解得到当前实体对应的目标实体。
[0003] 例如,随着互联网搜索技术的发展,对用户输入的实体进行语义分析,得出用户输 入的实体与其他实体之间的关系度,将关系度较大的实体确定为用户输入的实体对应的目 标实体,并将目标实体推荐给用户,从而为用户提供更多需要的信息。再如,随着实体语义 聚类研究的发展,可利用语义相关度对目标实体进行实体聚类分析,进而还可实现对短文 本的语义聚类分析。再如,在已知当前实体时,对当前实体进行语义分析,得到当前实体与 任意一个实体之间的语义关系连接词,可为判断两实体间的语义关系提供帮助。
[0004] 现有技术确定目标实体的方法一般两种,一种是基于语义词典的语义相关度计算 方法;另一种是基于已分类的语料库或知识库的语义相关度计算方法。两者的基本原理是, 首先获知当前实体,然后利用人工或机器预先构建并做好归类的实体的词典或知识库,通 过类属关系计算当前实体与其他实体之间的语义相关度,根据计算出的语义相关度的情况 确定当前实体对应的目标实体。其中,计算语义关系包括实体间的关系度和确定实体间的 语义关系连接词。
[0005] 发明人在研究中发现,现有技术无法应对以下情况:当获知的当前实体有多重含 义时,如"人大",既能够表示"中国人民大学",也能够表示"人民代表大会",则利用现有技 术确定当前实体对应的目标实体时,有时会将"人大"判定成"中国人民大学",从"中国人民 大学"的角度出发进行语义分析,确定"人大"对应的目标实体,有时将"人大"判定成"人民 代表大会",从"人民代表大会"的角度出发进行语义分析,确定"人大"对应的目标实体。这 种实体含义判定的不确定性导致语义相关度分析不准确,进而使得求解得到的目标实体不 够准确。
[0006] 可见,现有技术在确定目标实体时,当前实体有多重含义时,无法合理确定当前实 体的含义,导致无法准确确定与当前实体对应的目标实体。

【发明内容】

[0007] 本发明提供了一种基于语义相关度的目标实体确定方法及装置,当前实体有多重 含义时,能够合理确定实体的含义,进而准确确定与当前实体对应的目标实体。
[0008] 第一方面,本发明实施例提供了基于语义相关度的目标实体确定方法,所述方法 包括:从用户的信息中确定用户实体,以及所述用户实体的当前语境;判断预设的实体关系 库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用 户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述 多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值; 根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对 应的用户连通词集合;将所述用户连通词连通的实体中除所述用户实体以外的其他实体依 次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;在所述预 设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标 实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路 径;分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值 确定所述用户实体与所述当前待定目标实体之间的语义相关度;根据所述用户实体与各个 所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。
[0009] 结合第一方面,本发明实施例提供了第一方面第一种可能的实施方式,其中,根据 所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的 用户连通词集合,包括:根据所述当前语境确定与所述用户实体相关的用户相关词集合,在 预设的实体关系库中确定与所述用户实体直接连通的用户连通词集合;利用所述用户相关 词集合对所述用户连通词集合进行优化,将优化后的所述用户连通词集合作为所述用户实 体对应的用户连通词集合。
[0010] 结合第一方面,本发明实施例提供了第一方面第二种可能的实施方式,其中,根据 所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当 前待定目标实体之间的多个连通路径,包括:检测所述用户连通词集合中的词与当前待定 目标实体的目标连通词集合中的词的连通关系;当所述用户连通词集合中的第一词与所述 目标连通词集合中的第二词连通时,将所述用户实体与所述当前待定目标实体之间的包含 所述第一词和所述第二词的路径确定为所述用户实体与所述当前待定目标实体之间的连 通路径。
[0011] 结合第一方面,本发明实施例提供了第一方面第三种可能的实施方式,其中,分别 计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述 用户实体与所述当前待定目标实体之间的语义相关度,包括:对于所述用户实体与所述当 前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的 权值之和,以及组成所述当前连通路径的词数量之和,根据所述权值之和所述词数量之和, 确定所述当前连通路径的路径权值;将各个所述连通路径的路径权值加和,得到所述用户 实体与所述当前待定目标实体之间的关系度。
[0012] 结合第一方面,本发明实施例提供了第一方面第四种可能的实施方式,其中,分别 计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述 用户实体与所述当前待定目标实体之间的语义相关度,包括:对于所述用户实体与所述当 前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的 权值的倒数之和,将所述倒数之和确定为所述当前连通路径的路径权值;比较各个所述连 通路径的路径权值大小,选择所述路径权值最小的连通路径;将选择的所述连通路径包括 的词作为所述用户实体与所述当前待定目标实体之间的语义关系连接词。
[0013] 结合第一方面上述的实施方式,本发明实施例提供了第一方面第五种可能的实施 方式,其中,在从用户的信息中确定用户实体之前,所述方法还包括:确定归入所述预设的 实体关系库的多个实体,并逐一选定各个实体;根据所述当前实体进行搜索,根据所述搜索 结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权 值,根据所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;根据 各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存 储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据所述最终权值建 立所述当前实体的关联词表;将所述各个实体的关联词表拼接起来,获得所述预设的实体 关系库。
[0014] 结合第一方面第五种可能的实施方式,本发明实施例提供了第一方面第六种可能 的实施方式,其中,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个 所述候选关联词对应的初始权值,包括:在所述搜索结果中提取包含所述当前实体的多条 句子文本和所述多条句子文本各自对应的链接地址;两两比较所述多条句子文本,获取两 字以上的重复语块,将所述重复语块确定为所述当前实体对应的候选关联词;比较所述候 选关联词所在句子文本对应的链接地址的重复情况,根据所述重复情况对所述候选关联词 赋初值,将所述初值作为所述候选关联词对应的初始权值。
[0015] 结合第一方面第五种可能的实施方式,本发明实施例提供了第一方面第七种可能 的实施方式,其中,根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个 所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权 值,包括:对所述候选关联词表中的当前候选关联词,计算所述当前候选关联词的初始权值 与各个所述候选关联词的初始权值之和的比值,将所述比值作为所述当前候选关联词的第 一部分权值因子;在已存储的关联词表中,根据包含所述当前候选关联词的关联词表数量 和已存储的关联词表总数,确定所述当前候选关联词的第二部分权值因子;结合所述第一 部分权值因子和所述第二部分权值因子确定所述当前候选关联词的最终权值。
[0016] 第二方面,本发明实施例提供了基于语义相关度的目标实体确定装置,所述装置 包括:用户实体确定模块,用于从用户的信息中确定用户实体,以及所述用户实体的当前语 境;实体关系库优化模块,用于判断预设的实体关系库是否包含所述用户实体,若所述预设 的实体关系库不包含所述用户实体,则根据所述用户实体动态更新所述预设的实体关系 库;其中,所述预设的实体关系库包括多个实体,所述多个实体之间通过关联词连通,所述 实体与所述关联词之间的连通线段具有对应的权值;用户连通词集合生成模块,用于根据 所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的 用户连通词集合;待定目标实体确定模块,用于将所述用户连通词连通的实体中除所述用 户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目 标连通词集合;连通路径生成模块,用于在所述预设的实体关系库中逐一选定各个待定目 标实体,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户 实体与所述当前待定目标实体之间的多个连通路径;语义相关度分析模块,用于分别计算 各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户 实体与所述当前待定目标实体之间的语义相关度;目标实体确定模块,用于根据所述用户 实体与各个所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。
[0017] 结合第二方面,本发明实施例提供了第二方面第一种可能的实施方式,其中,所述 装置还包括:实体选定模块,用于确定归入所述预设的实体关系库的多个实体,并逐一选定 各个实体;候选关联词表生成模块,用于根据所述当前实体进行搜索,根据所述搜索结果确 定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,根据 所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;关联词表生成 模块,用于根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候 选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据 所述最终权值建立所述当前实体的关联词表;实体关系库建立模块,用于将所述各个实体 的关联词表拼接起来,获得所述预设的实体关系库。
[0018] 通过本实施例中的基于语义相关度的目标实体确定方法及装置,能够利用用户实 体所在的语境,在预设的实体关系库中准确计算用户实体与待定目标实体之间的语义相关 度,从而准确确定用户实体对应的目标实体。
【附图说明】
[0019] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。
[0020] 图1示出本发明
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1