基于语义相关度的目标实体确定方法及装置的制造方法_4

文档序号:9818338阅读:来源:国知局
,具体包括:(1)对候选关联词表中 的当前候选关联词,计算当前候选关联词的初始权值与各个候选关联词的初始权值之和的 比值,将该比值作为当前候选关联词的第一部分权值因子;(2)在已存储的关联词表中,根 据包含当前候选关联词的关联词表数量和已存储的关联词表总数,确定当前候选关联词的 第二部分权值因子;(3)结合第一部分权值因子和第二部分权值因子确定当前候选关联词 的最终权值。
[0084]过程(1)中,对于当前候选关联词,首选确定当前候选关联词的初始权值T,然后确 定候选关联词表中所有候选关联词的初始权值之和F,最后计算T与F的比值,将该比值STF = T/F作为当前候选关联词的第一部分权值因子。过程(2)中,首先确定已经存储的建立好 的关联词表数量Μ,然后对于当前候选关联词,在已存储的关联词表中,计算出包含当前候 选关联词的关联词表的数量Ν,最后利用公式IDF=logM/N计算IDF,将IDF确定为当前候选 关联词的第二部分权值因子。过程(3)中,利用公式W = STF*IDF计算W,将W作为当前候选关 联词的最终权值。重复过程(1)(2)(3),能够计算出候选关联词表中各个候选关联词的最终 权值。
[0085]步骤206中,在算出当前实体的候选关联词表中各个候选关联词的最终权值之后, 将最终权值从高到低排序,选择前v个候选关联词作为当前实体的关联词,建立当前实体的 关联词表,该关联词表包括多个关联词以及各个对应关联词对应权值。其中,v为大于1的整 数。
[0086]通过上述步骤204至步骤206,能够建立各个实体对应的关联词表,以实体名"填四 川"为例,通过上述步骤204至步骤206能够得到其关联词表如下:
[0089] 步骤208,将上述各个实体的关联词表拼接起来,获得前述预设的实体关系库。例 如,将"填四川"、"边城"、"开焊"、"海上传奇"的关联词表拼接起来,得到如图2所示的实体 关系库。
[0090] 能够理解,以"填四川"为实体,确定"填四川"的关联词以及各个关联词对应的权 值后,在建立如图2所示的实体关系库时,各个关联词对应的权值就是实体"填四川"与各个 关联词之间的连通线段对应的权值,并且,"填四川"与各个关联词之间的连通线段由"填四 川"出发,指向各个关联词。
[0091] 图2中,以"填四川"为实体,计算出关联词包括"王雨",且"填四川"到"王雨"的权 值为〇. 042,反之,以"王雨"为实体,计算出关联词包括"填四川",且"王雨"到"填四川"的权 值为0.023,因此图2中,"王雨"与"填四川"之间存在两条方向相反的连通线段,且各自权值 不同。
[0092] 通过上述步骤202至步骤208,能够建立预设的实体关系库,从而为执行步骤102至 步骤114,计算用户实体与多个待定目标实体之间的语义相关度,在多个待定目标实体中确 定目标实体做准备。
[0093]另外,在前述步骤104中,根据上述用户实体动态更新预设的实体关系库时,可以 将用户实体作为当前实体,采用步骤202至步骤208相同的方式执行,如:(1)通过搜索引擎 对用户实体进行搜索;(2)根据搜索结果确定用户实体对应的多个候选关联词,以及各个候 选关联词对应的初始权值,根据多个候选关联词以及初始权值建立用户实体的候选关联词 表;(3)根据各个候选关联词在候选关联词表中的重要程度,以及各个候选关联词在已存储 的关联词表中的重要程度,确定各个候选关联词的最终权值,根据最终权值建立用户实体 的关联词表;(4)将用户实体的关联词表与预设的实体关系库进行拼接,得到更新后的预设 的实体关系库。
[0094]利用用户实体更新实体关系库的过程与通过步骤202至步骤208建立实体关系库 的过程相类似,具体过程可以参照上述步骤202至步骤208的描述,因此这里不再赘述。
[0095]本实施例中,在维护实体关系库时,能够实时添加新的实体,并根据新的实体的搜 索结果,更新实体关系库,从而做到实时动态更新实体关系库,使实体关系库包括各种类别 的实体,并且包括各种新出现的实体,满足根据用户实体确定目标实体的需求。
[0096] 实施例二
[0097] 为了进一步说明实施例一中的基于语义相关度的目标实体确定方法,如图4所示, 本发明第二实施例提供了一种基于语义相关度的目标实体确定装置,用于执行上述方法, 该装置包括:
[0098] 用户实体确定模块41,用于从用户的信息中确定用户实体,以及用户实体的当前 语境;
[0099] 实体关系库优化模块42,用于判断预设的实体关系库是否包含用户实体,若预设 的实体关系库不包含用户实体,则根据用户实体动态更新预设的实体关系库;其中,预设的 实体关系库包括多个实体,多个实体之间通过关联词连通,实体与关联词之间的连通线段 具有对应的权值;
[0100] 用户连通词集合生成模块43,用于根据用户实体的当前语境在更新后的预设的实 体关系库中确定用户实体对应的用户连通词集合;
[0101] 待定目标实体确定模块44,用于将用户连通词连通的实体中除用户实体以外的其 他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;
[0102] 连通路径生成模块45,用于在预设的实体关系库中逐一选定各个待定目标实体, 根据用户连通词集合和当前待定目标实体的目标连通词集合,确定用户实体与当前待定目 标实体之间的多个连通路径;
[0103] 语义相关度分析模块46,用于分别计算各个连通路径对应的路径权值,根据各个 连通路径对应的路径权值确定用户实体与当前待定目标实体之间的语义相关度;
[0104] 目标实体确定模块47,用于根据用户实体与各个待定目标实体之间的语义相关度 确定用户实体对应的目标实体。
[0105] 通过本实施例中的基于语义相关度的目标实体确定装置,能够利用用户实体所在 的语境,在预设的实体关系库中准确计算用户实体与待定目标实体之间的语义相关度,从 而准确确定用户实体对应的目标实体。
[0106] 优选地,上述用户连通词集合生成模块43包括:初步确定单元,用于根据当前语境 确定与用户实体相关的用户相关词集合,在预设的实体关系库中确定与用户实体直接连通 的用户连通词集合;集合优化单元,用于利用用户相关词集合对用户连通词集合进行优化, 将优化后的用户连通词集合作为用户实体对应的用户连通词集合。
[0107] 本实施例中,通过用户连通词集合生成模块43中的初步确定单元和集合优化单 元,根据当前语境确定用户连通集合,能够根据当前语境明确用户实体的含义,从而在预设 的实体关系库中提取出对应同一含义的用户连通词集合,进而准确确定与用户实体对应的 目标实体。
[0108] 优选地,连通路径生成模块45包括:连通关系检测单元,用于检测用户连通词集合 中的词与当前待定目标实体的目标连通词集合中的词的连通关系;连通路径确定单元,用 于当用户连通词集合中的第一词与目标连通词集合中的第二词连通时,将用户实体与当前 待定目标实体之间的包含第一词和第二词的路径确定为用户实体与当前待定目标实体之 间的连通路径。
[0109] 优选地,语义相关度分析模块46包括:路径权值第一计算单元,用于对于用户实体 与当前待定目标实体之间的当前连通路径,计算组成当前连通路径的各个连通线段对应的 权值之和,以及组成当前连通路径的词数量之和,根据权值之和词数量之和,确定当前连通 路径的路径权值;关系度计算单元,将各个连通路径的路径权值加和,得到用户实体与当前 待定目标实体之间的关系度。
[0110]本实施例中,通过语义相关度分析模块46、路径权值第一计算单元、关系度计算单 元,能够结合预设的实体关系库计算用户实体与当前待定目标实体之间的关系度,从而分 别计算用户实体与各个待定目标实体之间的关系度。当待定目标实体为多个时,能够将关 系度最大的待定目标实体确定为用户实体对应的目标实体。应用中,当用户搜索用户实体 时,将目标实体与搜索结果一同推荐给用户,从而为用户提供更多需要的信息。
[0111]优选地,语义相关度分析模块46包括:路径权值第二计算单元,用于对于用户实体 与当前待定目标实体之间的当前连通路径,计算组成当前连通路径的各个连通线段对应的 权值的倒数之和,将倒数之和确定为当前连通路径的路径权值;路径权值比较单元,用于比 较各个连通路径的路径权值大小,选择路径权值最小的连通路径;语义关系连接词确定单 元,用于将选择的连通路径包括的词作为用户实体与当前待定目标实体之间的语义关系连 接词。
[0112] 本实施例中,通过语义相关度分析模块46、路径权值第二计算单元、路径权值比较 单元和语义关系连接词确定单元,能够确定用户实体与当前待定目标实体之间的语义关系 连接词,从而分别确定用户实体与各个待定目标实体之间的语义关系连接词。当待定目标 实体为多个时,能够将语义关系连接词符合要求的待定目标实体确定为用户实体对应的目 标实体,根据该目标实体可进行用户实体的语义聚类分析工作。
[0113] 如图5所示,本实施例中的装置还包括以下模块,通过以下模块能够生成实体关系 库:
[0114] 实体选定模块51,用于确定归入预设的实体关系库的多个实体,并逐一选定各个 实体;
[0115]候选关联词表生成模块52,用于根据当前实体进行搜索,根据搜索结果确定当前 实体对应的多个候选关联词,以及各个候选关联词对应的初始权值,根据多个候选关联词 以及初始权值建立当前实体的候选关联词表;
[0116]关联词表生成模块53,用于根据各个候选关联词在候选关联词表中的重要程度, 以及各个候选关联词在已存储的关联词表中的重要程度,确定各个候选关联词的最终权 值,根据最终权值建立当前实体的关联词表;
[0117]实体关系库建立模块54,用于将各个实体的关联词表拼接起来,获得预设的实体 关系库。
[0118] 通过图5所示的模块,能够建立预设的实体关系库,从而为计算用户实体与多个待 定目标实体之间的语义相关度,在多个待定目标实体中确定目标实体做准备。本实施例中, 在维护实体关系库时,能够实时添加新的实体,并根据新的实体的搜索结果,更新实体关系 库,从而做到实时动态更新实体关系库,使实体关系库包括各种类别的实体,并且包括各种 新出现的实体,满足根据用户实体确定目标实体的需求。
[0119] 优选地,候选关联词表生成模块52包括:句子文本提取单元,用于在搜索结果中提 取包含当前实体的多条句子文本和多条句子文本各自对应的链接地址;候选关联词确定单 元,用于两两比较多条句子文本,获取两字以上的重复语块(不含空格和标点),将重复语块 确定为当前实体对应的候选关联词;初始权值确定单元,用于比较候选关联词所在句子文 本对应的链接地址的重复情况,根据重复情况对候选关联词赋初值,将初值作为候选关联 词对应的初始权值。
[0120] 优选地,关联词表生成模块53包括:第一部分权值因子计算单元,用于对候选关联 词表中的当前候选关联词,计算当前候选关联词的初始权值与各个候选关联词的初始权值 之和的比值,将比值作为当前候选关联词的第一部分权值因子;第二部分权值因子计算单 元,用于在已存储的关联词表中,根据包含当前候选关联词的关联词表数量和已存储的关 联词表总数,确定当前候选关联词的第二部分权值因子;最终权值计算单元,用于结合第一 部分权值因子和第二部分权值因子确定当前候选关联词的最终权值。
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1