实体集合扩展方法_3

文档序号:8472996阅读:来源:国知局
定义3:设M对应的相同属性特征的集合为? (M),即JrG? (M);
[0051] 定义4:设具有相同属性特征JT的候选实体集合为E(JT);
[0052] 举例来说,种子实体集合M= {中国,美国,俄罗斯、印度} (M) = {国家,联合 国安理会常任理事会成员,有核武器的国家、领土面积排名前10名的国家、与朝鲜接壤的 国家、八国联军成员、领土面积排名前3名的国家、……};当相同属性特征^为"领土面 积排名前10名的国家"时,E(Ji1) = {加拿大,巴西,澳大利亚,阿根廷,哈萨克斯坦,苏丹}, 当相同属性特征Ji2为"联合国安理会常任理事会成员"时,E(3i2) = {英国,法国},当相 同属性特征Ji3为"八国联军成员"时,E(3i3) = {英国,法国,德国,日本,意大利,奥匈帝 国}……
[0053] 可以理解,根据种子实体集合在RDF知识库中确定的种子实体集合对应的相同属 性特征可能不止一个,而且某些候选实体可能同时属于多个候选实体集合,例如英国和法 国,为了使扩展实体集合的结果更加智能化,更符合用户的查询期望,较佳的,还可以对各 个候选实体进行排序,作为本实施例一种可选的实施方式,可以通过计算每个候选实体集 合E(Ji)中包含的实体的数量IE(Ji)I,并根据IE(Ji)I确定每个候选实体的第一权重值, 然后按照第一权重值的大小对各个候选实体进行排序确定扩展实体集合。
【主权项】
1. 一种实体集合扩展方法,其特征在于,包括: 获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至少两 个; 根据所述种子实体集合中每个种子实体的实体名,在RDF知识库中确定所述每个种子 实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存储有 预先建立的每个实体的实体名和属性信息的关联关系; 根据所述每个种子实体对应的属性信息,确定所述种子实体集合对应的相同属性特 征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征; 确定所述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合; 将所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集 合; 将所述扩展后的实体集合发送给用户终端设备。
2. 根据权利要求1所述的方法,其特征在于,所述相同属性特征的数量为N个,所述N 为大于0的整数; 所述确定所述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合,包 括: 分别确定各相同属性特征对应的候选实体集合; 分别确定每个所述候选实体集合中包含的实体的数量,并根据所述数量确定每个候选 实体的第一权重值,所述候选实体属于至少一个候选实体集合; 根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合。
3. 根据权利要求2所述的方法,其特征在于,所述根据每个所述候选实体的第一权重 值的大小确定所述扩展实体集合,包括: 根据公式
I计算每个所述候选实体的第一得分,其中n为所述 相同属性特征,E( 31)为具有所述相同属性特征31的候选实体集合,M为所述种子实体集 合,〇 (M)为所述相同属性特征的集合; 根据每个所述候选实体的第一得分确定所述扩展实体集合。
4. 根据权利要求3所述的方法,其特征在于,所述分别确定各相同属性特征对应的候 选实体集合之后,还包括: 分别确定各相同属性特征对应的候选实体集合与所述种子实体集合的相关性,并根据 所述相关性确定每个所述候选实体的第二权重值; 相应的,所述根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合,包 括: 根据每个所述候选实体的所述第一权重值的大小和所述第二权重值的大小确定所述 扩展实体集合。
5. 根据权利要求4所述的方法,其特征在于,所述分别确定各相同属性特征对应的候 选实体集合与所述种子实体集合的相关性,包括: 根据公式A(n,M) = |〇^^曲)1,计算各相同属性特征与所述种子实体集合的歧义 性,其中M'(31)为所述种子实体集合M中不具有所述相同属性特征31的种子实体集合, ?ltfWI(M)为所述种子实体集合M中至多有|M'(31)I个种子实体不具有的所述相同属性 特征的集合; 根据公式
计算各相同属性特征对应的候选实体集 合与所述种子实体集合的一致性,其中
Q(e)为实体e所具有的属性特征的集合; 根据公式
计算各相同属性特征对应的候选实体集合与所述 种子实体集合的相关性。
6. 根据权利要求5所述的方法,其特征在于,所述根据每个所述候选实体的所述第一 权重值的大小和所述第二权重值的大小确定所述扩展实体集合,包括: 根据公式
'计算每个所述候选实体的第二得分; 根据每个所述候选实体的第二得分确定所述扩展实体集合。
7. 根据权利要求6所述的方法,其特征在于,所述根据每个所述候选实体的第一权重 值的大小确定所述扩展实体集合之前,还包括: 接收所述用户输入的待查询实体属性特征; 确定所述待查询实体属性特征与所述各相同属性特征的匹配性; 根据所述匹配性分别确定每个所述候选实体的第=权重值; 相应的,所述根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合,包 括: 根据每个所述候选实体的所述第=权重值的大小、所述第一权重值的大小和所述第二 权重值的大小确定所述扩展实体集合。
8. 根据权利要求7所述的方法,其特征在于,所述确定所述待查询实体属性特征与所 述各相同属性特征的匹配性,包括: 根据公式
,计算所述待查询实体属性特征中包含的词条与所 述相同属性特征中包含的词条的化ccard相似度系数,其中Q为所述待查询实体属性特征,E'(曲为所述待查询实体属性特征中包含的词条集合,E'(31)为所述相同属性特征中包含 的词条集合; 根据所述化ccard相似度系数确定所述待查询实体属性特征与所述各相同属性特征 的匹配性。
9. 根据权利要求8所述的方法,其特征在于,还包括: 根据公式
修正所述化ccard相似度系数,其中A为预先 设置的修正系数。
10.根据权利要求8或9所述的方法,其特征在于,所述根据每个所述候选实体的所述 第=权重值的大小、所述第一权重值的大小和所述第二权重值的大小确定所述扩展实体集 合,包括: 根据公式:
计算每个所述候选实体的第 3导分; 根据每个所述候选实体的第=得分确定所述扩展实体集合。
【专利摘要】本发明提供一种实体集合扩展方法,该方法包括:获取用户输入的种子实体集合,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种子实体对应的属性信息;根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属性特征,确定RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;将扩展实体集合中包括的实体添加到种子实体集合中,得到扩展后的实体集合。本发明提供一种基于RDF知识库的实体集合扩展方法,由于RDF知识库使用的是结构化的XML数据,服务器可以挖掘出了种子实体之间的语义信息,使得扩展结果变得更为智能和准确,保证了实体集合扩展的效率。
【IPC分类】G06F17-30
【公开号】CN104794163
【申请号】CN201510133520
【发明人】陈跃国, 杜小勇, 张香玲, 陈峻, 刘德海
【申请人】中国人民大学
【公开日】2015年7月22日
【申请日】2015年3月25日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1