实体集合扩展方法_2

文档序号:8472996阅读:来源:国知局
化处理,从而能够实现动态内容生成,XML可以使我们能够更准确的搜索,更方便的传送 软件组件,更好的描述一些事物,例如电子商务交易等。
[0024]RDF使用XML语法和RDF架构(RDFschema,简称RDFS)来将元数据描述成为数据 模型。所谓元数据,就是"描述数据的数据"或者"描述信息的信息"。举个简单的例子,书 的内容是书的数据,而作者的名字、出版社的地址或版权信息就是书的元数据。数据和元数 据的划分不是绝对的,有些数据既可以作为数据处理,也可以作为元数据处理,例如可以将 作者的名字作为数据而不是元数据处理。
[0025]众所周知,对资源的描述是领域和应用相关的,比如对一本书的描述和对一个Web站点的描述是不一样的,即对不同资源的描述需要采取不同的词汇表。因此RDF规范并没 有定义描述资源所用的词汇表,而是定义了一些规则,这些规则是各领域和应用定义用于 描述资源的词汇表时必须遵循的。当然,RDF也提供了描述资源时具有基础性的词汇表。
[0026] 简单而言,一个RDF文件包含多个资源描述,而一个资源描述是由多个语句构成, 一个语句是由资源、属性类型、属性值构成的三元组,表示资源具有的一个属性特征。通过 RDF,人们可以使用自己的词汇表描述任何资源,由于使用的是结构化的XML数据,搜索引 擎可以理解元数据的精确含义,使得搜索变得更为智能和准确。
[0027] 图1为本发明实施例提供的一实体集合扩展方法的流程示意图,如图1所示,本实 施例提供的实体集合扩展方法包括:
[0028]S101,获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数 量为至少两个;
[0029]示例性的,用户可以通过访问操作来间接输入种子实体,也可以直接通过用户终 端设备直接输入种子实体。举例来说,用户先后访问了淘宝网、京东商城、一号店和亚马逊, 则实体集合扩展装置可以根据用户的访问获取包含淘宝网、京东商城、一号店和亚马逊四 个种子实体的种子实体集合。用户也可以在终端设备相应的种子实体输入框中直接输入种 子实体淘宝网、京东商城、一号店和亚马逊。可以理解,种子实体集合中包含的种子实体的 个数可以是基于用户的历史访问记录,或是用户的输入,需要说明的是,本实施例中种子实 体集合中包含的种子实体的数量为至少两个。
[0030] S102,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种 子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存储 有预先建立的每个实体的实体名和属性信息的关联关系;
[0031] S103,根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属性特 征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征;
[0032] 在实际应用中,作为一种优选的实施方式,可以将所使用的RDF知识库下载到实 体集合扩展装置的存储器中,以供进行实体集合扩展时使用,例如可以将RDF知识库存储 在一台或多台支持云平台的计算机中。RDF知识库中包含多个实体信息,换句话说,RDF知 识库中的每一个资源都有对应的实体名和属性信息。
[0033] 示例性的,实体集合扩展装置执行SlOl获取用户输入的种子实体集合包括"中 国、美国、俄罗斯、印度"四个种子实体;根据这四个种子实体,可以确定出四个种子实体包 括如下相同属性特征:国家、联合国安理会常任理事会成员、有核武器的国家、领土面积排 名前10名的国家、……受限于知识库的数量和质量等因素,根据种子节点实体找到的特征 可以不要求所有的种子都满足,以便获取更多的相同属性特征,丰富扩展结果。
[0034] 优选的,本实施例中设定所获取的种子实体集合对应的相同属性特征包括至少两 个种子实体所具有的相同的属性特征。请继续参照上述示例,实体集合扩展装置执行S102 和S103可以获取该种子实体集合对应的相同属性特征包括:国家、联合国安理会常任理 事会成员、有核武器的国家、领土面积排名前10名的国家、与朝鲜接壤的国家、八国联军成 员、领土面积排名前3名的国家、……
[0035]另外,当获取的种子实体集合之间没有所有种子实体都满足的属性特征时,例如 种子实体集合为"中国、华盛顿、首尔、巴黎、乔布斯、金泰熙、奥黛丽?赫本",实体集合扩展 装置执行S102和S103依然可以确定出所述种子实体集合对应的相同属性特征,如首都城 市(华盛顿、首尔和巴黎)、以人名命名的地名(华盛顿和巴黎)、影视剧演员(金泰熙和奥 黛丽?赫本)、美国著名的人物(华盛顿和乔布斯)等等。
[0036] S104,确定RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;
[0037] S105,将所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展 后的实体集合;
[0038] S106,将所述扩展后的实体集合发送给用户终端设备。
[0039] 举例来说,具有相同属性特征"领土面积排名前10名的国家"的其他实体包括加 拿大、巴西、澳大利亚、阿根廷、哈萨克斯坦和苏丹6个国家。所有具有种子实体集合对应的 相同属性特征的其他实体都可以作为候选实体,构成扩展实体集合,将扩展实体集合中包 括的实体添加到所述种子实体集合中,得到扩展后的实体集合,将扩展后的实体集合发送 给用户终端设备。例如输出至显示器或者打印机,以提供给用户。
[0040] 可以理解,如果根据用户输入的种子实体集合未在RDF知识库中查找到种子实体 集合对应的相同属性特征,则得到的扩展实体集合为空集,也就是扩展后的实体集合依然 是原来的种子实体集合。
[0041] 本实施例提供的实体集合扩展方法通过以种子实体为关键字,在RDF知识库中查 询种子实体集合对应的的相同属性特征,并且根据相同属性特征信息在RDF知识库中查询 候选实体,由候选实体构成扩展实体集合进行实体集合扩展。由于RDF知识库使用的是结 构化的XML数据,在进行实体集合扩展时,可以挖掘出种子实体之间的语义信息,使得扩展 结果变得更为智能和准确,而且结构化的数据更易于处理,保证了实体集合扩展的效率。
[0042] 在实际应用中,根据种子实体集合,在RDF知识库中确定该种子实体集合具有的 相同属性特征可能包含多个,也可能为零个。图2为本发明实施例提供的另一实体集合扩 展方法的流程示意图,本实施例在图1所示实施例的基础上,较佳的,根据种子实体集合, 在RDF知识库中至少可以确定该种子实体集合具有的一个相同属性特征,可以将种子实体 集合具有的相同属性特征的数量记为N,显然N为大于0的整数。此时,上述实施例S104具 体可以包括如下步骤:
[0043]S1041,分别确定各相同属性特征对应的候选实体集合;
[0044]S1042,分别确定每个所述候选实体集合中包含的实体的数量,并根据所述数量确 定每个候选实体的第一权重值,所述候选实体属于至少一个候选实体集合;
[0045]S1043,根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合。
[0046] 为了更清楚地说明本发明实施例中的技术方案,下面将通过数学描述和具体示例 对本发明实施例的技术方案做详细介绍。
[0047] 首先,可以先给出一些合适的定义:
[0048] 定义1:设种子实体集合为M=Ie1,e2,......,em},其中e"e2,......,emSm个 种子实体;
[0049] 定义2:设M对应的相同属性特征为JT;
[0050]
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1