知识数据的处理方法及装置的制造方法

文档序号:9616309阅读:319来源:国知局
知识数据的处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种知识数据的处理方法及装置。
【背景技术】
[0002]近年来,互联网正从仅包含网页和网页之间超链接的文档万维网,向包含大量描述各种实体和实体之间丰富关系的数据万维网转变。在上述背景下,百度、Google等知名搜索引擎公司纷纷以此为基础,通过构建知识图谱来改进搜索质量。
[0003]实体关联是指将文本描述的实体信息与实体信息库中的具体实体进行关联,从而建立实体知识库中实体间的关系,进而形成完善的知识图谱。在现有技术中,一般通过人工编辑方式来进行实体关联。然而,人工编辑方式具有耗费人力、周期长、不适用于大规模实体数据关联等不足之处。

【发明内容】

[0004]本发明的目的在于,提供一种知识数据的处理方法及装置,以实现自动、快速地将实体数据中描述的实体对象与实体信息库中的实体对象进行关联,从而更新完善与实体对象相关的知识图谱。
[0005]根据本发明的一方面,提供一种知识数据的处理方法,包括:获取包括第一实体对象的标识、属性及其属性值的实体数据;从预设的实体信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息;将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体对象相关的知识图谱。
[0006]优选地,所述将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体对象相关的知识图谱的处理包括:将所述第一实体对象相对应的实体数据中匹配的属性值替换为所述第二实体对象的标识。
[0007]优选地,所述方法还包括:从所述实体数据提取值为专有名词的属性值;
[0008]所述从预设的实体信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息的处理包括:从预设的实体信息库提取分别与所述提取的属性值匹配的第二实体对象的信息。
[0009]优选地,所述从预设的实体信息库提取分别与所述提取的属性值匹配的第二实体对象的信息的处理包括:分别根据所述提取的属性值从预设的实体信息库提取与多个候选第二实体对象的信息,分别从所述多个候选第二实体对象选取匹配度高的第二实体对象的?目息。
[0010]优选地,所述分别从所述多个候选第二实体对象选取匹配度高的候选第二实体对象的信息的处理包括:分别获取包含每个所述候选第二实体对象相应的属性值的多个文本数据,选取所述第一实体对象的标识在所述多个文本数据中出现次数最多的文本数据对应的候选第二实体对象,作为所述匹配度高的第二实体对象。
[0011]优选地,所述实体数据是多个包括第一实体对象的标识、属性及其属性值的三元组数据。
[0012]根据本发明的另一方面,还提供一种知识数据的处理装置,包括:实体数据获取模块,用于获取包括第一实体对象的标识、属性及其属性值的实体数据;实体信息提取模块,用于从预设的实体信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息;实体关联模块,用于将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体对象相关的知识图谱。
[0013]优选地,所述实体关联模块用于将所述第一实体对象相对应的实体数据中匹配的属性值替换为所述第二实体对象的标识。
[0014]优选地,所述装置还包括:属性值提取模块,用于从所述实体数据提取值为专有名词的属性值,所述实体信息提取模块用于从预设的实体信息库提取分别与所述提取的属性值匹配的第二实体对象的信息。
[0015]优选地,所述实体信息提取模块包括:候选实体信息提取单元,用于分别根据所述提取的属性值从预设的实体信息库提取与多个候选第二实体对象的信息,实体信息选取单元,用于分别从所述多个候选第二实体对象选取匹配度高的第二实体对象的信息。
[0016]优选地,所述实体信息选取单元用于分别获取包含每个所述候选第二实体对象相应的属性值的多个文本数据,选取所述第一实体对象的标识在所述多个文本数据中出现次数最多的文本数据对应的候选第二实体对象,作为所述匹配度高的第二实体对象。
[0017]优选地,所述实体数据是多个包括第一实体对象的标识、属性及其属性值的三元组数据。
[0018]本发明实施例提供的知识数据的处理方法及装置获取有关第一实体对象的实体数据中的属性值,依据获取到的属性值从预设实体信息库中提取分别与其匹配的第二实体对象的信息,自动、快速地将实体数据中描述的实体对象与实体信息库中的实体对象进行关联,从而更新完善与实体对象相关的知识图谱,为实体推荐等应用领域提供更为丰富的数据基础。
【附图说明】
[0019]图1是示出根据本发明实施例一的知识数据的处理方法的流程图;
[0020]图2是示出根据本发明实施例二的知识数据的处理装置的逻辑框图。
【具体实施方式】
[0021]本发明的基本构思是,提供一种知识数据的处理方式:依据获取到的有关第一实体对象的实体数据中的属性值,从预设实体信息库中提取分别与所述属性值匹配的第二实体对象的信息,由此,可基于提取的第二实体对象的信息,自动而快速地将第一实体对象与第二实体对象进行关联,从而更新完善与实体对象相关的知识图谱。
[0022]此外,与现有技术相比,本发明实施例所述的知识数据的处理方法无需耗费人力,处理周期短,适用于大规模实体数据关联,同时,可为例如实体推荐、知识推理等应用领域提供更加丰富、准确的数据进行分析。
[0023]下面结合附图详细描述本发明的示例性实施例知识数据的处理方法及装置。
[0024]实施例一
[0025]图1是示出根据本发明实施例一的知识数据的处理方法的流程图。可在如图2所示的装置上执行该方法。
[0026]参照图1,在步骤S110,获取包括第一实体对象的标识、属性及其属性值的实体数据。
[0027]这里,所述实体数据可以是多个包括第一实体对象的标识、属性及其属性值的三元组数据。其中,具体地,实体对象的标识是用于识别实体对象的,可以使用设定的字符串、统一资源定位符(Uniform Resource Locator, URL)等唯一标识来作为实体对象的标识。
[0028]通常,将现实世界中的客观事物称为实体,例如概念、事物、人物或事件等。举例来说,影视剧“花千骨”、百度公司以及宇宙大爆炸理论都是实体的实例。同时,每个实体具有属性,属性反映实体的相关信息,例如,仙侠题材、公司办公地点、现代宇宙理论分别是上述实体对应的属性。对于一个实体,其对应的属性可以是多种多样的,一个属性也可以对应一个或者多个属性值。
[0029]相应地,本步骤中获取的实体数据例如(孔子,民族,汉族)、(孔子、国籍、鲁国)、(孔子、儿子、孔鲤)、(孔子,性别,男)、(孔子,生日,农历八月二十七)等等。其中,例如(孔子,民族,汉族)是一个三元组数据。由此可见,实体数据包含了多个三元组数据。为了便于理解,上述实体数据中实体对象的标识写做“孔子”,在实际应用中,可用设定的字符串、URL来代表“孔子”。以(孔子、儿子、孔鲤)为例,“儿子”是“孔子”对应的属性,“孔鲤”是“儿子”对应的属性值,如果说孔子还有其他的儿子,属性“儿子”还可以对应其他的属性值。
[0030]在步骤S120,从预设的实体信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息。
[0031]在上述步骤S110获取实体数据之后,所述实体数据中可能会存在无需进行实体关联的数据,例如(孔子,生日,农历八月二十七),生日是明确的日期而不是实体,也就无需进行实体关联。再比如(孔子,性别,男),性别对应的属性值是男,也是无需进行实体关耳关。
[0032]因此,所述方法还可以包括:从所述实体数据提取值为专有名词的属性值。仍以上述有关“孔子”这一实体的实体数据为例,经过提取处理后,保留下的实体数据是(孔子,民族,汉族)、(孔子、国籍、鲁国)和(孔子、儿子、孔鲤)。
[0033]相应地,根据本发明的示例性实施例,步骤S120可包括:从预设的实体信息库提取分别与所述提取的属性值匹配的第二实体对象的信息。具体地,可分别根据所述提取的属性值从预设的实体信息库提取与多个候选第二实体对象的信息,分别从所述多个候选第二实体对象选取匹配度高的第二实体对象的信息。其中,预设的实体信息库为预先从网络文本中获取并数据处理的实体信息库,预设的实体信息库中存储有多个实体,预设的实体信息库可以存储在服务器中或者其它设备中。
[0034]优选地,上述分别从所述多个候选第二实体对象选取匹配度高的候选第二实体对象的信息的处理包括:分别获取包含每个所述候选第二实体对象相应的属性值的多个文本数据,选取所述第一实体对象的标识在所述多个文本数据中出现次数最多的文本数据对应的候选第二实体对象,作为所述匹配度高的第二实体对象。
[0035]在步骤S130,将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体对象相关的知识图谱。
[0036]根据本发明的示例性实施例,步骤S130可包括:将所述第一实体对象相对应的实体数据中匹配的属性值替换为所述第二实体对象的标识。
[0037]在具体的实现方式中,步骤S120?S130的处理以三元组数据(亚历山大二世,父亲,尼古拉一世)为例进行详细说明,“亚历山大二世”就是本实施例中所述的第一实体对象,很显然的,属性值“尼古拉一世”也代表一个实体,这就需要将“亚历山大二世”与“尼古拉一世”进行关联。由于预设的实体信息库可能存有多个有关“尼古拉一世”的实体数据,而其中真正与“亚历山大二世”有关联的只有一个,由此,需要做的一
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1