知识图谱的构建方法及装置与流程

文档序号:14911342发布日期:2018-07-10 23:30阅读:168来源:国知局

本发明涉及信息搜索技术领域,尤其涉及一种知识图谱的构建方法及装置。



背景技术:

随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多的借助网络来寻找自己需要的信息。目前,为了向用户提供更精准的搜索服务,知识图谱越来越多的应用到搜索领域。

知识图谱旨在描述真实世界中存在的各种实体及其关系,当知识图谱建立后,在用户输入关键字之后,就可以向用户返回这个关键字的属性、与其它实体的关系等关联信息,这样可以更准确、完善的为用户提供所需要的信息。由此,在知识图谱的构建过程中,如何保证知识图谱中的数据的准确性,变得尤为重要。



技术实现要素:

本发明实施例提供一种知识图谱的构建方法及装置,以提高知识图谱中的数据的准确性。

第一方面,本发明提供一种知识图谱的构建方法,包括:

获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;

基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;

根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。

可选地,所述基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行对齐处理,包括:

根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;

根据确定的度量类型,对所述第一实体进行实体对齐处理。

可选地,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;

所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:

在所述知识图谱中确定数据源为分类树的第二实体;

判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;

所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:

判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;

所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:

判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。

可选地,所述根据实体对齐处理结果,将所述结构化数据导入所述知识图谱,包括:

在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;

若否,则将所述第一属性和第一属性值映射到所述第二实体;

若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;

在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。

可选地,在所述根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型之前,还包括:

获取各所述属性信息所属的描述类型;

根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

可选地,所述方法还包括:

在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。

第二方面,本发明提供一种知识图谱的构建装置,包括:

数据获取模块,用于获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;

对齐处理模块,用于基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;

数据导入模块,用于根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。

可选地,所述对齐处理模块具体用于,根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;

根据确定的度量类型,对所述第一实体进行实体对齐处理。

可选地,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;

所述对齐处理模块,具体用于在所述知识图谱中确定数据源为分类树的第二实体;

判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;

所述对齐处理模块,具体用于判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;

所述对齐处理模块,具体用于判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据导入模块具体用于:

在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;

若否,则将所述第一属性和第一属性值映射到所述第二实体;

若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;

在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。

可选地,还包括:清洗处理模块,用于获取各所述属性信息所属的描述类型;

根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

可选地,还包括:推理模块,用于在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。

本实施例提供的知识图谱的构建及装置,该方法通过获取结构化数据,基于第一实体与知识图谱中的第二实体的相似度度量,对第一实体进行实体对齐处理,相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;通过该些相似度的度量类型,可以保证实体对齐结果的正确性,能够将正确的结构化数据导入知识图谱,避免了将错误的或冗余的数据导入知识图谱,提高了知识图谱的准确性,能够为用户提供准确的搜索结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的知识图谱的结构示意图;

图2为本发明一实施例提供的知识图谱的构建整体框架图;

图3为本发明一实施例提供的知识图谱的构建方法流程图;

图4为本发明一实施例提供的知识图谱的构建方法流程图;

图5为本发明一实施例提供的知识图谱的构建装置的结构示意图;

图6为本发明一实施例提供的知识图谱的构建装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明提供的知识图谱的结构示意图。知识图谱用于描述真实世界中存在的各种实体及其关系。知识图谱中包括实体的属性和属性值以及各实体之间的关系。知识图谱可被看做是一张巨大的图,节点表示实体,边则由属性或关系构成。例如,在图1中示出了实体A的属性和属性值,以及与实体A具有关系的实体B、实体C和实体D。

图2为本发明一实施例提供的知识图谱的构建整体框架图。如图2所示,在构建如图1所示的知识图谱的过程中,整体框架包括数据源、数据获取、数据导入三部分。

其中,数据源是指构建知识图谱的数据来源。该数据源包括结构化数据,例如垂直网站等提供的结构化数据;半结构化数据,例如百科、列表等;非结构化数据,例如文本形式的网页数据等。

数据获取是指从数据源中获取数据,获取的方式包括从合作方接口直接获取垂直网站的信息;通过爬虫结合解析的方式从垂直网站、半结构化网站等获取数据;对百科信息进行抽取;对文本形式的网页数据进行通用抽取等。本实施例获取得到的数据包括结构化数据、半结构化数据以及非结构化数据。对于半结构化数据、非结构化数据,通过模板匹配等方式转换为结构化数据。本实施例对结构化数据的具体实现方式不做特别限制。

本实施例向知识图谱中导入的数据具体为结构化数据。在数据导入过程中,涉及对结构化数据的预处理、实体对齐、属性对齐、属性筛选等过程,最终将满足条件的结构化数据导入知识图谱。后续通过增量迭代等方式,保证知识图谱的可持续更新和扩展。在下述的实施例中,为了便于说明,对实体进行区分,将获取到的结构化数据中的实体称为第一实体,对应的为第一属性和第一属性值,将知识图谱中已有的实体称为第二实体,对应的为第二属性和第二属性值。下面采用详细的实施例对本知识图谱的构建过程进行详细说明。

图3为本发明一实施例提供的知识图谱的构建方法流程图。如图3所示,该方法包括:

S301、获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值。

获取结构化数据的具体实现方式,可参见图2所示的实施例,本实施例此处不再赘述。其中,结构化数据包括第一实体的第一实体名称以及第一实体名称对应的属性信息。该属性信息包括第一属性和第一属性值。在本实施例中,该第一属性有两种含义。

一种含义为:第一属性为第一实体的自身属性,该自身属性可以为第一实体的身高、体重等,对应的第一属性值为该自身属性对应的属性值,例如具体的身高值,体重值等。在知识图谱中,边信息则用于指示第一实体的自身属性。其中,第一实体的自身属性可以有多个,每个自身属性对应的属性值也可以为多个。

另一种含义为:第一属性为第一实体与第二实体之间的关系属性,该关系属性可以为夫妻、子女、父母、朋友等,对应的第一属性值为与该第一实体具有关系的其它实体。在知识图谱中,边信息则用于指示第一实体与其它实体的关系。其中,第一实体对应的关系属性可以有多个,每个关系属性可以对应多个其它实体。

S302、基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;

在获取到结构化数据之后,在创建之初,如果知识图谱中没有数据,则将该结构化数据直接导入知识图谱中,以形成知识图谱。在知识图谱中存在数据时,基于第一实体与知识图谱中的第二实体的相似度度量,对第一实体进行实体对齐处理。其中,实体对齐处理是指发现具有不同ID但却代表真实世界同一对象的实体,并将这些实体归为一个具有全局唯一标识的实体,即找到相同的第一实体和第二实体,以便将第一实体的第一属性和对应的第一属性值映射到第二实体上,即在第二实体的基础上,增加第一属性以及对应的第一属性值。

可选地,在进行实体对齐处理之前,还包括数据预处理过程。具体地,获取各属性信息所属的描述类型;根据描述类型所对应的标准描述语句,对各属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

具体地,不同源的数据对于同一个属性值可能会采用不同的描述方式,例如身高1.75米,不同的描述包括1.75m、1.75M、1米75、175cm、175公分等。清洗归一的目的在于去除原始数据中的噪音,统一数据的表达形式。目前的数据清洗归一,对应不同描述类型的属性,会配置不同的标准描述语句,即每种描述类型,对应一种标准描述语句。例如,针对日期、时间、数值、国家、城市等可以各自对应一种标准描述语句。

通过对数据进行预处理,可以保证数据的描述统一,在进行实体对齐以及属性对齐时,保证了对齐的准确性。

在本实施例中,相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。下面分别依次进行说明。

一、字符相似度的度量。具体地,判断第一实体名称与知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。

在具体实现过程中,具有相同表述的实体可能是同一实体。例如,从不同房产垂直网站可能采集到上海绿地海珀星晖、绿地海珀星晖、海珀星晖、海珀星晖小区等实体,从名称的字符相似度上可以判断它们可能是同一实体,例如字符相似度大于预设阈值,则判断为同一实体。可选地,在判断字符相似度之前,还可以过滤掉前缀或后缀等,例如过滤掉前缀地名、前缀开发商名,过滤掉后缀“小区”等。

二、实体所处分类树的结构相似度的度量。在知识图谱中确定数据源为分类树的第二实体;判断第一实体的子节点与父节点与各第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。

在具体实现过程中,具有相同邻居节点的实体可能指向同一实体。在数据源为分类树时,可以通过结构相似度的度量来进行度量。例如,从中国植物志和护花网分别采集的植物学分类树时,木樨和桂花的父节点与子节点都相同,则判断两者为同一实体。

三、属性相似度的度量。在本实施例中,第一属性包括关键属性与非关键属性;判断知识图谱中是否存在与关键属性相同的第二属性,若是,则判断关键属性与第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。

在具体实现过程中,具有相同属性和属性值的实体可能代表同一实体。此种相似度度量方式,多用于判断同名实体的对齐。在属性对齐过程中,采用实体的关键属性进行对齐,该关键属性可以为预设的代表实体唯一性的属性,而对于非关键属性,则不作为对齐的判断标准。例如,两个“宝龙广场”,如果关键属性详细地址这一属性值相同,则判断是同一建筑物;两个“李娜”,如果关键属性生日信息一致,则判断是同一个人。本领域技术人员可以理解,该关键属性可以为多个,也可以为一个,本实施例此处对关键属性的数量不做特别限制。

在本实施例中,具体采用哪一种相似度的度量,可根据实际情况而定,在不同的场景中有不同的应用。例如,可以只采用字符相似度,或者只采用属性相似度,或者只采用结构相似度。

再例如,还可以两两结合来实现,如字符相似度结合属性相似度,可以先进行字符相似度的度量,对于满足字符相似度的,可以结合属性相似度的度量进行验证,例如字符相似,但是关键属性对应的属性值不同,则不是同一实体;还可以字符相似度结合结构相似度,对于不满足字符相似度的,可以进行结构相似度的度量。对与两者结合的其它实施例,本实施例此处不再赘述。

再例如,还可以三者结合来实现,即先进行结构类相似的度量,再进行字符度相似的度量,再进行属性相似的度量,通过三者之间的相互补充以及相互验证,来进行实体对齐处理。

在一种可能的实现方式中,可以根据结构化数据的数据源的类型,确定对第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;根据确定的度量类型,对第一实体进行实体对齐处理。

具体地,当数据源的类型为基于分类树的数据源,则度量类型为实体所处分类树的结构相似度的度量。当数据源的类型为非基于分类树的数据源,度量类型为字符相似度的度量和/或度量类型为属性相似度的度量。

即可以先判断数据源的类型,根据数据源的类型,来确定度量类型。当数据源的类型为基于分类树的数据源时,则先采用实体所处分类树的结构相似度的度量,可选地,后续还可以采用字符相似度和/或属性相似度进行补充和验证。当数据源的类型为非基于分类树的数据源,则不考虑结构相似度的度量,而是选择字符相似度的度量和/或属性相似度的度量。

S303、根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。

在得到实体对齐处理结果之后,对于实体对齐的第一实体与第二实体,还可以进行属性对齐的操作。属性对齐是指发现具有不同描述但却代表真实世界同一属性的属性,并将这些属性归为一个属性。例如,将出生日期和生日两个属性归为一个属性,可以用出生日期表示。

在实体对齐和属性对齐之后,实体可区分为对齐实体和未对齐实体。对于未对齐实体,用新增的方式的导入图谱,对于对齐的实体,采用替换、增补等不同方式对知识图谱进行修正,从而构建出知识图谱。

本实施例提供的知识图谱的构建方法,通过获取结构化数据,基于第一实体与知识图谱中的第二实体的相似度度量,对第一实体进行实体对齐处理,相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;通过该些相似度的度量类型,可以保证实体对齐结果的正确性,能够将正确的结构化数据导入知识图谱,避免了将错误的或冗余的数据导入知识图谱,提高了知识图谱的准确性,能够为用户提供准确的搜索结果。

下面采用详细的实施例,主要阐述实体对齐以及属性对齐之后,通过属性筛选的过程,将结构化数据导入知识图谱的实现过程。

图4为本发明一实施例提供的知识图谱的构建方法流程图。如图4所示,该方法包括:

S401、在实体对齐处理结果为第一实体与第二实体对齐,且对第一实体的第一属性和第二实体的第二属性进行属性对齐处理后,判断知识图谱中是否存在与第一属性相同的第二属性;若否,执行S402,若是,执行S403或S404;

S402、将第一属性和第一属性值映射到第二实体;

在第一实体与第二实体对齐时,第一实体的第一属性与第二实体的第二属性不同,则将该第一属性和第一属性值映射到第二实体。例如,第一实体为张三,知识图谱中存在与该张三对齐的第二实体张三,第一属性为出生日期,第二实体的第二属性中没有出生日期,则将第一属性出生日期和对应的属性值映射到知识图谱中的第二实体。

S403、在第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到第二实体。

在第一属性为多值属性时,例如该第一属性为好友,子女等。在第一实体和第二实体对齐,第一实体的第一属性与第二实体的第二属性相同时,可以对第二属性对应的属性值进行补充。

例如,针对张三的子女,第二属性对应的属性值为张一明,张二明,第一属性对应的属性值为张一鸣,张三明,张四明,张小明,针对张一明和张一鸣,为冲突的两个属性值,判断张一明为正确的属性值,张一鸣为错误的属性值,删除张一鸣,然后确定张三明,张四明,张小明为与第二属性值不同的属性值,将张三明、张四明以及张小明映射到第二属性张三的子女上。

S404、在第一属性为单值属性时,判断第一属性对应的第一属性值与第二属性对应的第二属性值是否冲突,若否,执行S405,若是,执行S406;

S405、进行去重处理;

S406、在第一属性值的可靠度高于第二属性值的可靠度时,将第一属性值映射到第二实体,并删除第二属性值。

在第一属性为单值属性时,即第一属性只有一个属性值,则判断第一属性对应的第一属性值与第二属性对应的第二属性值是否冲突,如果不冲突,说明二者都为正确的属性值,则可以进行融合、去重处理,得到一个唯一的属性值,当二者冲突时,则确定第一属性值与第二属性值的可靠性高低,若第一属性值的可靠性高于第二属性值,则删除第二属性值,若第一属性值的可靠度低于第二属性值,则删除第一属性值。

其中,可靠度可根据第一属性值在不同数据源上出现的频次,以及数据源的预设可靠度排名等确定。本实施例对确定可靠度的具体实现方式,不做特别限制。

S407、在实体对齐处理结果为第一实体与第二实体不对齐时,则在知识图谱中新建图谱项,新建的图谱项包括第一实体名称以及第一属性对应的第一属性值。

本实施例充分考虑不同的情况下,将结构化数据导入知识图谱的过程,避免了将错误和重复的数据导入知识图谱,也避免了对数据的遗漏,保证了知识图谱的准确性。

在上述实施例的基础上,本实施例还提供了知识图谱的增量迭代和可持续构建。

在知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将隐含关系映射到知识图谱中。

例如,可以预先定义链式规则:岳父是妻子的父亲,利用这条规则,当已知姚明的妻子(叶莉)和叶莉的父亲(叶发)时,可以推出姚明的岳父是叶发。对于其它的链式规则与此类似,本实施例此处不再赘述。

本实施例通过对知识图谱进行增量迭代的处理,进一步增加了知识图谱的知识覆盖率,保证了知识图谱的构建是一个可检验、可持续增长的过程。

图5为本发明一实施例提供的知识图谱的构建装置的结构示意图,如图5所示,该装置包括:

数据获取模块501,用于获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;

对齐处理模块502,用于基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;

数据导入模块503,用于根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。

本实施例提供的装置可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

图6为本发明一实施例提供的知识图谱的构建装置的结构示意图,本实施例在图5实施例的基础上,

所述对齐处理模块502具体用于,根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;

根据确定的度量类型,对所述第一实体进行实体对齐处理。

可选地,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;

所述对齐处理模块502,具体用于在所述知识图谱中确定数据源为分类树的第二实体;

判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;

所述对齐处理模块502,具体用于判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;

所述对齐处理模块502,具体用于判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。

可选地,所述数据导入模块503具体用于:

在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;

若否,则将所述第一属性和第一属性值映射到所述第二实体;

若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;

在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。

可选地,还包括:清洗处理模块504,用于获取各所述属性信息所属的描述类型;

根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

可选地,还包括:推理模块505,用于在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。

本实施例提供的装置可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1