构建知识图谱方法、人机交互方法、电子设备及存储介质与流程

文档序号:19155764发布日期:2019-11-16 00:44阅读:283来源:国知局
构建知识图谱方法、人机交互方法、电子设备及存储介质与流程

本发明涉及计算机技术领域,特别是指一种构建知识图谱方法、人机交互方法、电子设备及存储介质。



背景技术:

知识图谱(knowledgegraph,kg)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形,提供了一种更好地组织、管理和理解互联网海量信息的能力。

但是,目前欣赏画作时,只能欣赏画作的图像信息,而缺少文本知识,无法达到艺术教育的目的。而且,由于长文本的简介展示方式承载了太多文字,没有太多互动性和交互性,容易降低用户活跃度。



技术实现要素:

有鉴于此,本发明的目的在于提出一种构建知识图谱方法、人机交互方法、电子设备及存储介质,以解决现有技术中存在的技术问题。

根据本发明第一方面,其提供了一种构建知识图谱的方法,包括:

对图像标记标签,得到所述图像的实体;

获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述图像的实体进行对齐;

根据对齐结果,将各个实体、各个实体之间的关系信息和属性信息存储在数据库中。

在本发明的一些实施例中,对图像标记标签,得到所述图像的实体,包括:

分别通过至少两种标记方法对图像标记标签,得到至少一个第一实体和至少一个第二实体;

计算实体集合中各个实体之间的相似度,过滤掉相似度大于等于第一相似度阈值的实体;其中,所述实体集合包括所述至少一个第一实体和所述至少一个第二实体;

将过滤后的实体集合作为所述图像的实体。

在本发明的一些实施例中,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述图像的实体进行对齐,包括:

获取至少一个数据源中的数据,并从所述数据中获取各个实体对应的外部属性信息;

分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息。

在本发明的一些实施例中,分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息,包括:

对于每一个实体,分别计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。

在本发明的一些实施例中,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述图像的实体进行对齐,包括:

获取至少一个数据源中的图像数据及其对应的文本数据;

从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据;

根据所述目标图像数据对应的目标文本数据,对所述图像的实体及其对应的属性信息进行融合。

在本发明的一些实施例中,根据所述目标图像数据对应的文本数据,对所述图像的实体及其对应的属性信息进行融合,包括:

根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息;

基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述图像的实体及其对应的属性信息进行融合。

在本发明的一些实施例中,基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述图像的实体及其对应的属性信息进行融合,包括:

计算所述图像对应的已存储的内部实体与所述外部实体之间的相似度,将相似度阈值小于第三相似度阈值的外部实体添加到所述内部实体中,以更新所述图像的实体;

计算更新后的各个实体对应的属性信息之间的相似度,过滤掉相似度大于等于第四相似度阈值的属性信息及其对应的实体。

在本发明的一些实施例中,从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据,包括:

对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组;

根据所述分组关键词,确定与所述图像匹配的分组图像数据;

从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。

根据本发明第二方面,其提供了一种基于知识图谱技术的人机交互方法,包括:

展示图像;

接收开启标签模式的指令,对所述图像标记标签,得到所述图像的实体,并以标签形式在所述图像上显示各个实体;

响应于用户点击所述图像上任意一个实体的操作,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐;

根据对齐结果,将所述实体对应的属性信息展示在所述图像上。

在本发明的一些实施例中,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐,包括:

获取至少一个数据源中的数据,并从所述数据中获取所述实体对应的外部属性信息;

将所述实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述实体对应的属性信息。

在本发明的一些实施例中,将所述实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述实体对应的属性信息,包括:

计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。

在本发明的一些实施例中,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐,包括:

获取至少一个数据源中的图像数据及其对应的文本数据;

从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据;

根据所述目标图像数据对应的目标文本数据,对所述实体及其对应的属性信息进行融合。

在本发明的一些实施例中,根据所述目标图像数据对应的文本数据,对所述实体及其对应的属性信息进行融合,包括:

根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息;

基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述实体及其对应的属性信息进行融合。

在本发明的一些实施例中,从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据,包括:

对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组;

根据所述分组关键词,确定与所述图像匹配的分组图像数据;

从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。

根据本发明第三方面,其提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机指令,其中,所述计算机指令被所述处理器运行时执行上述任一实施例中所述的构建知识图谱的方法。

根据本发明第四方面,其提供了一种存储介质,存储有适于由处理器运行的计算机指令,所述计算机指令被处理器运行时执行根据上述任一实施例中所述的构建知识图谱的方法。

根据本发明第五方面,其提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机指令,其中,所述计算机指令被所述处理器运行时执行上述任一实施例中所述的基于知识图谱技术的人机交互方法。

根据本发明第六方面,其提供了一种存储介质,存储有适于由处理器运行的计算机指令,所述计算机指令被处理器运行时执行根据上述任一实施例中所述的基于知识图谱技术的人机交互方法。

本发明实施例提供的构建知识图谱的方法、基于知识图谱技术的人机交互方法、电子设备以及存储介质通过多种方式对图像进行标记标签,扩充了图像的实体,而且通过外部数据源对实体进行对齐,丰富了属性信息,从而扩充了知识图谱。本发明实施例既考虑到了画作的图像和文本知识的展示,又考虑到了交互形式的多样性,能够让用户在欣赏画作时获得更多知识,了解更多画作信息,由此提高用户的美学教育。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中构建知识图谱的方法的流程图;

图2为本发明实施例中知识图谱的各个实体及其关系的示意图;

图3为本发明另一个实施例中构建知识图谱的方法的流程图;

图4为本发明又一个实施例中构建知识图谱的方法的流程图;

图5为本发明实施例中面向艺术画作的知识图谱展示模式;

图6为本发明实施例中基于知识图谱技术的人机交互方法的流程图

图7为本发明实施例中构建知识图谱的装置的结构示意图;

图8为本发明实施例中电子设备的内部结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在一个本发明的实施例中,如图1所示,本发明实施例提供了一种构建知识图谱的方法,该方法包括:

步骤101,对图像标记标签,得到所述图像的实体。

在该步骤中,对于每一张图像,可以分别采用多种标记方法对图像标记标签,然后对采用这多种方式得到标签进行去重,从而得到该图像的实体。对不同的图像标记不同标签,比如艺术家、艺术品、流派、类别、题材、创作媒介、艺术机构、国籍和画作内容等,本发明实施例对此不作限制。其中,画作内容可以根据图像内容进行标记,可以是树、人名、建筑物名等,本发明实施例对此不作限制。可选地,步骤101可以具体包括:分别通过至少两种标记方法对图像标记标签,得到至少一个第一实体和至少一个第二实体;计算实体集合中各个实体之间的相似度,过滤掉相似度大于等于第一相似度阈值的实体;其中,所述实体集合包括所述至少一个第一实体和所述至少一个第二实体;将过滤后的实体集合作为所述图像的实体。本发明实施例通过多种方式对图像进行标记标签,扩充了图像的实体,例如可以采用两种标记方法、三种标记方法、四种标记方法等对每一张图像进行标记,并对标记结果进行过滤,以扩充图像的实体。

可选地,所述标记方法包括但不限于基于深度学习算法的标记方法、关键词提取算法和人工标注,可以选择其中任意两种方法或者三种方法标记图像的标签。例如,步骤101可以具体包括:分别基于深度学习算法、关键词提取算法和人工标注对图像标记标签,得到至少一个第一实体、至少一个第二实体和至少一个第三实体;计算实体集合中各个实体之间的相似度,过滤掉相似度大于等于第一相似度阈值的实体;其中,所述实体集合包括所述至少一个第一实体、所述至少一个第二实体和所述至少一个第三实体;将过滤后的实体集合作为所述图像的实体。其中,深度学习算法可以是srn网络(side-outputresidualnetwork),可以实现对题材、类别和画作内容等标签的提取。其中,关键词提取算法可以是textrank,可以实现对艺术家、艺术品、流派、类别、题材、创作媒介、艺术机构、国籍和画作内容等标签的提取。可以通过标记软件对图像进行人工标记,从而得到题材、画作内容等标签。由于通过上述三种方式得到的标签存在相同或者相似的多余标签,因此通过计算标记出的各个实体之间的相似度,基于预设的第一相似度阈值过滤相似的实体,过滤后的实体即为该画像的实体。可选地,可以先提取出每一个实体的特征向量,然后基于欧式距离计算各个特征向量之间的距离,以此来计算各个实体之间的相似度。

步骤102,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述图像的实体进行对齐。

为了使扩充已有的知识,使用户在欣赏画作时获得更多的知识,可以对外部数据源中的数据与内部数据库中已存储的数据进行融合。具体地,获取至少一个数据源中的数据(可以是网页数据、通用知识图谱信息等),基于所述至少一个数据源中的数据和内部数据库中已存储的数据,对步骤101中标记出的实体进行对齐。需要指出的是,一般来说,内部数据库已存储了结构化数据,也就是实体及其对应的属性数据,因此需要将从外部数据源中获取的数据与已存储的结构化数据进行融合。其中,网页数据可以通过爬虫工具(如scrapy)进行定向爬取,通用知识图谱信息可通过开源知识图谱网站来获取。在本发明的实施例中,对图像的实体进行对齐是指对实体对应的属性信息进行融合,或者,对实体及其对应的属性信息都进行融合。

可选地,步骤102可以具体包括:获取至少一个数据源中的数据,并从所述数据中获取各个实体对应的外部属性信息;分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息。在本发明的实施例中,首先,从至少一个外部数据源中获取数据,比如网页数据或者通用知识图谱信息等,从而提取到各个实体对应的外部属性信息;然后,针对每一个实体,将该实体对应的已存储的内部属性信息和所述外部属性信息进行融合,融合后的属性信息作为该实体对应的属性信息,从而达到扩充图像知识的目的。

可选地,分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息,包括:对于每一个实体,分别计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。可选地,可以先提取出每一个属性的特征向量,然后基于欧式距离计算各个特征向量之间的距离,以此来判断内部属性信息与各个外部属性信息之间的相似度。如果外部属性信息与内部属性信息的相似度小于第一相似度阈值,说明内部属性信息中缺少该外部属性信息,那么将其添加到内部属性信息中,从而达到扩充图像知识的目的。

对于一些图像网站(比如艺术品网站)来说,还可以进一步基于图像网站中的图像数据来丰富内部数据库中的实体,提供给用户更加丰富的知识,使用户能够更加全面地欣赏画作。可选地,步骤102可以具体包括:获取至少一个数据源中的图像数据及其对应的文本数据;从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据;根据所述目标图像数据对应的目标文本数据,对所述图像的实体及其对应的属性信息进行融合。当基于多数据源来构建知识图谱时,需要对实体进行对齐,找出不同来源的实体是否描述的是现实世界中的同一实体,以便把实体添加到知识图谱中,对知识图谱进行扩充。

可选地,根据所述目标图像数据对应的文本数据,对所述图像的实体及其对应的属性信息进行融合,包括:根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息;基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述图像的实体及其对应的属性信息进行融合。在计算相似度之前,还需要对数据进行预处理,数据预处理需引入数据字典和纠错字典,清洗掉脏数据,提高数据质量。

可选地,基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述图像的实体及其对应的属性信息进行融合,包括:计算所述图像对应的已存储的内部实体与所述外部实体之间的相似度,将相似度阈值小于第三相似度阈值的外部实体添加到所述内部实体中,以更新所述图像的实体;计算更新后的各个实体对应的属性信息之间的相似度,过滤掉相似度大于等于第四相似度阈值的属性信息及其对应的实体。相似度计算包括实体相似度计算和属性相似度计算,综合单个属性相似度得到属性相似度向量,通过算法(如cosine相似度、jaccard系数等)得到对应实体的相似度结果和属性的相似度结果。在该实施例中,先基于实体的相似度来添加实体,然后基于属性相似度进一步判断实体的相似度,以保证添加的实体与内部数据库中已存储的实体无论是从字面上、还是从属性信息上来说都是不同,这样才能更准确地扩充知识图谱。需要指出的是,将相似度阈值小于第三相似度阈值的外部实体添加到所述内部实体中时,同时也添加了该外部实体对应的属性信息。

可选地,从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据,包括:对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组;根据所述分组关键词,确定与所述图像匹配的分组图像数据;从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。分组关键词可以是艺术家、艺术品等,从而提高计算效率。

步骤103,根据对齐结果,将各个实体、各个实体之间的关系信息和属性信息存储在数据库中。

在经过步骤102的处理后,将处理后的数据进行存储,具体地,将各个实体和各个实体之间的关系信息存储在图像数据库(比如neo4j等)中,将属性信息存储在关系型数据库(比如mysql)中,并通过外键将各个实体与其对应的属性信息进行链接。各个实体、各个实体之间的关系信息、各个实体对应的属性信息构成了知识图谱的架构。其中,各个实体之间的关系可以预先配置,将各个实体以及各个实体的关系信息和属性信息存储在数据库中后,当用户欣赏图像时,就可以生成如图2所示的知识图谱。

本发明实施例提供的构建知识图谱的方法通过多种方式对图像进行标记标签,扩充了图像的实体,而且通过外部数据源对实体进行对齐,丰富了属性信息,从而扩充了知识图谱。本发明实施例既考虑到了画作的图像和文本知识的展示,又考虑到了交互形式的多样性,能够让用户在欣赏画作时获得更多知识,了解更多画作信息,由此提高用户的美学教育。

作为本发明的另一个实施例,如图3所示,所述构建知识图谱的方法可以包括以下步骤:

步骤301,对图像标记标签,得到所述图像的实体。

步骤302,获取至少一个数据源中的数据,并从所述数据中获取各个实体对应的外部属性信息。

由于内部数据库已存储了结构化数据,需要从外部数据源获取数据比如网页数据、通用知识图谱信息等,然后基于获取的数据进行属性信息的更新,从而扩充内部数据库中已存储的属性信息。其中,网页数据可以通过爬虫工具(如scrapy等)进行定向爬取,通用知识图谱信息可通过开源知识图谱网站来获取。

步骤303,分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息。

具体地,对于每一个实体,分别计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。本发明实施例基于属性的相似度结果更新内部数据库中已存储的属性信息,使用户在欣赏画作时获得更多的知识。

步骤304,根据对齐结果,将各个实体、各个实体之间的关系信息和属性信息存储在数据库中。

在该实施例中,通过计算属性相似度来实现实体对齐,从而更新内部数据库中已存储的属性信息,使用户在欣赏画作时获得更多的知识。

作为本发明的又一个实施例,如图4所示,所述构建知识图谱的方法可以包括以下步骤:

步骤401,分别基于深度学习算法、关键词提取算法和人工标注对图像标记标签,得到所述图像的实体。

步骤402,获取至少一个数据源中的图像数据及其对应的文本数据。

这些数据源中不但有图像数据还有图像数据对应的文本数据,比如画作以及该画作的简介。

步骤403,对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组。

可以基于艺术家、艺术品等分组关键词对从数据源中获取的图像数据进行分组,比如艺术家为梵高的图像数据作为一组。

步骤404,根据所述分组关键词,确定与所述图像匹配的分组图像数据。

基于艺术家、艺术品等分组关键词,找出与所述图像匹配的分组图像数据,以提高计算效率。

步骤405,从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。

为了匹配出相似度高的目标图像数据,采用相似度从分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。

步骤406,根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息。

步骤407,计算所述图像对应的已存储的内部实体与所述外部实体之间的相似度,将相似度阈值小于第三相似度阈值的外部实体添加到所述内部实体中,以更新所述图像的实体。

先基于实体的相似度来添加实体,可以过滤掉字面上相似的实体,提高后续步骤的计算效率。

步骤408,计算更新后的各个实体对应的属性信息之间的相似度,过滤掉相似度大于等于第四相似度阈值的属性信息及其对应的实体。

基于属性相似度进一步判断实体的相似度,以保证添加的实体与内部数据库中已存储的实体无论是从字面上、还是从属性信息上来说都是不同,这样才能更准确地扩充知识图谱。

步骤409,根据对齐结果,将各个实体、各个实体之间的关系信息和属性信息存储在数据库中。

在该实施例中,通过计算实体相似度和属性相似度来实现实体对齐,从而更新内部数据库中已存储的实体以及对应的属性信息,使用户在欣赏画作时获得更多的知识。

图5为本发明实施例中面向艺术画作的知识图谱展示模式。图片在系统(如web页面、显示屏等)中进行显示,默认为正常浏览模式,如图5a所示。若用户打开标签模式,则如图5b所示,在标签模式下,从数据库中获取图像的各个实体,从而在图像上出现对应的标签(即以标签形式在图像上显示实体),主要分为艺术家标签、流派标签、画作内容标签等,比如小天使、西斯廷二世、圣母、圣女巴巴拉、耶稣、拉斐尔·桑西、圣经故事、佛罗伦萨画派等。当用户点击图像上的任意一个标签时,则从数据库中获取该标签的实体对应的属性信息。点击艺术家标签,如拉斐尔·桑西,对应的属性信息通过卡片形式进行展示,如外文名,别名,出生年,死亡年,出生地等,如图5c所示。点击圣母标签,对应的属性信息通过卡片形式进行展示,如外文名,别名,出生年,死亡年,出生地等,如图5d所示。点击耶稣标签,对应的属性信息通过卡片形式进行展示,如外文名,别名,出生年,死亡年,出生地等,如图5e所示。若卡片内容中包含蓝色字段,则表示此字段存在后续操作。如佛罗伦萨画派,则调用此艺术图谱,展示此画派相应信息;如意大利,则调用通用知识图谱,展示此国家对应的信息;如《雅典学派》,则切换至此画作进行展示。

因此,本发明实施例提供的方法既考虑到了画作的图像和文本知识的展示,又考虑到了交互形式的多样性,通过画作与文本知识的结合能够让用户在欣赏画作时获得更多知识,了解更多画作信息,由此提高用户的美学教育。

本发明实施例还提供了一种基于知识图谱技术的人机交互方法,在该实施例中,接收用户指令后,触发标记标签和实体对齐的流程,并且只对用户点击的实体进行对齐,这样可以减少后台系统的计算压力。如图6所示,所述基于知识图谱技术的人机交互方法包括以下步骤:

步骤601,展示图像;

步骤602,接收开启标签模式的指令,对所述图像标记标签,得到所述图像的实体,并以标签形式在所述图像上显示各个实体;

步骤603,响应于用户点击所述图像上任意一个实体的操作,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐;

步骤604,根据对齐结果,将所述实体对应的属性信息展示在所述图像上。

为了使扩充已有的知识,使用户在欣赏画作时获得更多的知识,可以对外部数据源中的数据与内部数据库中已存储的数据进行融合。可选地,在步骤603中,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐,包括:获取至少一个数据源中的数据,并从所述数据中获取所述实体对应的外部属性信息;将所述实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述实体对应的属性信息。在本发明的实施例中,首先,从至少一个外部数据源中获取数据,比如网页数据或者通用知识图谱信息等,从而提取到所述实体对应的外部属性信息;然后,将该实体对应的已存储的内部属性信息和所述外部属性信息进行融合,融合后的属性信息作为该实体对应的属性信息,从而达到扩充图像知识的目的。

在本发明的一些实施例中,将所述实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述实体对应的属性信息,包括:计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。可选地,可以先提取出每一个属性的特征向量,然后基于欧式距离计算各个特征向量之间的距离,以此来判断内部属性信息与各个外部属性信息之间的相似度。如果外部属性信息与内部属性信息的相似度小于第一相似度阈值,说明内部属性信息中缺少该外部属性信息,那么将其添加到内部属性信息中,从而达到扩充图像知识的目的。

对于一些图像网站(比如艺术品网站)来说,还可以进一步基于图像网站中的图像数据来丰富内部数据库中的实体,提供给用户更加丰富的知识,使用户能够更加全面地欣赏画作。在本发明的一些实施例中,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐,包括:获取至少一个数据源中的图像数据及其对应的文本数据;从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据;根据所述目标图像数据对应的目标文本数据,对所述实体及其对应的属性信息进行融合。

可选地,根据所述目标图像数据对应的文本数据,对所述实体及其对应的属性信息进行融合,包括:根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息;基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述实体及其对应的属性信息进行融合。在计算相似度之前,还需要对数据进行预处理,数据预处理需引入数据字典和纠错字典,清洗掉脏数据,提高数据质量。

可选地,从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据,包括:对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组;根据所述分组关键词,确定与所述图像匹配的分组图像数据;从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。分组关键词可以是艺术家、艺术品等,从而提高计算效率。

在步骤604中,将融合后的属性信息展示在所述图像上,使用户在欣赏画作时获得更多的知识。

在一个实施例中,如图7所示,提供了一种构建知识图谱的装置,该构建知识图谱的装置700包括标记模块701、对齐模块702和存储模块703。其中,标记模块701被配置为对图像标记标签,得到所述图像的实体;对齐模块702被配置为获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述图像的实体进行对齐;存储模块703被配置为根据对齐结果将各个实体、各个实体之间的关系信息和属性信息存储在数据库中。

在本发明的一些实施例中,所述标记模块701还被配置为:

分别通过至少两种标记方法对图像标记标签,得到至少一个第一实体、和至少一个第二实体;

计算实体集合中各个实体之间的相似度,过滤掉相似度大于等于第一相似度阈值的实体;其中,所述实体集合包括所述至少一个第一实体和所述至少一个第二实体;

将过滤后的实体集合作为所述图像的实体。

在本发明的一些实施例中,所述对齐模块702还被配置为:

获取至少一个数据源中的数据,并从所述数据中获取各个实体对应的外部属性信息;

分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息。

在本发明的一些实施例中,所述对齐模块702还被配置为:

对于每一个实体,分别计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。

在本发明的一些实施例中,所述对齐模块702还被配置为:

获取至少一个数据源中的图像数据及其对应的文本数据;

从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据;

根据所述目标图像数据对应的目标文本数据,对所述图像的实体及其对应的属性信息进行融合。

在本发明的一些实施例中,所述对齐模块702还被配置为:

根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息;

基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述图像的实体及其对应的属性信息进行融合。

在本发明的一些实施例中,所述对齐模块702还被配置为:

计算所述图像对应的已存储的内部实体与所述外部实体之间的相似度,将相似度阈值小于第三相似度阈值的外部实体添加到所述内部实体中,以更新所述图像的实体;

计算更新后的各个实体对应的属性信息之间的相似度,过滤掉相似度大于等于第四相似度阈值的属性信息及其对应的实体。

在本发明的一些实施例中,所述对齐模块702还被配置为:

对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组;

根据所述分组关键词,确定与所述图像匹配的分组图像数据;

从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。

本发明实施例提供的构建知识图谱的装置通过多种方式对图像进行标记标签,扩充了图像的实体,而且通过外部数据源对实体进行对齐,丰富了属性信息,从而扩充了知识图谱。本发明实施例既考虑到了画作的图像和文本知识的展示,又考虑到了交互形式的多样性,能够让用户在欣赏画作时获得更多知识,了解更多画作信息,由此提高用户的美学教育。

根据本发明实施例,还提供了一种电子设备,如图8所示,该电子设备包括处理器801以及存储器802,该存储器802配置为存储计算机程序指令,计算机程序指令适于由处理器801加载并执行如下方法:对图像标记标签,得到所述图像的实体;获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述图像的实体进行对齐;根据对齐结果,将各个实体、各个实体之间的关系信息和属性信息存储在数据库中。

该处理器可以为各种适用的处理器,例如实现为中央处理器、微处理器、嵌入处理器等形式,可以采用x86、arm等架构;存储器802可以为各种适用的存储装置,包括但不限于磁存储装置、半导体存储装置、光存储装置等,本发明的实施例对这些不作限制。

本发明所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(rom,read-onlymemory)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram),它用作外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:分别通过至少两种标记方法对图像标记标签,得到至少一个第一实体和至少一个第二实体;计算实体集合中各个实体之间的相似度,过滤掉相似度大于等于第一相似度阈值的实体;其中,所述实体集合包括所述至少一个第一实体和所述至少一个第二实体;将过滤后的实体集合作为所述图像的实体。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:获取至少一个数据源中的数据,并从所述数据中获取各个实体对应的外部属性信息;分别将各个实体对应的已存储的内部属性信息和所述外部属性信息进行融合,得到所述各个实体对应的属性信息。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:对于每一个实体,分别计算所述实体对应的已存储的内部属性信息与所述外部属性信息之间的相似度,将小于第一相似度阈值的外部属性信息添加到所述内部属性信息中,以更新得到所述实体对应的属性信息。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:获取至少一个数据源中的图像数据及其对应的文本数据;从所述至少一个数据源中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据;根据所述目标图像数据对应的目标文本数据,对所述图像的实体及其对应的属性信息进行融合。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:根据所述目标图像数据对应的目标文本数据,从所述目标文本数据中识别出外部实体及其外部属性信息;基于所述图像对应的已存储的内部实体及其内部属性信息与所述外部实体及其外部属性信息之间的相似度,对所述图像的实体及其对应的属性信息进行融合。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:计算所述图像对应的已存储的内部实体与所述外部实体之间的相似度,将相似度阈值小于第三相似度阈值的外部实体添加到所述内部实体中,以更新所述图像的实体;计算更新后的各个实体对应的属性信息之间的相似度,过滤掉相似度大于等于第四相似度阈值的属性信息及其对应的实体。

此外,根据本发明的一个实施例,处理器801还可以加载并执行:对于每一个数据源,根据分组关键词对所述数据源中的图像数据进行分组;根据所述分组关键词,确定与所述图像匹配的分组图像数据;从所述分组图像数据中筛选出与所述图像的相似度大于等于第二相似度阈值的目标图像数据。

根据本发明实施例,还提供了一种电子设备,如图8所示,该电子设备包括处理器801以及存储器802,该存储器802配置为存储计算机程序指令,计算机程序指令适于由处理器801加载并执行如下方法:展示图像;接收开启标签模式的指令,对所述图像标记标签,得到所述图像的实体,并以标签形式在所述图像上显示各个实体;响应于用户点击所述图像上任意一个实体的操作,获取至少一个数据源中的数据,并基于所述至少一个数据源中的数据,对所述实体进行对齐;根据对齐结果,将所述实体对应的属性信息展示在所述图像上。该实施例与前文所述的实施例类似,不再赘述。

由此可见,本发明实施例通过多种方式对图像进行标记标签,扩充了图像的实体,而且通过外部数据源对实体进行对齐,丰富了属性信息,从而扩充了知识图谱。本发明实施例既考虑到了画作的图像和文本知识的展示,又考虑到了交互形式的多样性,能够让用户在欣赏画作时获得更多知识,了解更多画作信息,由此提高用户的美学教育。

需要说明的是,对于上述的系统、方法和电子设备实施例,为了简单描述,故将其都表述为一系列的动作或模块组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序或模块连接的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行,某些模块可以采用其他连接方式。

本领域技术人员也应该知悉,说明书中所描述的实施例均属于一种实施例,上述实施例序号仅仅为了描述,所涉及的动作和模块并不一定是本发明所必须的。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括易失性存储介质或非易失性存储介质,例如u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1