基于结构化数据的知识图谱构建方法和装置制造方法

文档序号:6639643阅读:530来源:国知局
基于结构化数据的知识图谱构建方法和装置制造方法
【专利摘要】本发明提供了一种基于结构化数据的知识图谱构建方法和装置,该方法包括:获取一条或多条包含实体名称及对应实体属性信息的结构化数据;提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;将所述生成的数据结构对作为知识图谱数据项进行存储。本发明基于结构化数据的结构性特点构建知识图谱,使得知识图谱中数据项的架构包括实体名称及对应实体属性信息,基于知识图谱结构化数据对外提供搜索服务时,能够直观、精确地将实体属性信息作为搜索结果提供给用户。
【专利说明】基于结构化数据的知识图谱构建方法和装置

【技术领域】
[0001]本发明涉及信息搜索领域,特别是一种基于结构化数据的知识图谱构建方法和装置,以及一种利用知识图谱结构化数据提供搜索的方法和装置。

【背景技术】
[0002]随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
[0003]目前搜索引擎在互联网上搜集信息时主要是通过网页之间的链接关系来收集数据,因而现有的搜索给出的结果是与搜索词相关的网页。对于存储在网络数据库中的信息内容,如人民币的汇率,春运车票发售时间等,目前的搜索引擎难以通过网页抓取的方式去获取,因而在返回的搜索结果中无法直接地展示这些信息,这部分信息对于用户来说是隐藏的,而隐藏的这些信息对于用户又是非常重要的。因此,如何使搜索引擎搜索到互联网上的各种信息,并直观、精确地作为搜索结果进行呈现成为目前亟待解决的技术问题。


【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于结构化数据的知识图谱构建方法和装置,以及利用知识图谱结构化数据提供搜索的方法和装置。
[0005]依据本发明的一个方面,提供了一种基于结构化数据的知识图谱构建方法,包括:获取一条或多条包含实体名称及对应实体属性信息的结构化数据;提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;将所述生成的数据结构对作为知识图谱数据项进行存储。
[0006]可选地,所述实体属性信息至少包括实体属性名称及对应属性赋值。
[0007]可选地,所述获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式包括下列至少之一:
[0008]从指定的结构化数据库中获取;
[0009]接收网站站长推送。
[0010]可选地,所述方法还包括:比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息;若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。
[0011]可选地,所述方法还包括:搜索与各属性赋值相关的网页文档;在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。
[0012]依据本发明的另一个方面,提供了一种利用知识图谱结构化数据提供搜索的方法,包括:接收来自用户的搜索词,解析出所述搜索词中包含的实体名称及实体属性名称;利用知识图谱结构化数据,查找与所述实体名称和/或实体属性名称匹配的条目数据;根据所述知识图谱结构化数据中所述条目数据的映射关系,查找到与所述实体名称和/或实体属性名称对应的知识图谱信息,并返回给所述用户。
[0013]可选地,与所述实体名称和/或实体属性名称对应的知识图谱信息包括下列至少之一:
[0014]所述实体名称对应的实体属性信息;
[0015]所述实体属性名称对应的属性赋值;
[0016]所述实体属性名称对应的属性赋值相关的网页文档。
[0017]依据本发明的再一个方面,还提供了一种基于结构化数据的知识图谱构建装置,包括:
[0018]获取器,适于获取一条或多条包含实体名称及对应实体属性信息的结构化数据;
[0019]生成器,适于提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;
[0020]构建器,适于将所述生成的数据结构对作为知识图谱数据项进行存储。
[0021]可选地,所述实体属性信息至少包括实体属性名称及对应属性赋值。
[0022]可选地,所述获取器获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式包括下列至少之一:
[0023]从指定的结构化数据库中获取;
[0024]接收网站站长推送。
[0025]可选地,所述装置还包括:更新器,适于比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息;若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。
[0026]可选地,所述构建器还适于:搜索与各属性赋值相关的网页文档;在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。
[0027]依据本发明的又一个方面,还提供了一种利用知识图谱结构化数据提供搜索的装置,包括:
[0028]数据输入器,适于接收来自用户的搜索词;
[0029]数据解析器,适于解析出所述搜索词中包含的实体名称及实体属性名称;
[0030]知识图谱数据库,适于存储知识图谱结构化数据;
[0031]搜索器,适于利用所述知识图谱结构化数据,查找与所述实体名称和/或实体属性名称匹配的条目数据,根据所述知识图谱结构化数据中所述条目数据的映射关系,查找到与所述实体名称和/或实体属性名称对应的知识图谱信息;
[0032]数据输出器,适于将所述知识图谱信息返回给所述用户。
[0033]可选地,与所述实体名称和/或实体属性名称对应的知识图谱信息包括下列至少之一:
[0034]所述实体名称对应的实体属性信息;
[0035]所述实体属性名称对应的属性赋值;
[0036]所述实体属性名称对应的属性赋值相关的网页文档。
[0037]本发明提供了基于结构化数据构建知识图谱的方案,首先获取一条或多条包含实体名称及对应实体属性信息的结构化数据,随后提取结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对,进而将生成的数据结构对作为知识图谱数据项进行存储。由此可知,本发明获取的结构化数据能够用来描述实体相关的属性信息,且其数据结构稳定、变化频次低,因而从结构化数据中提取包含的实体名称及其属性信息的映射关系,从而将生成对应的数据结构对作为知识图谱的构建基础,向用户提供搜索服务,能够为用户提供准确的搜索结果。并且,本发明基于结构化数据的结构性特点构建知识图谱,使得知识图谱中数据项的架构包括实体名称及对应实体属性信息,基于知识图谱结构化数据对外提供搜索服务时,能够直观、精确地将实体属性信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。此外,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信肩、O
[0038]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
[0039]根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

【专利附图】

【附图说明】
[0040]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0041]图1示出了搜索服务系统的通用架构示意图;
[0042]图2示出了根据本发明一个实施例的基于结构化数据的知识图谱构建方法的流程图;
[0043]图3示出了根据本发明一个实施例的利用知识图谱结构化数据提供搜索的方法的流程图;
[0044]图4示出了根据本发明一个实施例的搜索词为“张三的工作单位的地址”的搜索结果示意图;
[0045]图5示出了根据本发明一个实施例的基于结构化数据的知识图谱构建装置的结构示意图;
[0046]图6示出了根据本发明另一个实施例的基于结构化数据的知识图谱构建装置的结构示意图;以及
[0047]图7示出了根据本发明一个实施例的利用知识图谱结构化数据提供搜索的装置的结构示意图。

【具体实施方式】
[0048]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0049]在介绍本发明提供的基于结构化数据构建知识图谱的方案之前,先简要介绍知识图谱这个概念。知识图谱旨在描述真实世界中存在的各种实体或概念,每个实体或概念用一个全局唯一确定的ID (Identity,身份标识号)来标识。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的网状图,网状图中的节点表示实体或概念,而网状图中的边则由属性或关系构成。知识图谱主要就是构建和维护上述的实体和关系,为搜索中的推荐系统、语义理解、问题回答等提供支持。此外,知识图谱并不是一张静态的网状图,它会根据外界的变化而进行自我调整与更新。
[0050]基于上述知识图谱提供搜索知识图谱信息的服务,整体搜索服务系统的通用架构如图1所示,由查询解析模块、知识图谱数据库、结果处理模块三部分组成。这里,查询解析模块的功能是分析用户输入的搜索词,判断用户的查询是否属于知识图谱数据库覆盖的范围,将现有知识图谱数据库覆盖的查询转成知识图谱数据库可以理解的查询语言,提交给知识图谱数据库。其次,知识图谱数据库是整个搜索服务系统的核心部分,它是从互联网海量数据(例如结构化数据、网页源数据、用户生成数据等)利用数据挖掘方法整理组织起来,并通过特有的查询语言查询知识图谱数据库中相关的知识信息。再者,结果处理模块的功能是根据用户查询和知识图谱数据库返回的知识信息,组织成可视化的搜索结果展示给用户。
[0051]因而,知识图谱数据库覆盖的领域知识范围决定了搜索服务系统为用户解答问题的能力,因此构建一个覆盖多领域知识的通用知识图谱数据库是搜索服务系统实现的一个重点。在大数据环境下可以利用的数据资源空前丰富,本发明提供了一种基于结构化数据的知识图谱构建方法。图2示出了根据本发明一个实施例的基于结构化数据的知识图谱构建方法的流程图。如图2所示,该方法至少包括以下步骤S202至步骤S206。
[0052]步骤S202、获取一条或多条包含实体名称及对应实体属性信息的结构化数据。
[0053]步骤S204、提取结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对。
[0054]步骤S206、将生成的数据结构对作为知识图谱数据项进行存储。
[0055]本发明提供了基于结构化数据构建知识图谱的方案,首先获取一条或多条包含实体名称及对应实体属性信息的结构化数据,随后提取结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对,进而将生成的数据结构对作为知识图谱数据项进行存储。由此可知,本发明获取的结构化数据能够用来描述实体相关的属性信息,且其数据结构稳定、变化频次低,因而从结构化数据中提取包含的实体名称及其属性信息的映射关系,从而将生成对应的数据结构对作为知识图谱的构建基础,向用户提供搜索服务,能够为用户提供准确的搜索结果。并且,本发明基于结构化数据的结构性特点构建知识图谱,使得知识图谱中数据项的架构包括实体名称及对应实体属性信息,基于知识图谱结构化数据对外提供搜索服务时,能够直观、精确地将实体属性信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。此外,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信肩、O
[0056]上文步骤S202提及的结构化数据用来描述实体相关的属性或关系信息,例如,汉字的拼音、部首、笔画、释义等属性,人物的身高、体重、年龄等属性,张三的父母、妻子、子女等关系,等等。并且,结构化数据是指一些结构属性固定的数据,这部分数据的特点是数据结构稳定、变化频次低。此外,步骤S202获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式可以是从指定的结构化数据库中获取,如百科数据库等,也可以接收网站站长推送的结构化数据,例如网站站长可以认为是合作方,其按照双方约定的协议规范将要提交的结构化数据拼装成XML (Extensible Markup Language,可扩展标记语言)格式的文件,随后进行推送。
[0057]进一步地,实体属性信息至少包括实体属性名称及对应属性赋值,此时步骤S204提取结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对,即“实体名称-属性名称-属性赋值”三元数据结构对,例如“延-拼音_yan”、“延-笔画-6”、“李四-身高-170cm”等等。又例如,三元数据结构对为“张三-女儿-张月”、“张三-同事-李四”、“张三-工作单位-360公司”,此时三元数据结构对可以为“实体1-属性(或关系)-实体2”。
[0058]此外,本发明还可以对知识图谱数据项进行更新操作,在本发明的优选方案中,可以比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息,若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。例如,当前获取的张三的工作地址是知春路,上一次获取的张三的工作地址是五道口,此时采用数据结构对“张三-工作地址-知春路”替换“张三-工作地址-五道口”。或者,可以存储数据结构对“张三-工作地址1-五道口”、“张三-工作地址2-知春路”。或者,还可以存储数据结构对“张三-X年X月工作地址-五道口”、“张三-X年X月工作地址-知春路”。当然,上述知识图谱数据项的更新方式仅是列举的,并不用于限制本发明,本发明中还可以是其它更新方式。
[0059]进一步地,在本发明的优选方案中,还可以搜索与各属性赋值相关的网页文档,进而在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。例如,数据结构对“张三-工作单位-360公司”,这里的属性赋值为“360公司”,可以搜索与“360公司”相关的网页文档,如360公司百科、360公司官网等等,进而在“360公司”与其相关的网页文档之间建立关联,以供搜索使用。
[0060]相应的,本发明还提供了一种利用上文构建的知识图谱结构化数据提供搜索的方法。图3示出了根据本发明一个实施例的利用知识图谱结构化数据提供搜索的方法的流程图。如图3所示,该方法至少包括以下步骤S302至步骤S306。
[0061 ] 步骤S302、接收来自用户的搜索词,解析出搜索词中包含的实体名称及实体属性名称。
[0062]步骤S304、利用知识图谱结构化数据,查找与实体名称和/或实体属性名称匹配的条目数据。
[0063]步骤S306、根据知识图谱结构化数据中条目数据的映射关系,查找到与实体名称和/或实体属性名称对应的知识图谱信息,并返回给用户。
[0064]本发明基于知识图谱结构化数据对外提供搜索服务时,能够直观、精确地将知识图谱信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。此外,基于结构化数据的特点,本发明能够将相关知识图谱信息系统化地提供给用户,使得用户获取更多的知识图谱信息。
[0065]上文步骤S302解析出搜索词中包含的实体名称及实体属性名称可以通过多种方式来实现。例如,在预先配置的、包含实体名称和实体属性名称的索引词中匹配搜索词,进而根据匹配的结果,得到该搜索词对应的实体名称和实体属性名称,如预先在索引词中配置“张三的身高”,若用户搜索“张三的身高”时,即命中索引词。又例如,在预先配置的、包含实体属性名称的正则规则中匹配搜索词,进而根据匹配的结果,得到该搜索词对应的实体名称和实体属性名称,如预先配置正则规则“~(.+ ?)的身高”,若用户搜索“李四的身高”时,就匹配上了这条正则规则,即正则命中。再例如,对搜索词作分词处理,并在预置的、包含实体名称及实体属性名称的词类别组合中匹配搜索词对应的分词,进而根据匹配的结果,得到搜索词对应的实体名称和实体属性名称。举例来说,预先配置“张三”为关键词、“身高”为属性词,“的”为停用词,然后再配置词类别的组合规则,比如配置一条组合规则,关键词属性词,若用户搜索“张三的身高”,则先对搜索词“张三的身高”作分词处理,结果为张三/的/身高,抛掉停用词“的”,剩下“张三身高”,匹配上了 “关键词属性词”这条组合规则。
[0066]在上文步骤S302解析出搜索词中包含的实体名称及实体属性名称之后,步骤S304利用知识图谱结构化数据,查找与实体名称和/或实体属性名称匹配的条目数据,随后步骤S306根据知识图谱结构化数据中条目数据的映射关系,查找到与实体名称和/或实体属性名称对应的知识图谱信息,并返回给用户。这里,与实体名称和/或实体属性名称对应的知识图谱信息可以包括实体名称对应的实体属性信息,实体属性名称对应的属性赋值,实体属性名称对应的属性赋值相关的网页文档,等等。
[0067]下面通过具体的优选实施例对本发明实施例提供的利用知识图谱结构化数据提供搜索的方法做进一步说明。在本实施例中,用户输入搜索词为“张三的工作单位的地址”,当接收到来自用户的搜索词后,解析出该搜索词中包含的实体名称为“张三”,实体属性名称为“工作单位”和“地址”。随后,利用知识图谱结构化数据,查找与实体名称“张三”和/或第一个实体属性名称“工作单位”匹配的条目数据为“张三-工作单位-360公司”,进而查找到实体属性名称“工作单位”对应的属性赋值为“360公司”。接着,将“360公司”作为新的实体名称与第二个实体属性名称“地址”结合,查找与实体名称“360公司”和/或第二个实体属性名称“地址”匹配的条目数据为“360公司-地址-酒仙桥”,进而查找到实体属性名称“地址”对应的属性赋值为“酒仙桥”。最后,将上述查找到的知识图谱信息提供给用户,如图4所示。图4以图框的形式展示知识图谱信息,在实际应用中,图框本身可以是其他形状或颜色,也可以隐藏。进一步地,还可以触发“酒仙桥”链接至其相关的网页,如“酒仙桥”百科,“酒仙桥”地图,等等。
[0068]基于同一发明构思,本发明实施例还提供了一种基于结构化数据的知识图谱构建装置,以实现上述基于结构化数据的知识图谱构建方法。
[0069]图5示出了根据本发明一个实施例的基于结构化数据的知识图谱构建装置的结构示意图。参见图5,该装置至少可以包括:获取器510、生成器520以及构建器530。
[0070]现介绍本发明实施例的基于结构化数据的知识图谱构建装置的各组成或器件的功能以及各部分间的连接关系:
[0071]获取器510,适于获取一条或多条包含实体名称及对应实体属性信息的结构化数据;
[0072]生成器520,与获取器510相耦合,适于提取结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;
[0073]构建器530,与生成器520相耦合,适于将生成的数据结构对作为知识图谱数据项进行存储。
[0074]在一个实施例中,实体属性信息至少包括实体属性名称及对应属性赋值。
[0075]在一个实施例中,上述获取器510获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式包括下列至少之一:
[0076]从指定的结构化数据库中获取;
[0077]接收网站站长推送。
[0078]在一个实施例中,图6示出了根据本发明另一个实施例的基于结构化数据的知识图谱构建装置的结构示意图,该装置还可以包括更新器610,与构建器530相耦合,适于比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息;若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。
[0079]在一个实施例中,上述构建器530还适于:搜索与各属性赋值相关的网页文档;在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。
[0080]相应的,本发明实施例还提供了利用知识图谱结构化数据提供搜索的装置,以实现上述利用知识图谱结构化数据提供搜索的方法。
[0081]图7示出了根据本发明一个实施例的利用知识图谱结构化数据提供搜索的装置的结构示意图。参见图7,该装置至少可以包括:数据输入器710、数据解析器720、知识图谱数据库730、搜索器740以及数据输出器750。
[0082]现介绍本发明实施例的利用知识图谱结构化数据提供搜索的装置的各组成或器件的功能以及各部分间的连接关系:
[0083]数据输入器710,适于接收来自用户的搜索词;
[0084]数据解析器720,与数据输入器710相耦合,适于解析出搜索词中包含的实体名称及实体属性名称;
[0085]知识图谱数据库730,适于存储知识图谱结构化数据;
[0086]搜索器740,与数据解析器720及知识图谱数据库730相耦合,适于利用知识图谱结构化数据,查找与实体名称和/或实体属性名称匹配的条目数据,根据知识图谱结构化数据中条目数据的映射关系,查找到与实体名称和/或实体属性名称对应的知识图谱信息;
[0087]数据输出器750,与搜索器740相耦合,适于将知识图谱信息返回给用户。
[0088]在一个实施例中,与实体名称和/或实体属性名称对应的知识图谱信息包括下列至少之一:
[0089]实体名称对应的实体属性信息;
[0090]实体属性名称对应的属性赋值;
[0091]实体属性名称对应的属性赋值相关的网页文档。
[0092]根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
[0093]本发明提供了基于结构化数据构建知识图谱的方案,首先获取一条或多条包含实体名称及对应实体属性信息的结构化数据,随后提取结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对,进而将生成的数据结构对作为知识图谱数据项进行存储。由此可知,本发明获取的结构化数据能够用来描述实体相关的属性信息,且其数据结构稳定、变化频次低,因而从结构化数据中提取包含的实体名称及其属性信息的映射关系,从而将生成对应的数据结构对作为知识图谱的构建基础,向用户提供搜索服务,能够为用户提供准确的搜索结果。并且,本发明基于结构化数据的结构性特点构建知识图谱,使得知识图谱中数据项的架构包括实体名称及对应实体属性信息,基于知识图谱结构化数据对外提供搜索服务时,能够直观、精确地将实体属性信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。此外,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信肩、O
[0094]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0095]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0096]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0097]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0098]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于结构化数据的知识图谱构建装置以及利用知识图谱结构化数据提供搜索的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0099]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0100]至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
[0101]本发明还公开了:
[0102]Al、一种基于结构化数据的知识图谱构建方法,包括:
[0103]获取一条或多条包含实体名称及对应实体属性信息的结构化数据;
[0104]提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;
[0105]将所述生成的数据结构对作为知识图谱数据项进行存储。
[0106]A2、根据Al所述的方法,其中,所述实体属性信息至少包括实体属性名称及对应属性赋值。
[0107]A3、根据Al或A2所述的方法,其中,所述获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式包括下列至少之一:
[0108]从指定的结构化数据库中获取;
[0109]接收网站站长推送。
[0110]A4、根据A1-A3任一项所述的方法,其中,还包括:
[0111]比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息;
[0112]若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。
[0113]A5、根据A1-A4任一项所述的方法,其中,还包括:
[0114]搜索与各属性赋值相关的网页文档;
[0115]在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。
[0116]A6、一种利用知识图谱结构化数据提供搜索的方法,包括:
[0117]接收来自用户的搜索词,解析出所述搜索词中包含的实体名称及实体属性名称;
[0118]利用知识图谱结构化数据,查找与所述实体名称和/或实体属性名称匹配的条目数据;
[0119]根据所述知识图谱结构化数据中所述条目数据的映射关系,查找到与所述实体名称和/或实体属性名称对应的知识图谱信息,并返回给所述用户。
[0120]A7、根据A6所述的方法,其中,与所述实体名称和/或实体属性名称对应的知识图谱信息包括下列至少之一:
[0121]所述实体名称对应的实体属性信息;
[0122]所述实体属性名称对应的属性赋值;
[0123]所述实体属性名称对应的属性赋值相关的网页文档。
[0124]B8、一种基于结构化数据的知识图谱构建装置,包括:
[0125]获取器,适于获取一条或多条包含实体名称及对应实体属性信息的结构化数据;
[0126]生成器,适于提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;
[0127]构建器,适于将所述生成的数据结构对作为知识图谱数据项进行存储。
[0128]B9、根据B8所述的装置,其中,所述实体属性信息至少包括实体属性名称及对应属性赋值。
[0129]B10、根据B8或B9所述的装置,其中,所述获取器获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式包括下列至少之一:
[0130]从指定的结构化数据库中获取;
[0131]接收网站站长推送。
[0132]BI 1、根据B8-B10任一项所述的装置,其中,还包括:
[0133]更新器,适于比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息;若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。
[0134]B12、根据B8-B11任一项所述的装置,其中,所述构建器还适于:
[0135]搜索与各属性赋值相关的网页文档;
[0136]在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。
[0137]B13、一种利用知识图谱结构化数据提供搜索的装置,包括:
[0138]数据输入器,适于接收来自用户的搜索词;
[0139]数据解析器,适于解析出所述搜索词中包含的实体名称及实体属性名称;
[0140]知识图谱数据库,适于存储知识图谱结构化数据;
[0141]搜索器,适于利用所述知识图谱结构化数据,查找与所述实体名称和/或实体属性名称匹配的条目数据,根据所述知识图谱结构化数据中所述条目数据的映射关系,查找到与所述实体名称和/或实体属性名称对应的知识图谱信息;
[0142]数据输出器,适于将所述知识图谱信息返回给所述用户。
[0143]B14、根据B13所述的装置,其中,与所述实体名称和/或实体属性名称对应的知识图谱信息包括下列至少之一:
[0144]所述实体名称对应的实体属性信息;
[0145]所述实体属性名称对应的属性赋值;
[0146]所述实体属性名称对应的属性赋值相关的网页文档。
【权利要求】
1.一种基于结构化数据的知识图谱构建方法,包括: 获取一条或多条包含实体名称及对应实体属性信息的结构化数据; 提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对; 将所述生成的数据结构对作为知识图谱数据项进行存储。
2.根据权利要求1所述的方法,其中,所述实体属性信息至少包括实体属性名称及对应属性赋值。
3.根据权利要求1或2所述的方法,其中,所述获取一条或多条包含实体名称及对应实体属性信息的结构化数据的方式包括下列至少之一: 从指定的结构化数据库中获取; 接收网站站长推送。
4.根据权利要求1-3任一项所述的方法,其中,还包括: 比较当前获取的实体名称对应的实体属性信息与上一次获取的该实体名称对应的实体属性信息; 若存在差异,则利用当前获取的实体属性信息对上一次获取的实体属性信息进行变更操作。
5.根据权利要求1-4任一项所述的方法,其中,还包括: 搜索与各属性赋值相关的网页文档; 在各属性赋值与其相关的网页文档之间建立关联,以供搜索使用。
6.一种利用知识图谱结构化数据提供搜索的方法,包括: 接收来自用户的搜索词,解析出所述搜索词中包含的实体名称及实体属性名称; 利用知识图谱结构化数据,查找与所述实体名称和/或实体属性名称匹配的条目数据; 根据所述知识图谱结构化数据中所述条目数据的映射关系,查找到与所述实体名称和/或实体属性名称对应的知识图谱信息,并返回给所述用户。
7.根据权利要求6所述的方法,其中,与所述实体名称和/或实体属性名称对应的知识图谱信息包括下列至少之一: 所述实体名称对应的实体属性信息; 所述实体属性名称对应的属性赋值; 所述实体属性名称对应的属性赋值相关的网页文档。
8.一种基于结构化数据的知识图谱构建装置,包括: 获取器,适于获取一条或多条包含实体名称及对应实体属性信息的结构化数据;生成器,适于提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对; 构建器,适于将所述生成的数据结构对作为知识图谱数据项进行存储。
9.根据权利要求8所述的装置,其中,所述实体属性信息至少包括实体属性名称及对应属性赋值。
10.一种利用知识图谱结构化数据提供搜索的装置,包括: 数据输入器,适于接收来自用户的搜索词; 数据解析器,适于解析出所述搜索词中包含的实体名称及实体属性名称; 知识图谱数据库,适于存储知识图谱结构化数据; 搜索器,适于利用所述知识图谱结构化数据,查找与所述实体名称和/或实体属性名称匹配的条目数据,根据所述知识图谱结构化数据中所述条目数据的映射关系,查找到与所述实体名称和/或实体属性名称对应的知识图谱信息; 数据输出器,适于将所述知识图谱信息返回给所述用户。
【文档编号】G06F17/30GK104462501SQ201410804466
【公开日】2015年3月25日 申请日期:2014年12月19日 优先权日:2014年12月19日
【发明者】晋松, 王志龙, 吴凯 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1