基于大数据驱动的领域知识图谱构建方法及系统与流程

文档序号:17358312发布日期:2019-04-09 21:52阅读:471来源:国知局
基于大数据驱动的领域知识图谱构建方法及系统与流程

本发明涉及信息处理技术领域,特别涉及一种基于大数据驱动的领域知识图谱构建方法及系统。



背景技术:

领域知识图谱是从特定领域的特定资源中抽取实体和实体之间的语义关系而构建的语义网络,它包含的知识体系通常具有很强的领域针对性和专业性。但是目前国内外领域知识图谱构建的专利成果孤立地强调了知识图谱构建环节的某一方面,主要都是关于知识图谱中自然语言处理部分的关键技术,包括实体识别、关系识别、实体链接、知识融合、知识计算等,诸如知识图谱中的数据表示、存储格式或知识获取方法与模型等问题;另一个问题是,知识由数据构成,知识图谱的构建需要大数据平台的支持,但是研究中鲜少提及知识图谱构建过程的大数据处理流程,缺乏对知识图谱实际构建过程的指导价值。

知识图谱作为一种新的知识表示方法,属于语义网范畴,其目标是描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。按照覆盖面可分为通用知识图谱和领域知识图谱。目前已发布的知识图谱基本都是通用知识图谱,它强调广度,主要应用于搜索等业务,对准确度要求不是很高。

比如,(1)相关技术中公开了一种基于垂直领域的知识图谱的构建方法,包括抽取在线百科的类的词汇实现和类之间的上下位关系、领域知识的信息归并,领域的数据属性和关系属性的定义,最终完成实体层的学习;(2)相关技术中公开了一种基于知识点连接关系的知识图谱构建方法,通过获取元知识点,构建由元知识点构成的知识点数据库;根据教学知识点表征的内容选取元知识点,以及与元知识点存在依赖关系的基础知识点组合;确定基础知识点组合中每个元知识点相对于第一元知识点的路径长度;根据依赖层级以及路径长度,构建知识图谱。(3)相关技术中公开了一种中文旅游领域知识图谱构建方法及系统,采用一种混合式的实体属性知识扩充方法,集成了基于词汇场、监督学习、模式匹配,以及搜索引擎问答的实体属性知识扩充算法以实现旅游领域知识图谱构建任务。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种基于大数据驱动的领域知识图谱构建方法。该方法可以提供严格与丰富的数据模式,辅助各种复杂的分析应用或决策支持,且准确度高,在知识图谱实际构建过程具有指导价值且具有行业意义。

本发明的另一个目的在于提出一种基于大数据驱动的领域知识图谱构建系统。

为达到上述目的,本发明一方面提出了基于大数据驱动的领域知识图谱构建方法,包括以下步骤:爬取网络中的数据源,并获取第一数据信息;对所述数据源进行数据信息抽取,以提取实体之间的关联信息;对所述实体之间的关联信息进行知识融合,并建立关系型数据库;将所述关系型数据库转化成图数据库模型,以构建知识图谱。

本发明实施例的基于大数据驱动的领域知识图谱构建方法,强调知识图谱构建环节中的每个环节,为领域知识图谱的构建提供实际技术指导,从而构建出准确度高、数据模式丰富严格,可以辅助复杂分析与决策支持的领域知识图谱,并且构建过程具有指导价值且具有行业意义,对于实际生产生活具有更重要的意义。

另外,根据本发明上述实施例的基于大数据驱动的领域知识图谱构建方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述数据源包括结构化数据、半结构化数据和非结构化数据。

进一步地,在本发明的一个实施例中,所述对所述数据源进行信息抽取,包括:对所述数据源从半结构化和非结构数据中抽取实体、关系以及实体属性结构化信息,以得到所述关联信息。

进一步地,在本发明的一个实施例中,所述对所述实体之间的关联信息进行知识融合,包括:根据所述实体之间的关联信息提取信息特征,以消除概念歧义、剥除冗余和错误概念;对所述信息特征进行实体链接,以得到关系型数据。

进一步地,在本发明的一个实施例中,所述对所述信息特征进行实体链接,包括:将所述信息特征链接到知识库中对应的正确实体对象。

进一步地,在本发明的一个实施例中,所述对所述实体之间的关联信息进行知识融合,并建立关系型数据库,还包括:抽取实体指称项;根据所述实体指称检测同名实体是否表示不同含义以及是否存在其他命名实体表示相同含义,以进行实体消歧和共指消解;确认所述知识库中对应的实体对象后,将所述实体指称项链接到所述实体对象。

进一步地,在本发明的一个实施例中,还包括:在预设时长后,爬取所述数据源,并获取第二数据信息;根据所述第二数据信息判断所述第一数据信息是否发生变更;如果所述第一数据信息发生变更,则获取变更数据,并将所述变更数据转化成所述图数据库模型,以并入所述知识图谱。

为达到上述目的,本发明另一方面提出了一种基于大数据驱动的领域知识图谱构建系统,包括:采集模块,用于爬取网络中的数据源,并获取第一数据信息;处理模块,用于对所述数据源进行数据信息抽取,以提取实体之间的关联信息;存储模块,用于对所述实体之间的关联信息进行知识融合,并建立关系型数据库;构建模块,用于将所述关系型数据库转化成图数据库模型,以构建知识图谱。

本发明实施例的基于大数据驱动的领域知识图谱构建系统,强调知识图谱构建环节中的每个环节,为领域知识图谱的构建提供实际技术指导,从而构建出准确度高、数据模式丰富严格,可以辅助复杂分析与决策支持的领域知识图谱,并且构建过程具有指导价值且具有行业意义,对于实际生产生活具有更重要的意义。

另外,根据本发明上述实施例的基于大数据驱动的领域知识图谱构建系统还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述数据源包括结构化数据、半结构化数据和非结构化数据。

进一步地,在本发明的一个实施例中,还包括:更新模块,用于在预设时长后,再次爬取所述数据源获取第二数据信息,根据所述第二数据源判断所述第一数据源是否变更,若数据变更,则将变更数据转化成所述图数据库模型,以并入所述知识图谱中。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明一个实施例的知识图谱形式化定义框架图;

图2是本发明一个实施例的基于大数据驱动的领域知识图谱构建方法流程图;

图3是本发明一个实施例的关系型数据模式向图数据库模式转化流程图;

图4是本发明一个实施例的基于大数据驱动的领域知识图谱构建框架图;

图5是本发明一个具体实施例以“facialrecognition”在维基百科中的检索流程图;

图6是本发明另一个具体实施例的数据更新流程图;

图7是本发明一个实施例的基于大数据驱动的领域知识图谱构建系统结构示意图。

具体实施方式

下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

首先,知识图谱的形式化定义为:从逻辑上可将知识图谱划分为数据层和模式层两个层次。在知识图谱的数据层,知识以事实为单位存储于图数据库中,以“实体-关系-实体”或者“实体-属性-属性值”三元组作为事实的基本表达方式,存储在图数据库中所有事实所构成的庞大实体关系网络就形成了知识图谱。模式层在数据层之上,是知识图谱的核心。在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。

因此,本发明实施例提出知识图谱的定义方式为:知识图谱g由模式图gs、数据图gd及二者之间的关系r组成,可表示成公式(1)。

g=<gs,gd,r>(1)

gs=<ns,es>(2)

gd=<nd,ed>(3)

如图1所示,模式图gs由ns和es组成,可表示为公式(2)。其中,ns表示类节点的集合,es表示属性边的集合,模式图gs中的类(结点)即为知识图谱中的概念,而属性(边)则对应概念之间的语义关系。数据图gd由nd和ed组成,可表示为公式(3),其中,nd表示实例(结点)即为知识图谱中在现实中存在的实体,ed表示实例关系(边)连接两个结点表示的一条三元组事实。

接下来参照附图描述根据本发明实施例提出的基于大数据驱动的领域知识图谱构建方法及系统,首先将参照附图描述根据本发明实施例提出的基于大数据驱动的领域知识图谱构建方法。

图2是本发明一个实施例的基于大数据驱动的领域知识图谱构建方法流程图。

如图2所示,该基于大数据驱动的领域知识图谱构建方法包括以下步骤:

在步骤s101中,爬取网络中的数据源,并获取第一数据信息。

其中,数据源包括结构化数据、半结构化数据和非结构化数据。

具体地,对于结构化数据,有大量的链接开放数据和存放在关系数据库中的领域知识。对于半结构化数据,有维基百科、互动百科、百度百科等百科网站提供的信息框(infobox)以及不同领域下的垂直站点包含的大量表格、列表数据等。非结构化数据是指网络数据中大量的纯文本内容,其知识覆盖度最广,但抽取难度也最大,通常需要使用自然语言处理(naturallanguageprocessing,nlp)技术进行预先处理,包括分词、词性标注、命名实体识别和句法分析等步骤;然后借助统计分析、机器学习等技术获取知识。知识图谱的构建数据来源大部分来自于网络资源,需要借助爬虫获取。

在步骤s102中,对数据源进行数据信息抽取,以提取实体之间的关联信息。

进一步地,对数据源进行信息抽取包括:对数据源从半结构化和非结构数据中抽取实体、关系以及实体属性结构化信息,以得到关联信息。

具体而言,信息抽取是知识图谱构建的第一步,是一种自动化地从半结构化和非结构数据中进行实体抽取、关系抽取以及实体属性抽取等的结构化信息技术。

实体抽取,即命名实体识别,是指从文本数据集中自动识别出命名实体.实体抽取的质量对后续知识获取的效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

关系抽取,文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能够形成网状的知识结构。

实体属性抽取的目标是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。

需要说明的是,实体抽取和关系抽取主要依据机器学习模型实现,属性抽取则主要来源于网络上类似于信息框(infobox)之类的半结构化数据。

在步骤s103中,对实体之间的关联信息进行知识融合,并建立关系型数据库。

进一步地,在本发明的一个实施例中,对实体之间的关联信息进行知识融合包括:根据实体之间的关联信息提取信息特征,以消除概念歧义、剥除冗余和错误概念;对信息特征进行实体链接,以得到关系型数据。

另外,在步骤s103中还包括:抽取实体指称项;根据实体指称检测同名实体是否表示不同含义以及是否存在其他命名实体表示相同含义,以进行实体消歧和共指消解;确认知识库中对应的实体对象后,将实体指称项链接到实体对象。

需要说明的是,通过信息抽取实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标,然而这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。其中,知识融合包括:实体链接和知识合并。

实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作,一般流程是:从文本中通过实体抽取得到实体指称项;然后进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;最后再确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。因此,在实体链接步骤中最为重要的任务是构建一个准确且丰富的同义词库。

知识合并在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。例如,关联开放数据项目会定期发布其经过积累和整理的语义知识数据等。

在步骤s104中,将关系型数据库转化成图数据库模型,以构建知识图谱。

其中,对信息特征进行实体链接包括:将信息特征链接到知识库中对应的正确实体对象。

具体而言,如图3所示,基于之前处理得到的关系型数据模式(包括实体及实体关系、实体属性和实体属性值)完成向图数据库模式的转化,其中,关系型数据库转化为图数据库模式,一般遵循以下几点原则进行转换:

(1)每个节点标签用实体表的表名表示,即将实体表的表名作为节点标签名。例如,数据表名为“企业”,则建立标签为“企业”的节点类型。

(2)实体表中的每一行对应一个节点,关系数据表中每一行都可以完整地描述一个实体及其属性值,同时可以确定节点的全局唯一标示符。

(3)关系表上的列成为节点属性,一行数据中,除唯一标示外,其余字段都对节点的补充和说明,因此均作为节点属性。

(4)描述实体之间关联关系的表被转换为关系,并且这些表上的列成为关系属性。关系表之间从一个主键指向其外键的结构关系,在图数据库中就是节点之间的关系,因此表上的列转化为关系的属性。

进一步地,本发明实施例的领域知识图谱构建方法还包括:在预设时长后,爬取数据源,并获取第二数据信息;根据第二数据信息判断第一数据信息是否发生变更;如果第一数据信息发生变更,则获取变更数据,并将变更数据转化成图数据库模型并入知识图谱。

需要说明的是,人类所拥有的信息和知识量都是时间的单调递增函数,故知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中(需要人工参与与审核后方可进行)。数据层的更新主要是新增或更新实体、关系和属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗余等问题)等多方面因素,相比于概念层的更新,数据层更新以自动化的方式完成,需要再经过信息抽取、知识融合与图谱构建三个过程处理之后方可入库。

下面结合构建知识图谱过程中所需的大数据相关技术对本发明实施例进行详细说明。

如图4所示,所需的大数据相关技术可以包括:数据采集子系统、数据处理子系统、数据存储子系统和数据更新子系统。

(1)数据采集子系统:从行业网站、第三方数据库、web日志中采集原始数据并导入hdfs格式结果文件中。本过程中除了采集原始数据,还可以通过本专利提出的一种基于百科类网站爬虫的同义实体扩充方法构建同义词库,以实现知识融合过程中的实体链接。

具体而言,本发明实施例可以基于pythonscrapy框架实现爬虫,获取网络数据,通过sqoop将导入事件打包成一个mapreduce任务,提交至hadoop分布式环境,并行地从数据源获取数据,最终生成hdfs格式结果文件。

在过程中除了完成原始数据的采集,还可以通过基于百科类网站爬虫的同义实体扩充方法构建一个准确且丰富的同义词库,以实现知识融合中的实体链接。具体方法如下:

在网络中以实体e为初始检索词,设置检索深度为n,迭代次数为m,表示从前n条检索结果的中爬取来源于维基百科、百度百科或mba智库等百科类网站,将页面中“别名”或者“推荐相关关键词”添加进同义词库与检索词库,并在下一轮进行爬取,假设添加了e1,e2,e3……en,则再以e1,e2,e3……en为关键词进行检索,直到迭代次数减少为0时停止。最终的e集合则为该实体的同义词库。

例如,如图5所示,在英文版维基百科中检索“facialrecognition”,推荐相关关键词部分如step1所示;以step1中所有推荐关键词进行检索,我们以“facedetection”为例进行检索,推荐相关关键词部分如下所示step2所示;以此类推,以“computationalphotography”为关键词进行检索,推荐相关关键词部分如step3所示。

本发明实施例具体的实现过程以伪代码表示如下:entitywordlist为初始实体同义词库,entitysearchwordlist为初始检索词库,以实体e作为初始检索词,设置检索深度searchdepth为n,迭代次数searchtimes为m,调用searchcommonentity方法,首先判断是否继续迭代,若是,则对entitysearchwordlist进行遍历,先将检索词加入实体同义词库,再以该词为检索词,调用searchspider函数获得与该词所有的检索结果,再调用getencyclopedia对得到的url进行进一步筛选,只留下和百科类相关的url链接,并对url链接进行遍历,调用getrelatedwords获取页面中的关联词汇,若不在暂存检索词列表tempsearchwordlist中,则添加。下一次迭代完成后,所有的检索词都会加入同义词库,所有的暂存检索词都会加入检索词库,这样做的意义是避免对同一个词进行多次爬取。

(2)数据处理子系统:在大多数情况下,原始数据采集完成进入hdfs后存在诸多问题,需要对数据进行预处理。并且在此步骤中可以基于spark调用机器学习模型完成实体、关系、属性的抽取,完成由非(半)结构化数据向结构化数据的转化。

本发明实施例的数据处理主要是基于hive完成数据预处理和基于spark完成非(半)结构化向结构化数据的转换。

其中,hive是一个基于hadoop的数据仓库的基础架构,一种可以存储、查询和分析在hdfs中大规模数据的机制。它可以用来进行海量数据提取、转换、加载(etl)。hive定义了简单的类sql查询语言(hql),经过对语句进行解析和转换,最终生成一系列的mapreduce任务进行数据处理,提供使用者部分与传统rdbms一样的表格查询特性和分布式存储计算特性。

apachespark是继hadoop之后比较流行的新一代大数据处理平台,也是一个快速通用的计算引擎,目前已经得到广泛的使用。由于设计上的改进,在内存运行方面,spark比mapreduce快近100倍,基于硬盘运行则是mapreduce的10倍,因此spark能更好地适用于需要mapreduce迭代的场景,比如数据挖掘与机器学习等。spark生态圈包含了sparkcore、sparksql、sparkstreaming、mllib和graphx等组件,这些组件相辅相成,形成一个强大的一站式大数据处理平台。

(1)基于hive完成数据预处理

在大多数情况下,原始数据采集完成进入hdfs后,都存在诸多问题,比如数据字段缺失、包含错误或异常值、编码或命名差异等问题,因此需要对数据进行预处理,将原始的输入数据转换成适合分析的数据形式。数据预处理一般分为三个步骤:数据选取、数据表属性一致化、数据清理。

数据选取:从用户的原始数据库中由用户指定选出用户感兴趣的、与知识发现任务相关的数据表项。因数据库中的数据数量巨大,涵盖范围也相对比较广泛。有些数据表格中的数据根本上是没有联系的。如果不对数据库进行简单筛选,则会使无用数据参与挖掘过程,造成各种资源上的浪费。一般采取人机结合的方式。人工选择较高概念层次上的数据类别,通过预先编制好的程序来选择数据库中具体的数据表格和数据列。

数据表属性一致化:当待挖掘的数据表已经选取完毕时,我们开始对这些数据表中的数据进行挖掘前的预处理。作为挖掘前的准备,需要根据同义词库对同一实体的不同命名表示来进行一致化,进行清理和整合,得到一个统一的、清晰的数据表示。此步骤对应于知识图谱构建过程中的实体链接。

需要注意的是,有时候同一属性的属性值有可能采用不同的度量单位,如学生成绩一般用百分制来表示,但也有时会采用五分制,或者“优、良、及格、差”等模糊的评判标准,我们可以根据需要来确定一个标准,并且规定一个转换方式,将非标准表示转换为标准表示。所有的更改需要记录下来,已备将来查阅或者数据更新时需要。

数据清理:前面两个步骤完成后,挖掘数据库的框架和规格已经确定。下面将对其中的数据进行具体处理,主要解决的问题有:空缺值、错误数据、噪声数据和孤立点。

a.处理空缺值可采取以下几种方法:①忽略,当一个元组的多个属性值空缺时,通常忽略它,即在数据表格中删除;②填补,当元组仅有少数属性值缺少,一般要对空缺值进行填补。填补有多种方式,人工填补、全局常量和所属属性下的平均值。还可以对该属性下的数据应用推导工具(判定树等),通过对其他数值的分析来得到最可能的填充值。对于不同属性下的空缺值,我们需要不同的处理方法。通常认为应用推导工具分析出来的数值更加可靠和有实用价值。

b.处理错误数据。首先要能分辨出带有错误数据的元组,然后决定是更改数据还是忽略元组。通常在定义数据字典时,对数据有一个基本的规定。在这之上,现实世界中的事物都有其自身的约束,数据库中数据所系的实体亦然。譬如,学生考试分数是在0~100间的一个实数(其他的表示方式转换过来也应该满足这一要求)。这就是“学生成绩”属性下的一个约束,如果有哪一个元组的该属性下的值跳出这一范围,那么这是一个错误数据。当然并不是所有的约束都这么简单,但总可以找出一个函数来作为约束函数。这个函数有可能是属性自身相关的,也有可能是多属性相关的。

c.处理噪声数据。噪声数据,包括孤立点。对于一个变量的测量总会存在偏差,这些偏差就是噪声,如果偏差较大,就是孤立点。通常处理偏差的技术称为平滑技术。具体有以下几个方法:①分箱(binning),即将数据平均分入几个箱中,对每个箱子里的数值进行转换,可以转换为箱中所有数值的平均值、中值或者边界值。转换后,数值的变化范围就相应缩小了。事实上,这是数据离散化的一种方式。②聚类(clustering),聚类消除了噪声,同时可以发现孤立点,聚类分析有相应专门的技术,这里不赘述。③回归(regression),线性回归和多线性回归分析可以应用到噪声的消除中。

(2)非(半)结构化数据转化为结构化数据

非结构化数据是指网络数据中大量的纯文本内容,其知识覆盖度最广,但抽取难度也最大,通常需要使用自然语言处理技术进行处理。只有完成非结构化数据向结构化数据的转换,才能从关系型数据库完成向图数据库模式的转化并构建图谱。

相关技术中,模型与应用工程一般独立开发,通过将模型封装成restfulapi提供服务。但在大数据环境中存在两个问题,一是在大数据量情况下,单机处理耗时长;二是异步任务执行耗时会超过http最大连接时长,难以监控数据处理状态以及过程中的异常情况。

然而,本发明实施例是基于spark的模型调用和计算方式,有以下两种方式,一是基于sparkmllib进行开发,sparkmllib是spark自带的机器学习算法库,包含了大量的分类、回归、聚类、降维等算法。例如使用随机森林进行分类,系统的执行引擎根据流程的结点信息,实例化具有相应参数的randomforestclassifier对象,调用fit方法对输入的数据进行拟合,生成相应的model对象,然后通过中间数据管理模块将模型序列化保存,供后续的预测或验证组件使用。通过这种方法,能够保证每个学习算法的质量,而且能与spark社区同步,快速的添加新的算法组件。二是基于python、r等其他语言进行模型开发,以python为例,可以通过pyspark提交任务,即使是单机执行,但因为spark把数据加载在内存的原因也会比传统执行方式快很多。至于异步任务执行耗时会超过http最大连接时长的问题,可以借助应用工程框架中间件实现,比如node环境下的koa框架就能很好的解决异步任务处理以及异常监控问题。

(3)数据存储子系统:数据存储主要负责存储采集、计算、构建以及更新过程中的源数据和结果数据。在知识图谱构建的不同阶段,数据存储格式也有所区别,最终生成的图谱存储于neo4j和hbase中。

数据存储主要负责存储采集、计算、构建以及更新过程中的源数据和结果数据。举例而言,如表1所示,按照数据的性质我们可以把数据分成四个等级:第一级是爬虫采集过来的原始数据,主要存放在hdfs文件系统中;第二个级别是经过数据处理和知识融合后的三元组数据,包括“实体-关系-实体”、“实体-属性-属性值”、“关系-属性-属性值”等,这些数据存放在hbase中;第三级是构建好的企业图谱数据,存放在neo4j图数据库和hbase数据库里面;第四级是图谱更新数据,包括更新类型和内容三元组,存放在hbase数据库中。实体的属性可以分为静态属性和动态属性。其中静态属性主要是指很少变化,又比较重要、区分度高的属性,比如企业名称、组织机构代码、股票代码等。动态属性是指经常变动又不是必须的属性,比如变更记录、招投标记录、知识产权、招聘信息等。静态属性直接附加到实体并存入neo4j数据库;动态属性主要存放在hbase数据库并通过实体的唯一标识进行引用。

表1

(4)数据更新子系统:为了实现知识图谱的增量更新,需要通过调度系统定时自动完成数据采集、处理和存储工作。

具体而言,为了实现知识图谱的增量更新,需要通过调度系统启动爬虫的操作和同义词库的爬取、在数据入库之后基于hive对数据进行预处理与模型调用,并将更新数据并入图谱。一个可靠的调度系统对于整个系统的稳健运行是至关重要的。为了保障系统作业的性能,使得人们可以更好的高效地完成计划的作业任务,确保计划的任务准确及时的得到执行,unix&linux下的守护进程cron无疑成为最佳的选择。该守护进程的作用就是定时的执行crontab文件中用户指定的任务。

需要说明的是,在爬取网页过程中url是相对稳定的,网页内容是可能变更的,爬虫可通过比较两次抓取内容的md5摘要值来实现网页内容是否发生变更的快速辨别。

根据本发明实施例提出的基于大数据驱动的领域知识图谱构建方法,强调知识图谱构建环节中的每个环节,为领域知识图谱的构建提供实际技术指导,从而构建出准确度高、数据模式丰富严格,可以辅助复杂分析与决策支持的领域知识图谱,并且构建过程具有指导价值且具有行业意义,对于实际生产生活具有更重要的意义。

其次参照附图描述根据本发明实施例提出的基于大数据驱动的领域知识图谱构建系统。

图7是本发明一个实施例的基于大数据驱动的领域知识图谱构建系统结构示意图。

如图7所示,该基于大数据驱动的领域知识图谱构建系统10包括:采集模块100、处理模块200、存储模块300、构建模块400和更新模块500。

其中,采集模块100用于爬取网络中的数据源,并获取第一数据信息。处理模块200用于对数据源进行数据信息抽取,以提取实体之间的关联信息。存储模块300用于对实体之间的关联信息进行知识融合,并建立关系型数据库。构建模块400用于将关系型数据库转化成图数据库模型,以构建知识图谱。更新模块500用于在预设时长后,再次爬取数据源获取第二数据信息,根据第二数据源判断第一数据源是否变更,若数据变更,则将变更数据转化成图数据库模型,以并入知识图谱中。

需要说明的是,前述对基于大数据驱动的领域知识图谱构建方法实施例的解释说明也适用于该系统,此处不再赘述。

根据本发明实施例提出的基于大数据驱动的领域知识图谱构建系统,强调知识图谱构建环节中的每个环节,为领域知识图谱的构建提供实际技术指导,从而构建出准确度高、数据模式丰富严格,可以辅助复杂分析与决策支持的领域知识图谱,并且构建过程具有指导价值且具有行业意义,对于实际生产生活具有更重要的意义。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1