基于动态本体的语义和知识图谱分析方法、平台及设备与流程

文档序号:26484185发布日期:2021-08-31 17:40阅读:138来源:国知局
基于动态本体的语义和知识图谱分析方法、平台及设备与流程

本发明一般涉及数据处理技术领域,具体涉及一种基于动态本体的语义和知识图谱分析方法、平台及设备。



背景技术:

随着互联网技术的快速发展,人工智能已经成为各领域的竞争焦点,各行各业纷纷踏上智能化升级与转型的道路,随之增加了对智能化应用的需求,为了满足人工智能对海量多源异构数据及数据关联挖掘的需要,对大数据进行综合分析尤为重要。

目前,现有技术中对多源异构数据进行分析使用的工具比较传统,且对数据的数据格式要求较高,导致对中文处理支持性差,无法全面地对数据进行综合分析,大大降低了数据的使用价值。



技术实现要素:

鉴于现有技术中的上述缺陷或不足,期望提供一种基于动态本体的语义和知识图谱分析方法、平台、设备和介质,能够通过文本语义分析和本体化映射处理,构建出知识图谱库,从而能够对多源异构数据进行综合分析,很大程度上提高了数据的使用价值,快速实现了从数据到知识的转化。

第一方面,本申请实施例提供了一种基于动态本体的语义和知识图谱分析方法,该方法包括:

获取待处理数据;

对所述待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,所述本体结构包括对象、属性和关系;

基于所述对象、属性和关系之间的联系,构建知识图谱库。

在其中一个实施例中,对所述待处理数据进行文本语义分析处理和本体化映射处理,抽取本体结构,包括:

通过数据知识化处理工具定义本体结构规则;

注册数据库表,所述数据库表用于抽取知识;

基于所述数据库表和所述文本结构规则,得到本体结构。

在其中一个实施例中,基于所述对象、属性和关系之间的联系,构建知识图谱库,包括:

对所述待处理数据进行数据清洗处理,得到处理后的数据;

根据所述本体结构与知识的对应关系,构建核心领域本体库;

基于所述核心领域本体库和所述预处理后的数据,得到知识图谱库。

在其中一个实施例中,对所述待处理数据进行数据清洗处理,得到处理后的数据,包括:

根据数据清洗规则对所述待处理数据进行检测,确定所述待处理数据的类别,所述类别包括正常、已知异常和未知异常;

基于所述待处理数据的类别和所述数据清洗规则,得到处理后的数据。

在其中一个实施例中,,根据所述本体结构与知识的对应关系,构建核心领域本体库,包括:

对获取的知识进行知识整理,提取领域知识;

基于所述领域知识和所述本体结构的映射规则,构建核心领域本体库。

在其中一个实施例中,在构建知识图谱库之后,所述方法还包括:

使用知识图谱平台对所述知识图谱库进行管理;

基于知识图谱平台的封装服务规则,通过服务接口对外提供图谱计算服务。

在其中一个实施例中,所述服务接口包括以下至少一项:本体服务接口、数据访问服务接口、知识图谱分析服务接口、运行状态服务接口。

第二方面,本申请提供了一种基于动态本体的语义和知识图谱分析平台,该平台包括:

获取模块,用于获取待处理数据;

抽取模块,用于对所述待处理数据进行文本语义分析处理和本体化映射处理,抽取本体结构,所述本体结构包括对象、属性和关系;

构建模块,用于基于所述对象、属性和关系之间的联系,构建知识图谱库。

第三方面,本申请实施例提供一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面所述的基于动态本体的语义和知识图谱分析方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的基于动态本体的语义和知识图谱分析方法。

本申请实施例中提供的基于动态本体的语义和知识图谱分析方法、平台、设备及存储介质,通过获取待处理数据,并对待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,该本体结构包括对象、属性和关系,并基于对象、属性和关系之间的联系,构建知识图谱库。该技术方案融合了动态本体知识建模、知识图谱技术和大数据技术等多种技术,实现了对多源异构数据的整合加工,且能够通过文本语义分析和本体化映射处理方法,自动抽取出本体结构,进而构建出知识图谱库,实现了对海量多源异构数据的快速关联挖掘,能够对多源异构数据进行综合分析,提高了数据的使用价值,快速实现从数据到知识的转化,推动各业务领域向人工智能的发展。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本申请实施例提供的基于动态本体的语义和知识图谱分析方法的实施环境架构图;

图2为本申请实施例提供的基于动态本体的语义和知识图谱分析方法的流程示意图;

图3为本申请实施例提供的基于动态本体的语义和知识图谱分析方法的流程示意图;

图4为本申请另一实施例提供的基于动态本体的语义和知识图谱分析方法的流程示意图;

图5为本申请另一实施例提供的通过服务接口对外提供图谱服务方法的流程示意图;

图6为本申请实施例提供的基于动态本体的语义和知识图谱分析平台的结构示意图;

图7为本申请另一实施例提供的基于动态本体的语义和知识图谱分析平台的架构示意图;

图8为本申请实施例示出的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如背景技术中提到的,在人工智能快速发展的互联网时代,产生了海量异构数据,为了满足人工智能对数据关联挖掘的需要,尤其是面对突发的社会公共安全事件,需要对各种异构数据进行跟踪处理,以及时对突发事件进行应对处理,因此对大数据进行综合分析非常重要,现有技术中对多源异构数据分析使用的工具非常传统,对数据格式要求较高,导致对中文处理支持性差,无法全面地对数据进行综合分析,大大降低了数据的使用价值。

基于以上缺陷,本申请提供了一种基于动态本体的语义和知识图谱分析方法,能够实现了对多源异构数据的整合加工,通过文本语义分析和本体化映射处理,构建出知识图谱库,从而能够基于知识图谱库对多源异构数据进行综合分析,很大程度上提高了数据的使用价值,快速实现了从数据到知识的转化。

本申请提供的基于动态本体的语义和知识图谱分析方法,可以应用于政务、公共安全、网络安全、媒体等不同领域,不仅为国家安全、公共安全、政府决策和企业运营提供从多源异构数据融合、存储、知识化处理、图谱关联挖掘分析、地理空间分析、时序分析和可视化展现等分析场景的全面支持,而且融合了大数据技术、可视化技术和知识图谱相关技术,能够对海量多源异构数据进行知识化处理,实现知识构建管理、知识语义检索、智能文本提取、智能问答、智能推荐、图谱关系分析、地理空间分析、知识管理等。

图1是本申请实施例提供的一种基于动态本体的语义和知识图谱分析方法的实施环境架构图。如图1所示,该实施环境架构包括:终端100和服务器200。

终端100可以是各类ai应用场景中的终端设备。例如,终端100可以是智能电视、智能电视机顶盒等智能家居设备,或者终端100可以是智能手机、平板电脑以及电子书阅读器等移动式便携终端,或者,该终端100可以是智能眼镜、智能手表等智能可穿戴设备,本实施例对此不进行具体限定。

其中,终端100中可安装有基于自然语言处理的ai应用。比如,该ai应用可以是智能搜索、智能问答等应用。

服务器200可以是一台服务器,也可以是由若干台服务器构成的服务器集群,或者服务器200可以包含一个或多个虚拟化平台,或者服务器200可以是一个云计算服务中心。

其中,服务器200可以是为上述终端100中安装的ai应用提供后台服务的服务器设备。

终端100与服务器200之间通过有线或无线网络建立通信连接。可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(localareanetwork,lan)、城域网(metropolitanareanetwork,man)、广域网(wideareanetwork,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

为了便于理解和说明,下面通过图2至图8详细阐述本申请实施例提供的基于动态本体的语义和知识图谱分析方法、平台、设备和介质。

图2所示为本申请实施例的基于动态本体的语义和知识图谱分析方法的流程示意图,该方法可以由计算机设备执行,该计算机设备可以是上述图1所示系统中的服务器200或者终端100,或者,该计算机设备也可以是终端100和服务器200的结合。如图2所示,该方法包括:

s101、获取待处理数据。

具体的,计算机设备上运行有知识图谱分析平台,该知识图谱分析系统提供数据接入管道和数据知识处理工具,支持对接各类数据库资源,包括oracle、mysql、postgresql、kafka等。

可选的,知识图谱分析平台获取待处理数据的方式可以是直接导入待处理数据,也可以是通过系统接口导入待处理数据,还可以是访问数据库导入待处理数据,还可以是通过客户端导入,或者可以是通过网页导入的。其中,通过客户端导入待处理数据的形式可以是从关系数据库中导入数据,也可以是从excel格式的表格中导入,还可以是对特定格式或特定数据进行导入。通过网页导入待处理数据指的是通过网页的方式将待处理数据导入至平台中,例如可以是通过终端设备内部或者外边检索引擎,将检索引擎返回的网页内容导入至平台中,还可以是通过接口的方式将浏览器内展示的内容导入至平台中。

可选的,该待处理数据可以是结构化数据,也可以是非结构化数据,其中,结构化数据是指由二维表结构来逻辑表达和实现的数据,通过关系数据库进行存储和管理,如关系数据库里的表;非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、html、各类报表、图像和音频/视频信息等。

s102、对待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,本体结构包括对象、属性和关系。

具体的,在获取到待处理数据之后,可以通过数据知识化处理工具定义构建知识图谱库所涉及的本体结构规则,该本体结构规则包括实体对象、属性、关系的数据表、数据字段及规则,并设置数据源访问参数信息,该参数信息包括访问地址、端口、用户名、密码等信息,注册用于知识抽取的数据库表和文件目标,并将已注册数据库表中的具体字段与构建知识图谱涉及的内容进行映射处理,得到本体结构。

该分析系统能够接受来自不同数据来源的数据,且能够为不同类型的数据源分别设计模板和对应不同数据处理组件。

需要说明的是,针对接入的不同数据源,提供数据知识模型配置管理功能,并支持以可视化的方式对接入的数据资源配置数据知识模型,其中数据资源配置数据知识模型与数据资源对应配置。该配置项包括新增知识模型中实体与实体之间的模型关系等,并提供不同数据源的基础信息浏览、可用字段配置、数据源id配置,以及数据项的详细配置信息,其中配置信息包括字段、属性、是否主键、是否标签等配置信息。

并且,分析系统支持对已定义好的数据模型进行预览,用户可以通过预览查看数据的接入过程、步骤及各个节点对数据的操作或映射等处理操作。

可选的,可以通过知识图谱平台对整个知识图谱的建模数据和建模处理过程进行建设管理,其中,建设管理包括本体管理、数据模型管理、知识构建管理、系统核心组件、资源统计等功能。知识图谱平台支持接入不同类型的数据,例如结构化数据、非结构化数据和半结构化数据,并能够在数据处理和文档浏览的过程中,通过人机交互的方式完成知识的提炼、属性值对抽取、描述、自动标注、入库、实体对齐、预览等功能。

其中,本体管理支持对知识图谱平台中定义的所有本体类型进行统一管理,包括本体的对象/属性/关系的名称、父类、uri、基类等信息的编辑和维护等,本体管理可以包括对象类型管理、属性类型管理、关系类型管理、类型分组管理、对象属性映射管理、对象间关系映射管理及本体操作管理等。

具体的,对象类型管理功能支持对知识图谱平台中的所有对象进行统一管理,包括对象名称、uri、父类、基类等信息的编辑和维护等。属性类型管理支持对知识图谱平台中所有对象的全部属性进行统一管理,包括属性名称、uri、基类等信息的编辑和维护等。关系类型管理功能支持对知识图谱平台中所有对象之间的关系进行统一管理,包括所有对象关系的名称、uri等信息的编辑和维护等。类型分组管理支持对知识图谱平台中定义的所有对象类型进行统一管理,包括类型的分类、分组菜单、对象类型内容等的编辑和维护。对象属性映射管理功能支持对知识图谱平台中所有对象和属性的关联关系的统一管理,包括对象列表管理、代表属性管理、允许的属性管理和不允许的属性管理等功能。对象间关系映射管理功能支持对知识图谱平台中所有对象和对象的关联关系映射的统一管理,包括对象列表管理、关联类型管理、默认关联对象、允许的对象管理和不允许的对象管理等功能。本体操作管理功能支持对知识图谱平台中所有本体的类型、uri、图标等的统一管理。本体文件上传/下载提供知识图谱平台中已定义本体文件的下载和上传新的本体定义文件。

知识构建管理是支持对概念、实例、关系、事件等知识的表示,支持业务专家根据业务进行具体模型定义,支持时态信息和地理空间信息表示。可选的,知识构建管理可以包括导入处理配置管理、导入流程配置管理、导入模板管理、知识构建集群管理、知识构建运行管理、知识构建历史状态浏览。

其中,导入处理配置管理支持对导入知识图谱的各个数据源进行配置管理,提供数据源导入的进程组命名、进程组配置描述、设置数据源信息、属性和注释等。导入流程配置管理提供可视化的数据导入流程配置,支持通过鼠标拖拽数据导入过程中各个节点的数据操作,并显示各个数据处理节点的输入数据、读写数据、输出数据、任务时长等信息。导入模板管理支持对已定义的数据源导入到知识图谱的过程形成导入模板,并提供导入模板的新增、编辑、删除等功能。当新增新的数据源需要导入到知识图谱时,用户可快速选择任意模板进行编辑配置,实现快速导入数据到知识图谱。知识构建集群管理支持通过集群管理的方式,提高数据导入到知识图谱的速率,并提高集群节点管理、集群管理等功能。知识构建运行通过数据模型和导入处理的配置之后,即可开始知识图谱的知识构建,调用后台提供的各类组件,实现从数据源到知识图谱的知识构建。知识构建历史状态浏览主要提供对整个知识图谱构建过程的状态监控和浏览,以可视化的方式展示知识构建过程的各个历史状态情况。

s103、基于对象、属性和关系之间的联系,构建知识图谱库。

具体的,上述知识图谱库是一种揭示实体之间关系的语义网络,可以为现实世界的事物及其相互关系进行形式化地描述。

可选的,在上述实施例的基础上,如图3所示,上述步骤s103可以包括以下方法步骤:

s1031、对待处理数据进行数据清洗处理,得到处理后的数据。

s1032、根据本体结构与知识的对应关系,构建核心领域本体库。

s1033、基于核心领域本体库和所述预处理后的数据,得到知识图谱库。

具体的,在获取到待处理数据后,该待处理数据可以是结构化数据、非结构化数据和半结构化数据,通过对结构化数据、非结构化数据和半结构化数据进行关系挖掘、数据分析、文本语义分析等处理后,抽取出实体、属性、关系等,该实体包括标识和概念,并根据实体的属性联系、时空联系、语义联系、特征联系等建立相互的关系,从而构建出知识图谱库,其中,该知识图谱库是异构具有领域特性多维多层的实体与实体、实体与事件、关系等的知识图谱库。

抽取本体结构可以包括实体抽取、关系抽取和属性抽取。其中,实体抽取,也称为命名实体识别,是指从文本数据集中自动识别出命名实体。关系抽取可以是通过人工构造语义规则以及模板的方法识别实体关系,关系抽取可以分为基于开放式实体关系抽取和基于联合推理的实体关系抽取两类。属性抽取是从不同信息源中采集特定实体的属性信息。

请参见图4所示,当从不同的数据来源中获取到接入的待处理数据时,该数据来源可以是数据库、文件、邮件、附件或其他系统,该待处理数据可以分别为结构化数据、非结构化数据和半结构化数据,对该结构化数据、非结构化数据和半结构化数据进行数据处理后,进行知识图谱库构建,知识图谱库构建采用统一动态本体模型和统一数据存储架构,构建知识图谱库可以分为两部分,一部分是构建核心领域本体库,另一部分是对待处理数据进行数据清洗处理,得到处理后的数据并导入知识图谱库中。其中,在构建核心领域本体库时,包括领域本体构建和领域知识构建,在进行领域本体构建时通过对本体领域和范围进行分析,并列举领域中重要的术语和概念,建立本体框架后,构建出对象、关系和属性等类,并利用工具构建本体结构;在进行领域知识构建时通过对获取的知识进行知识整体,提取和表示领域知识;并根据领域知识与本体结构的映射规则,构建出核心领域本体库。为了支持领域知识的重用和共享,必须采用知识建模技术完成知识的形式化规范表示,基于本体的知识建模方法采用并行思想,并根据领域本体与知识的对应关系,同步完成领域本体构建与领域知识表示。同时可以基于知识图谱库进行知识加工,其中,知识加工分为知识对象管理/分析,知识编辑服务接口,文本挖掘,标签引擎,知识挖掘等。

需要说明的是,当获取到接入的待处理数据,该待处理数据包括结构化数据、半结构化数据和非结构化数据,该待处理数据可以经历准备阶段、检测阶段、定位阶段、修正阶段和验证阶段。在准备阶段可以将结构化、半结构化、非结构化的文档导入到系统中,在系统中进行对接配置后并进入检测阶段,在检测阶段使用数据清洗规则对待处理数据进行检测,确定待处理数据的类别,该类别包括正常、已知异常、未知异常等类别,其中,正常的数据可以直接导入知识图谱库中,已知异常的数据系统会自动处理后导入知识图谱库中,未知异常的数据系统无法处理,可以进入修正阶段需要人工对其进行手工修正处理。在对待处理数据经过检测阶段处理后,可以生成检测报告,该检测报告中可以定位到出错位置,并统计出该文档的数据质量。在对已知正常的数据进行自动修正和对未知正常的数据进行手工修正后,得到处理后的数据,将处理后的数据导入知识图谱库中。最后在验证阶段根据数据进入知识图谱库和实际使用情况对数据清洗和本体构建进行评价,使得系统资源不断完善。

通过构建知识图谱库能够综合提高数据深化应用能力,实现从数据到知识到智能的升级转变,能够有效支撑各领域信息化向智能化应该的发展。

本实施例中提供的基于动态本体的语义和知识图谱分析方法,通过获取待处理数据,并对待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,该本体结构包括对象、属性和关系,并基于对象、属性和关系之间的联系,构建知识图谱库。该技术方案融合了动态本体知识建模、知识图谱技术和大数据技术等多种技术,实现了对多源异构数据的整合加工,且能够通过文本语义分析和本体化映射处理方法,自动抽取出本体结构,进而构建出知识图谱库,实现了对海量多源异构数据的快速关联挖掘,能够对多源异构数据进行综合分析,提高了数据的使用价值,快速实现从数据到知识的转化,推动各业务领域向人工智能的发展。

进一步地,在上述实施例的基础上,图5为本申请实施例提供的通过服务接口对外提供图谱计算服务方法的流程示意图,可以参见图5所示,该方法可以包括如下步骤:

s201、获取待处理数据。

s202、对待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,本体结构包括对象、属性和关系。

s203、基于对象、属性和关系之间的联系,构建知识图谱库。

s204、使用知识图谱平台对所述知识图谱库进行管理,并基于知识图谱平台的封装服务规则,通过服务接口对外提供图谱计算服务。

具体的,在通过获取到待处理数据后,可以对待处理数据进行文本语义分析和本体化映射处理,抽取出本体结构,并根据实体的属性联系、时空联系、语义联系、特征联系等建立相互的联系,构建出具有领域特性多维多层的实体与实体、实体与事件、关系等的知识图谱库,使用知识图谱平台对知识图谱库及其建设过程进行管理,并基于知识图谱平台的封装服务规则,通过提供服务接口面向上层应用和各业务单位提供图谱计算服务。其中,该图谱计算服务包括本体服务、图谱访问服务、知识检索服务、知识对象编辑服务、知识图谱运算服务、运行状态服务和图谱分析服务。

其中,本体服务将实现对构建的本体对象进行业务封装,并以接口的方式对外提供,所有检索出的本体支持以实体对象方式呈现。本体服务接口支持面向其他系统平台开放使用,需要提供restful格式的接口,当其他业务系统有新的数据资源需要加入到知识图谱平台时,可调用本体服务接口,构建业务数据源与知识图谱平台的映射关系,从而实现业务数据导入到知识图谱平台。

数据访问服务接口全面支持面向其他系统开放使用,支持提供restful格式的接口,当业务人员检索或调用知识图谱平台中的数据时,可调用数据访问服务接口,从而实现业务应用调用知识图谱平台中的数据。

知识图谱分析服务将实现对构建完成的知识图谱进行服务封装,并以接口的方式对外提供服务,内容主要是已构建的知识图谱。知识图谱分析服务接口支持面向所有业务系统开放使用,提供restful格式的接口,当业务系统需要调用知识图谱的分析能力或分析结果时,可调用知识图谱分析服务接口,从而实现知识图谱分析结果提供给各个应用使用。

运行状态服务接口支持面向整个项目开放使用,需要提供restful格式的接口,当业务系统需要调用知识图谱平台中的数据或调用过程发生异常时,可调用运行状态服务接口,从而了解知识数据管理系统的运行状况和数据状况。

另外,该知识关联分析系统还提供丰富而强大的知识漫游探索和管理工具,实现人机对话的应用功能。其中,该应用功能包括基于知识图谱的知识语义检索、智能问答、智能推荐、图谱分析、知识管理、地理空间分析、智能算法模型、知识协同分析等应用。

本实施例中融合了动态本体知识建模、知识图谱技术、大数据技术和可视化技术等多种技术,能够进行数据整合,并通过自然语言处理,利用对文本语义分析的方式,自动抽取对象、属性、关联关系等,并根据实体属性联系、时空联系、特征联系等,进行知识加工处理,构建出具有行业特性的海量多维知识图谱库,实现海量数据的快速关联挖掘,线索发现和预警预测,能够实现组织内部知识共享和分析协同,支持多人、异地、跨部门的协同分享,实现相关组织间的情报传递和知识共享。采用可伸缩、可扩展的分布式大数据框架,有效解决面对海量数据访问的高性能、高可用、高并发、一致、敏捷等痛点,保障知识图谱在海量数据压力下健壮运行。采用加密传输、原子级控制、接口授权使用、完善严谨权限体系等手段,有效保障知识内容安全、接口安全、部署安全和传输安全,与国家信息系统安全保护标准要求保持一致。

另一方面,图6为本申请实施例提供的一种基于动态本体的语义和知识图谱分析平台的结构示意图。该系统可以为终端或服务器内的装置,如图6所示,该平台500包括:

获取模块510,用于用于获取待处理数据;

抽取模块520,用于对所述待处理数据进行文本语义分析处理和本体化映射处理,抽取本体结构,所述本体结构包括对象、属性和关系;

构建模块530,用于基于所述对象、属性和关系之间的联系,构建知识图谱库。

可选的,抽取模块520,包括:

设置单元521,用于通过数据知识化处理工具定义本体结构规则并设置数据源访问参数;

注册单元522,用于注册数据库表,所述数据库表用于抽取知识;

第一处理单元523,用于基于所述数据库表、所述文本结构规则和所述数据源访问参数,得到本体结构。

可选的,构建模块530,包括:

清洗单元531,用于对所述待处理数据进行数据清洗处理,得到处理后的数据;

构建单元532,用于根据所述本体结构与知识的对应关系,构建核心领域本体库;

第二处理单元533,用于基于所述核心领域本体库和所述预处理后的数据,得到知识图谱库。

可选的,清洗单元531,具体用于:

根据数据清洗规则对所述待处理数据进行检测,确定所述待处理数据的类别,所述类别包括正常、已知异常和未知异常;

基于所述待处理数据的类别和所述数据清洗规则,得到处理后的数据。

可选的,构建单元532,具体用于:

对获取的知识进行知识整理,提取领域知识;

基于所述领域知识和所述本体结构的映射规则,构建核心领域本体库。

可选的,该平台还包括:

管理模块540,用于使用知识图谱平台对所述知识图谱库进行管理;

接口服务模块550,用于基于知识图谱平台的封装服务规则,通过服务接口对外提供图谱计算服务。

可选的,所述服务接口包括以下至少一项:本体服务接口、数据访问服务接口、知识图谱分析服务接口、运行状态服务接口。

请参见图7所示,该基于动态本体的语义和知识图谱分析平台可以应用于政务领域、公共安全和网络安全等领域,可以是通过数据接入方式和数据知识化处理工具对接入的数据进行处理,并将整个知识图谱库的构建过程通过知识图谱平台进行建设管理,可以包括本体管理、数据模型管理、知识构建管理、平台核心组件、资源统计、日志管理、用户管理等,该系统提供基于知识图谱平台的相关封装服务,例如包括本体服务、数据访问服务、运行状态服务及图谱分析服务等,并且提供了丰富而强大的知识图谱应用,可以包括知识检索、智能问答、智能推荐、图谱分析、知识管理、地理空间分析、智能算法模型、知识协同分享等。

可以理解的是,本实施例的基于动态本体的语义和知识图谱分析平台的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,在此不再赘述。

需要说明的是,传统架构数据存储以结构化为主,数据类型受限制,增加数据类型需重新定义表结构,不易扩展,本实施例提供的基于动态本体的数据分析系统采用分布式存储架构,支持结构化、半结构化、非结构化数据存储,可以轻松横向扩展,动态扩展数据类型、格式等。数据存储结构为原生的数据格式、属性、关系等,可基于数据规则和模型,使机器更容易读懂数据;该系统可以能够基于自然语义检索,对于复杂的搜索效率更高,可将搜索结果范围缩小到用户最想要的那种含义,使用户快速找到最想要的信息,并且能够更好的理解用户搜索的信息,总结出与搜索话题相关的内容,帮助用户了解事物之间的关系。同时,还支持检索结果以百科的形式展示,给用户更好的服务体验。该系统实现基于知识图谱的推理运算,支持多种算法扩展,系统自动推理,服务分析,大大节省研判时间。同时,平台可快速扩张各种算法、分析模型、关系挖掘分析等应用,快速响应各类分析主题,二次开发量少,投入小,见效快。

综上所述,本申请实施例中提供的基于动态本体的语义和知识图谱分析平台,获取模块通过获取待处理数据,并使用抽取模块对待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,该本体结构包括对象、属性和关系,并采用构建模块基于对象、属性和关系之间的联系,构建知识图谱库。该技术方案融合了动态本体知识建模、知识图谱技术和大数据技术等多种技术,实现了对多源异构数据的整合加工,且能够通过文本语义分析和本体化映射处理方法,自动抽取出本体结构,进而构建出知识图谱库,实现了对海量多源异构数据的快速关联挖掘,能够对多源异构数据进行综合分析,提高了数据的使用价值,快速实现从数据到知识的转化,推动各业务领域向人工智能的发展。

另一方面,本申请实施例提供的设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述的基于动态本体的语义和知识图谱分析方法。

下面参考图8,图8为本申请实施例的终端设备的计算机系统的结构示意图。

如图8所示,计算机系统300包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分303加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram303中,还存储有系统300操作所需的各种程序和数据。cpu301、rom302以及ram303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。

以下部件连接至i/o接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分303从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(cpu)301执行时,执行本申请的系统中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括:获取模块、抽取模块及构建模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于获取待处理数据”。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的基于动态本体的语义和知识图谱分析方法:

获取待处理数据;

对所述待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,所述本体结构包括对象、属性和关系;

基于所述对象、属性和关系之间的联系,构建知识图谱库,所述知识图谱库用于对所述待处理数据进行分析处理。

综上所述,本申请实施例中提供的基于动态本体的语义和知识图谱分析方法、平台、设备及存储介质,通过获取待处理数据,并对待处理数据进行文本语义分析和本体化映射处理,抽取本体结构,该本体结构包括对象、属性和关系,并基于对象、属性和关系之间的联系,构建知识图谱库。该技术方案融合了动态本体知识建模、知识图谱技术和大数据技术等多种技术,实现了对多源异构数据的整合加工,且能够通过文本语义分析和本体化映射处理方法,自动抽取出本体结构,进而构建出知识图谱库,实现了对海量多源异构数据的快速关联挖掘,能够对多源异构数据进行综合分析,提高了数据的使用价值,快速实现从数据到知识的转化,推动各业务领域向人工智能的发展。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1