更新知识图谱的方法、装置、设备及存储介质与流程

文档序号:20512237发布日期:2020-04-24 18:40阅读:131来源:国知局
更新知识图谱的方法、装置、设备及存储介质与流程

本申请涉及数据处理技术领域,尤其涉及一种更新知识图谱的方法、装置、设备及存储介质。



背景技术:

目前对知识进行有效表达的方法是知识图谱,知识图谱是将现实世界以图形的方式展现概念和概念间的关系,不仅帮助人们认识客观世界,而且也为计算机定义了实现的数据模型,它将复杂的知识表示成网状结构,可以对数据进行复杂查询,可以通过规则从关联的数据中挖掘出隐含的信息,揭示知识以及领域的动态发展规律,为知识以及技术的研究提供切实、有价值的参考。

相关技术在对知识图谱进行构建和数据更新时,通常是人工手动构建知识图谱和更新知识图谱的数据,存在准确率较低以及耗时长的问题。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施例提供了一种更新知识图谱的方法、装置、设备及存储介质。

有鉴于此,第一方面,本申请实施例提供了一种更新知识图谱的方法,所述方法包括以下步骤:

获取初始知识图谱中的业务数据;

按照预设规则抽取所述业务数据中的实体数据;

对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;

将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;

根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。

结合第一方面,在第一方面第一种可能的实施方式中,所述按照预设规则抽取所述业务数据中的实体数据,包括:

抽取所述业务数据中的三元组数据。

结合第一方面,在第一方面第二种可能的实施方式中,所述数据融合处理包括数据层融合处理,所述对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,包括:

利用所述初始知识图谱的链接结构,构建各个所述实体数据之间的实体关联模型;

基于所述实体关联模型,对各个所述实体数据进行实体链接;

根据实体链接的结果,获取与所述实体数据对应的数据源集合。

结合第一方面,在第一方面第三种可能的实施方式中,所述数据融合处理包括语义融合处理,所述对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,包括:

利用所述初始知识图谱的链接结构,构建每个所述实体数据中的多个语义的语义关联模型;

基于语义关联模型,将各个所述语义进行语义链接;

根据语义链接的结果,获取与所述实体数据对应的数据源集合。

结合第一方面,在第一方面第四种可能的实施方式中,所述将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配,包括:

基于所述数据源的权威度、冗余度、多样性、一致性以及mln验证中的一种或多种,将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配。

第二方面,本申请实施例提供了一种更新知识图谱的装置,

结合第二方面,在第二方面第一种可能的实施方式中,所述装置包括:

获取单元,用于获取初始知识图谱中的业务数据;

抽取单元,用于按照预设规则抽取所述业务数据中的实体数据;

数据处理单元,用于对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;

匹配单元,用于将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;以及

更新单元,用于根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。

结合第二方面,在第二方面第二种可能的实施方式中,所述抽取单元包括:

抽取子单元,用于抽取所述业务数据中的三元组数据。

结合第二方面,在第二方面第三种可能的实施方式中,所述数据处理单元包括:

第一构建子单元,用于利用所述初始知识图谱的链接结构,构建各个所述实体数据之间的实体关联模型;

实体链接子单元,用于基于所述实体关联模型,对各个所述实体数据进行实体链接;

第一获取子单元,用于根据实体链接的结果,获取与所述实体数据对应的数据源集合。

结合第二方面,在第二方面第四种可能的实施方式中,所述数据处理单元包括:

第二构建子单元,用于利用所述初始知识图谱的链接结构,构建每个所述实体数据中的多个语义的语义关联模型;

语义链接子单元,用于基于语义关联模型,将各个所述语义进行语义链接;

第二获取子单元,用于根据语义链接的结果,获取与所述实体数据对应的数据源集合。

第三方面,本申请实施例提供了一种终端设备,所述终端设备包括:至少一个处理器、存储器、至少一个网络接口和用户接口;

所述至少一个处理器、存储器、至少一个网络接口和用户接口通过总线系统耦合在一起;

所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面所述的更新知识图谱的方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有更新知识图谱的程序,所述更新知识图谱的程序被处理器执行时实现如第一方面所述的更新知识图谱的方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

本申请实施例提供的该方法,通过获取初始知识图谱中的业务数据;按照预设规则抽取所述业务数据中的实体数据;对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。本申请实施例实现了知识图谱的自动更新及自动融合,无需人工手动去维护知识图谱,提高了知识图谱的更新效率及准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种更新知识图谱的方法的流程示意图;

图2为本申请实施例提供的一种更新知识图谱的方法的流程示意图;

图3为本申请实施例提供的一种更新知识图谱的方法的流程示意图;

图4为本申请实施例提供的一种更新知识图谱的装置的结构示意图;

图5为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

现在将参考附图描述实现本发明各个实施例的服务器。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。

本申请实施例提供了一种更新知识图谱的方法,如图1所示,该方法可以包括以下步骤:

s101、获取初始知识图谱中的业务数据。

可选的,蜘蛛爬虫实现业务数据爬取,业务数据例如:金融数据,社交数据等。

s102、按照预设规则抽取所述业务数据中的实体数据。

可选的,包括:抽取所述业务数据中的三元组数据。

s103、对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源。

s104、将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配。

可选的,包括:基于所述数据源的权威度、冗余度、多样性、一致性以及mln验证中的一种或多种,将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配。

s105、根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。

可选的,通过对新知识进行验证,保证新知识与知识图谱的一致性和准确性,保证知识的持续更新。对现有知识库中分散、冗余、异构、非确定性的知识进行模型训练,提取新词。

本申请实施例实现了知识图谱的自动更新及自动融合,无需人工手动去维护知识图谱,提高了知识图谱的更新效率及准确率。

如图2所示,本申请实施例还提供了一种更新知识图谱的方法,所述数据融合处理包括数据层融合处理,上述步骤s103包括以下步骤:

s201、利用所述初始知识图谱的链接结构,构建各个所述实体数据之间的实体关联模型。

s202、基于所述实体关联模型,对各个所述实体数据进行实体链接。

s203、根据实体链接的结果,获取与所述实体数据对应的数据源集合。

可选的,主要基于实体关联模型的实体链接,实体关联模型主要从以下划分:

实体知名度,如:水果苹果30%,苹果公司20%。

实体名字分布,如实体的名字出现的频率。

实体的上下文分布,是指上文中提到的实体及有效下文中的实体关联。

如图3所示,本申请实施例还提供了一种更新知识图谱的方法,所述数据融合处理包括语义融合处理,上述步骤s103包括以下步骤:

s301、利用所述初始知识图谱的链接结构,构建每个所述实体数据中的多个语义的语义关联模型。

s302、基于语义关联模型,将各个所述语义进行语义链接。

s303、根据语义链接的结果,获取与所述实体数据对应的数据源集合。

可选的,基于语义链接,主要实现方法如下:

基于图的协同推理;基于上下文语义相关;协同推导方法。

可选的,协同推导方法是指通过将证据在图上依存结构传递协同增强证据直接至收敛。

可选的,实体与语义链接,主要通过建立文本模型来实现。假设每一个数据文本中都有n个关键语义,每个语义是实体的多项式分布如:苹果有新的手机产品,即:{it:0.4,手机:0.3,苹果公司:0.3}。

本申请实施例,通过自定义的网络爬虫,后端系统则自动通过图数据库及非结构化数据存储,再通过通过对新数据爬取、机器学习、神经网络等自融合机器学习,对关键信息抽取,将三元组数据进行导入,转换为庞大的知识图谱系统,从而实现知识图谱自动更新及融合,无需人工手动去维护知识图谱。

可选的,语义融合主要是基于数据结构映射关系的结构,建立一个集合的知识源,每个知识源使用不用的分类体系和属性,将这些分类体系和属性体系统一为一个全局的数据结构映射,如表一所示。

表一

可选的实现方式为:

建立标准数据;对样本数据进行训练;进行推理;进行新知识确认。

如图4所示,本申请实施例还提供了一种更新知识图谱的装置,所述装置包括:

获取单元41,用于获取初始知识图谱中的业务数据;

抽取单元42,用于按照预设规则抽取所述业务数据中的实体数据;

数据处理单元43,用于对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;

匹配单元44,用于将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;以及

更新单元45,用于根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。

在本申请另一实施例中,所述抽取单元42包括:

抽取子单元,用于抽取所述业务数据中的三元组数据。

在本申请另一实施例中,所述数据处理单元43包括:

第一构建子单元,用于利用所述初始知识图谱的链接结构,构建各个所述实体数据之间的实体关联模型;

实体链接子单元,用于基于所述实体关联模型,对各个所述实体数据进行实体链接;

第一获取子单元,用于根据实体链接的结果,获取与所述实体数据对应的数据源集合。

在本申请另一实施例中,所述数据处理单元43包括:

第二构建子单元,用于利用所述初始知识图谱的链接结构,构建每个所述实体数据中的多个语义的语义关联模型;

语义链接子单元,用于基于语义关联模型,将各个所述语义进行语义链接;

第二获取子单元,用于根据语义链接的结果,获取与所述实体数据对应的数据源集合。

图5是本发明另一个实施例提供的终端设备的结构示意图。图5所示的终端设备500包括:至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。终端设备500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。

其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。

其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:

获取初始知识图谱中的业务数据;

按照预设规则抽取所述业务数据中的实体数据;

对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;

将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;

根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。

上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有资源分配程序,所述资源分配程序被处理器执行时实现如各方法实施例所述的更新知识图谱的方法的步骤,例如包括:

获取初始知识图谱中的业务数据;

按照预设规则抽取所述业务数据中的实体数据;

对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;

将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;

根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1