基于工业领域构建知识图谱的方法、装置及存储介质与流程

文档序号:18214876发布日期:2019-07-19 22:34阅读:1314来源:国知局
基于工业领域构建知识图谱的方法、装置及存储介质与流程

本申请涉及工业领域,特别是涉及一种基于工业领域构建知识图谱的方法、装置及存储介质。



背景技术:

工业领域是国民经济的重中之重,实现工业的智能制造是未来的必由之路。工业升级,包括智能制造工程、工业强基工程、绿色制造工程、高端装备创新工程、高档数控机床和机器人、航空航天装备、海洋工程装备及高技术船舶等国计民生的重点领域,涉及到工业设备模式感知、故障监控、性能检测等大量数据采集分析操作。设备数据的复杂性、多样性、实时性远远不是传统数据库技术所能承载的。基于这些行业痛点,知识图谱这种以可视化技术展示数据结构关系、知识发展的技术在工业领域应用越来越广泛。

知识图谱是一种以可视化的方式展示信息中包含的知识要点、核心结构、整体知识架构的技术。近些年工业领域开始青睐知识图谱这一图形化展示方法,实现工业设备数据采集、知识分类、知识存储、知识分析等应用。知识图谱的构建主要包括知识单元的构建、知识单元间关系的构建和知识图谱的结构化展示三个部分,其中前两个任务是构建知识图谱的最基本任务。它充分釆用了可视化的技术,不仅能够对知识资源和载体进行描述,同时还可以对工业知识以及工业知识之间的联系进行分析和描绘。它可以通过数据挖掘、信息分析、计量分析等方法,利用图形将复杂的工业领域绘制并展现出来。

知识图谱引入工业领域,解决了工业领域知识构建的问题,但是工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此对这些信息进行语义分析,提取出能用于绘制知识图谱的知识单元并找出知识单元之间的联系就显得极为重要。提取用于绘制工业知识图谱的知识单元可以映射为对大量信息的命名实体进行识别,而寻找知识单元之间的关系也可以映射为对命名实体关系的识别,两者都可以通过机器学习的方法进行。以往在对命名实体的识别和实体关系识别的时候,人们通常会选择支持向量机(svm)和条件随机场(crf)之类的浅层学习方法,浅层学习模型包含的层次较少,对于复杂概念的表征存在一定的局限性。

针对上述的现有技术中存在的由于工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此基于支持向量机(svm)和条件随机场(crf)之类的浅层学习方法所构建的知识图谱存在一定的局限性的技术问题,目前尚未提出有效的解决方案。



技术实现要素:

本公开的实施例提供了一种基于工业领域构建知识图谱的方法、装置及存储介质,以至少解决现有技术中存在的由于工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此基于支持向量机(svm)和条件随机场(crf)之类的浅层学习方法所构建的知识图谱存在一定的局限性的技术问题。

根据本公开实施例的一个方面,提供了一种基于工业领域构建知识图谱的方法,包括:获取与工业领域相关的文本信息;基于预设的深度置信网络,识别文本信息中包含的命名实体,其中命名实体用于指示文本信息中包含的以名称为标识的实体;基于预设的深度置信网络,识别命名实体之间的命名实体关系;以及根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面,还提供了一种基于工业领域构建知识图谱的装置,包括:获取模块,用于获取与工业领域相关的文本信息;第一识别模块,用于基于预设的深度置信网络,识别文本信息中包含的命名实体,其中命名实体用于指示文本信息中包含的以名称为标识的实体;第二识别模块,用于基于预设的深度置信网络,识别命名实体之间的命名实体关系;以及构建模块,用于根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

根据本公开实施例的另一个方面,还提供了一种基于工业领域构建知识图谱的装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取与工业领域相关的文本信息;基于预设的深度置信网络,识别文本信息中包含的命名实体,其中命名实体用于指示文本信息中包含的以名称为标识的实体;基于预设的深度置信网络,识别命名实体之间的命名实体关系;以及根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

在本公开实施例中,采用预设的深度置信网络,可以有效的对与工业领域相关的文本信息中包含的命名实体以及命名实体关系进行有效的识别,进而根据识别出的命名实体以及识别出的命名实体关系,构建基于工业领域的知识图谱。达到了基于工业领域的非结构化的文本信息,利用深度置信网络,有效的进行命名实体以及命名实体关系的识别,从而构建出适用于工业领域的知识图谱的技术效果。进而解决了现有技术中存在的由于工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此基于支持向量机(svm)和条件随机场(crf)之类的浅层学习方法所构建的知识图谱存在一定的局限性的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:

图1是用于实现根据本公开实施例1所述的方法的【计算机终端(或移动设备)】的硬件结构框图;

图2是根据本公开实施例1所述的基于工业领域构建知识图谱的系统的示意图;

图3是根据本公开实施例1的第一个方面所述的基于工业领域构建知识图谱的方法的流程示意图;

图4是根据本公开实施例1的第一个方面所述的深度置信网络的结构示意图;

图5是根据本公开实施例1的第一个方面所述的受限玻尔兹曼机的结构示意图;

图6是根据本公开实施例1的第一个方面所述的反向传播网络的结构示意图;

图7是根据本公开实施例1所述的基于深度学习的工业知识图谱实现流程图;

图8是根据本公开实施例2所述的基于工业领域构建知识图谱的装置的示意图;以及

图9是根据本公开实施例3所述的基于工业领域构建知识图谱的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例,提供了一种基于工业领域构建知识图谱的方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现基于工业领域构建知识图谱的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的基于工业领域构建知识图谱的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的基于工业领域构建知识图谱的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,

图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

图2是根据本实施例所述的基于工业领域构建知识图谱的系统的示意图。参照图2所示,该系统包括:服务器200。服务器200可以通过从终端100获取与工业领域相关的文本信息。其中,终端100为用于存储工业领域相关数据的终端。需要说明的是,系统中的服务器200可适用上面所述的硬件结构。

在上述运行环境下,根据本实施例的第一个方面,提供了一种基于工业领域构建知识图谱的方法,该方法由图2中所示的服务器200实现。图3示出了该方法的流程示意图,参考图3所示,该方法包括:

s302:获取与工业领域相关的文本信息;

s304:基于预设的深度置信网络,识别文本信息中包含的命名实体,其中命名实体用于指示文本信息中包含的以名称为标识的实体;

s306:基于预设的深度置信网络,识别命名实体之间的命名实体关系;以及

s308:根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

正如前面背景技术中所述的,现有的知识图谱引入工业领域,解决了工业领域知识构建的问题,但是工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此对这些信息进行语义分析,提取出能用于绘制知识图谱的知识单元并找出知识单元之间的联系就显得极为重要。提取用于绘制工业知识图谱的知识单元可以映射为对大量信息的命名实体进行识别,而寻找知识单元之间的关系也可以映射为对命名实体关系的识别,两者都可以通过机器学习的方法进行。以往在对命名实体的识别和实体关系识别的时候,人们通常会选择支持向量机(svm)和条件随机场(crf)之类的浅层学习方法,浅层学习模型包含的层次较少,对于复杂概念的表征存在一定的局限性。

针对上述背景技术中存在的问题,结合图2所示,本实施例提供的服务器200首先获取与工业领域相关的文本信息。例如,服务器200可以通过从终端100获取与工业领域相关的文本信息。然后,服务器200基于预设的深度置信网络,识别所获取的文本信息中包含的命名实体。其中命名实体为该文本信息中以名称为标识的实体。然后,服务器200基于该预设的深度置信网络,识别命名实体之间的命名实体关系。由于基于预设的深度置信网络将无监督算法和有监督算法结合起来的深度学习算法,它包含了多个层次的神经网络,融合了深度学习和特征学习,因而可以有效地对命名实体和命名实体关系进行识别。最后,服务器200根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

从而,本实施例所提供的服务器200基于预设的深度置信网络,可以有效的对与工业领域相关的文本信息中包含的命名实体以及命名实体关系进行有效的识别,进而根据识别出的命名实体以及识别出的命名实体关系,构建基于工业领域的知识图谱。达到了基于工业领域的非结构化的文本信息,利用深度置信网络,有效的进行命名实体以及命名实体关系的识别,从而构建出适用于工业领域的知识图谱的技术效果。进而解决了现有技术中存在的由于工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此基于支持向量机(svm)和条件随机场(crf)之类的浅层学习方法所构建的知识图谱存在一定的局限性的技术问题。

需要进一步补充的是,知识实体识别可以通过自然语言处理中的命名实体识别来实现。命名实体识别是指识别文本中包含的以名称为标识的命名实体。中英文在语法上存在着极大的区别,中文的表达比英文要复杂的多,在对中文进行处理时,涉及到分词、同义词转换等,对英文的命名实体识别不能直接移植到中文文本上。通过深度置信网络算法来对中文实体之间的关系来进行识别,并采用ace(automaticcontentextraction)来解决信息抽取中的实体识别、关系识别和事件识别,以及根据不同的情况,定义不同的命名实体关系。并且深度置信网络是一种将无监督算法和有监督算法结合起来的深度学习算法。它包含了多个层次的神经网络,融合了深度学习和特征学习,可以有效地对知识实体和实体关系进行识别,进而可采用一些工具来绘制工业知识图谱。将知识单元的识别、知识间关系的识别映射为命名实体和命名实体关系的识别后,进而就可以得到基于深度学习的基于工业领域的知识图谱构建方法。

可选地,基于预设的深度置信网络,识别文本信息中包含的命名实体的操作,包括:对文本信息中包含的命名实体进行特征的提取;以及根据所提取的特征的结果,基于预设的深度置信网络,识别文本信息中包含的命名实体。

具体地,服务器200基于预设的深度置信网络,识别文本信息中包含的命名实体的操作,包括:服务器200对该文本信息中包含的命名实体进行特征的提取。其中,在命名实体识别中,需要提取命名实体的特征来对命名实体进行描述。然后,服务器200再根据所提取的特征的结果,基于预设的深度置信网络,识别该文本信息中包含的命名实体。从而,通过这种方式,服务器200可以通过提取命名实体特征,进而根据所提取的特征的结果,基于预设的深度置信网络,可以快速有效的识别文本信息中包含的命名实体。

可选地,对文本信息中包含的命名实体进行特征的提取的操作,包括提取以下任意一项中的至少一项特征:词特征,其中词特征用于描述文本信息中包含的词;词性特征,其中词性特征用于描述文本信息包含的词的词性;词典特征,其中词典特征用于描述与命名实体相关的词所组成的词典;词上下文窗口特征,其中上下文窗口特征用于描述文本信息中连续多个词组成的上下文窗口的规律;以及用于描述文本信息中的词对于文本信息的重要性的统计特征。

具体地,本实施例所提供的服务器200选择词特征、词性特征、词典特征、上下文窗口特征、统计特征等来对文本信息中包含的命名实体进行描述。其中,可以通过以下描述分别提取上述多个特征:

1)词特征

由于中文文本信息缺乏天然的分词标记,需要首先对文本信息进行分词。对中文进行分词可以采用中科院的分词系统(ictclas),该系统可以支持中文分词,词性标注等功能。ictclas还支持用户自定义词典,具有广泛的适用性。ictclas在python语言和r语言下都有相应的模块可以直接调用,调用非常方便,分词后的结果也能及时入库,并进行数据处理。将分词后的所有词组成字符表d,d={d1,d2,…,dn},其中di表示一个词。将每个词e的词特征向量表示为v={v1,v2,…,vn},其中vi代表该词是否对应字符表d中的di,vi的计算方式如下:

2)词性特征

词性特征对于命名实体的识别也是非常重要的。中文词性标注同样采用ictclas的分词算法进行标注。词性特征的构建方式与上述词特征的构建方式一致。首先构建词性表d,d={d1,d2,…,dn},假设该词的词性为p,则该词的词性特征向量为v={v1,v2,…,vn},其中vi代表该词是否对应词性表d中的di,vi的计算方式如下:

3)词典特征

选择与命名实体相关的词组成词典。同样采用上文提到的特征向量构造方式构造每个词的特征向量。

4)词上下文窗口特征

在一段文本中,连续多个词组成的上下文窗口有时也会存在一定规律。上下文窗口可以根据具体场景进行设置,如设置为3,则表示选择该词的前一个词和后一个词纳入到分析中。

5)统计特征

在命名实体识别时,同样可以增加一些统计特征进行计算。本发明采用tf-idf来评价一个词对于一个语料库中的一份语料的重要程度。其中,tf-idf是一种用于资讯检索与资讯探勘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

tf-idf的公式如下:

其中,tfij代表词tj在文档di中出现的频率,n代表语料库中的文档总数,nj代表出现词tj的文档数。

可选地,基于预设的深度置信网络,识别命名实体之间的命名实体关系的操作,包括:对命名实体关系进行特征的提取;以及根据所提取的特征的结果,基于预设的深度置信网络,识别命名实体之间的命名实体关系。

具体地,服务器200基于预设的深度置信网络,识别命名实体之间的命名实体关系的操作,包括:服务器200对命名实体关系进行特征的提取。然后,服务器200根据所提取的特征的结果,基于深度置信网络,识别命名实体之间的命名实体关系。从而,通过这种方式,服务器200可以快速有效的识别出命名实体之间的命名实体关系。

可选地,对命名实体关系进行特征的提取的操作,包括提取以下任意一项中的至少一项特征:实体特征,其中实体特征用于描述文本信息中包含的命名实体;实体类型特征,其中实体类型特征用于描述命名实体的类别;实体对相对位置特征,其中实体对相对位置特征用于描述命名实体对里的两个实体之间的位置关系;实体间距特征,其中实体间距特征用于描述两个命名实体之间存在的词的个数;以及实体上下文窗口特征,其中实体上下文窗口特征用于描述两个命名实体之间的内容对于识别命名实体关系的重要性。

具体地,本实施例所提供的服务器200选择实体特征、实体类型特征、实体对相对位置特征、实体间距离特征、实体上下文窗口特征作为命名实体关系识别的特征。其中,可以通过以下描述分别提取上述多个特征:

1)实体特征

加载命名实体特征中,字符表d存储所有的实体字符d={d1,d2,…,dn},其中di表示一个实体。每个实体对e1和e2的特征向量为v={v1,v2,…,vn,vn+1,vn+2,…,v2n}。特征向量的维数为d的两倍。其中vi代表该词是否对应字符表中的di,vi的计算方式如下:

2)实体类型特征

实体类型特征代表该实体属于哪个命名实体类别。该特征能够描述实体对中的实体分别属于哪个类别,为实体关系的判别提供依据。

3)实体对相对位置特征

实体对的相对位置特征能够描述该实体对里的两个实体之间的位置关系。

4)实体间距离特征

实体间的距离特征主要计算两个实体间由多少个词隔开。

5)实体上下文窗口特征

对于两个实体中间的内容,往往对于识别实体间的关系具有重要的参考价值,因此,实体上下文窗口特征对于实体关系识别也很重要。

可选地,根据命名实体以及命名实体关系,构建基于工业领域的知识图谱的操作,包括:基于预设的图形数据库,并根据命名实体以及命名实体关系,绘制知识图谱。

具体地,本实施例所提供的服务器200采用预设的图形数据库(例如,可以为开源图形数据库neo4j)来实现基于工业领域的知识图谱的绘制。步骤如下:

1)数据入库:采用批量导入的方式将识别好的命名实体与命名实体关系导入至预设的图形数据库中。

2)采用cypher查询语言查询所有节点及关系,即能获取整个知识图谱的全貌。

3)采用cypher语言搜索所需的节点及关系信息,可以为使用者提供个性化的知识服务。

4)采用编程的方式可以调用neo4j的restapi接口进一步开发知识图谱界面。

可选地,在基于预设的深度置信网络,识别文本信息中包含的命名实体的操作之前,还包括:基于四层受限玻尔兹曼机以及一层反向传播网络,搭建深度置信网络。

具体地,深度置信网络是深度学习领域的经典算法之一。它通常由多个受限玻尔兹曼机(rbm)和一层反向传播网络(bp)组成,其中,受限玻尔兹曼机是无监督的,而反向传播网络则是有监督的。在深度置信网络的训练过程中,首先会无监督地训练每一层受限玻尔兹曼机网络,以将数据样本的内在特征映射到不同的特征空间中,然后利用bp网络有监督地训练,将之前学习到的特征组合进行分类,并且通过反向传播对参数进行调整,最终获得深度置信网络的最优参数。本实施例所提供的服务器200基于四层受限玻尔兹曼机以及一层反向传播网络,搭建了深度置信网络。图4示出了深度置信网络的结构示意图。参照图4所示,深度置信网络包括4个rbm层和1个bp层。图5为受限玻尔兹曼机的结构示意图,图6为反向传播网络的结构示意图。参照图4、图5以及图6所示,v0是输入层,接受原始的样本数据,h0是第一层的隐藏层。样本输入至输入层后,深度置信网络模型会先学习v0和h0层之间的参数w0。第一层训练好后,第一层的隐藏层h0会作为第二层rbm网络的可视层v1,v1和h1一起组成第二层的rbm网络,此时模型会训练第二层rbm的参数w1。假设以n代表rbm的层数,则第n-1层的输出会作为n层的输入。此时,深度置信网络模型会学习第n层rbm网络的参数wn-1。结束所有的rbm网络训练后,深度置信网络进入反向传播阶段,此时,bp网络会根据输出与期望输出的误差对参数进行调整,以达到深度置信网络的最优参数。

此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。存储介质104包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。

需要补充的是,图7示出了基于深度学习的工业知识图谱实现流程图。参照图7所示,深度学习作为一种模拟人类认知行为的算法,它会像人类的大脑一样按照层次来对概念进行组织。首先,它会学习最简单的概念,然后根据这些简单的概念组成更加抽象的概念,逐层深入,通过对低层特征的组合,形成越来越抽象的深层表示,从而能达到更准确的认知。釆用深度学习对知识单元和单元之间的关系的进行提取,可以为知识图谱的构建提供良好的基础。在知识图谱的构建中,最主要的三个环节就是知识单元的抽取、知识单元间关系的识别以及知识图谱的绘制,其中尤其以知识单元间关系的识别最为关键。而深度置信网络是一种将无监督算法和有监督算法结合起来的深度学习算法。它包含了多个层次的神经网络,融合了深度学习和特征学习,可以有效地对知识实体和实体关系进行识别,进而可采用一些工具来绘制工业知识图谱。将知识单元的抽取、知识间关系的识别映射为命名实体和实体关系的识别后,进而就可以得到基于深度学习的工业知识图谱构建方法。

进一步地,基于深度学习的工业知识图谱实施方法如下:

步骤一:搭建深度置信网络

深度置信网络是深度学习领域的经典算法之一。它通常由多个受限玻尔兹曼机(rbm)和一层反向传播网络(bp)组成,其中,受限玻尔兹曼机是无监督的,而反向传播网络则是有监督的。在深度置信网络的训练过程中,首先会无监督地训练每一层受限玻尔兹曼机网络,以将数据样本的内在特征映射到不同的特征空间中,然后利用bp网络有监督地训练,将之前学习到的特征组合进行分类,并且通过反向传播对参数进行调整,最终获得深度置信网络的最优参数。

本实施例中,深度置信网络包括4个rbm层和1个bp层,参考图4所示,其中v0是输入层,接受原始的样本数据,h0是第一层的隐藏层。样本输入至输入层后,深度置信网络模型会先学习v0和h0层之间的参数w0。第一层训练好后,第一层的隐藏层h0会作为第二层rbm网络的可视层v1,v1和h1一起组成第二层的rbm网络,此时模型会训练第二层rbm的参数w1。假设以n代表rbm的层数,则第n-1层的输出会作为n层的输入。此时,深度置信网络模型会学习第n层rbm网络的参数wn-1。结束所有的rbm网络训练后,深度置信网络进入反向传播阶段,此时,bp网络会根据输出与期望输出的误差对参数进行调整,以达到深度置信网络的最优参数。

步骤二:基于深度置信网络的知识实体识别

知识实体识别可以通过自然语言处理中的命名实体识别来实现。命名实体识别是指识别文本中包含的以名称为标识的命名实体。中英文在语法上存在着极大的区别,中文的表达比英文要复杂的多,在对中文进行处理时,涉及到分词、同义词转换等,对英文的命名实体识别不能直接移植到中文文本上。

进一步地,需要进行特征选择,即在知识实体识别中,需要提取知识实体的特征来对知识实体进行描述本发明选择词性特征、词特征、词典特征、上下文窗口特征、其他统计特征等来对命名实体进行描述。

1)词特征

由于中文文本信息缺乏天然的分词标记,需要首先对文本信息进行分词。对中文进行分词可以采用中科院的分词系统(ictclas),该系统可以支持中文分词,词性标注等功能。ictclas还支持用户自定义词典,具有广泛的适用性。ictclas在python语言和r语言下都有相应的模块可以直接调用,调用非常方便,分词后的结果也能及时入库,并进行数据处理。将分词后的所有词组成字符表d,d={d1,d2,…,dn},其中di表示一个词。将每个词e的词特征向量表示为v={v1,v2,…,vn},其中vi代表该词是否对应字符表d中的di,vi的计算方式如下:

2)词性特征

词性特征对于命名实体的识别也是非常重要的。中文词性标注同样采用ictclas的分词算法进行标注。词性特征的构建方式与上述词特征的构建方式一致。首先构建词性表d,d={d1,d2,…,dn},假设该词的词性为p,则该词的词性特征向量为v={v1,v2,…,vn},其中vi代表该词是否对应词性表d中的di,vi的计算方式如下:

3)词典特征

选择与命名实体相关的词组成词典。同样采用上文提到的特征向量构造方式构造每个词的特征向量。

4)词上下文窗口特征

在一段文本中,连续多个词组成的上下文窗口有时也会存在一定规律。上下文窗口可以根据具体场景进行设置,如设置为3,则表示选择该词的前一个词和后一个词纳入到分析中。

5)统计特征

在命名实体识别时,同样可以增加一些统计特征进行计算。本发明采用tf-idf来评价一个词对于一个语料库中的一份语料的重要程度。其中,tf-idf是一种用于资讯检索与资讯探勘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

tf-idf的公式如下:

其中,tfij代表词tj在文档di中出现的频率,n代表语料库中的文档总数,nj代表出现词tj的文档数。

步骤三:基于深度置信网络的中文实体关系识别

本实施例基于特征的方法,通过深度置信网络算法来对中文实体之间的关系来进行识别,并采用ace(automaticcontentextraction)来解决信息抽取中的实体抽取、关系识别和事件识别,以及根据不同的情况,定义不同的实体关系。

进一步地,本公开选择实体特征、实体类型特征、实体对相对位置特征、实体间距离特征、上下文窗口特征作为实体关系识别的特征。

1)实体特征

加载命名实体特征中,字符表d存储所有的实体字符d={d1,d2,…,dn},其中di表示一个实体。每个实体对e1和e2的特征向量为v={v1,v2,…,vn,vn+1,vn+2,…,v2n}。特征向量的维数为d的两倍。其中vi代表该词是否对应字符表d中的di,vi的计算方式如下:

2)实体类型特征

实体类型特征代表该实体属于哪个命名实体类别。该特征能够描述实体对中的实体分别属于哪个类别,为实体关系的判别提供依据。

3)实体对相对位置特征

实体对的相对位置特征能够描述该实体对里的两个实体之间的位置关系。

4)实体间距离特征

实体间的距离特征主要计算两个实体间由多少个词隔开。

5)实体上下文窗口特征

对于两个实体中间的内容,往往对于识别实体间的关系具有重要的参考价值,因此,实体上下文窗口特征对于实体关系识别也很重要。

步骤四:工业知识图谱绘制

本公开采用开源图形数据库neo4j,来实现工业知识图谱的绘制。步骤如下:

1)数据入库:采用批量导入的方式将识别好的知识实体与实体关系导入至图形数据库中。

2)采用cypher查询语言查询所有节点及关系即能获取整个知识图谱的全貌。

3)采用cypher语言搜索所需的节点及关系信息,可以为使用者提供个性化的知识服务。

4)采用编程的方式可以调用neo4j的restapi接口进一步开发知识图谱界面。

从而,通过上述所述的流程,实现了基于深度学习构建工业知识图谱的构建,进而达到了以下所述的效果:

1)设计了包含4个rbm层和1个bp层的隐含层神经元个数可变深度置信网络;

2)构造了基于深度学习的工业知识图谱绘制的框架和流程;

3)将知识图谱绘制中包含的知识单元抽取、知识单元的关系抽取和知识图谱绘制这三个步骤映射为知识实体识别、实体关系识别和知识图谱绘制,其中前两部分均采用深度置信网络算法来实现;

4)提出采用词特征、词性、上下文窗口特征等作为工业知识实体识别的特征;

5)提出采用实体特征、实体类型、实体相对位置等作为实体关系识别的特征。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图8示出了根据本实施例所述的基于工业领域构建知识图谱的装置800,该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示,该装置800包括:获取模块810,用于获取与工业领域相关的文本信息;第一识别模块820,用于基于预设的深度置信网络,识别文本信息中包含的命名实体,其中命名实体用于指示文本信息中包含的以名称为标识的实体;第二识别模块830,用于基于预设的深度置信网络,识别命名实体之间的命名实体关系;以及构建模块840,用于根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

可选地,第一识别模块820,包括:第一提取子模块,用于对文本信息中包含的命名实体进行特征的提取;以及第一识别子模块,用于根据所提取的特征的结果,基于预设的深度置信网络,识别文本信息中包含的命名实体。

可选地,第一提取子模块,包括第一提取子单元,用于提取以下任意一项中的至少一项特征:词特征,其中词特征用于描述文本信息中包含的词;词性特征,其中词性特征用于描述文本信息包含的词的词性;词典特征,其中词典特征用于描述与命名实体相关的词所组成的词典;词上下文窗口特征,其中上下文窗口特征用于描述文本信息中连续多个词组成的上下文窗口的规律;以及用于描述文本信息中的词对于文本信息的重要性的统计特征。

可选地,第二识别模块830,包括:第二提取子模块,用于对命名实体关系进行特征的提取;以及第二识别子模块,用于根据所提取的特征的结果,基于预设的深度置信网络,识别命名实体之间的命名实体关系。

可选地,第二提取子模块,包括第二提取单元,用于提取以下任意一项中的至少一项特征:实体特征,其中实体特征用于描述文本信息中包含的命名实体;实体类型特征,其中实体类型特征用于描述命名实体的类别;实体对相对位置特征,其中实体对相对位置特征用于描述命名实体对里的两个实体之间的位置关系;实体间距特征,其中实体间距特征用于描述两个命名实体之间存在的词的个数;以及实体上下文窗口特征,其中实体上下文窗口特征用于描述两个命名实体之间的内容对于识别命名实体关系的重要性。

可选地,构建模块840,包括:绘制子模块,用于基于预设的图形数据库,并根据命名实体以及命名实体关系,绘制知识图谱。

可选地,还包括:搭建模块,用于在基于预设的深度置信网络,识别文本信息中包含的命名实体的操作之前,基于四层受限玻尔兹曼机以及一层反向传播网络,搭建深度置信网络。

从而根据本实施例,所提供的装置800基于预设的深度置信网络,可以有效的对与工业领域相关的文本信息中包含的命名实体以及命名实体关系进行有效的识别,进而根据识别出的命名实体以及识别出的命名实体关系,构建基于工业领域的知识图谱。达到了基于工业领域的非结构化的文本信息,利用深度置信网络,有效的进行命名实体以及命名实体关系的识别,从而构建出适用于工业领域的知识图谱的技术效果。进而解决了现有技术中存在的由于工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此基于支持向量机(svm)和条件随机场(crf)之类的浅层学习方法所构建的知识图谱存在一定的局限性的技术问题。

实施例3

图9示出了根据本实施例所述的基于工业领域构建知识图谱的装置900,该装置900与根据实施例1的第一个方面所述的方法相对应。参考图9所示,该装置900包括:处理器910;以及存储器920,与处理器910连接,用于为处理器910提供处理以下处理步骤的指令:获取与工业领域相关的文本信息;基于预设的深度置信网络,识别文本信息中包含的命名实体,其中命名实体用于指示文本信息中包含的以名称为标识的实体;基于预设的深度置信网络,识别命名实体之间的命名实体关系;以及根据命名实体以及命名实体关系,构建基于工业领域的知识图谱。

可选地,基于预设的深度置信网络,识别文本信息中包含的命名实体的操作,包括:对文本信息中包含的命名实体进行特征的提取;以及根据所提取的特征的结果,基于预设的深度置信网络,识别文本信息中包含的命名实体。

可选地,对文本信息中包含的命名实体进行特征的提取的操作,包括提取以下任意一项中的至少一项特征:词特征,其中词特征用于描述文本信息中包含的词;词性特征,其中词性特征用于描述文本信息包含的词的词性;词典特征,其中词典特征用于描述与命名实体相关的词所组成的词典;词上下文窗口特征,其中上下文窗口特征用于描述文本信息中连续多个词组成的上下文窗口的规律;以及用于描述文本信息中的词对于文本信息的重要性的统计特征。

可选地,基于预设的深度置信网络,识别命名实体之间的命名实体关系的操作,包括:对命名实体关系进行特征的提取;以及根据所提取的特征的结果,基于预设的深度置信网络,识别命名实体之间的命名实体关系。

可选地,对命名实体关系进行特征的提取的操作,包括提取以下任意一项中的至少一项特征:实体特征,其中实体特征用于描述文本信息中包含的命名实体;实体类型特征,其中实体类型特征用于描述命名实体的类别;实体对相对位置特征,其中实体对相对位置特征用于描述命名实体对里的两个实体之间的位置关系;实体间距特征,其中实体间距特征用于描述两个命名实体之间存在的词的个数;以及实体上下文窗口特征,其中实体上下文窗口特征用于描述两个命名实体之间的内容对于识别命名实体关系的重要性。

可选地,根据命名实体以及命名实体关系,构建基于工业领域的知识图谱的操作,包括:基于预设的图形数据库,并根据命名实体以及命名实体关系,绘制知识图谱。

可选地,存储器920还用于为处理器910提供处理以下处理步骤的指令:在基于预设的深度置信网络,识别文本信息中包含的命名实体的操作之前,基于四层受限玻尔兹曼机以及一层反向传播网络,搭建深度置信网络。

从而根据本实施例,所提供的装置900基于预设的深度置信网络,可以有效的对与工业领域相关的文本信息中包含的命名实体以及命名实体关系进行有效的识别,进而根据识别出的命名实体以及识别出的命名实体关系,构建基于工业领域的知识图谱。达到了基于工业领域的非结构化的文本信息,利用深度置信网络,有效的进行命名实体以及命名实体关系的识别,从而构建出适用于工业领域的知识图谱的技术效果。进而解决了现有技术中存在的由于工业领域的信息相比其他领域更加杂乱无序,大部分信息来源于非结构化的文本,因此基于支持向量机(svm)和条件随机场(crf)之类的浅层学习方法所构建的知识图谱存在一定的局限性的技术问题。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1