面向科技政策领域的知识图谱构建方法及系统

文档序号:26279310发布日期:2021-08-13 19:36阅读:467来源:国知局
面向科技政策领域的知识图谱构建方法及系统

本发明涉及自然语言处理技术领域,尤其涉及一种面向科技政策领域的知识图谱构建方法及系统。



背景技术:

近年来,由于科技资源规模的爆炸性增长,现有的科技资源正面临着指标繁多、类别细分、难以完整覆盖、精确提炼等问题,如何实现科技资源的知识图谱构建成为了国内外众多研究者所需要解决的问题。随着人工智能技术的高速发展,将人工智能与科技领域相结合成为了当前研究的热点,其中知识图谱技术作为人工智能领域的一个重要的分支,具有广阔的应用前景和现实意义。

知识图谱是由实体关系三元组所组成,可以看作是通过顶点(即实体)和边(即实体关系)所拼接而成的有向图,相比于传统的文本,知识图谱在表达方式上具有更优的性能。相比于与传统的信息管理方式,知识图谱因其图的数据结构的数据表达方式有利于我们更加快速有效地从冗长复杂的数据中获取所需的知识以及知识相互间的关系。此外,相比于传统的文本形式,人们往往更加直观地基于图的表示去理解。知识图谱因其基于图而具有的较强的解释性,在挖掘数据中潜在语义关系和知识之间关系推理上也扮演着重要的角色。

从科技资源文本中基于命名实体识别技术挖掘出预先定义好的实体作为构建知识图谱的第一步,目前最主流的深度学习的实体识别方法,其词嵌入模型使用的是最受广大研究者追捧的是word2vec词嵌入模型。但是word2vec会导致词向量在预测的时候只会考虑窗口内的特征,而忽视了窗口的数据特征,并且不同的语境下,相同的词也会有不同的含义,从而导致实体的识别效果降低。另外,在实体识别之后需要进行实体关系的抽取,目前实体关系抽取的主流技术是循环神经网络模型,而目前的实体关系抽取方法多数是以单个句子作为处理单元,难以解决训练语料中实体关系标签标注错误的问题,且没有充分利用包含实体信息的多个句子在分类实体关系时的相互增强作用;此外循环神经网络在训练时很有可能会出现梯度消失,无法很好地处理远距离依赖的缺陷;因此难以确保抽取到的实体关系的准确性,从而导致所构建的科技政策领域的知识图谱不准确。因此,如何确保所构建的科技政策领域的知识图谱的准确性是亟待解决的技术问题。



技术实现要素:

有鉴于此,本发明提供了一种面向科技政策领域的知识图谱构建方法及系统,以解决现有技术中存在的一个或多个问题。

根据本发明的一个方面,本发明公开了一种面向科技政策领域的知识图谱构建方法,所述方法包括:

获取待处理科技政策内容文本,并根据bert模型生成所述待处理科技政策内容文本的字向量;

根据双向长短时记忆网络blstm模型对所述字向量进行特征提取,得到所述待处理科技政策内容文本的时序特征向量;

根据条件随机场crf模型对所述时序特征向量进行实体识别,得到实体的识别结果;

通过双向门控循环单元层生成所述实体的识别结果对应的特征向量;

基于双重注意力机制对所述实体的识别结果对应的特征向量进行重要特征提取,并将提取到的重要特征输送至分类层对各实体间的实体关系进行分类,获取实体关系分类结果;

根据实体的识别结果及实体关系分类结果构建所述待处理科技政策内容文本的知识图谱。

在本发明的一些实施例中,获取待处理科技政策内容文本,并根据bert训练模型生成所述待处理科技政策内容文本的字向量,包括:

将获取到的所述待处理科技政策内容文本进行分词,并生成候选词集;

bert模型基于所述候选词集生成所述待处理科技政策内容文本的字向量。

在本发明的一些实施例中,bert模型基于所述候选词集生成所述待处理科技政策内容文本的字向量,包括:

所述bert模型获取所述候选词集;

对所述候选词集依次进行词嵌入、段嵌入及位置嵌入,分别得到词向量、段向量以及位置向量;

基于所述词向量、段向量以及位置向量通过双向transformer模型获取所述待处理科技政策内容文本的字向量。

在本发明的一些实施例中,所述条件随机场crf模型的目标函数计算公式为:

其中,为目标函数,为标签转移到标签的转移分数,为第i步标签对应的发射分数。

在本发明的一些实施例中,所述方法还包括:

将所述实体的识别结果及所述实体关系分类结果存储至数据库。

在本发明的一些实施例中,所述数据库包括neo4j图形数据库。

在本发明的一些实施例中,基于双重注意力机制对所述实体的识别结果对应的特征向量进行重要特征提取,包括:

基于字级别注意力层为各所述实体赋予权重;

基于句子级别注意力层为各待处理科技政策内容文本对应的各语句赋予权重;

根据各实体的权重值及各语句的权重值对所述实体的识别结果对应的特征向量进行重要特征提取。

在本发明的一些实施例中,所述方法还包括对源科技政策内容文本进行去噪并转化为预定格式的待处理科技政策内容文本。

根据本发明的另一方面,还公开了一种面向科技政策领域的知识图谱构建系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例中所述方法的步骤。

根据本发明的又一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例中所述方法的步骤。

本发明实施例所公开的面向科技政策领域的知识图谱构建方法及系统,基于双向长短时记忆网络学习数据的上下文信息,并且基于条件随机场模型学习标签间存在的依赖关系的基础上,引入了bert来完成数据的预训练,将双向transformer用于语言模型中,可以很好地根据字的上下文信息来丰富字的语义向量,然后再将输出的字向量序列输入到blstm-crf进行训练,从而提高实体识别的准确性。另外,在双向长短时记忆网络的基础上,引入了双向门控循环单元,进一步提高关系抽取的准确性。从而确保了所构建的科技政策领域的知识图谱的准确性。

本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:

图1为本发明一实施例的面向科技政策领域的知识图谱构建方法的流程示意图。

图2为本发明另一实施例的面向科技政策领域的知识图谱构建方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。

为解决科技资源正面临着的指标繁多、类别细分、难以完整覆盖、精确提炼等问题,本发现利用知识图谱算法的实体识别技术和关系抽取技术,提出了基于bert-blstm-crf的实体识别模型和基于bgru-battention的关系抽取模型,完成科技政策的知识图谱构建,提高知识图谱的实体抽取及实体关系抽取的准确性。

对于bert-blstm-crf模型,首先将待识别的文本输入lstm(双向长短时记忆网络)模型中,获取每个字符相应的标签,这些标签之间具有较强的依赖关系。进而在lstm网络层之后再接入一层crf(条件随机场)模型来学习标签间存在的依赖关系,最后输出全局最优句子级别的标签序列。基于blstm-crf模型的中文命名实体识别方法经过实验验证,能够有效的提高中文命名实体识别效果;但因该模型在训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好地处理字的多义性特征。针对这一问题,本发明提出在基于blstm模型学习数据的上下文信息,并且在基于crf模型学习标签间存在的依赖关系的基础上,引入了bert模型来完成数据的预训练,并将双向transformer用于语言模型中,可以很好地根据字的上下文信息来丰富字的语义向量。

图1为本发明一实施例的面向科技政策领域的知识图谱构建方法的流程示意图,如图1所示,该面向科技政策领域的知识图谱构建方法包括步骤s10~s60。

步骤s10:获取待处理科技政策内容文本,并根据bert模型生成所述待处理科技政策内容文本的字向量。

在该步骤中,待处理的科技政策内容文本为需进行实体抽取和实体关系抽取的内容文本,其可以为由多个语句组成的段落,也可为符合bert模型输入格式的内容。其中,当科技政策内容文本格式与bert模型可接收的输入格式或长度不匹配时,可预先将科技政策内容文本进行预处理,即将源科技政策内容文本进行预处理并转化为预定格式的待处理科技政策内容文本。

在对源内容文本预处理过程中,首先对原始的文本数据进行语料清洗,将文本内容转化为预定格式,以及将文本内容进行去噪等。进一步的基于正则表达式匹配规则提取文本中符合预定特性要求的文本数据。此外,本发明的科技政策内容文本可基于爬虫技术爬取得到,而由于所爬取的数据集主要是非结构化数据,大部分都为一篇文章或一句短语等,无法直接使用;因而在爬取到非结构化原始数据之后,需要对爬取到的非结构化原始数据进行分词及词性分析等处理。在分词之后依据词性来选取有价值的内容,舍弃无用的修饰词汇,并生成候选词集。另外,当将科技政策内容文本预处理之后还可借助数据库完成数据持久化存储。

示例性的,对爬取到的科技政策内容文本要进行分词、去停用词、去高频词等数据清洗,从每条科技政策数据中提取出政策文本、政策标题、政策链接、发布时间、发布单位、关键词、扶持类型等信息。进一步的,在基于分词和去停用词处理完原始数据之后,每个分词后的词组会被语言模型转换成向量,从而将科技大数据文本数据映射成其相应的矩阵向量。

即当将获取到的待处理科技政策内容文本进行分词,并生成候选词集后,bert训练模型基于生成的候选词集生成待处理科技政策内容文本的字向量。

bert模型包括了预训练阶段和微调阶段两大阶段。在预训练阶段,bert模型基于采用随机遮挡字符获取词级别表示的遮蔽语言训练任务和基于二值化来获取句子级别表的示下一句预测训练任务这两个无监督的预测任务来完成语言模型的训练。不同于其它语言模型,在bert模型中,网络结构中的全部的上下文数据会被联合调节,语言的表示也会通过一个双向的语言模型来预训练得到。另外,将双向transformer用于语言模型中,可以很好地根据字的上下文信息来丰富字的语义向量。

在本发明另一实施例中,bert模型基于所述候选词集生成所述待处理科技政策内容文本的字向量,具体的包括以下步骤:bert模型获取所述候选词集;bert模型对候选词集依次进行词(token)嵌入、段(segment)嵌入及位置(position)嵌入,分别得到词向量、段向量以及位置向量;bert训练模型基于所述词向量、段向量以及位置向量通过双向transformer模型获取待处理科技政策内容文本的字向量。

在该实施例中,基于实体识别技术来提取科技资源中潜在的科技实体时,引入了bert预训练语言模型,通过将双向transformer用于语言模型中,可以很好地根据字的上下文信息来丰富字的语义向量;在bert模型中,所有层中的上下文会被整体调节起来,且在语言模型上,也是通过数据表达能力出色的双向transformer网络来完成。transformer是一种基于attention机制叠加而成的深度网络,不但可以捕捉长距离特征,且具有较好的并行计算能力,对句子中的所有词的信息编码都不用考虑方向和距离,bert模型把每个词对应的词向量、句子向量、位置向量总和作为输入;其中,segment嵌入可使bert训练模型将句子对中两个句子的向量表示进行划分。

步骤s20:根据双向长短时记忆网络blstm模型对所述字向量进行特征提取,得到所述待处理科技政策内容文本的时序特征向量。

在该步骤中,将bert模型输出的字向量输入到双向长短时记忆网络层中,通过综合前向和后向记忆网络,提取字向量中的特征并生成时序特征向量。双向长短时记忆网络层在序列标注上有着不错的表现,可以有选择地留存相关知识文本,可以解决知识文本中的存在“长依赖”问题。不同于单向的长短时记忆网络,bilstm神经网络中设定了前向和后向两个方向上网络结构,在运行方式上,bilstm的两个方向的神经网络与普通的长短时记忆网络类似。前向长短时记忆网络会先从句子的最前面开始运行,后向长短时记忆网络会先从最后面开始运行,最后再融合来自两个方向的网络信息,从而解决了单向长短时记忆网络只能保留前面而无法考虑后续上下文的缺陷。在双向长短时记忆网络中,前面的上下文信息不但得到有效地保存,来自后面的上下文信息也会被融合进来,从而提高数据的特征表达能力。

步骤s30:根据条件随机场crf模型对所述时序特征向量进行实体识别,得到实体的识别结果。

其中,时序特征向量为基于blstm模型生成的向量;并且在双向长短时记忆网络层之后加入一层条件随机场crf,通过学习标签之间的相邻关系可确保标签有效。示例性的,bert模型所生成的字向量进一步的基于blstm-crf生成各字所对应的预测标签,并进一步的根据预测标签确定待处理科技政策内容文本的实体;示例性的,科技政策内容文本为“工信部开展人工智能与实体经济等”,该科技政策内容文本对应的实体为:工信部、人工智能。crf层中的损失函数包括发射分数和转移分数,其具体的计算公式为:

其中,为目标函数,为标签转移到标签的转移分数,为第i步标签对应的发射分数。

在该实施例中,我们把条件随机场中状态转移矩阵用a来表示,从第i个标签转移到第j个标签的概率用来表示,接着函数s(x,y)的最大值可以通过极大似然的方法计算得来,从而得到最优的标签序列作为数据标签。这样就可以通过crf作为损失函数的计算方式,利用梯度下降进行实体识别模型的训练,从而得到科技大数据之科技政策内容文本的实体识别模型。

步骤s40:通过双向门控循环单元层生成所述实体的识别结果对应的特征向量。

在该步骤中,双向门控循环单元层(gru)的输入为通过bert-blstm-crf模型获取到的实体的识别结果所对应的序列向量,序列向量被输入到双向门控循环单元层中,经过多次训练获得输入数据的特征向量。其中,在序列向量被输入到双向门控循环单元层之前,还可基于数据预处理层将实体对、实体关系和对应句子数据经过编码、词向量化处理转换成序列向量。

步骤s50:基于双重注意力机制对所述实体的识别结果对应的特征向量进行重要特征提取,并将提取到的重要特征输送至分类层对各实体间的实体关系进行分类,获取实体关系分类结果。

在该步骤中,通过双向门控循环单元层生成所述实体的识别结果对应的特征向量之后,进一步的引入字级别注意力层和句子级别注意力层的双重注意力机制提取特征向量的重要特征。示例性的,基于双重注意力机制对所述实体的识别结果对应的特征向量进行重要特征提取,包括:基于字级别注意力层为各所述实体赋予权重;基于句子级别注意力层为各待处理科技政策内容文本对应的各语句赋予权重;根据各实体的权重值及各语句的权重值对所述实体的识别结果对应的特征向量进行重要特征提取。

其中,当科技政策内容文本为“工信部开展人工智能与实体经济等”具体获取到的实体关系例如:<工信部,发布,人工智能>。另外,字级别注意力机制模型采用q(query,查询)、k(key,关键字)、v(value,权重)。在该模型中,通过均匀分布随机采样的向量矩阵来获取到query,其中双向门控循环单元网络隐藏层的输出向量的维度用k表示,基于句子中的中文分词词性的向量所生成的特征矩阵来获取到key,基于双向门控循环单元网络隐藏层的输出向量获取到相同的矩阵value,基此可以获取到实体关系抽取中的字级别的注意力输出向量,具体计算公式如下:

其中,代表字级别注意力机制中的key向量矩阵,是字级别注意力机制的权重值,采用softmax来完成数据的归一化操作,为字级别的query向量矩阵,是字级别注意力机制的输出。基于上述的字级别注意力层之后已经获取到了句子中汉字的权重值。然后基于抽取中同一个实体和标签很有可能出现在多个句子当中的特点,对该实体以及标签在多个句子中分配权重,从而得到每个句子对于最终结果标签的分类权重。我们使用来表示句子级别的特征输入向量,m表示同一个实体以及相应的标签可能存在于m个句子当中。为了直接继承字级别的输出向量的特征,基于线性变化得到了句子级别的注意力机制中的key向量矩阵。接着可以得到句子级别的注意力机制的输出向量矩阵,计算公式如下:

表示为注意力机制在字粒度的计算出来的向量矩阵,同时也作为注意力机制在句子粒度的输入向量矩阵;表示线性变化的向量矩阵;句子级别注意力机制中的query矩阵采用来表示;句子级别注意力机制中的句子权重分类的权值来表示。最后再用一个全连接层,基于softmax来完成归一化,从而得到句子中实体对关系的分类结果,计算公式如下:

全连接层的偏移值用来表示,实体关系的分类的数量用c来表示,表示为全连接层各个单元的权重值。最后,基于真实情况中该句子中的实体对关系和本次模型预测的实体关系分布的交叉熵函数作为损失函数来开展梯度下降的训练,最终得到实体关系抽取的模型。

通过上述内容可知,该实施例基于bgru-battention实现实体关系的抽取,相比于传统的实体关系识别方法,解决了训练语料中实体关系标签标注错误的问题,且充分利用包含实体信息的多个句子在分类实体关系时的相互增强作用,从而提高了实体关系的准确性。另外,该实施例利用双向门控循环单元学习字的上下文信息,获取更细粒度的特征。通过字级别注意力机制提高对关系分类起决定作用的字权重,利用句子级别注意力机制学习更多语句的特征,降低噪声句子的权重,以有效解决标签标注错误问题,提高了分类器的分类效果。

步骤s60:根据实体的识别结果及实体关系分类结果构建所述待处理科技政策内容文本的知识图谱。

当基于bert-blstm-crf的实体识别算法完成实体识别,并基于bgru-battention的实体关系抽取算法完成实体关系抽取之后,利用已经获取的科技实体以及实体间的关系,进一步的构建待处理科技政策内容文本的知识图谱。

在构建知识图谱之前,可进一步的将获取到的实体的识别结果以及实体关系结果存储至数据库,数据库包括neo4j图形数据库,即进一步的通过neo4j图形数据库来完成数据的存储。其中,实体和实体的关系是以三元组<实体,关系,实体>的形式存储在neo4j图形数据库中的,而neo4j是一种nosql图形数据库,它将结构化数据以图模型的形式存储在网络上,从而即完成了科技政策内容文本的知识图谱的构建。

图2为本发明另一实施例的面向科技政策领域的知识图谱构建方法的流程示意图,如图2所示,首先进行科技政策内容文本的数据采集,具体的可采用scrapy分布式爬取框架完成,具体的通过布隆过滤器对爬取的数据进行去重,并利用正则表达式对爬取到的初始数据进行去噪,另,代理池用于实现高并行的数据爬取。当获得待处理的科技政策内容文本数据之后,进一步的将数据进行存储,其中存储层面包括mysql数据库、elasticsearch数据库和redis数据库。进一步的,采用bert-blstm-crf模型对数据库中存储的科技资源内容文本进行实体抽取,并采用bert-blstm-crf模型对科技资源内容文本中的实体关系进行抽取;最后基于获取的实体名称以及实体间的关系生成可供页面展示的科技资源领域的知识图谱。

另外,本发明还公开了一种面向科技政策领域的知识图谱构建系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

通过上述实施例可以发现,本发明利用科技政策数据的多种特征,提出了基于人工智能中的知识图谱技术构建科技资源的有向图,实现科技政策高效展示。同时采用知识图谱中的关系抽取技术来挖掘科技实体中潜在的实体关系,引入了双向门控单元模型和双重注意力机制,有效地提高了实体关系提取的准确性;进而确保了所构建的科技政策领域的知识图谱的准确性。

本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1