一种基于知识图谱的数据处理方法

文档序号:37878349发布日期:2024-05-09 21:22阅读:9来源:国知局
一种基于知识图谱的数据处理方法

本技术涉及知识图谱,更具体地说,涉及一种基于知识图谱的数据处理方法。


背景技术:

1、随着信息时代的到来,海量的非结构化文本数据在互联网上不断涌现,尤其是传统医学和针灸领域。这些数据包含了丰富的信息,但由于其非结构化的特性,传统的处理方法往往难以有效地挖掘和利用其中的知识。作为知识图谱广泛应用的领域,针灸医学数据具有文献量大、知识碎片化,资料来源广泛等特点。因此,对于如何高效地处理和利用这些非结构化文本数据,成为当前信息技术领域和针灸医学垂直领域亟待解决的挑战之一。

2、在现有技术中,对于非结构化文本数据的利用率较低是一个普遍存在的问题。传统的文本处理方法往往依赖于关键词匹配和统计分析,无法充分挖掘文本中隐藏的语义信息和实体关系。这也导致了当前对于针灸医学的知识图谱研究,多以用穴经验等显性知识的总结分析为主,无法进行更全面的诊疗思路和思维模式的探索和更深层次的学术经验挖掘。

3、中国专利申请,申请号cn202310626389.x,公开日2023年8月15日,公开了一种知识图谱构建方法、装置及介质,涉及计算机知识图谱领域,解决知识图谱构建中实体重叠与结果三元组重叠等问题,通过全词掩蔽双向编码器模型对标准化文本数据进行预训练,得到文本词向量;将文本词向量输入到双向环神经网络中得到上下文依赖关系;根据文本词向量与上下文依赖关系得到结果语义向量;通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组,构建所述服务器研发领域的目标知识图谱。使用全词掩蔽双向编码器模型,将全词掩蔽应用在了中文中,适合中文的理解,双向环神经网络模型抽取三元组及使用多头机制的全局指针标记策略,解决了实体重叠与三元组重叠,目标知识图谱为构建搜索引擎对话系统提供基础。但是该方案主要利用标准化文本数据进行预训练和处理,未充分考虑到对非结构化文本数据进行全面处理和利用。


技术实现思路

1、1.要解决的技术问题

2、针对现有技术中存在的医学领域中对非结构化针灸医学文本数据的利用率低的问题,本技术提供了一种基于知识图谱的数据处理方法,通过构建命名实体识别模型获取知识实体,采用聚类算法得到结构化实体关系,并利用知识图谱进行关系推理和知识增强等,有效地对非结构化文本数据进行结构化表示和知识挖掘利用。

3、2.技术方案

4、本技术的目的通过以下技术方案实现。

5、本说明书实施例提供一种基于知识图谱的数据处理方法,包括:构建包含非结构化文本数据的领域知识数据库;构建命名实体识别模型,利用构建的命名实体识别模型对构建的领域知识数据库进行命名实体识别,获取命名实体作为领域知识实体;采用k均值聚类算法对获取的领域知识实体进行聚类,并进行标注,得到结构化的实体关系数据;根据获取的结构化的实体关系数据,训练transe知识图谱模型,得到领域知识图谱模型;利用得到的领域知识图谱模型,对结构化的实体关系数据进行知识推理,得到实体关系三元组;利用得到的实体关系数据和实体关系三元组,构建领域知识图谱;利用构建的领域知识图谱进行数据处理。

6、其中,k均值聚类是一种常见的无监督聚类算法。它通过迭代的方式将数据点分配到k个聚类中,每个聚类由其质心(centroid)表示,即聚类中所有点的均值。算法通过最小化每个点到其所属聚类质心的平方距离之和来优化聚类效果。在本方案中,k均值聚类算法被用于对命名实体识别获得的知识实体进行聚类。将语义相似、关系紧密的实体聚合在一起,形成不同类别,为后续构建实体关系奠定基础。通过调整聚类数k和设计合适的相似度计算方式,可以获得合适粒度和语义区分度的实体类别划分。

7、其中,transe(translating embedding)是一种知识图谱表示学习模型,由bordes等人于2013年提出。它将知识图谱中的实体和关系嵌入到同一个低维连续向量空间中,使得对于一个三元组(h,r,t),实体h经过关系r的翻译(translation)后应该接近实体t,即h+r≈t。在本方案中,transe模型被用于学习知识图谱的低维向量表示。基于k均值聚类获得的结构化实体关系数据,transe通过最小化正三元组和负采样三元组的距离差异,学习每个实体和关系的嵌入向量。获得的transe嵌入可用于后续的图谱补全、关系预测等推理任务。

8、其中,领域知识图谱是面向特定领域构建的结构化知识库。它以图(graph)的形式来表示领域内的核心概念、实体以及它们之间的语义关联。知识图谱通常由实体(entity)、关系(relation)、属性(attribute)三个基本元素组成。在本方案中,领域知识图谱是整个数据处理的核心目标。它是通过前述的一系列步骤,将非结构化文本数据中的知识提炼、组织、关联,最终形成的结构化、语义化的知识库。构建出的领域知识图谱可用于支撑各类基于知识的智能化应用,如智能问答、专家系统、推荐系统等。

9、其中,实体关系三元组是知识图谱的基本表示单元,由(头实体,关系,尾实体)构成,表达两个实体之间的一种语义关联。例如(马云,创立,阿里巴巴)、(阿里巴巴,总部,杭州)等。三元组以spo(subject-predicate-object)的形式呈现知识事实。在本方案中,实体关系三元组的构建是将非结构化知识转化为结构化知识的关键步骤。通过知识推理环节,利用训练好的transe模型,挖掘蕴含在实体关系数据中的隐含知识,形成新的实体关系三元组。

10、进一步的,基于bilstm-crf构建命名实体识别模型。其中,bilstm-crf是一种广泛用于序列标注任务(如命名实体识别)的深度学习模型,由双向长短时记忆网络(bidirectional long short-term memory,bilstm)和条件随机场(conditional randomfield,crf)两个部分组成。在命名实体识别任务中,bilstm被用于对输入的文本序列进行特征提取和编码。通过双向lstm层,可以获取每个词汇的上下文语义信息,从而为后续的实体边界和类别判断提供更丰富的特征表示。bilstm的输出通常会被作为crf层的输入。在bilstm-crf模型中,crf层接在bilstm层之后,用于对bilstm提取的特征序列进行解码和标注。crf层包含转移矩阵和发射矩阵两部分,分别对应标签间的转移概率和每个token对应各个标签的发射概率。通过学习转移矩阵和发射矩阵的参数,crf可以找到一个全局最优的标注路径,从而得到最终的实体标注结果。

11、进一步的,采用双向lstm算法构建神经网络序列模型,通过双向lstm层获取文本序列的上下文特征,获取输入文本序列的特征表达;采用条件随机场算法crf构建序列标注模型,序列标注模型包含状态层和转移层,状态层表示不同文本序列元素的实体类型,转移层表示相邻状态层标注之间的转移关系,转移层对文本序列元素进行标注;将神经网络序列模型和序列标注模型进行结合,作为序列标注框架,状态层表示文本序列元素的实体类型,转移层进行标注结果的关联,以对文本序列进行联合标注,得到文本序列元素的标注结果。

12、具体的,对输入的文本序列进行预处理,如分词、词性标注、字符编码等,并将其转化为bilstm的输入格式。将处理后的文本序列输入到bilstm层中,通过双向lstm的前向和后向传播,提取每个位置的上下文特征表示。将bilstm输出的特征序列作为crf层的输入,通过已学习的转移矩阵和发射矩阵参数,利用动态规划算法(如viterbi算法)解码求得最优标注路径。根据crf解码的结果,对每个token附加对应的实体标签(如b-person、i-person、o等),从而得到完整的命名实体识别结果。对bilstm-crf模型进行端到端的训练,通过反向传播和梯度下降等优化算法,最小化训练数据上的损失函数,从而学习到最优的模型参数。

13、进一步的,获得实体关系三元组,包括:根据命名实体识别模型得到的领域知识实体,采用依存句法获取语义关系;根据语义关系和聚类算法得到的实体关系数据,构建主语-谓语-宾语的实体关系三元组;实体关系三元组表示实体间的关系,主语和宾语分别表示起始实体和结束实体,谓语表示实体间的语义关系。

14、其中,依存句法(dependency syntax)是一种句法分析的方式,它关注句子中词与词之间的依存关系,而不是像短语结构语法那样关注词与短语之间的层次结构关系。在依存句法中,每个词都依存于另一个词,被依存的词叫做这个词的支配词或者中心词,整个句子的结构通过词与词之间的依存关系连接形成。在本技术中,

15、具体的,利用预训练的命名实体识别模型(如bilstm-crf、bert-crf等),从原始文本中识别出领域相关的知识实体。命名实体识别模型需要在领域语料上进行微调,以适应特定领域的实体类型和表达方式。识别出的知识实体将作为后续关系抽取的基本单元,是构建实体关系三元组的基础。对每个包含知识实体的句子进行依存句法分析,获取句中词与词之间的依存关系。常用的依存句法分析工具有stanford core nlp、spacy、ltp等,可以根据需要选择适合的工具。依存关系揭示了句子成分之间的语义和句法依存关系,如主谓关系、动宾关系、定中关系等。根据依存句法分析的结果,设计一系列规则或模板,从句法依存树中抽取实体之间的语义关系。常见的实体语义关系抽取模板包括:主谓关系(sbv)+动词+动宾关系(vob)→〈主语实体,谓语,宾语实体>定中关系(att)→〈中心词实体,定语类型,定语实体>,并列关系(coo)→〈并列实体1,并列类型,并列实体2>。利用聚类算法(如k-means、层次聚类等)对命名实体识别得到的知识实体进行聚类,将语义相似、关系密切的实体归入同一类别。实体聚类可以帮助我们发现隐含的实体关系,如同一类别的实体通常具有相似的属性和关系。聚类结果可以作为补充信息,与依存句法抽取的显式语义关系相结合,构建更加全面的实体关系三元组。根据语义关系抽取和实体聚类的结果,构建形如〈主语实体,谓语,宾语实体>的实体关系三元组。主语实体和宾语实体分别对应三元组的头实体和尾实体,谓语表示两个实体之间的语义关系类型。对于多个具有相同主语和谓语的三元组,可以将其合并为一个多元关系,如〈主语实体,谓语,[宾语实体1,宾语实体2]>。对构建得到的实体关系三元组进行去重、过滤、规范化等后处理,得到高质量的知识三元组集合。将抽取得到的实体关系三元组与现有的知识库或本体进行融合,建立起完整的领域知识图谱。采用图数据库(如neo4j、janus graph等)或rdf三元组存储(如apache jena、openlink virtuoso等)来存储和管理知识图谱。知识图谱可以支持复杂的语义查询、推理和智能应用,如问答系统、推荐系统、决策支持等。

16、进一步的,训练transe知识图谱模型,得到领域知识图谱模型,包括:将构建的实体关系三元组作为输入;将实体关系三元组中的实体作为节点,关系作为边,进行映射,构建知识图谱;采用transe知识图谱模型,将构建的知识图谱中的节点和边映射为低维向量空间中的向量表示;对正样本的实体关系三元组进行负采样,得到负样本的实体关系三元组;构造transe知识图谱模型的损失函数,使正样本的预测误差小于负样本的预测误差;通过反向传播算法更新节点和边的向量表示,最小化损失函数,得到领域知识图谱的transe表达模型。

17、其中,低维向量空间是指维度相对较低(通常在数十到数百维)的连续实数向量空间。与高维稀疏向量表示(如one-hot编码)相比,低维稠密向量表示可以更加紧凑和高效地刻画事物的语义信息。在知识图谱表示学习中,我们通常将实体和关系映射到一个低维向量空间,使得语义相似的实体和关系在该空间中距离更近、方向更一致。在本技术中,transe模型将知识图谱中的实体和关系映射为低维向量空间中的向量表示(embedding)。具体而言,transe为每个实体和关系分别学习一个低维实数向量,使得对于一个真实的三元组(h,r,t),头实体向量h加上关系向量r应该尽可能接近尾实体向量t,即h+r≈t。通过这种方式,transe模型可以在连续的语义空间中刻画实体和关系之间的潜在联系,从而实现知识图谱的表示学习和补全推理。

18、其中,负采样是一种常用的训练技巧,主要用于在训练样本不平衡或者计算资源有限时,提高模型的训练效率和泛化性能。在知识图谱表示学习中,负采样通过构造负样本三元组来增强模型的区分能力,使其能够更好地判别真实和虚假的知识facts。在本技术中,transe模型采用负采样的方式生成负样本三元组。对于每个正样本三元组(h,r,t),通过替换头实体或尾实体得到一个负样本三元组(h',r,t)或(h,r,t')。替换的实体可以采用随机采样或者启发式规则(如排除已知的正样本关系)。通过引入负样本,transe模型可以学习到更加鲁棒和有区分性的实体关系表示。

19、具体的,在模型训练时,transe同时考虑正样本和负样本的预测误差,并构造合适的损失函数,使得正样本的预测误差显著小于负样本的预测误差。常用的transe损失函数形式如下:l=σ(h,r,t)∈sσ(h',r,t')∈s'max(0,γ+d(h+r,t)-d(h'+r,t')),其中,s是正样本三元组集合,s'是负样本三元组集合,γ是正负样本间的间隔阈值,d是transe空间中的距离度量(如l1距离或l2距离)。该损失函数鼓励正样本的transe预测误差比负样本小γ,从而提升模型的判别能力。在训练过程中,transe模型通过随机梯度下降等优化算法最小化损失函数,同时利用反向传播算法更新实体和关系的低维向量表示。经过多轮迭代训练,transe可以学习到高质量的知识图谱表示模型,刻画实体和关系在低维语义空间中的分布式表示,从而支持后续的知识推理和应用。

20、进一步的,采用bernoulli负采样方法进行负采样,得到负样本的实体关系三元组。其中,bernoulli负采样(bernoulli negative sampling)是一种常用的负采样方法,源于word2vec中的skip-gram with negative sampling(sgns)模型。它以一定的概率替换正样本中的实体,生成负样本三元组,从而提升知识图谱嵌入模型的训练效果。在本技术中,对于每个正样本三元组(h,r,t),决定是替换头实体还是尾实体生成负样本。通常以均等概率决定替换头实体或尾实体。根据决定,对头实体或尾实体进行负采样替换:如果替换头实体,则根据所有实体的bernoulli采样概率p(e),从中采样一个实体h'替换原有的头实体h,得到负样本三元组(h',r,t)。如果替换尾实体,则根据所有实体的bernoulli采样概率p(e),从中采样一个实体t'替换原有的尾实体t,得到负样本三元组(h,r,t')。重复为每个正样本三元组生成一个或多个负样本三元组。将生成的负样本三元组与正样本三元组一起输入到transe模型中,通过最小化正样本和负样本的距离差异,来优化模型参数。通过bernoulli负采样,transe模型可以有效地利用实体的频次信息,生成更加合理和有效的负样本。

21、进一步的,采用k均值聚类算法对获取的领域知识实体进行聚类,包括:输入待聚类的领域知识实体数据集;初始化k个聚类中心,将数据集映射到各个聚类中心构成的空间;计算每个样本到各个聚类中心的欧式距离,将样本映射到距离最近的聚类中心所在的类中;当样本的类归属确定后,对每一类内的样本求平均值,将计算得到的平均值作为对应类的新聚类中心;计算样本的新聚类中心的欧式距离,并根据代价函数选择代价最小的聚类中心;利用选择的代价最小的聚类中心替代初始的聚类中心,重复以上步骤直至代价函数的值收敛。

22、其中,在k均值聚类算法中,代价函数(cost function)是评估聚类结果优劣的关键指标,用于衡量样本点到其所属聚类中心的距离之和。代价函数值越小,表示聚类结果越优,样本点与其所属聚类中心越接近,聚类内部的凝聚度越高。

23、进一步的,根据代价函数选择代价最小的聚类中心,包括:设数据集为,其中表示第i个样本;定义为样本所属的聚类中心编号;定义为样本所属聚类的中心点;代价函数表达式如下:遍历数据集,计算代价函数j的值;选择代价函数j的值最小的类别和对应的聚类中心,作为最优解。

24、进一步的,知识图谱采用增量式三元组迭代更新。其中,增量式三元组迭代更新(incremental triple iterative update)是一种动态更新知识图谱的方法,它允许在已有知识图谱的基础上,不断添加、修改或删除知识三元组,从而实现知识图谱的持续演化和扩充。这种方法避免了每次更新都需要重新训练整个知识图谱模型的高昂开销,提高了知识图谱维护的效率和灵活性。在本技术中,初始化阶段:利用已有的知识三元组训练transe模型,得到初始的实体和关系嵌入向量。增量更新阶段:当有新的三元组(h,r,t)加入时,执行以下操作:如果三元组中的实体h、t或关系r是新的(即在原有知识图谱中不存在),则随机初始化其嵌入向量。如果三元组中的实体和关系都已存在,则直接获取其当前的嵌入向量。利用新加入的三元组(h,r,t)对transe模型进行增量训练,更新相关实体和关系的嵌入向量。这里主要通过梯度下降等优化算法,最小化新三元组的预测损失,调整嵌入向量的值。在增量训练的过程中,可以选择只更新新加入三元组中涉及的实体和关系,也可以对其邻居节点进行局部更新,以提高更新的效率和准确性。删除更新阶段:当需要从知识图谱中删除某个三元组(h,r,t)时,执行以下操作:直接从知识图谱的三元组集合中移除该三元组。可选地对涉及该三元组的实体和关系进行局部更新,调整其嵌入向量以适应删除操作带来的变化。查询应用阶段:在更新后的知识图谱上,可以执行各种查询、推理和应用任务,如链接预测、实体分类、问答等。transe模型的嵌入向量可以用于计算实体和关系之间的语义相似度,支持这些下游任务。通过增量式三元组迭代更新,知识图谱可以动态地吸收新的知识事实,同时保持已有知识的稳定性。这种更新方式避免了从头开始重新训练模型的高昂开销,提高了知识图谱维护的实时性和灵活性。同时,增量更新也可以与批量更新相结合,定期对知识图谱进行全局优化,以保证整体的质量和一致性。

25、进一步的,对结构化的实体关系数据进行知识推理,知识推理采用基于随机游走算法。其中,随机游走算法(random walk algorithm)是一种在图结构上进行随机探索和采样的方法,它在知识推理领域有着广泛的应用。随机游走算法通过在知识图谱的实体和关系之间进行随机跳转,生成一系列实体序列,从而捕捉实体之间的语义关联和隐含信息。这种基于图结构的推理方式可以有效挖掘知识图谱中的潜在模式,发现新的实体关系和属性。在本技术中,知识图谱构建:将结构化的实体关系数据组织成知识图谱的形式,其中实体作为节点,关系作为边。随机游走序列生成:从知识图谱中随机选择一个起始实体,然后根据设定的转移概率矩阵,在实体之间进行随机跳转,生成一定长度的实体序列。转移概率矩阵可以根据关系的类型、权重等因素进行设计,以引导随机游走更多地探索相关性高的实体。序列预处理:对生成的随机游走序列进行预处理,如去除重复的实体、截断过长的序列、添加起始和终止标记等,以提高序列质量和计算效率。特征提取和表示学习:将预处理后的随机游走序列转化为适合机器学习算法的特征表示,如one-hot编码、嵌入向量等。通过表示学习方法(如skip-gram、cbow等),可以将实体和关系映射到低维稠密向量空间,捕捉其语义信息。模式挖掘和知识发现:利用机器学习算法(如分类、聚类、关联规则挖掘等)对随机游走序列的特征表示进行分析和挖掘,发现实体之间的隐含模式和新的知识facts。例如,通过频繁子序列挖掘,可以发现知识图谱中的常见关系路径和模式;通过聚类分析,可以发现语义相似的实体簇等。知识推理和应用:利用挖掘出的模式和新的知识facts,对知识图谱进行扩充和完善,支持various down stream tasks如链接预测、实体分类、问答等。通过随机游走生成的实体序列,可以作为知识推理的路径依据,预测实体之间的潜在关联。能够捕捉知识图谱中的高阶关系和复杂模式,挖掘隐含的语义联系。通过随机游走生成大量的关系路径,提供了丰富的推理依据和特征表示。可以灵活地结合领域知识和先验规则,设计转移概率矩阵,引导随机游走的方向。与表示学习方法相结合,可以获得高质量的实体和关系嵌入向量,支持下游的知识驱动任务。

26、3.有益效果

27、相比于现有技术,本技术的优点在于:

28、(1)通过命名实体识别模型,能够准确地识别出文本中的实体,从而将非结构化文本数据转化为结构化的知识实体,大大提高了对文本数据的利用率;

29、(2)采用聚类算法对知识实体进行聚类,得到结构化的实体关系数据。这使得实体之间的关系更加清晰和明确,为后续领域的知识挖掘和推理提供了良好的基础;

30、(3)通过训练知识图谱模型,将实体关系表示为向量化的形式。这种表示方式不仅能够提高计算效率,还能够更好地捕捉实体之间的语义关联;

31、(4)采用增量式三元组迭代更新的方法,能够及时地将新的实体关系信息加入知识图谱中,保持知识图谱的实时性和完整性。这样一来,知识图谱能够不断地丰富和完善,适应数据的动态变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1