一种基于知识图谱的研讨数据展示方法及系统

文档序号:29811813发布日期:2022-04-27 08:07阅读:106来源:国知局
一种基于知识图谱的研讨数据展示方法及系统

1.本发明涉及人工智能技术领域,尤其涉及一种基于知识图谱的研讨数据展示方法及系统。


背景技术:

2.随着经济的快速发展和各国综合国力的提升,各地重大活动的开展越来越频繁。重大活动具有人员复杂、食品来源广、时间紧迫等特点,导致各类食品安全隐患集中,一旦发生食品安全事故,后果相当严重。因此,重大活动需要专家根据现场实际情况,对食品安全事件风险进行快速研判,形成最终研讨结果,以供举办部门或领导者进行决策。
3.目前的专家研讨多为传统会议形式,与会专家需要提前阅读有关当前重大活动的大量资料,专家难以快速地根据现场形式,对现场的食品安全做出判断,且研讨过程中,难以快速总结知识,决策者需要面对知识过载的问题,从而无法快速准确地得到研判结果。
4.计算机技术、智能技术的急速发展,使得信息量知识量越来越宏大复杂,传统的重大活动食品安全事件风险研判工作主要还是依据专家打分法和层次分析法,只能对规律性信息进行研判,无法及时的对异常数据进行处理。大数据时代的到来,机器学习、深度学习等数据挖掘技术被广泛应用到风险研判系统,对食品安全防范和预防打击犯罪提供支持。但方法的局限性也接踵而来,无论智能学习算法如何先进,参数如何复杂,都不能考虑框架以外的情况,只能给出局部最优解,无法面面俱到,不能代替人类的主观思想,仍无法快速准确地得到研判结果。


技术实现要素:

5.本发明提供一种基于知识图谱的研讨数据展示方法及系统,用以解决现有技术中专家研讨过程中无法快速准确地得到研判结果的缺陷,能够根据专家研讨内容提供全面的知识展示,并根据专家的研讨过程形成新的知识,为专家快速准确地得到研判结果提供了数据基础。
6.本发明提供一种基于知识图谱的研讨数据展示方法,包括:
7.获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,得到专家研讨文本数据;
8.将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量;
9.将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
10.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述向量提取模型包括依次连接的第一自编码语言模型和第一深度学习模型;
11.所述将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量,包括:
12.将所述专家研讨文本数据输入至训练好的所述第一自编码语言模型,得到所述专家研讨文本数据对应的词向量;
13.将所述词向量输入至训练好的所述第一深度学习模型,得到所述专家研讨文本数据对应的知识表示向量。
14.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述第一自编码语言模型的训练,包括:
15.获取包括若干个知识图谱样本的预设训练集,并基于所述若干个知识图谱样本的实体类型和关系类型对所述若干个知识图谱样本的实体进行标注,得到标注样本集;
16.基于所述标注样本集对所述第一自编码语言模型进行训练,以得到训练好的所述第一自编码语言模型。
17.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述第一深度学习模型的训练,包括:
18.将所述若干个知识图谱样本输入至图嵌入模型,得到所述若干个知识图谱样本的知识表示向量;
19.获取所述若干个知识图谱样本对应的三元组数据的词向量;
20.以所述若干个知识图谱样本对应的三元组数据的词向量为输入,以所述若干个知识图谱样本的知识表示向量为目标输出,对所述第一深度学习模型进行训练,以得到训练好的所述第一深度学习模型。
21.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述基于所述专家研讨文本数据构建新知识图谱,包括:
22.将所述专家研讨文本数据输入至训练好的实体识别模型,得到所述专家研讨文本数据对应的命名实体;
23.基于所述专家研讨文本数据对应的命名实体在预设数据库中进行知识匹配;其中,所述预设数据库中存储有文本知识;
24.在知识匹配成功的情况下,基于匹配到的所述文本知识构建新知识图谱;
25.在知识匹配失败的情况下,基于所述专家研讨文本数据对应的命名实体构建新知识图谱。
26.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述实体识别模型包括依次连接的第二自编码语言模型、第二深度学习模型和判别式模型;
27.所述将所述专家研讨文本数据输入至训练好的实体识别模型,得到所述专家研讨文本数据对应的命名实体,包括:
28.将所述专家研讨文本数据输入至训练好的所述第二自编码语言模型,得到所述专家研讨文本数据对应的词向量;
29.将所述专家研讨文本数据对应的词向量输入至所述第二深度学习模型,得到所述专家研讨文本数据对应的词向量的实体类型,作为初始实体类型;
30.将所述初始实体类型输入至所述判别式模型,得到修正实体类型;
31.基于所述专家研讨文本数据对应的词向量以及相应的所述修正实体类型,得到所
述专家研讨文本数据对应的命名实体。
32.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述基于匹配到的所述文本知识构建新知识图谱,包括:
33.将所述文本知识输入至训练好的所述实体识别模型,得到所述文本知识对应的命名实体;
34.基于所述文本知识对应的命名实体构建新知识图谱。
35.根据本发明提供的一种基于知识图谱的研讨数据展示方法,所述将所述新知识图谱与所述历史知识图谱进行融合,包括:
36.分别对所述历史知识图谱和所述新知识图谱进行知识表示嵌入,得到所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量;
37.对所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量进行相似度计算;
38.在所述相似度大于或等于预设值的情况下,将所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量作为同一个节点,以将所述新知识图谱与所述历史知识图谱进行融合;
39.在所述相似度小于所述预设值的情况下,将所述新知识图谱对应的实体向量作为新节点,并增加到所述历史知识图谱,以将所述新知识图谱与所述历史知识图谱进行融合。
40.本发明还提供一种基于知识图谱的研讨数据展示系统,包括:
41.数据获取模块,用于获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,得到专家研讨文本数据;
42.向量提取模块,用于将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量;
43.知识图谱展示模块,用于将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
44.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于知识图谱的研讨数据展示方法的步骤。
45.本发明提供的基于知识图谱的研讨数据展示方法及系统,通过将获取到的专家研讨语音数据转换为专家研讨文本数据,并提取专家研讨文本数据对应的知识表示向量,根据知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配得到的历史知识图谱进行展示,并在匹配失败的情况下,根据专家研讨文本数据构建新知识图谱,将新知识图谱与历史知识图谱进行融合后,提供相关知识图谱的展示,从而能够根据专家研讨内容提供全面的知识展示,以供专家参考,从而协助专家进行决策,便于专家快速形成判断,为专家快速准确地得到研判结果提供了数据基础。
附图说明
46.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1是本发明提供的基于知识图谱的研讨数据展示方法的流程示意图;
48.图2是本发明提供的重大活动食品安全历史知识图谱的结构示意图;
49.图3是本发明提供的知识图谱匹配流程示意图;
50.图4是本发明提供的提取专家研讨文本数据对应的命名实体的流程示意图;
51.图5是本发明提供的研讨数据展示装置的工作流程示意图;
52.图6是本发明提供的基于知识图谱的研讨数据展示系统的结构示意图;
53.图7是本发明提供的电子设备的结构示意图。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.下面结合图1-图5描述本发明的基于知识图谱的研讨数据展示方法。如图1所示,本发明基于知识图谱的研讨数据展示方法包括:
56.s100、获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,得到专家研讨文本数据。
57.具体地,专家研讨语音数据即专家研讨过程中,各专家的发言;在专家研讨过程中,实时获取专家研讨语音数据,并对获取到的专家研讨语音数据进行语音识别处理,得到专家研讨文本数据,通过专家研讨文本数据,能够得到研讨过程中的各种讯息,例如,当前的研讨主题、专家所需要的相关知识、专家所提供的相关知识。
58.s200、将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量。
59.具体地,专家研讨文本数据对应的知识表示向量能够从更深层次上表示专家研讨文本数据相应的知识,从而在与预设的历史知识图谱进行匹配的过程中,能够有效避免匹配到无关的知识。
60.s300、将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
61.具体地,历史知识图谱可以是根据与研讨内容相关的现有结构化知识所构建的知识图谱,还可以是研讨过程中构建的新知识图谱与现有的历史知识图谱的融合结果。例如,重大活动人员关系、重大活动食品安全链条、食品安全事故判定与预防控制知识等。通过专家知识指导,将这些结构化知识构成三元组形式,{(实体),(关系),(实体)},如人员信息可以构成{(人员),(工作于),(部门)}三元组形式,食品安全知识可以构成{(补液),(治疗),(大肠杆菌食物中毒)}三元组形式,以得到历史知识图谱。以食品安全事故判定与预防控制
知识为例,将所有相关知识划分为如下实体类型:致病原、来源、药物、消毒方式、疾病、病症等。可将实体间的关系划分为如下几种类型:症状、消杀、治疗、来源、致病等,根据实体和关系构建的重大活动食品安全历史知识图谱如图2所示。根据各种风险产生的特点,还可以为历史知识图谱中的每个实体构建不同维度的实体属性特征向量,如变形杆菌:{生存力与抵抗力,致病性与致病因子和作用,子类,形态与染色,别称}等。其中,历史知识图谱可以存储在知识图谱库中,在专家研讨过程中,可以根据该知识图谱库中存储的知识图谱得到最终的研判结果。
62.将知识表示向量与预设的历史知识图谱进行匹配的过程中,根据知识表示向量可以得到相应的历史知识图谱的节点,继而根据该节点来提取相关的历史知识图谱。
63.在匹配成功的情况下,能够得到与专家当前研讨主题相关的知识,或根据专家提问得到的解答,从而能够根据当前研讨内容提供相关的知识展示,以供专家参考,实现对专家相关提问的解答,便于专家快速形成判断。在匹配失败的情况下,进一步根据专家研讨文本数据构建新知识图谱,并将该新知识图谱与历史知识图谱进行融合,并将融合后知识图谱存储在知识图谱库中,实现知识图谱库的扩充,便于后续匹配查找;同时,将新知识图谱进行展示,以供专家理清思路。该新知识图谱可以根据专家研讨文本数据直接进行构建,能够将各专家发言过程中提供的相关知识进行融合并展示,实现了个体智慧上升为群体智慧,为专家快速准确地得到研判结果提供了数据基础。同时,还可以根据专家研讨文本数据检索其他现有知识,并根据检索到的其他现有知识构建新知识图谱,从而能够对历史知识图谱中缺失的内容进行补充,实现了知识图谱库的扩充,而且能够根据当前研讨主题提供更为全面的知识展示。另外,通过该方法能够结合人类和机器的优势,将人的局限性、经验性处理能力和计算机快速、精确处理能力相结合,从而逐步获得处理复杂问题的关键信息,解决那些单靠人或计算机都难以解决的问题,从而依据知识图谱推理出科学准确的研判结果。其中,最终的研判结果可以通过专家进行判断,专家确定该研判结果为最终研判结果,结束研讨,否则,重复执行步骤s100-s300。
64.由此可见,本发明实施例通过将获取到的专家研讨语音数据转换为专家研讨文本数据,并提取专家研讨文本数据对应的知识表示向量,根据知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配得到的历史知识图谱进行展示,并在匹配失败的情况下,根据专家研讨文本数据构建新知识图谱,将新知识图谱与历史知识图谱进行融合后,提供相关知识图谱的展示,从而能够根据专家研讨内容提供全面的知识展示,以供专家参考,从而协助专家进行决策,便于专家快速形成判断,为专家快速准确地得到研判结果提供了数据基础。
65.基于上述实施例,所述向量提取模型包括依次连接的第一自编码语言模型和第一深度学习模型;
66.所述将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量,包括:
67.将所述专家研讨文本数据输入至训练好的所述第一自编码语言模型,得到所述专家研讨文本数据对应的词向量;
68.将所述词向量输入至训练好的所述第一深度学习模型,得到所述专家研讨文本数据对应的知识表示向量。
69.具体地,第一自编码语言模型可以是bert(bidirectional encoder representations from transformers)模型,bert模型的目标是利用大规模无标注语料训练,以得到包含丰富语义信息的文本,该模型具有强大的语言特征提取能力。bert模型包括embedding层,该embedding层由token embeddings、segment embeddings和position embeddings求和而成。其中,token embeddings、segment embeddings和position embeddings分别为词向量、句向量和位置向量。将专家研讨文本数据输入至训练好的第一自编码语言模型,即可得到专家研讨文本数据对应的词向量,如,“沙门菌食物中毒”、“肉制品”、“导致”。
70.第一深度学习模型可以是fcn(fully connected neural network,全连接神经网络),将专家研讨文本数据对应的词向量输入至第一深度学习模型,能够快速准确地得到专家研讨文本数据对应的知识表示向量,从而能够通过专家研讨文本数据对应的知识表示向量与预设的历史知识图谱进行匹配。例如,以专家研讨文本“沙门菌食物中毒多由食用未熟的肉制品导致”为例,与预设的历史知识图谱进行匹配的过程如图3所示。
71.传统方法在进行知识图谱匹配的过程中,通常先提取文本中的命名实体,再通过模板匹配或词向量相似度等方式在历史知识图谱中进行匹配查找。该方法基于实体的文本形式,无法理解实体的深层含义以及与其他实体的关系,容易匹配到文本形式相似的无关向量以及忽略文本形式不同的同义向量,从而无法保证匹配到的历史知识图谱的有效性。而本发明实施例通过第一自编码语言模型提取专家研讨文本数据中的词向量,并通过第一深度学习模型进一步提取各词向量所对应的知识表示向量,从而通过得到的知识表示向量能够有效表征实体的深层含义以及各实体的关系,为历史知识图谱的准确匹配提供了数据基础;同时,通过提取词向量对应的知识表示向量,能够从文本形式上和含义上进行双重限定,从而保证匹配到的历史知识图谱的有效性。
72.基于上述任一实施例,所述第一自编码语言模型的训练,包括:
73.获取包括若干个知识图谱样本的预设训练集,并基于所述若干个知识图谱样本的实体类型和关系类型对所述若干个知识图谱样本的实体进行标注,得到标注样本集;
74.基于所述标注样本集对所述第一自编码语言模型进行训练,以得到训练好的所述第一自编码语言模型。
75.具体地,通过三元组构造规则{(头实体),(关系),(尾实体)}可知,实体与关系都具有对应的标签,在知识图谱样本中,两种不同的标签具有唯一关系,可以通过关系对应的标签进行确定,因此,本发明实施例基于若干个知识图谱样本的实体类型和关系类型对若干个知识图谱样本的实体进行标注,以将知识图谱样本中的三元组实体数据构建为“实体(实体标签)”类型的文本数据。例如,对于知识图谱样本中的三元组{(沙门菌食物中毒),(症状),(腹泻)},可以通过“症状”标签得到“沙门菌食物中毒”为疾病,“腹泻”为疾病症状,因此,可以得到如下两组标注后的文本数据:沙门菌食物中毒(疾病),腹泻(疾病症状)。通过该标注方法,能够准确表征实体之间的关系,进而使得训练后的第一自编码语言模型能够理解实体的深层含义以及与其他实体的关系,保证得到的词向量的有效性和准确性。
76.其中,bert模型是一个预训练的语言表征模型。预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型,预训练可以利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示,其隐式地学习到了通用的语法语义知识。预训练模
型在几乎所有nlp(natural language processing,自然语言处理)任务中都取得了目前最佳的成果。在第一自编码语言模型采用bert模型的情况下,仅需要通过标注样本集对bert模型进行微调,即利用标注样本集对bert模型的网络参数进行调整,从而使得微调后的bert模型能够更加精准地对专家研讨文本数据进行词向量的提取。
77.基于上述任一实施例,所述第一深度学习模型的训练,包括:
78.将所述若干个知识图谱样本输入至图嵌入模型,得到所述若干个知识图谱样本的知识表示向量;
79.获取所述若干个知识图谱样本对应的三元组数据的词向量;
80.以所述若干个知识图谱样本对应的三元组数据的词向量为输入,以所述若干个知识图谱样本的知识表示向量为目标输出,对所述第一深度学习模型进行训练,以得到训练好的所述第一深度学习模型。
81.具体地,图嵌入模型可以为transe模型。将若干个知识图谱样本输入至transe模型之后,通过transe模型对知识图谱样本三元组(h,l,t)进行知识表示嵌入,得到知识图谱样本相应的知识表示向量其中,(h,l,t)分别为知识图谱样本三元组中的(头实体,关系,尾实体),分别为知识图谱样本三元组中的(头实体向量,关系向量,尾实体向量)。transe模型生成的知识表示向量满足:据此,可以根据三元组中的任意两个向量预测出第三个向量,从而便于历史知识图谱的匹配查找与推理。
82.获取若干个知识图谱样本对应的三元组数据的词向量的方式可以根据实际情况进行设定,例如,可以将若干个知识图谱样本三元组中的文本输入至第一自编码语言模型,通过第一自编码语言模型嵌入为词向量(h,l,t),该词向量仅与文本内容有关。
83.以若干个知识图谱样本对应的三元组数据的词向量为输入,以若干个知识图谱样本的知识表示向量为目标输出,对第一深度学习模型进行训练,从而通过训练好的第一深度学习模型,能够将词向量(h,l,t)映射为知识表示向量即可实现历史知识图谱的匹配查找与推理。
84.其中,通过第一深度学习模型将词向量(h,l,t)映射为知识表示向量可以通过式(1)和式(2)来实现:
[0085][0086][0087]
式中,σ表示sigmoid函数,b表示存在于词向量h和t的向量集合中的实体词向量,表示存在于知识表示向量和的集合中的实体知识表示向量,l为关系词向量,为关系知识表示向量,we和w
l
分别表示实体知识表示向量和关系知识表示向量的权重矩阵,be和b
l
分别表示实体知识表示向量和关系知识表示向量的偏置向量。通过对第一深度学习模型进行训练,以确定参数we、w
l
、be和b
l

[0088]
基于上述任一实施例,所述基于所述专家研讨文本数据构建新知识图谱,包括:
[0089]
将所述专家研讨文本数据输入至训练好的实体识别模型,得到所述专家研讨文本
数据对应的命名实体;
[0090]
基于所述专家研讨文本数据对应的命名实体在预设数据库中进行知识匹配;其中,所述预设数据库中存储有文本知识;
[0091]
在知识匹配成功的情况下,基于匹配到的所述文本知识构建新知识图谱;
[0092]
在知识匹配失败的情况下,基于所述专家研讨文本数据对应的命名实体构建新知识图谱。
[0093]
具体地,未匹配到相应的历史知识图谱的情况下,进一步提取专家研讨文本数据对应的命名实体,命名实体即根据专家研讨文本数据提取到的实体,并将该命名实体在预设数据库中进行知识匹配,以便于查找非结构化的知识数据。除了构建为历史知识图谱的结构化数据,许多重要的重大活动食品安全知识隐藏在繁杂无序的非结构化数据中,如现场食品监测数据,现场食品安全事件数据,重点人员活动数据信息,社会媒体事件信息,电商平台的毒害物交易数据信息,以及其他食品知识信息,将该部分知识数据存储在预设数据库中,从而在专家研讨过程中,能够根据需求通过数据匹配算法以及知识图谱自动构建算法进行知识提取。
[0094]
基于命名实体在预设数据库中进行知识匹配的方式可以根据实际情况进行设定。预设数据库中的数据极为庞大,若是通过余弦相似度算法等词向量匹配方法进行匹配,将耗费大量时间,不能满足在时间上反馈及时的要求。因此,可以采用kmp(knuth-morris-pratt)算法进行文本匹配。kmp算法是一种典型的字符串模型匹配算法,在查找速度上显著优于传统的字符串匹配算法,最坏的情况下,时间复杂度为o(m+n),即被搜索字符串与搜索字符串的长度之和。此外,由于kmp算法无需回溯访问被搜索的字符串,因此对于文件流中的字符串查找可以达到较好的处理,可以一边读一边进行匹配。
[0095]
在匹配到相关的文本知识后,可以根据匹配到的文本知识构建新知识图谱,并将构建的新知识图谱运用知识图谱融合算法保存在知识图谱库中,以实现通过数据库进行研讨内容相关的知识的补充展示。
[0096]
而在未匹配到相关的文本知识的情况下,可以直接基于专家研讨文本数据对应的命名实体来构建新知识图谱,从而能够将各专家在研讨过程中提供的知识进行展示。
[0097]
基于上述任一实施例,所述实体识别模型包括依次连接的第二自编码语言模型、第二深度学习模型和判别式模型;
[0098]
所述将所述专家研讨文本数据输入至训练好的实体识别模型,得到所述专家研讨文本数据对应的命名实体,包括:
[0099]
将所述专家研讨文本数据输入至训练好的所述第二自编码语言模型,得到所述专家研讨文本数据对应的词向量;
[0100]
将所述专家研讨文本数据对应的词向量输入至所述第二深度学习模型,得到所述专家研讨文本数据对应的词向量的实体类型,作为初始实体类型;
[0101]
将所述初始实体类型输入至所述判别式模型,得到修正实体类型;
[0102]
基于所述专家研讨文本数据对应的词向量以及相应的所述修正实体类型,得到所述专家研讨文本数据对应的命名实体。
[0103]
具体地,第二自编码语言模型用于提取专家研讨文本数据对应的词向量,其与第一自编码语言模型的输入和输出均相同;第二自编码语言模型可以与第一自编码语言模型
相同,也可以不同。例如,作为一种可选的实施方式,可以直接将第一自编码语言模型的输出输入至第二深度学习模型,以实现计算效率的提升。
[0104]
通过将专家研讨文本数据对应的词向量输入至第二深度学习模型,以对词向量进行实体类型的识别。第二深度学习模型可以是bilstm,bilstm主要由遗忘门、输入门、输出门以及记忆单元组成。通过输入门与遗忘门的共同作用舍弃无用的信息,把有用的信息传入到下一时刻,最后将记忆单元的输出和输出门的输出相乘得到整个结构的输出,其主要结构可以由式(3)-式(7)表示:
[0105]it
=σ(wi[g
t-1
,x
t
]+bi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0106]ft
=σ(wf[g
t-1
,x
t
]+bf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0107]ot
=σ(wo[g
t-1
,x
t
]+bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0108][0109][0110]
式中,σ表示sigmoid函数,i
t
、f
t
、o
t
和分别表示t时刻输入门、遗忘门、输出门和记忆单元的更新状态;wi、wf、wo和wc分别表示输入门、遗忘门、输出门和记忆单元的权重矩阵;bi、bf、bo和bc分别表示输入门、遗忘门、输出门和记忆单元的偏置向量;x
t
表示t时刻bilstm的输入,即专家研讨文本数据对应的词向量;g
t
和g
t-1
分别是bilstm在t时刻和t-1时刻的输出。
[0111]
判别式模型用于对第二深度学习模型输出的结果进行修正,以得到最大概率的合理序列。判别式模型可以是crf(conditional random field,条件随机场)模型,对于给定输入x,输出预测结果y的得分score(x,y)的计算公式如式(8)所示:
[0112][0113]
式中,转移矩阵元素表示标签从yk转移到y
k+1
的概率,yk为预测结果y中的第k个元素;表示第k个元素为yk的概率,n为输入x中词向量的数量。
[0114]
对专家研讨文本数据对应的词向量的实体类型进行最终预测时,根据式(9)输出得分最高的结果:
[0115][0116]
式中,y
*
为最终预测结果,为score(x,y)的最大似然分值,可以通过对数似然来实现;y
x
为所有可能的标注序列。
[0117]
基于专家研讨文本数据对应的词向量,以及该词向量的修正实体类型,即可得到专家研讨文本数据对应的命名实体。以专家研讨文本“沙门菌食物中毒多由食用未熟的肉制品导致”为例,提取专家研讨文本数据对应的命名实体的过程如图4所示。
[0118]
由此可见,本发明实施例通过第二自编码语言模型提取专家研讨文本数据对应的词向量,将提取到的词向量输入至第二深度学习模型,实现实体类型的识别,并通过判别式模型对第二深度学习模型的输出结果进行修正,能够结合词向量的上下文有关信息,将词向量的分布式表达引入到特征提取中,最大程度地利用词与标签之间的关系,从而充分地提高识别效果,有效保证专家研讨文本数据对应的命名实体的准确性,从而为构建准确有
效的知识图谱提供数据基础。
[0119]
基于上述任一实施例,所述基于匹配到的所述文本知识构建新知识图谱,包括:
[0120]
将所述文本知识输入至训练好的所述实体识别模型,得到所述文本知识对应的命名实体;
[0121]
基于所述文本知识对应的命名实体构建新知识图谱。
[0122]
具体地,将匹配到的文本知识输入至训练好的实体识别模型,即可得到该文本知识对应的命名实体。
[0123]
知识图谱的基本构成元素是三元组,{(实体),(关系),(实体)},实体与关系都具有对应的标签,在重大活动食品安全研讨所使用的知识图谱中,两种不同的标签具有唯一关系,如,“大肠杆菌食物中毒”,“腹泻”,这两个实体分别对应“疾病”,“症状”,即,这两者之间的关系为“症状”,因此,两者可以建立三元组{(大肠杆菌食物中毒),(症状),(腹泻)}。即,根据提取到的命名实体即可进行三元组的建立,从而实现新知识图谱的快速准确构建。另外,在知识匹配失败的情况下,根据专家研讨文本数据对应的命名实体,也可以通过该方法构建新知识图谱。
[0124]
基于上述任一实施例,所述将所述新知识图谱与所述历史知识图谱进行融合,包括:
[0125]
分别对所述历史知识图谱和所述新知识图谱进行知识表示嵌入,得到所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量;
[0126]
对所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量进行相似度计算;
[0127]
在所述相似度大于或等于预设值的情况下,将所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量作为同一个节点,以将所述新知识图谱与所述历史知识图谱进行融合;
[0128]
在所述相似度小于所述预设值的情况下,将所述新知识图谱对应的实体向量作为新节点,并增加到所述历史知识图谱,以将所述新知识图谱与所述历史知识图谱进行融合。
[0129]
具体地,本发明实施例采用实体对齐的方式对新知识图谱和历史知识图谱进行融合,该方法包括:
[0130]
首先,分别对历史知识图谱kg0和新知识图谱kg1进行知识表示嵌入,得到历史知识图谱对应的向量和新知识图谱对应的向量历史知识图谱对应的实体向量即为和新知识图谱对应的实体向量即为和通过将历史知识图谱和新知识图谱映射到向量空间,形成了历史知识图谱和新知识图谱中文字和向量数据的映射关系,通过计算向量之间的差异大小,能够快速准确地得到各实体向量的相似度。
[0131]
其次,对历史知识图谱对应的实体向量和新知识图谱对应的实体向量进行相似度计算;该处,将表示为存在于和的集合中的实体向量,将表示为存在于和的集合中的实体向量,即对和进行相似度计算。其中,相似度度量即计算个体间的相似程度,相似度度量的值越小,说明个体间差异越大,相似度的值越大说明个体间差异越小。
[0132]
对和进行相似度计算的方法可以根据实际情况进行设定,例如,可以采用余
弦相似度算法进行相似度计算。余弦相似度算法将向量空间中两个向量夹角的余弦值作为衡量两个向量间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,即为余弦相似性。和的相似度的计算如式(10)所示:
[0133][0134]
式中,m为和的向量维数,即和均为m维向量;和分别为和的第m维子向量。
[0135]
在相似度大于或等于预设值的情况下,可以将历史知识图谱对应的实体向量和新知识图谱对应的实体向量作为同一个节点,以将新知识图谱与历史知识图谱进行融合;在与中的任一实体向量的相似度都小于该预设值的情况下,将对应的实体向量作为新节点,并增加到历史知识图谱中,以将新知识图谱与历史知识图谱进行融合。其中,预设值的大小可以根据实际精度需求进行设定,例如,可以设置为0.91,相似度大于或等于0.91的情况下,可以将历史知识图谱对应的实体向量和新知识图谱对应的实体向量作为同一个节点进行融合,相似度小于0.91的情况下,将新知识图谱对应的实体向量作为新节点增加到历史知识图谱中进行融合。
[0136]
以下通过一种可选的实施方式对本发明基于知识图谱的研讨数据展示方法进行详细说明。如图5所示,该方法可以通过研讨数据展示装置来实现,研讨数据展示装置包括:数据库510、知识图谱库520、数据转换单元530、知识图谱匹配单元540、命名实体提取单元550、知识图谱构建单元560、知识图谱融合单元570和人机交互单元580;其中,数据转换单元530与知识图谱匹配单元540连接;知识图谱匹配单元540分别与命名实体提取单元550、知识图谱库520和人机交互单元580连接;知识图谱构建单元560分别与命名实体提取单元550、数据库510和知识图谱融合单元570连接;知识图谱融合单元570与知识图谱库520连接。
[0137]
数据库510用于存储非结构化重大活动食品安全相关的文本知识;
[0138]
知识图谱库520用于存储重大活动食品安全相关的历史知识图谱以及研讨过程中构建的新知识图谱;
[0139]
数据转换单元530用于将接收到的专家研讨语音数据转换为专家研讨文本数据;
[0140]
知识图谱匹配单元540用于通过bert-fcn构成的神经网络模型提取专家研讨文本数据对应的知识表示向量,并基于知识表示向量与知识图谱库520中存储的历史知识图谱和新知识图谱进行知识图谱匹配;在匹配成功的情况下,将匹配到的知识图谱发送至人机交互单元580以进行知识图谱展示;在匹配失败的情况下,将专家研讨文本数据发送至命名实体提取单元550,以通过命名实体提取单元550提取专家研讨文本数据对应的命名实体;其中,命名实体提取单元550通过bert-bilstm-crf构成的神经网络模型提取专家研讨文本数据对应的命名实体;
[0141]
知识图谱构建单元560用于根据专家研讨文本数据对应的命名实体在数据库510中进行知识匹配;在匹配到相关的文本知识的情况下,对匹配到的文本知识进行命名实体提取,并自动构建新知识图谱,否则,根据专家研讨文本数据对应的命名实体自动构建新知
识图谱;
[0142]
知识图谱融合单元570用于将知识图谱构建单元560构建的新知识图谱与知识图谱库520中的历史知识图谱进行融合,并将融合后的知识图谱存储到知识图谱库520;
[0143]
人机交互单元580还用于接收专家发送的消息确定是否得到最终研判结果,是,则结束研讨,并形成研讨结果,否,则继续接收专家研讨语音数据。
[0144]
下面对本发明提供的基于知识图谱的研讨数据展示系统进行描述,下文描述的基于知识图谱的研讨数据展示系统与上文描述的基于知识图谱的研讨数据展示方法可相互对应参照。
[0145]
如图6所示,该系统包括:
[0146]
数据获取模块610,用于获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,得到专家研讨文本数据;
[0147]
向量提取模块620,用于将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量;
[0148]
知识图谱展示模块630,用于将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
[0149]
基于上述实施例,所述向量提取模型包括依次连接的第一自编码语言模型和第一深度学习模型;
[0150]
向量提取模块620将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量,包括:
[0151]
将所述专家研讨文本数据输入至训练好的所述第一自编码语言模型,得到所述专家研讨文本数据对应的词向量;
[0152]
将所述词向量输入至训练好的所述第一深度学习模型,得到所述专家研讨文本数据对应的知识表示向量。
[0153]
基于上述任一实施例,所述第一自编码语言模型的训练,包括:
[0154]
获取包括若干个知识图谱样本的预设训练集,并基于所述若干个知识图谱样本的实体类型和关系类型对所述若干个知识图谱样本的实体进行标注,得到标注样本集;
[0155]
基于所述标注样本集对所述第一自编码语言模型进行训练,以得到训练好的所述第一自编码语言模型。
[0156]
基于上述任一实施例,所述第一深度学习模型的训练,包括:
[0157]
将所述若干个知识图谱样本输入至图嵌入模型,得到所述若干个知识图谱样本的知识表示向量;
[0158]
获取所述若干个知识图谱样本对应的三元组数据的词向量;
[0159]
以所述若干个知识图谱样本对应的三元组数据的词向量为输入,以所述若干个知识图谱样本的知识表示向量为目标输出,对所述第一深度学习模型进行训练,以得到训练好的所述第一深度学习模型。
[0160]
基于上述任一实施例,知识图谱展示模块630基于所述专家研讨文本数据构建新知识图谱,包括:
[0161]
将所述专家研讨文本数据输入至训练好的实体识别模型,得到所述专家研讨文本数据对应的命名实体;
[0162]
基于所述专家研讨文本数据对应的命名实体在预设数据库中进行知识匹配;其中,所述预设数据库中存储有文本知识;
[0163]
在知识匹配成功的情况下,基于匹配到的所述文本知识构建新知识图谱;
[0164]
在知识匹配失败的情况下,基于所述专家研讨文本数据对应的命名实体构建新知识图谱。
[0165]
基于上述任一实施例,所述实体识别模型包括依次连接的第二自编码语言模型、第二深度学习模型和判别式模型;
[0166]
知识图谱展示模块630将所述专家研讨文本数据输入至训练好的实体识别模型,得到所述专家研讨文本数据对应的命名实体,包括:
[0167]
将所述专家研讨文本数据输入至训练好的所述第二自编码语言模型,得到所述专家研讨文本数据对应的词向量;
[0168]
将所述专家研讨文本数据对应的词向量输入至所述第二深度学习模型,得到所述专家研讨文本数据对应的词向量的实体类型,作为初始实体类型;
[0169]
将所述初始实体类型输入至所述判别式模型,得到修正实体类型;
[0170]
基于所述专家研讨文本数据对应的词向量以及相应的所述修正实体类型,得到所述专家研讨文本数据对应的命名实体。
[0171]
基于上述任一实施例,知识图谱展示模块630基于匹配到的所述文本知识构建新知识图谱,包括:
[0172]
将所述文本知识输入至训练好的所述实体识别模型,得到所述文本知识对应的命名实体;
[0173]
基于所述文本知识对应的命名实体构建新知识图谱。
[0174]
基于上述任一实施例,知识图谱展示模块630将所述新知识图谱与所述历史知识图谱进行融合,包括:
[0175]
分别对所述历史知识图谱和所述新知识图谱进行知识表示嵌入,得到所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量;
[0176]
对所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量进行相似度计算;
[0177]
在所述相似度大于或等于预设值的情况下,将所述历史知识图谱对应的实体向量和所述新知识图谱对应的实体向量作为同一个节点,以将所述新知识图谱与所述历史知识图谱进行融合;
[0178]
在所述相似度小于所述预设值的情况下,将所述新知识图谱对应的实体向量作为新节点,并增加到所述历史知识图谱,以将所述新知识图谱与所述历史知识图谱进行融合。
[0179]
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于知识图谱的研讨数据展示方法,该方法包括:获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,
得到专家研讨文本数据;
[0180]
将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量;
[0181]
将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
[0182]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0183]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于知识图谱的研讨数据展示方法,该方法包括:获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,得到专家研讨文本数据;
[0184]
将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量;
[0185]
将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
[0186]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于知识图谱的研讨数据展示方法,该方法包括:获取专家研讨语音数据,并对所述专家研讨语音数据进行语音识别处理,得到专家研讨文本数据;
[0187]
将所述专家研讨文本数据输入至训练好的向量提取模型,得到所述专家研讨文本数据对应的知识表示向量;
[0188]
将所述知识表示向量与预设的历史知识图谱进行匹配,在匹配成功的情况下,将匹配到的所述历史知识图谱进行展示;在匹配失败的情况下,基于所述专家研讨文本数据构建新知识图谱,将所述新知识图谱与所述历史知识图谱进行融合,并对所述新知识图谱进行展示。
[0189]
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0190]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0191]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1