内容输出方法、装置、可读存储介质及电子设备与流程

文档序号:33319992发布日期:2023-03-03 19:50阅读:23来源:国知局
内容输出方法、装置、可读存储介质及电子设备与流程

1.本公开涉及计算机技术领域,具体地,涉及一种内容输出方法、装置、可读存储介质及电子设备。


背景技术:

2.随着技术的进步和市场的逐渐成熟,人工智能在医疗领域的应用日益广泛和深入,而知识图谱作为一种从海量文本和图像中抽取结构化知识的手段,正在成为推动人工智能发展的核心驱动力之一。医学知识图谱是一种重要的领域知识图谱,它在语义搜索、知识问答和临床决策智慧医疗领域都有很好的发展前景。基于上述背景,亟需一种基于胃恶性肿瘤知识图谱的诊断知识推荐方法。


技术实现要素:

3.本公开的目的是提供一种内容输出方法、装置、电子设备及计算机可读存储介介质。
4.根据本公开实施例的第一方面,提供一种内容输出方法,包括:通过预先训练的关系分类模型抽取输入文本中的关系分类;通过预先训练的命名实体识别模型获取所述输入文本中的实体及所述实体的类别;基于所述关系分类、所述实体和所述实体的类别从医学知识图谱中筛选出目标三元组;所述医学知识图谱是对胃恶性肿瘤相关的参考知识文本进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建的,所述医学知识图谱包括胃恶性肿瘤相关的主体、客体及主体与客体之间的关系;将所述目标三元组整合为文本形式作为输出内容。
5.可选地,所述基于所述关系分类、所述实体和所述实体的类别从所述医学知识图谱中筛选出目标三元组,包括:根据所述关系分类从所述医学知识图谱中筛选出包含所述关系分类的候选三元组;根据所述实体和所述实体的类别从所述候选三元组中筛选出包含所述实体的所述目标三元组。
6.可选地,所述根据所述实体和所述实体的类别从所述候选三元组中筛选出包含所述实体的所述目标三元组,包括:在所述实体命中所述候选三元组中的单个主体的情况下,将命中的所述单个主体的客体作为新的主体,将所述新的主体所对应的三元组作为所述目标三元组;或在所述实体命中所述候选三元组中的单个客体的情况下,将与命中的所述单个客体具有相同主体和相同关系的三元组作为所述目标三元组。
7.可选地,所述基于所述关系分类、所述实体和所述实体的类别从所述医学知识图谱中筛选出目标三元组,包括:在所述输入文本中有多个实体命中所述医学知识图谱中的实体的情况下,将所述多个实体进行两两组合,得到多个组合;对于所述多个组合中的每一个组合:从所述医学知识图谱中筛选出节点数量在指定范围内,且以所述组合中的两个实体作为知识图谱路径的头节点和尾节点的候选知识图谱路径;将有至少一个路径关系属于所述关系分类的所述候选知识图谱路径作为所述目标三元组。
8.可选地,所述将所述目标三元组整合为文本形式作为待输出内容,包括:通过伪句转换函数将所述目标三元组整合为文本形式作为输出内容。
9.可选地,所述关系分类模型的训练方法包括:将样本文本中的每个字映射为第一多维稠密向量,通过双向lstm模型获取每个所述第一多维稠密向量的隐状态特征;将预先确定的关系标签中的每个字映射为第二多维稠密向量,根据所述第二多维稠密向量获取所述关系标签的平均字向量,将所述平均字向量作为所述关系标签的向量表示;所述关系标签是基于所述参考知识文本确定的;根据所述隐状态特征和所述关系标签的向量表示,获取所述样本文本中每个词语对于每个所述关系标签的权重;根据所述权重得到预测关系分类的概率,基于所述预测关系分类的概率和实际关系分类得到损失函数;利用所述损失函数训练预分类模型,得到所述关系分类模型。
10.可选地,所述损失函数的计算公式包括:
[0011][0012]
其中,l为所述损失函数,m为所述样本文本的数量,n为所述关系标签的数量,y
ij
为第i个样本文本的第j个关系标签的实际关系分类,为第i个样本文本的第j个关系标签的预测关系分类。
[0013]
根据本公开实施例的第二方面,提供一种内容输出装置,包括:分类模块,用于通过预先训练的关系分类模型抽取输入文本中的关系分类;识别模块,用于通过预先训练的命名实体识别模型获取所述输入文本中的实体及所述实体的类别;筛选模块,用于基于所述关系分类、所述实体和所述实体的类别从医学知识图谱中筛选出目标三元组;所述医学知识图谱是对胃恶性肿瘤相关的参考知识文本进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建的,所述医学知识图谱包括胃恶性肿瘤相关的主体、客体及主体与客体之间的关系;知识整合模块,用于将所述目标三元组整合为文本形式作为输出内容。
[0014]
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的内容输出方法的步骤。
[0015]
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现前述的内容输出方法的步骤。
[0016]
本公开的实施例提供的技术方案可以包括以下有益效果:通过预先训练的关系分类模型抽取输入文本中的关系分类,通过预先训练的命名实体识别模型获取输入文本中的实体及实体的类别,基于关系分类、实体和实体的类别从医学知识图谱中筛选出目标三元组,医学知识图谱是对参考知识文本进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建的,医学知识图谱包括主体、客体及主体与客体之间的关系,将目标三元组整合为文本形式作为输出内容;通过构建相关疾病知识的知识图谱,结合输入文本中的相关的、系统的临床知识、患者信息及病情信息,向临床医务工作者输出与输入文本有关的关联内容,给临床医务工作者提供了决策参考,提高了医疗质量和医疗服务水平。
[0017]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0018]
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0019]
图1是本公开示例性实施例示出的计算机系统的结构示意图。
[0020]
图2是本公开示例性实施例示出的知识图谱的局部示意图。
[0021]
图3是本公开示例性实施例示出的一种内容输出方法的流程图。
[0022]
图4是本公开示例性实施例示出的命中知识图谱主体的框图。
[0023]
图5是本公开示例性实施例示出的命中知识图谱客体的框图。
[0024]
图6是本公开示例性实施例示出的一种内容输出装置框图。
[0025]
图7是本公开示例性实施例示出的一种电子设备的框图。
[0026]
图8是本公开示例性实施例示出的另一种电子设备的框图。
[0027]
附图标记说明
[0028]
120-终端;140-服务器;20-内容输出装置;201-分类模块;203-识别模块;205-筛选模块;207-知识整合模块;400-电子设备;401-处理器;402-存储器;403-多媒体组件;404-i/o接口;405-通信组件;500-电子设备;522-处理器;532-存储器;526-电源组件;550-通信组件;558-i/o接口。
具体实施方式
[0029]
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0030]
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0031]
图1示出了本公开一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
[0032]
终端120与服务器140之间通过有线或者无线网络相互连接。
[0033]
终端120可以包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。
[0034]
终端120包括显示器;显示器用于显示本公开中文本形式的输出内容。
[0035]
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现本公开提供的内容输出方法。第一存储器可以包括但不限于以下几种:随机存取存储器(random access memory,ram)、只读存储器(read only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除只读存储器(erasable programmable read-only memory,eprom)、以及电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)。
[0036]
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(central processing unit,cpu)或者网络处理器(network processor,np)。可选地,第一处理器可以通过调用预先训练的关系分类模型和命名实体识
别模型来实现本公开提供的内容输出方法。示例性的,终端中的关系分类模型和命名实体识别模型可以是由终端训练得到的;或,由服务器训练得到,终端从服务器获取。
[0037]
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本公开提供的内容输出方法。示例性的,第二存储器中存储有预先训练的关系分类模型和命名实体识别模型,上述预先训练的关系分类模型和命名实体识别模型被第二处理器调用以实现本公开提供的内容输出方法。可选地,第二存储器可以包括但不限于以下几种:ram、rom、prom、eprom、eeprom。可选地,第二处理器可以是通用处理器,比如,cpu或者np。
[0038]
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
[0039]
在大数据时代,为了使得查询数据更精准简单,知识图谱技术被应用于越来越多的搜索引擎上。知识图谱是描述现实世界中地点、人物、城市、电影等事物以及事物间联系的关系网络。利用知识图谱,搜索引擎可挖掘事物之间的内在联系,更准确地查找用户所需的信息。
[0040]
在本公开中,为了给临床医务工作者提供医疗决策参考,以胃恶性肿瘤为例,基于胃恶性肿瘤相关的参考文献构建了胃恶性肿瘤的知识图谱,如图2所示,图2示出了本公开一个示例性实施例提供的知识图谱的局部示意图,知识图谱将胃恶性肿瘤领域的“胃癌”、“腹部核磁共振成像(magnetic resonance imaging,mri)”、“腹部和盆腔增强断层扫描(computed tomography,ct)”、“特殊类型早期胃癌分型”、“浅表扩散型”、“微小癌”及“小胃癌”等表示为知识图谱中的实体,将“分期诊断检查”、“类型”及“大体分型”等表示为知识图谱中联系实体的关系。根据知识图谱中实体与实体之间的关系,将相邻的实体分为主体和客体,例如,“胃癌”、“类型”及“特殊类型早期胃癌分型”为一个医学知识图谱三元组,其中,“胃癌”为主体,“特殊类型早期胃癌分型”为客体。
[0041]
在一种实施方式中,参考文献可以是《csco胃癌诊疗指南2022》、《中国整合胃癌前病变临床管理指南》、《胃癌治疗指南》等,以这些参考文献中主体与客体为节点,以二者关系为边,构建的胃恶性肿瘤知识图谱共797个实体节点,包括症状特征、实验室检验、内镜检查、影像学检查、病理、治疗方法、并发症等类别实体,共823种关系。
[0042]
请参阅图3,图3为本公开示例性实施例示出的一种内容输出方法的流程图。该方法由计算机设备来执行,例如,由图1所示的计算机系统中的终端或服务器来执行。图3所示的内容输出方法包括以下步骤:
[0043]
在步骤s21中,通过预先训练的关系分类模型抽取输入文本中的关系分类。
[0044]
关系分类模型是根据样本文本训练得到的,用于抽取输入文本中的关系分类,解决输入文本的分类问题,即将输入文本语句分类到一个或多个关系中,目的是能够快速定位与输入文本相关的知识图谱节点。关系分类是指输入文本中的实体与实体之间的关系,例如,输入文本是“特殊类型早期胃癌分型的大体分型包括浅表扩散型和微小癌”,其中“特
殊类型早期胃癌”、“浅表扩散型”和“微小癌”为输入文本中的实体,“大体分型”为输入文本中实体之间的关系。
[0045]
需要说明的是,根据样本文本训练得到的关系分类模型包括下面的步骤一至步骤五:
[0046]
步骤一:将样本文本中的每个字映射为第一多维稠密向量,通过双向lstm模型获取每个第一多维稠密向量的隐状态特征。
[0047]
示例性的,首先准备与胃恶性肿瘤相关的样本文本,例如,“特殊类型早期胃癌分型中的浅表扩散型应该怎么治”、“胃癌的分期诊断检查包括哪些”或“超声内镜可以确定分期吗”等文本。将样本文本输入至bert模型,通过bert模型将样本文本中的每个字映射为第一多维稠密向量,第i个字对应的字向量表示记作wi。然后通过双向长短期记忆网络(long short-term memory,lstm)模型获取每个第一多维稠密向量的隐状态特征,将整个样本文本的隐状态特征记作h。
[0048]
步骤二:将预先确定的关系标签中的每个字映射为第二多维稠密向量,根据第二多维稠密向量获取关系标签的平均字向量,将平均字向量作为关系标签的向量表示。
[0049]
关系标签是基于参考知识文本确定的,示例性的,参考知识文本可以是前述的参考文献,根据参考文献确定多个关系标签。
[0050]
将关系标签输入至bert模型,通过bert模型将多个关系标签中的每个字映射为第二多维稠密向量,取每一个关系标签的平均字向量,将平均字向量作为关系标签的向量表示,记第i个关系标签的向量表示为ci,c为全部关系标签的表示矩阵。
[0051]
步骤三:根据隐状态特征和关系标签的向量表示,获取样本文本中每个词语对于每个关系标签的权重。
[0052]
样本文本中的每个词语在关系分类时起到的重要作用是不同的,即样本文本中的每个词语的权重不同,为了捕获关系标签和样本文本中每个词语之间的权重,本公开基于关系标签的语义信息的注意力机制获得样本文本中每个词语的权重,通过计算样本文本中的每个词语和每个关系标签之间的匹配得分获得每个词语对当前关系标签的权重,关系标签c捕获样本文本中每个词语的权重的计算公式包括:a=ch
t
,其中,a为基于关系标签c捕获的样本文本中每个词语的权重,h为整个样本文本的隐状态特征。所有的关系标签的向量表示为矩阵c,则获得全部关系标签和词语的权重得分的计算公式为:
[0053]
a=ch
t
[0054]
样本文本可以使用上述的权重表示为:
[0055]
m=ah
[0056]
其中,m为样本文本中每个词语对于每个关系标签的权重表示,使用多个二分类模型完成关系标签的分类,在进行第i个关系标签的分类时,对应的特征表达记作mi。
[0057]
步骤四:根据权重得到预测关系分类的概率,基于预测关系分类的概率和实际关系分类得到损失函数。
[0058]
示例性的,使用由两个全连接层和一个输出层组成的感知机得到预测关系分类,通过下面的公式预测第i个关系标签出现的概率:
[0059][0060]
其中,为关系标签i出现的概率,sigmoid()为归一化激活函数,w1、w2为训练参
数,mi为关系标签i对应的特征,f()为relu激活函数。
[0061]
通过sigmoid()函数做归一化处理,将关系标签的特征转化为关系标签的预测关系分类的概率,基于预测关系分类的概率和实际关系分类得到损失函数,损失函数的计算公式包括:
[0062][0063]
其中,l为损失函数,m为样本文本的数量,n为关系标签的数量,y
ij
为第i个样本文本的第j个关系标签的实际关系分类,为第i个样本文本的第j个关系标签的预测关系分类。
[0064]
步骤五:利用损失函数训练预分类模型,得到关系分类模型。
[0065]
通过上述的损失函数训练预分类模型,在预分类模型所预测的预测关系分类与实际关系分类之间的差值小于预定阈值时,保留此时预分类模型的训练参数,作为关系分类模型。
[0066]
在步骤s22中,通过预先训练的命名实体识别模型获取输入文本中的实体及实体的类别。
[0067]
本公开的命名实体识别模型是预先训练好的,用于对输入文本进行命名实体识别,实体的类别对应知识图谱中节点的类别,在一种实施方式中,可以使用双向长短期记忆网络和条件随机场模型(conditional random field,crf)完成命名实体识别,此方法为命名实体识别的经典算法,在此不再赘述,通过此方法可以得到每个输入文本中对应的实体及实体对应的类别,记作(mi,oi),mi为实体i对应的输入文本,oi为实体i的类别,例如,输入文本为“患者于3日前出现发热”,假设要识别输入文本中实体类别为发生时间时,对应实体为“3日前”,对应实体类别为“发生时间”。
[0068]
在步骤s23中,基于关系分类、实体和实体的类别从医学知识图谱中筛选出目标三元组。
[0069]
医学知识图谱是对参考知识文本进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建的,医学知识图谱包括主体、客体及主体与客体之间的关系;在一种实施方式中,参考知识文本可以是前述的参考文献,对参考文献进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建胃恶性肿瘤领域的知识图谱,知识图谱中包含胃恶性肿瘤领域的各个实体及各个实体之间的关系,将相邻的实体分为主体和客体,一个主体、一个客体及主体与客体之间的关系共同构成为一个医学知识图谱三元组。
[0070]
基于关系分类、实体和实体的类别从医学知识图谱中筛选出目标三元组包括:根据关系分类从医学知识图谱中筛选出包含关系分类的候选三元组,根据实体和实体的类别从候选三元组中筛选出包含实体的目标三元组。
[0071]
示例性的,首先根据输入文本的关系分类从医学知识图谱中筛选出包含输入文本的关系分类的医学知识图谱,作为候选三元组,假设输入文本的关系分类包括关系1和关系2,那么候选三元组可以是包含关系1的三元组,也可以是包含关系2的三元组;然后根据输入文本的实体和实体的类别从候选三元组中筛选出包含实体的目标三元组。
[0072]
需要说明的是,根据输入文本的实体和实体的类别从候选三元组中筛选出包含实
体的目标三元组包括两种情况:
[0073]
一种是输入文本的实体命中候选三元组中的单个主体的情况,此时将命中的单个主体的客体作为新的主体,将新的主体所对应的三元组作为目标三元组,请参阅图4,图4为本公开示例性实施例示出的命中知识图谱主体的框图,如图4所示,输入文本的实体命中候选三元组中的单个主体,将命中实体对应的客体1作为新的主体,客体1作为主体对应三个三元组,即图4中的节点1、节点2和节点3,将这三个三元组作为目标三元组。例如,输入文本为“特殊类型早期胃癌分型”,关系分类结果为大体分型,实体识别结果为特殊类型早期胃癌,搜索到医学知识图谱(特殊类型早期胃癌,大体分型,浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌),以“浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌”为主体继续搜索三元组,可得到以下结果(浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌,肿瘤最大径≥4cm,浅表扩散性),(浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌,肿瘤最大径<0.5cm,微小癌),(浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌,0.5<肿瘤最大径<1.0cm,小胃癌),(浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌,≥2个独立egc病灶,多发性早期胃癌),通过伪句转换函数和整合三元组,得到以下推荐输出“特殊类型早期胃癌的大体分型为浅表扩散型/微小癌/小胃癌/多发性早期胃癌/残胃早期癌,肿瘤最大径≥4cm为浅表扩散性,肿瘤最大径<0.5cm为微小癌,0.5<肿瘤最大径<1.0cm为小胃癌,≥2个独立egc病灶为多发性早期胃癌”。
[0074]
另一种是输入文本的实体命中候选三元组中的单个客体的情况下,此时将与命中的单个客体具有相同主体和相同关系的三元组作为目标三元组,请参阅图5,图5为本公开示例性实施例示出的命中知识图谱客体的框图,如图5所示,输入文本的实体命中候选三元组中的单个客体,将与命中客体具有相同主体和相同关系的三元组作为目标三元组,如图5中,命中客体对应的主体为节点1,命中客体与节点1的关系为关系1,节点a和节点b均与节点1具备关系1,因此可以将节点1和节点a组成的三元组,及节点1和节点b组成的三元组作为目标三元组。如输入文本为“超声内镜可以确定分期吗”,关系分类结果为分期诊断检查,实体识别结果为超声内镜,根据关系和实体搜索医学知识图谱,得到(胃癌,分期诊断检查,超声内镜),继续搜索以胃癌为主体,以分期诊断检查为关系的其他三元组,得到(胃癌,分期诊断检查,腹部和盆腔增强ct),(胃癌,分期诊断检查,胸部ct),(胃癌,分期诊断检查,腹部mri),(胃癌,分期诊断检查,pet/ct),(胃癌,分期诊断检查,诊断性腹腔镜探查和腹腔灌洗液评价)。通过伪句转换函数整合三元组,得到以下推荐输出“胃癌的分期诊断检查是超声内镜,胃癌的分期诊断检查还包括腹部和盆腔增强ct、胸部ct、腹部mri、pet/ct、诊断性腹腔镜探查和腹腔灌洗液评价”。
[0075]
基于关系分类、实体和实体的类别从医学知识图谱中筛选出目标三元组还包括:在输入文本中有多个实体命中医学知识图谱中的实体的情况下,将多个实体进行两两组合,得到多个组合;对于多个组合中的每一个组合:从医学知识图谱中筛选出节点数量在指定范围内,且以组合中的两个实体作为知识图谱路径的头节点和尾节点的候选知识图谱路径;将有至少一个路径关系属于关系分类的候选知识图谱路径作为目标三元组。
[0076]
示例性的,假设输入文本中的实体识别结果为{实体a,实体b,实体c},关系分类结果为{关系1,关系2},首先对实体进行两两组合得到:
[0077]
{实体a,实体b}
[0078]
{实体a,实体c}
[0079]
{实体b,实体c},
[0080]
以组合中的两个实体作为知识图谱路径的头节点和尾节点,从医学知识图谱中筛选出节点数量在指定范围内的候选知识图谱路径,在一种实施方式中,指定范围可以是但不限于4,即筛选出节点数量在4个以内的候选知识图谱路径,例如,候选知识图谱路径可以是{实体a

实体b},{实体a

实体a

实体b

实体b}或{实体a

实体c

实体b},其中,其中
“→”
为路径关系,表示实体与实体之间的关系,在获取候选知识图谱路径之后,将有至少一个路径关系属于输入文本的关系分类的候选知识图谱路径作为目标三元组,即将包含关系1的候选知识图谱路径,或包含关系2的候选知识图谱路径,或包含关系1和关系2的候选知识图谱路径作为目标三元组。
[0081]
在本步骤,提出输入文本中的实体命中单个主体、命中单个客体及命中多个主体三种情况下,目标三元组的筛选方法,为胃癌知识图谱查询提供更加全面智能的诊断知识推荐。
[0082]
在步骤s24中,将目标三元组整合为文本形式作为输出内容。
[0083]
示例性的,可以使用python脚本编写伪句转换函数,然后通过伪句转换函数将目标三元组整合为文本形式,以作为输出内容,例如,{食管胃结合部恶性肿瘤,定位检查,胸部增强ct}三元组,使用伪句转换函数,可以得到如下文本形式“食管胃结合部恶性肿瘤的定位检查是胸部增强ct”,然后将“食管胃结合部恶性肿瘤的定位检查是胸部增强ct”作为输出内容。
[0084]
本公开通过构建胃癌知识图谱和诊断知识推荐来实现胃癌诊断相关知识的推荐任务,在诊断知识推荐过程中,通过构建关系分类模型来识别输入文本所属的关系类别,通过命名实体识别模型来判断输入文本中所提及的实体,通过知识整合模块根据实体和关系分类识别图谱中的目标三元组和目标路径,给出更加全面和智能的诊断知识推荐。
[0085]
综上所述,本公开提供的内容输出方法,包括通过预先训练的关系分类模型抽取输入文本中的关系分类,通过预先训练的命名实体识别模型获取输入文本中的实体及实体的类别,基于关系分类、实体和实体的类别从医学知识图谱中筛选出目标三元组,医学知识图谱是对参考知识文本进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建的,医学知识图谱包括主体、客体及主体与客体之间的关系,将目标三元组整合为文本形式作为输出内容;通过构建相关疾病知识的知识图谱,结合输入文本中的相关的、系统的临床知识、患者信息及病情信息,向临床医务工作者输出与输入文本有关的关联内容,给临床医务工作者提供了决策参考,提高了医疗质量和医疗服务水平。
[0086]
图6是本公开示例性实施例示出的一种内容输出装置框图。参照图6,内容输出装置20包括分类模块201,识别模块202,筛选模块203和知识整合模块204。
[0087]
该分类模块201,用于通过预先训练的关系分类模型抽取输入文本中的关系分类;
[0088]
该识别模块202,用于通过预先训练的命名实体识别模型获取所述输入文本中的实体及所述实体的类别;
[0089]
该筛选模块203,用于基于所述关系分类、所述实体和所述实体的类别从医学知识图谱中筛选出目标三元组;所述医学知识图谱是对胃恶性肿瘤相关的参考知识文本进行命名实体识别与关系抽取,根据得到的实体识别结果和关系分类结果构建的,所述医学知识
图谱包括胃恶性肿瘤相关的主体、客体及主体与客体之间的关系;
[0090]
该知识整合模块204,用于将所述目标三元组整合为文本形式作为输出内容。
[0091]
可选地,该筛选模块203,还用于根据所述关系分类从所述医学知识图谱中筛选出包含所述关系分类的候选三元组;
[0092]
根据所述实体和所述实体的类别从所述候选三元组中筛选出包含所述实体的所述目标三元组。
[0093]
可选地,该筛选模块203,还用于在所述实体命中所述候选三元组中的单个主体的情况下,将命中的所述单个主体的客体作为新的主体,将所述新的主体所对应的三元组作为所述目标三元组;
[0094]
或在所述实体命中所述候选三元组中的单个客体的情况下,将与命中的所述单个客体具有相同主体和相同关系的三元组作为所述目标三元组。
[0095]
可选地,该筛选模块203,还用于在所述输入文本中有多个实体命中所述医学知识图谱中的实体的情况下,将所述多个实体进行两两组合,得到多个组合;
[0096]
对于所述多个组合中的每一个组合:从所述医学知识图谱中筛选出节点数量在指定范围内,且以所述组合中的两个实体作为知识图谱路径的头节点和尾节点的候选知识图谱路径;
[0097]
将有至少一个路径关系属于所述关系分类的所述候选知识图谱路径作为所述目标三元组。
[0098]
可选地,该知识整合模块204,还用于通过伪句转换函数将所述目标三元组整合为文本形式作为输出内容。
[0099]
可选地,所述关系分类模型的训练方法包括:
[0100]
将样本文本中的每个字映射为第一多维稠密向量,通过双向lstm模型获取每个所述第一多维稠密向量的隐状态特征;
[0101]
将预先确定的关系标签中的每个字映射为第二多维稠密向量,根据所述第二多维稠密向量获取所述关系标签的平均字向量,将所述平均字向量作为所述关系标签的向量表示;所述关系标签是基于所述参考知识文本确定的;
[0102]
根据所述隐状态特征和所述关系标签的向量表示,获取所述样本文本中每个词语对于每个所述关系标签的权重;
[0103]
根据所述权重得到预测关系分类的概率,基于所述预测关系分类的概率和实际关系分类得到损失函数;
[0104]
利用所述损失函数训练预分类模型,得到所述关系分类模型。
[0105]
可选地,所述损失函数的计算公式包括:
[0106][0107]
其中,l为所述损失函数,m为所述样本文本的数量,n为所述关系标签的数量,y
ij
为第i个样本文本的第j个关系标签的实际关系分类,为第i个样本文本的第j个关系标签的预测关系分类。
[0108]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0109]
图7是根据一示例性实施例示出的一种电子设备400的框图。如图7所示,该电子设备400可以是图1所示的终端,电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(i/o)接口404,以及通信组件405中的一者或多者。
[0110]
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的内容输出方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read-only memory,简称eprom),可编程只读存储器(programmable read-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:wi-fi模块,蓝牙模块,nfc模块等等。
[0111]
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的内容输出方法。
[0112]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的内容输出方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的内容输出方法。
[0113]
图8是根据一示例性实施例示出的另一种电子设备500的框图。例如,电子设备500可以被提供为一服务器。参照图8,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的内容输出方法。
[0114]
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以
被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(i/o)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
等等。
[0115]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的内容输出方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述的内容输出方法。
[0116]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的内容输出方法的代码部分。
[0117]
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
[0118]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
[0119]
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1