医学文献排序方法、装置、电子设备及存储介质与流程

文档序号:23805844发布日期:2021-02-03 09:04阅读:67来源:国知局
医学文献排序方法、装置、电子设备及存储介质与流程

[0001]
本申请涉及信息推荐技术领域,具体涉及一种医学文献排序方法、装置、电子设备及存储介质。


背景技术:

[0002]
公共医学(public medicine,pubmed)数据库包含了大量的医学文献,海量医学文献中往往包含着某一医学领域的研究方向的发展趋势,通过对医学领域的医学文献进行阅读,可提高相关领域研究者们和相关公共卫生政策制定者们制定决策的效率和精度。目前,用户从pubmed数据库中获取医学文献的方法一般都是输入查询语句,然后,后台对查询语句做一些关键字解析,通过关键词匹配搜索出返候选文献,并将候选文献在可视化界面展示给用户,以便用户查阅。
[0003]
然而,随着pubmed数据库中医学文献的增多,每次搜索出的候选文献数量非常多,用户难以从大量的候选文献中获取到自己想要的医学文献,导致用户紧缩医学文献的效率较低,甚至无法获取到自己想要检索的医学文献。


技术实现要素:

[0004]
本申请实施例提供了一种医学文献排序方法、装置、电子设备及存储介质。通过对候选医学文献进行评分,提高对医学文献的检索效率。
[0005]
第一方面,本申请实施例提供一种医学文献排序方法,包括:
[0006]
获取用户的查询语句;
[0007]
获取与所述查询语句对应的多篇候选医学文献;
[0008]
确定所述多篇候选医学文献中的每篇候选医学文献对应的至少一个句子;
[0009]
根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分;
[0010]
根据所述每篇候选医学文献对应的评分,对所述多篇候选医学文献进行排序。
[0011]
第二方面,本申请实施例提供一种医学文献排序装置,包括:
[0012]
收发单元,用于获取用户的查询语句;
[0013]
处理单元,用于获取与所述查询语句对应的多篇候选医学文献;
[0014]
所述处理单元,还用于确定所述多篇候选医学文献中的每篇候选医学文献对应的至少一个句子;
[0015]
所述处理单元,还用于根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分;
[0016]
所述处理单元,还用于根据所述每篇候选医学文献对应的评分,对所述多篇候选医学文献进行排序。
[0017]
第三方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机
程序,以使得所述电子设备执行如第一方面所述的方法。
[0018]
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
[0019]
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
[0020]
实施本申请实施例,具有如下有益效果:
[0021]
可以看出,可根据查询语句与候选医学文献在句子维度的评分,对候选医学文献(第一次召回的医学文献)进行评分,并根据评分对候选医学文献进行排序(即进行二次召回),这样用户可以优先看到评分最高的候选医学文献,可以快速找到自己想要获取的医学文献,提高医学文献的检索效率。
附图说明
[0022]
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]
图1为本申请实施例提供的一种医学文献排序方法的流程示意图;
[0024]
图2为本申请实施例提供的一种神经网络的结构示意图;
[0025]
图3为本申请实施例提供的一种神经网络训练方法的流程示意图;
[0026]
图4为本申请实施例提供的一种医学文献排序装置的功能单元组成框图;
[0027]
图5为本申请实施例提供的一种医学文献排序装置的结构示意图。
具体实施方式
[0028]
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0031]
参阅图1,图1为本申请实施例提供的一种医学文献排序方法的流程示意图。该方法应用于医学文献排序装置。该方法包括以下步骤:
[0032]
101:医学文献排序装置获取用户的查询语句。
[0033]
示例性的,查询语句可以是用户在医学文献搜索装置的信息输入域中手动输入的,也可以是对用户语音进行语音识别得到的,比如,通过语音助手识别该用户语音,得到该查询语句,本申请不对获取该查询语句的方式进行限定。
[0034]
102:医学文献排序装置获取与所述查询语句对应的多篇候选医学文献。
[0035]
示例性的,确定该查询语句与该医学数据库(比如,公共医学(publicmedicine,pubmed)数据库)中每篇医学文献的相似度,并根据每篇医学文献的相似度从该医学数据库中获取与该查询语句对应的多篇候选医学文献,比如,将相似度大于阈值的医学文献作为候选医学文献。
[0036]
示例性的,可通过搜索服务器(比如,elasticsearch或者slor)确定该查询语句与医学文献之间的相似度,并根据相似度从该医学数据库中获取与该查询语句对应的多篇候选医学文献,即对医学库中的医学文献进行一次召回。本申请对获取候选医学文献的方式不做限定。
[0037]
在本申请的一个实施方式中,通过搜索服务器确定该查询语句与医学文献之间的相似度,主要是将该查询语句与每篇医学文献进行局部匹配得到该相似度。所以,就会得到局部匹配,但是冗余的候选医学文献,比如,查询语句为“肺癌病人”,在进行局部匹配的过程中,可能将包含病人的医学文献全部作为与该查询语句对应的候选医学文献,得到多篇冗余的候选医学文献。因此为了提高得到候选医学文献的精确度,在得到多篇候选医学文献之后,确定每篇候选医学文献中的实体,以及确定该查询语句中的实体,确定该查询语句中的实体与该候选医学文献中的实体之间的相似度;最后,将该查询语句与每篇候选医学之间的相似度、以及该查询语句中的实体与该候选医学文献中的实体之间的相似度进行加权处理,得到与每篇候选医学文献对应的最终相似度,根据每篇候选医学文献对应的最终相似度,从该多篇候选医学文献中选出与该查询语句对应的候选医学文献。通过实体匹配,可以过滤一些实体不匹配的候选医学文献,比如,查询语句为“肺癌病人”,通过实体匹配,可以过滤掉不包含实体“肺癌”的候选医学文献。
[0038]
103:医学文献排序装置确定所述多篇候选医学文献中的每篇候选医学文献对应的至少一个句子。
[0039]
示例性的,可通过已有的工具包对该多篇候选医学文献中的每篇医学文献进行分句,得到每篇候选医学文献对应的至少一个句子,比如,可以通过自然语言处理工具包(natural language toolkit,nltk)对每篇医学文献进行分句。
[0040]
示例性的,可通过nltk识别每篇医学文献中的标识符号(比如,句号,文号),将标识符号之间的医学文本作为该篇医学文献中的一个候选句子。然后,将相同的候选句子进行合并,得到每篇医学文献对应的至少一个句子。然而,在合并的过程中只是将句子中的单词一一比对,仍然保留有语义相同的句子,从而保留了多个冗余的句子,比如,句子“lung cancer survival rate”和句子“survival rate of lung cancer”是语义相同,但是由于表述不同,不能作为完全相同的两个句子,则会将这两个句子作为单独的两个句子,不会合并,从而得到很多语义相同的冗余句子。因此,可对该至少一个句子中每个句子进行语义识别,得到每个句子的语义,并将语义相同的句子进行合并,比如,将多个语义相同的句子只保留其中一个,从而过滤掉了冗余的句子,提高了对医学文献的评分效率。
[0041]
104:医学文献排序装置根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分。
[0042]
示例性的,对该查询语句中的每个第一单词进行词嵌入处理,得到每个第一单词对应的第一词向量;对句子a中的每个单词进行词嵌入处理,得到每个第二单词对应的第二词向量,其中,该句子a为每篇医学文献对应的至少一个句子中的任意一个句子;确定该查询语句对应的逆文本频率(inverse document frequency,idf),即根据该查询语句在该多篇候选医学文献中出现的次数,以及该多篇候选医学文献的数量,确定该查询语句的idf。然后,根据每个第一单词对应的第一词向量、每个第二单词对应的第二词向量以及该idf,确定每篇医学文献的评分。
[0043]
进一步的,根据自注意机制以及每个第一单词的第一词向量,得到每个第一单词对应的第三词向量;以及根据自注意机制以及每个第二单词的第二词向量,得到每个第二单词对应的第四词向量;根据双向注意力机制、每个第一单词对应的第三词向量以及每个第二单词对应的第四向量,得到与该句子a对印度歌第一特征矩阵;然后,根据每篇医学文献中每个句子对应的第一相似度矩阵、第一特征矩阵以及该查询语句的idf,确定每篇医学文献对应的评分。
[0044]
具体的,确定每个第一单词的第一词向量与每个第二单词的第二词向量之间的相似度,得到与该句子a之间的第一相似度矩阵,其中,该第一相似度矩阵中的第i行第j元素,表示该查询语句中的第i个单词与该句子a中的第j个单词之间的相似度;将该第一相似度矩阵进行池化处理,得到与该句子a对应的第二相似度矩阵,其中,该池化处理为getmax(k)处理,k表示第一相似度矩阵的每行元素中所要保留的数量,比如,k=3时,可以将该第一相似度矩阵的每行元素中取值为前3的元素保留,其余元素删除,得到该第二相似度矩阵。
[0045]
进一步的,根据自注意力机制(self-attention)对每个第一单词的第一词向量进行加权处理,得到每个第一单词对应的第三词向量,即根据第一预设参数对每个第一单词的第一词向量进行变换,得到每个第一单词对应的第一查询向量、第一关键值向量以及第一价值向量;然后,确定第一单词a对应的第一查询向量与查询语句中的每个第一单词的第一关键值向量之间的相似度,得到第一单词a与每个第一单词之间的权重系数,即将第一单词a与每个第一单词之间的相似度进行归一化处理,得到该第一单词a与每个第一单词之间的权重系数;然后,根据第一单词a与每个第一单词之间的权重系数,对每个第一单词对应的第一价值向量进行加权,得到与第一单词a对应的第三词向量,其中,该第一单词a为该查询语句中的任意一个第一单词;同样,根据自注意力机制,对每个第二单词的第二词向量进行加权处理,得到每个第二单词的第四词向量,其中,根据自注意力机制对每个第二单词的第二词向量进行加权处理,与上述对每个第一单词的第一词向量进行加权处理的方式类似,不再叙述;
[0046]
进一步的,使用双向注意机制(co-attention)对每个第一单词的第三词向量以及每个第二单词的第四词向量进行加权处理,得到该句子a对应的第一特征矩阵。示例性的,确定第一单词a的第三词向量与每个第二单词的第四词向量之间的相似度,得到第一单词a与每个第二单词之间的权重系数,然后,根据与每个第二单词之间的权重系数,对每个第二单词对应的第四词向量进行加权处理,得到该第一单词a对应的第五词向量,进一步的,确定该第一单词a与每个第二单词之间的权重系数中的第一最大值,使用第一最大值与该第
一单词a对应的第五词向量进行点乘,得到该第一单词a对应的目标词向量,然后,将该查询语句中的每个第一单词对应的目标特征向量组成第一矩阵;示例性的,确定第二单词b的第四词向量与每个第一单词的第三词向量之间的相似度,得到该第二单词b与每个第一单词之间的权重系数,其中,第二单词b为该句子a中的任意一个第二单词;根据第二单词b与每个第一单词之间的权重系数,对每个第一单词对应的第三词向量进行加权,得到与第二单词b对应的第五词向量;然后,确定该第二单词b与每个第一单词之间的权重系数中的第二最大值;使用第二最大值对该第二单词b对对应的第五词向量进行点乘,得到该第二单词对应的目标词向量,并将每个第二单词对应的目标词向量组成第二矩阵;最后,将第一矩阵、第二矩阵以及每个第二单词对应的第四词向量组成的第三矩阵进行拼接,得到与该句子a对应的第一特征矩阵。然后,对该第一特征矩阵进行高层语义提取,得到与该句子a对应的第二特征矩阵。
[0047]
将该句子a对应的第二相似度矩阵、第二特征矩阵、以及该查询语句的逆文本频率进行拼接(concat),得到与该句子a对应的第三特征矩阵;应理解,若第二相似度矩阵和第二特征矩阵的维度不同,可以先将第二相似度矩阵和第二特征矩阵的维度映射到相同维度,然后,再对该逆文本频率进行复制,得到与该逆文本频率对应的特征向量(比如,列向量),该特征向量的维度与维度变换后的第二相似度矩阵和第二特征矩阵的行数相同。这样,可以将该第二相似度矩阵、第二特征矩阵以及该特征向量进行拼接(比如,纵向拼接),得到与该句子a对应的第三特征矩阵。
[0048]
然后,对该句子a对应的第三特征矩阵进行特征提取,得到该句子a对应的第四特征矩阵;进一步的,将句子a对应的第四特征矩阵进行池化处理,即getmax(k)处理,得到与该句子a对应的第五特征矩阵;
[0049]
最后,将该至少一个句子中每个句子对应的第五特征矩阵以及该查询语句与每篇候选医学文献之间的相似度进行拼接,得到与每篇候选医学文献对应的目标特征矩阵;然后,对每篇候选医学文献对应的目标特征矩阵进行特征提取,得到每篇候选医学文献对应的目标特征向量;根据每篇候选医学文献对应的目标特征向量进行分类,得到每篇候选医学文献的评分。
[0050]
105:医学文献排序装置根据所述每篇候选医学文献对应的评分,对所述多篇候选医学文献进行排序。
[0051]
示例性的,根据每篇候选医学文献的评分,按照从大到小的顺序对该多篇候选医学文献进行排序,并在可视化界面展示排序后的多篇候选医学文献。
[0052]
可以看出,可根据查询语句与候选医学文献在句子维度的评分,对候选医学文献进行排序(即进行二次召回)这样用户可以优先看到评分最高的候选医学文献,可以快速找到自己想要获取的医学文献,提高医学文献的检索效率。
[0053]
在本申请的一个实施方式中,本申请的医学文献排序方法还可以应用到智慧医疗领域,比如,医生可以使用本申请的医学文献排序方法快速的查找出历史病例或历史文献,从而为当前的诊断提供病例参考,提高诊断效率,推动医疗科技的发展。
[0054]
在本申请的一个实施方式中,本申请对医学文献的排序可以通过完成训练的神经网络实现,后续详细描述对该神经网络的训练过程,在此不做过多描述。下面结合附图,并以句子a为例说明确定医学文献的目标评分的过程。
[0055]
如图2所示,该神经网络包括嵌入层1、嵌入层2、卷积层1、嵌入层2、自注意力层1、自注意力层2、双向注意力层、特征提取层、密集(dense)网络1以及dense网络2。其中,卷积层1和卷积层2可以为三元卷积(trigramconvolution)网络层,用于特征提取。特征提取层可以为长短期记忆网络lstm,,也是用于特征提取,自注意力层1、自注意力层2以及双向注意力层可以是以bert模型为基础构成的注意力层;
[0056]
示例性的,嵌入层1用于对查询语句中的每个第一单词进行词嵌入处理,得到每个第一单词对应的第一词向量,嵌入层2用于对句子a中的每个第二单词进行词嵌入处理,得到每个第二单词对应的第二词向量;然后,确定第一单词a与每个第二单词之间的第一相似度,得到第一相似度矩阵,并对该第一相似度矩阵进行getmax(k)池化处理,得到第二相似度矩阵。
[0057]
卷积层1用于对每个第一单词的第一词向量进行特征提取(即语义特征提取),得到每个第一单词对应的第一语义向量;自注意力层1用于对每个第一单词对应的第一语义向量进行自注意力加权处理,得到每个第一单词对应的第三词向量,通过自注意力层1可以将该查询语句中的重点单词(即对查询语句起关键作用的)的特征放大;卷积层2用于对每个第二单词对应的第二词向量进行特征提取(即语义特征提取),得到每个第二单词对应的第二语义向量;自注意力层2用于对每个第二单词对应的第二语义向量进行自注意加权处理,得到每个第二单词对应的第四词向量,通过自注意力层2可以将该句子a中的重点单词(即能够代表该医学文献的单词)的特征放大;最后,双向注意力层用于对每个第一单词的第二词向量以及每个第二单词对应的第四词向量进行双向注意力加权处理,得到与句子a对应的第一特征矩阵;
[0058]
特征提取网络用于对该句子a对应的第一特征矩阵进行特征提取,得到句子a对应的第二特征矩阵;然后,将句子a对应的第二特征矩阵、第二相似度矩阵以及逆文本频率进行拼接(concat),得到与该句子a对应的第三特征矩阵;
[0059]
dense网络1用于对该句子a对应的第三特征矩阵进行特征提取,得到与该句子a对应的第四特征矩阵;并对该第四特征矩阵进行getmax处理,得到该句子a对应的第五特征矩阵;
[0060]
最后,将每个句子对应的第五特征矩阵以及每篇候选医学对应的第一评分进行拼接,得到与每篇候选医学文献对应的目标特征矩阵;
[0061]
dense网络2用于对该目标特征矩阵进行特征提取,得到与每篇候选医学文献对应的目标特征向量,并对该目标特征向量进行分类,得到与每篇候选医学文献对应的评分。
[0062]
参阅图3,图3为本申请实施例提供的一种神经网络训练方法的流程示意图。本实施例中与图1所示的实施例中的相同内容,在此不再重复描述。该方法包括以下步骤:
[0063]
301:获取查询样本以及与所述查询样本对应的多篇医学文献样本。
[0064]
其中,该多篇医学文献样本中的每篇医学文献样本标注有真实评分。
[0065]
302:对所述多篇医学文献样本中的每篇医学样本进行分句,得到所述每篇医学样本对应的至少一个句子。
[0066]
303:将所述查询样本以及所述每篇医学文献样本对应的至少一个句子输入到神经网络,得到所述每篇医学文献样本对应的预测评分。
[0067]
304:根据所述每篇医学文献样本对应的预测评分以及所述每篇医学文献样本对
应的真实评分,调整所述神经网络的网络参数。
[0068]
示例性的,根据每篇医学文献样本对应的预测评分以及每篇医学文献样本对应的真实评分,确定损失,并根据该损失调整该神经网络的网络参数,直至该神经网络收敛,得到完成训练的神经网络。
[0069]
参阅图4,图4本申请实施例提供的一种医学文献排序装置的功能单元组成框图。医学文献排序装置400包括:收发单元401和处理单元402,其中:
[0070]
收发单元401,用于获取用户的查询语句;
[0071]
处理单元402,用于获取与所述查询语句对应的多篇候选医学文献;
[0072]
处理单元402,还用于确定所述多篇候选医学文献中的每篇候选医学文献对应的至少一个句子;
[0073]
处理单元402,还用于根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分;
[0074]
处理单元402,还用于根据所述每篇候选医学文献对应的评分,对所述多篇候选医学文献进行排序。
[0075]
在一些可能的实施方式中,在获取与所述查询语句对应的多篇候选医学文献方面,处理单元402,具体用于:
[0076]
确定所述查询语句与医学数据库中每篇医学文献对应的相似度;
[0077]
根据与所述每篇医学文献对应的相似度,从所述医学数据库中选出多篇候选医学文献。
[0078]
在一些可能的实施方式中,在根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分方面,处理单元402,具体用于:
[0079]
对所述查询语句中的每个第一单词进行词嵌入处理,得到所述每个第一单词对应的第一词向量;
[0080]
对句子a中的每个第二单词进行词嵌入处理,得到所述每个第二单词对应的第二词向量,其中,所述句子a为所述至少一个句子中的任意一个句子;
[0081]
确定所述查询语句对应的逆文本频率;
[0082]
根据所述逆文本频率、所述每个第一单词对应的第一词向量以及所述每个第二单词对应的第二词向量,确定所述每篇医学文献对应的评分。
[0083]
在一些可能的实施方式中,在根据所述逆文本频率、所述每个第一单词对应的第一词向量以及所述每个第二单词对应的第二词向量,确定所述每篇医学文献对应的评分方面,处理单元402,具体用于:
[0084]
确定所述每个第一单词的第一词向量与所述每个第二单词的第二词向量之间的相似度,得到第一相似度矩阵;
[0085]
根据自注意机制以及所述每个第一单词的第一词向量,得到所述每个第一单词对应的第三词向量;
[0086]
根据自注意机制以及所述每个第二单词的第二词向量,得到所述每个第二单词对应的第四词向量;
[0087]
根据双向注意力机制、所述每个第一单词对应的第三词向量以及所述每个第二单词对应的第四向量,得到第一特征矩阵;
[0088]
根据所述逆文本频率、所述第一相似度矩阵以及所述第一特征矩阵,确定所述每篇医学文献对应的评分。
[0089]
在一些可能的实施方式中,在据所述逆文本频率、所述第一相似度矩阵以及所述第一特征矩阵,确定所述每篇医学文献对应的评分方面,处理单元402,具体用于:
[0090]
通过getmax函数对所述第一相似度矩阵进行池化处理,得到第二相似度矩阵;
[0091]
对所述第一特征矩阵进行语义特征提取,得到第二特征矩阵;
[0092]
对所述第二相似度矩阵、所述第二特征矩阵以及所述逆文本频率进行拼接,确定与所述句子a对应的第三特征矩阵;
[0093]
根据所述至少一个句子中每个句子对应的第三特征矩阵,确定所述每篇医学文献对应的评分。
[0094]
在一些可能的实施方式中,在根据所述至少一个句子中每个句子对应的第三特征矩阵,确定所述每篇医学文献对应的评分方面,处理单元402,具体用于:
[0095]
对所述每个句子对应的第三特征矩阵进行语义特征提取,得到所述每个句子对应的第四特征矩阵;
[0096]
通过getmax函数对所述每个句子对应的第四特征矩阵进行池化处理,得到所述每个句子对应的第五特征矩阵;
[0097]
将所述每个句子对应的第五矩阵以及所述查询语句与所述每篇候选医学文献之间的相似度进行拼接,得到所述每篇候选医学文献对应的目标特征矩阵;
[0098]
根据所述每篇候选医学文献对应的目标特征矩阵,确定所述每篇候选医学文献对应的评分。
[0099]
在一些可能的实施方式中,在根据双向注意力机制、所述每个第一单词对应的第三词向量以及所述每个第二单词对应的第四向量,得到第一特征矩阵方面,处理单元402,具体用于:
[0100]
确定第一单词a的第三词向量与所述每个第二单词的第四词向量之间的相似度,得到所述第一单词a与每个第二单词之间的权重系数,所述第一单词a为所述查询语句中的任意一个单词;
[0101]
根据所述第一单词a与所述每个第二单词之间的权重系数,对所述每个第二单词对应的第四词向量进行加权处理,得到所述第一单词a对应的第五词向量;
[0102]
确定所述第一单词a与所述每个第二单词之间的权重系数中的第一最大值,使用所述第一最大值对所述第一单词a对应的第五词向量进行点乘,得到所述第一单词a对应的目标词向量;
[0103]
将所述查询语句中的每个第一单词对应的目标特征向量组成第一矩阵;
[0104]
确定所述第二单词b的第四词向量与所述每个第一单词的第三词向量之间的相似度,得到所述第二单词b与所述每个第一单词之间的权重系数,其中,所述第二单词b为所述句子a中的任意一个第二单词;
[0105]
根据所述第二单词b与每个第一单词之间的权重系数,对所述每个第一单词对应的第三词向量进行加权,得到与每个第二单词对应的第五词向量;
[0106]
确定所述第二单词b与每个第一单词之间的权重系数中的第二最大值,使用所述第二最大值对所述第一单词b对应的第五词向量进行点乘,得到所述第二单词b对应的目标
词向量;
[0107]
将所述每个第二单词对应的目标特征向量组成第二矩阵;
[0108]
将所述第一矩阵、所述第二矩阵以及每个第二单词对应的第四词向量组成的第三矩阵进行拼接,得到所述第一特征矩阵。
[0109]
参阅图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据,并可以将存储503存储的数据传输给处理器502。
[0110]
处理器502用于读取存储器503中的计算机程序执行以下操作:
[0111]
控制收发器501获取用户的查询语句;
[0112]
获取与所述查询语句对应的多篇候选医学文献;
[0113]
确定所述多篇候选医学文献中的每篇候选医学文献对应的至少一个句子;
[0114]
根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分;
[0115]
根据所述每篇候选医学文献对应的评分,对所述多篇候选医学文献进行排序。
[0116]
在一些可能的实施方式中,在获取与所述查询语句对应的多篇候选医学文献方面,处理器502,具体用于执行以下操作:
[0117]
确定所述查询语句与医学数据库中每篇医学文献对应的相似度;
[0118]
根据与所述每篇医学文献对应的相似度,从所述医学数据库中选出多篇候选医学文献。
[0119]
在一些可能的实施方式中,在根据所述查询语句以及所述至少一个句子,确定所述每篇候选医学文献对应的评分方面,处理器502,具体用于执行以下操作:
[0120]
对所述查询语句中的每个第一单词进行词嵌入处理,得到所述每个第一单词对应的第一词向量;
[0121]
对句子a中的每个第二单词进行词嵌入处理,得到所述每个第二单词对应的第二词向量,其中,所述句子a为所述至少一个句子中的任意一个句子;
[0122]
确定所述查询语句对应的逆文本频率;
[0123]
根据所述逆文本频率、所述每个第一单词对应的第一词向量以及所述每个第二单词对应的第二词向量,确定所述每篇医学文献对应的评分。
[0124]
在一些可能的实施方式中,在根据所述逆文本频率、所述每个第一单词对应的第一词向量以及所述每个第二单词对应的第二词向量,确定所述每篇医学文献对应的评分方面,处理器502,具体用于执行以下操作:
[0125]
确定所述每个第一单词的第一词向量与所述每个第二单词的第二词向量之间的相似度,得到第一相似度矩阵;
[0126]
根据自注意机制以及所述每个第一单词的第一词向量,得到所述每个第一单词对应的第三词向量;
[0127]
根据自注意机制以及所述每个第二单词的第二词向量,得到所述每个第二单词对应的第四词向量;
[0128]
根据双向注意力机制、所述每个第一单词对应的第三词向量以及所述每个第二单词对应的第四向量,得到第一特征矩阵;
[0129]
根据所述逆文本频率、所述第一相似度矩阵以及所述第一特征矩阵,确定所述每篇医学文献对应的评分。
[0130]
在一些可能的实施方式中,在据所述逆文本频率、所述第一相似度矩阵以及所述第一特征矩阵,确定所述每篇医学文献对应的评分方面,处理器502,具体用于执行以下操作:
[0131]
通过getmax函数对所述第一相似度矩阵进行池化处理,得到第二相似度矩阵;
[0132]
对所述第一特征矩阵进行语义特征提取,得到第二特征矩阵;
[0133]
对所述第二相似度矩阵、所述第二特征矩阵以及所述逆文本频率进行拼接,确定与所述句子a对应的第三特征矩阵;
[0134]
根据所述至少一个句子中每个句子对应的第三特征矩阵,确定所述每篇医学文献对应的评分。
[0135]
在一些可能的实施方式中,在根据所述至少一个句子中每个句子对应的第三特征矩阵,确定所述每篇医学文献对应的评分方面,处理器502,具体用于执行以下操作:
[0136]
对所述每个句子对应的第三特征矩阵进行语义特征提取,得到所述每个句子对应的第四特征矩阵;
[0137]
通过getmax函数对所述每个句子对应的第四特征矩阵进行池化处理,得到所述每个句子对应的第五特征矩阵;
[0138]
将所述每个句子对应的第五矩阵以及所述查询语句与所述每篇候选医学文献之间的相似度进行拼接,得到所述每篇候选医学文献对应的目标特征矩阵;
[0139]
根据所述每篇候选医学文献对应的目标特征矩阵,确定所述每篇候选医学文献对应的评分。
[0140]
在一些可能的实施方式中,在根据双向注意力机制、所述每个第一单词对应的第三词向量以及所述每个第二单词对应的第四向量,得到第一特征矩阵方面,处理器502,具体用于执行以下操作:
[0141]
确定第一单词a的第三词向量与所述每个第二单词的第四词向量之间的相似度,得到所述第一单词a与每个第二单词之间的权重系数,所述第一单词a为所述查询语句中的任意一个单词;
[0142]
根据所述第一单词a与所述每个第二单词之间的权重系数,对所述每个第二单词对应的第四词向量进行加权处理,得到所述第一单词a对应的第五词向量;
[0143]
确定所述第一单词a与所述每个第二单词之间的权重系数中的第一最大值,使用所述第一最大值对所述第一单词a对应的第五词向量进行点乘,得到所述第一单词a对应的目标词向量;
[0144]
将所述查询语句中的每个第一单词对应的目标特征向量组成第一矩阵;
[0145]
确定所述第二单词b的第四词向量与所述每个第一单词的第三词向量之间的相似度,得到所述第二单词b与所述每个第一单词之间的权重系数,其中,所述第二单词b为所述句子a中的任意一个第二单词;
[0146]
根据所述第二单词b与每个第一单词之间的权重系数,对所述每个第一单词对应的第三词向量进行加权,得到与每个第二单词对应的第五词向量;
[0147]
确定所述第二单词b与每个第一单词之间的权重系数中的第二最大值,使用所述
第二最大值对所述第一单词b对应的第五词向量进行点乘,得到所述第二单词b对应的目标词向量;
[0148]
将所述每个第二单词对应的目标特征向量组成第二矩阵;
[0149]
将所述第一矩阵、所述第二矩阵以及每个第二单词对应的第四词向量组成的第三矩阵进行拼接,得到所述第一特征矩阵。
[0150]
具体地,上述收发器501可为图4所述的实施例的医学文献排序装置400的收发单元401,上述处理器502可以为图4所述的实施例的医学文献排序装置400的处理单元402。
[0151]
应理解,本申请中的医学文献排序装置可以包括智能手机(如android手机、ios手机、windows phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备mid(mobile internet devices,简称:mid)或穿戴式设备等。上述医学文献排序装置仅是举例,而非穷举,包含但不限于上述医学文献排序装置。在实际应用中,上述医学文献排序装置还可以包括:智能车载终端、计算机设备等等。
[0152]
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种医学文献排序方法的部分或全部步骤。
[0153]
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种医学文献排序方法的部分或全部步骤。
[0154]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0155]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0156]
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0157]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0158]
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
[0159]
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用
时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-only memory,简称:rom)、随机存取器(英文:random access memory,简称:ram)、磁盘或光盘等。
[0161]
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1