基于深度学习的医学文献中关键句筛选方法及装置与流程

文档序号:17131209发布日期:2019-03-16 01:15阅读:158来源:国知局
基于深度学习的医学文献中关键句筛选方法及装置与流程

本发明实施例涉及计算机领域,具体涉及一种基于深度学习的医学文献中关键句筛选方法及装置。



背景技术:

文本中的主要内容往往涵盖在一组重要的关键句中,这些关键句能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明的表示出来,正是基于这种认识,在信息检索、信息抽取和知识抽取等领域中,对能够表示文本主要内容的关键句识别与筛选是其中非常重要的一个步骤,其对学科文献的揭示、反映文本中隐含的知识等都具有重要的意义。关键句筛选简单来说就是根据一定的目的要求,通过计算机技术辨别并提取包含有用信息的句子,从而对文本进行浓缩从少量的数据中获得丰富的信息。

传统的关键句筛选方法一般基于统计方法,利用如位置、频数等统计信息找到最能代表文章主题的句子作为关键句。按照文章的结构划分,又可分为无结构筛选分析型和有结构筛选分析型。前者通过对文章的句子进行权重计算,找到权重排名靠前的句子作为关键句。后者首先对文章进行语义结构分析,找出文章的主题结构,然后从各个主题中分别抽取句子组成关键句。然而基于结构或者权重进行筛选的统计方法,在实际操作中容易忽略句子本身的内容,筛选掉在文中分布较小但是包含主题词内容的关键句,且冗余性较大。在自然语言处理领域应用较为广泛的深度学习算法关注点在句子内容本身,通过模拟人脑神经网络结构自动学习样本特征,从而筛选出包含关键信息的关键句,为进一步分析做准备。但是该算法迄今为止仅限于分析孤立的句子,句子与句子之间的上下文关系对本句的约束和影响还缺乏系统的研究。



技术实现要素:

针对现有技术存在的不足和缺陷,本发明实施例提供一种基于深度学习的医学文献中关键句筛选方法及装置。

一方面,本发明实施例提出一种基于深度学习的医学文献中关键句筛选方法,包括:

s1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;

s2、将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

另一方面,本发明实施例提出一种基于深度学习的医学文献中关键句筛选装置,包括:

生成单元,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;

输入单元,用于将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;

其中,所述处理器,存储器通过所述总线完成相互间的通信;

所述处理器执行所述计算机程序时实现上述方法。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的基于深度学习的医学文献中关键句筛选方法及装置,利用训练好的基于深度学习的卷积神经网络模型筛选医学文献中的关键句,因构建的卷积神经网络模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键句筛选的准确度。

附图说明

图1为本发明基于深度学习的医学文献中关键句筛选方法一实施例的流程示意图;

图2为本发明基于深度学习的医学文献中关键句筛选装置一实施例的结构示意图;

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。

参看图1,本实施例公开一种基于深度学习的医学文献中关键句筛选方法,包括:

s1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;

s2、将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

本发明实施例提供的基于深度学习的医学文献中关键句筛选方法,利用训练好的基于深度学习的卷积神经网络模型筛选医学文献中的关键句,因构建的卷积神经网络模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键句筛选的准确度。

在前述方法实施例的基础上,所述卷积神经网络模型的卷积层采用多元过滤窗口,每个窗口对应第一数量个过滤器,卷积运算的自变量为对应过滤窗口内的分词向量拼接得到的向量,所述卷积神经网络模型的池化层采用max-over-time-pooling方式。

本实施例中,在使用卷积神经网络模型进行关键句筛选之前,需要对卷积神经网络模型进行构建,并使用训练数据对卷积神经网络模型进行训练。具体地,模型的卷积层采用宽度为3、4、5的多元过滤窗口,每个窗口对应100个过滤器,滑动不同窗口遍历分句中每一个分词,经过卷积计算后,每一个过滤器可得到一个特征映射集。该特征集的计算公式如下:

ci=f(w·xi:i+h-1+b),

其中:表示从第i个分词xi起窗口大小为h的词向量拼接生成的向量,w为此窗口对应的一个过滤器矩阵,是偏差项,f是非线性函数,ci为产生的新特征。则对应于{x1:h,x2:h+1,...,xn-h+1:n},特征映射集可以表示成:

c=[c1,c2,...cn-h+1]。

模型的池化层采用max-over-time-pooling方式,对于每一过滤窗口的不同过滤器产生的特征集,取集合最大值作为重要代表特征。这样不同滑窗大小的特征变成固定的长度,拼接一起组成3*100长度的特征向量。模型的最后一层为全连接的softmax层,输出每个类别的概率。通过多轮迭代训练与参数调整,找到最优模型参数。

需要说明的是,在训练模型时,需要针对训练数据进行模型输出构建,具体方法为:依据pico指标矩阵,若一个分句未包含任意矩阵元素,则表示该分句不含有相关领域值得研究的关键信息,因此该分句的目标值设为0,若分句包含矩阵的一个或者多个元素,则表示该分句可能含有重要信息,为了避免漏掉关键信息,需要将其筛选出来以便后续深入研究,因此将该分句的目标值设为1。

在前述方法实施例的基础上,所述对待处理的医学文献进行分句,对分句进行分词,包括:

依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。

本实施例中,对分词过程举例说明如下:

对于例句:目的评价亚甲基四氢叶酸还原酶基因多态性在甲氨喋呤治疗急性淋巴细胞白血病过程中毒副反应的相关性。方法通过计算机检索国内外相关数据库:embase,cnki,维普中文科技期刊数据库以及万方数据库,…,首先依据标点符号对其进行分句,分句结果为:

(1)目的评价亚甲基四氢叶酸还原酶基因多态性在甲氨喋呤治疗急性淋巴细胞白血病过程中毒副反应的相关性;

(2)方法通过计算机检索国内外相关数据库:embase,cnki,维普中文科技期刊数据库以及万方数据库。

然后利用分词算法对分句进行分词,分词结果为:

1)['目的','评价','亚','甲基','四氢叶酸','还原酶','基因','多态性','在','甲氨喋呤','治疗','急性','淋巴','细胞','白血病','过程','中','毒副','反应','的','相关性'];

2)['方法','通过',′计算机′,′检索′,′国内外′,'相关′,′数据库′,′embase′,′cnki′,′维普′,′中文′,′科技′,′期刊′,′数据库′,′以及′,'万方',′数据库′]。

最后结合医学词库对部分分词进行合并,则对于第一个分句(1)的分词1),需要将“亚”、“甲基”、“四氢叶酸”和“还原酶”合并成一个完整的医学名词“亚甲基四氢叶酸还原酶”,需要将“淋巴”和“细胞”合并成一个完整的医学名词“淋巴细胞”,需要将“毒副”和“反应”合并成一个完整的医学名词“毒副反应”。合并结果为:

a)[′目的′,′评价′,′亚甲基四氢叶酸还原酶′,′基因′,′多态性′,′在′,′甲氨喋呤′,′治疗′,′急性′,′淋巴细胞′,′白血病','过程','中′,′毒副反应′,′的′,′相关性′];

b)[′方法′,′通过′,′计算机′,′检索′,′国内外′,′相关′,′数据库′,′embase′,′cnki′,′维普′,′中文′,′科技′,′期刊′,′数据库′,′以及','万方','数据库']。

在前述方法实施例的基础上,所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量,包括:

按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等,将填零扩充后的分句作为对应分句的词向量。

本实施例中,生成分句的词向量时,首先将分句的各个分词根据在文献中出现的顺序进行标识编码(id编码),编码的起始值为1,终止值为文献的词汇量大小。然后将所有分句中包含最多分词的个数记录为max_sentence_len,之后将id编码的分句进行填0扩充,使其长度达到max_sentence_len,即得到分句的词向量,其中词向量中0的数量等于max_sentence_len-分词数。

参看图2,本实施例公开一种基于深度学习的医学文献中关键句筛选装置,包括:

生成单元1,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;

输入单元2,用于将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

具体地,所述生成单元1对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;所述输入单元2将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

本发明实施例提供的基于深度学习的医学文献中关键句筛选装置,利用训练好的基于深度学习的卷积神经网络模型筛选医学文献中的关键句,因构建的卷积神经网络模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键句筛选的准确度。

在前述装置实施例的基础上,所述卷积神经网络模型的卷积层采用多元过滤窗口,每个窗口对应第一数量个过滤器,卷积运算的自变量为对应过滤窗口内的分词向量拼接得到的向量,所述卷积神经网络模型的池化层采用max-over-time-pooling方式。

在前述装置实施例的基础上,所述生成单元,具体用于:

依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。

在前述装置实施例的基础上,所述生成单元,具体用于:

按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等,将填零扩充后的分句作为对应分句的词向量。

本实施例的基于深度学习的医学文献中关键句筛选装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图3示出了本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序;

其中,所述处理器11,存储器12通过所述总线13完成相互间的通信;

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量;将所述分句的词向量输入预先训练好的基于深度学习的卷积神经网络模型中,得到所述待处理的医学文献中的关键句。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1