基于深度卷积神经网络的乳腺癌风险评估分析系统的制作方法

文档序号:11199729阅读:3694来源:国知局
基于深度卷积神经网络的乳腺癌风险评估分析系统的制造方法与工艺

本发明涉及医疗设备技术领域,特别是涉及一种基于深度卷积神经网络的乳腺癌风险评估分析系统。



背景技术:

近几年来,乳腺癌在我国的发生率逐年上升,尤其是在一些大城市,如上海、北京等地,乳腺癌在女性的恶性肿瘤发病率中已跃居首位。海量的结构化、半结构化数据以及错综复杂的非结构化数据挑战着医疗行业,使得资源难以合理地配置,给整个医疗行业的发展带来了巨大的压力。就乳腺癌这一疾病而言,其患者的电子病历信息分散在叙述性医疗文本中,但大部分的计算机应用只能理解结构化数据。普遍的实践是通过机器学习的方法对电子健康记录进行文档结构化表示,但该数据预处理流程同样依赖于专家领域知识,且结构化流程无法解决医疗数据稀疏,文本噪音问题。医疗文档结构化流程依赖于指定的数据集,不适用于真实临床情况。

深度学习作为最近几年机器学习领域的一个热点,非常适用于医疗文本的数据挖掘。由于传统的自然语言处理采用机器学习的方法,需要使用大量的领域知识人工设计出每种疾病的评估指标。这些评估指标被称作特征,且通常是由具体疾病种类导向的,容易导致过度设计(overengineer),也不具有广泛的适用性。深度学习通过组合低层特征形成更加抽象的高层特征表示属性类别或特征,以发现数据的分布式特征表示。其强大的自动特征提取、复杂模型构建能力,不仅可以避免繁琐的人工特征抽取,有效地利用无监督数据,并且具有优秀的泛化能力,可以应用到不同的医疗领域。因此引起了医学领域研究人员的广泛关注。



技术实现要素:

本发明所要解决的技术问题是提供一种基于深度卷积神经网络的乳腺癌风险评估分析系统,能有效提高乳腺癌筛查的自动化和智能化水平。

本发明解决其技术问题所采用的技术方案是:提供一种基于深度卷积神经网络的乳腺癌风险评估分析系统,包括:医疗文档预处理模块,用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成字向量训练使用的字表;字向量训练模块,用于读取预处理过的医学文本,通过训练一个深度卷积神经网络,以优化语言模型的概率作为优化目标,生成初级字向量;分布式语义特征医学信息抽取模块,用于以初级字向量为出发点,使用深度卷积神经网络,将原始数据映射到隐层特征空间,最后使用全连接层将学到的分布式特征表示映射到样本标记空间,并且融合优化医学知识库的预测概率对初级字向量进行反馈优化,从而生成医学领域的分布式语义特征;长时语义关联特征提取模块,用于使用分布式语义特征表示,通过引入深度网格长短期记忆神经网络提取医疗临床文档的长时语义关联特征;乳腺癌风险评估分析模块,使用海量医学文本的长时语义关联特征训练一个用于乳腺癌风险评估的深度神经网络,并进行乳腺癌风险评估。

所述医疗文档预处理模块包括:非法字符过滤子模块,以字符为单位遍历文本,移出其中无效非可见字符;中文编码统一子模块,根据设置确定输入文本的中文字符编码方式;字表生成模块,以unicode字符为单位,生成字表,表中的字在后续字向量生成过程中,被映射为浮点数形式的字向量。

所述字向量训练模块包括:正负例生成子模块,用于读取输入语句,根据预设的窗口,生成正例,同时采用随机替换正例的中心字的方法,生成相应的负例;字向量深度卷积神经网络模块,将生成的正负例样本输入网络,计算概率,并根据正负例的概率调整网络;网络优化及训练误差监控模块,针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型,输出初级字向量。

所述分布式语义特征医学信息抽取模块中使用的深度卷积神经网络共分为八层,由数据增强模块、卷积层、激活层和下采样层交替构成;其中,数据增强模块,用于对原始根据字表生成的文本矩阵对图片进行变换,增大数据集,防止过拟合;卷积层,用于提取文本矩阵的局部特征,其中计算任意给定卷积层的输出大小的公式为其中,k是过滤器尺寸,p是填充值,s是步幅,w是输入文本矩阵的维度;激活层为relu激活层;下采样层,用于将隐层输出以一定的概率置0。

所述的深度卷积神经网络的学习过程是一个前向传播过程,上一层的输出即为当前层的输入,并通过激活函数逐层传递,整个网络的实际计算输出用公式表示为:op=fn(...f2(f1(xw1)w2)...wn),其中,x表示原始输入,fn表示第n层的激活函数,wn表示第n层的映射权值矩阵,op表示整个网络的实际计算输出;当前层的输出表示为:xl=fl(wlwxl-1+bl),l表示网络层数,xl表示当前层的输出,xl-1表示上一层的输出,即当前层的输入,wl表示已经训练好的当前网络层的映射权值矩阵,bl为当前网络的加性偏执,fl是当前网络层的激活函数;采用的激活函数fl为纠正线性单元,即relu激活函数,表示为:

所述的深度卷积神经网络的训练是一个反向传播过程,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;反向传播需要通过对带有标签的训练样本进行比较,采用平方误差代价函数,对于c个类别,n个训练样本的多类别进行识别,网络最终输出误差函数用如下公式来计算:其中,en为平方误差代价函数,为第n个样本对应标签的第k维,为第n个样本对应网络预测的第k个输出;对误差函数进行反向传播时,采用bp算法进行计算:其中,δl代表当前层的误差函数,δl+1代表上一层的误差函数,wl+1为上一层映射矩阵,f'表示激活函数的反函数,即上采样,ul表示未通过激活函数的上一层的输出,xl-1表示下一层的输入,wl为本层映射权值矩阵,bl为当前网络的加性偏执。

所述长时语义关联特征提取模块在全卷积神经网络中,分为从大到小再从小到大的两个过程;其中,从大到小是由所述的卷积神经网络中的下采样层作用所致,而从小到大需要由上采样层来实现在上采样过程中,采用分阶段增大的方法,并且在上采样的每个阶段,使用下采样对应层的特征进行辅助;所述辅助是指采用跳层上采样融合的方法,在浅层处减小上采样的步长,得到的细层和高层得到的粗层做融合,然后在上采样得到输出这种跳层上采样融合的方法兼顾了局部和全局信息,实现比较精准的分布式特征提取。

所述长时语义关联特征提取模块使用网格长短期记忆神经网络提取乳腺癌患者医疗文档的长时语义关联特征;所述长短期记忆神经网络采用了特殊隐式单元的lstm实现长期的保存输入,通过记忆细胞的特殊单元和门控神经元在下一个时间步长将拥有一个权值并联接到自身,拷贝自身状态的真实值和累积的外部信号,这种自联接是由另一个单元学习并决定何时清除记忆内容的乘法门控制的。

所述乳腺癌风险评估分析模块是在所述的深度网格长短期记忆神经网络后连接了一个softmax分类器,用海量医学文档的长时语义关联特征,训练一个用于乳腺癌风险评估的深度神经网络,用于bi-rads类型的分类识别;所述softmax分类器将深度神经网络中的学习结果作为softmax分类器的输入数据,softmax回归是面向多类分类问题的logistic回归:假设对于训练集{(x(1),y(1),…,x(n),y(n))},有y(n)∈[1,2,…,k],对于给定的样本输入x,输出一个k维的向量来表示每一种分类结果出现的概率为p(y=i|x),假设函数h(x)如下:其中,θk为模型的参数,并且所有的概率和为1,加入规则后的代价函数为:代价函数对第j个类别的第1个参数的偏导数为:式中,j为类别数,m为训练集的类别数,p(y(i)=j|x(i);θ)为x分为类别j的概率,λ为规则项参数;通过最小化j(θ),实现的softmax分类回归,将分类回归结果保存到特征库中;在进行乳腺癌风险评估时,依据bi-rads类型对被检乳腺癌患者电子健康文档分类,将提取到的输入数据特征与学习训练得到bi-rads类型特征库中的数据进行比对,计算出每一个分类结果的概率,然后取概率最高的一个结果进行输出。

有益效果

由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明针对乳腺癌患者电子健康文档,利用深度卷积网格神经网络的进行风险评估和分析取得了比传统的基于人工识别和机器学习等方法更高的性能;本发明采用无监督特征学习,避免了耗时的大量人工标注过程,且融合优化医学知识库的预测概率,获取乳腺癌临床文本数据作完整的局部语义特征提取和组合;本发明利用移动互联网、云计算、大数据挖掘、深度学习和深度卷积神经网络提升乳腺癌筛查手段的全面信息化、客观化、标准化,提高了乳腺癌筛查精度,降低了医生的工作强度,为临床医疗诊断提供参考。

附图说明

图1为一种基于字向量的深度卷积网格神经网络的乳腺癌风险评估和分析系统框图;

图2为本发明中分布式语义特征医学信息抽取模块框图;

图3为本发明中长时语义关联特征提取模块的隐式单元门机制图

图4为本发明中长时语义关联特征提取模块的前馈和反向双维度长短时记忆神经网络关联图;

图5为本发明中基于字向量的深度卷积网格神经网络模型总体框图。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于字向量的深度卷积神经网络的乳腺癌风险评估系统,包括:医疗文档预处理模块,用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成字向量训练使用的字表;字向量训练模块,用于读取预处理过的医学文本,通过训练一个深度卷积神经网络,以优化语言模型的概率作为优化目标,生成初级字向量;分布式语义特征医学信息抽取模块,用于以初级字向量为出发点,使用深度卷积神经网络,将原始数据映射到隐层特征空间,最后使用全连接层将学到的分布式特征表示映射到样本标记空间,并且融合优化医学知识库的预测概率对初级字向量进行反馈优化,从而生成医学领域的分布式语义特征;长时语义关联特征提取模块,用于使用分布式语义特征表示,通过引入深度网格长短期记忆神经网络提取医疗临床文档的长时语义关联特征;乳腺癌风险评估分析模块,使用海量医学文本的长时语义关联特征训练一个用于乳腺癌风险评估的深度神经网络,并进行乳腺癌风险评估。

由此可见,该系统通过对乳腺癌患者的电子健康文档进行预处理,并构建语言模型将文本转化为字向量。通过深度卷积神经网络提取临床文档的分布式语义特征,并结合深度网格长短期记忆神经网络获得长时语义关联特征。最后使用基于softmax的bi-rads分类方法对乳腺癌患者的风险进行评估分析。

如图1所示,首先对乳腺患者的临床文档进行预处理。其中主要包含非法字符过滤子模块、中文编码统一子模块以及字表生成子模块。

非法字符过滤子模块,以字符为单位遍历文本,移出其中无效非可见字符,包括ascii码表中的控制字符0x00-0x1f;

中文编码统一子模块,根据设置确定输入文本的中文字符编码方式如输入文本为utf-8编码,则将其转换为一编码,后续系统将读取utf-8形式编码,并在后续系统内存中统一使用unicode;

字表生成子模块,以unicode字符为单位,生成字表,表中字在后续字向量生成过程中,被映射为浮点数形式的字向量。

结合图1,然后需要将清洗后的电子健康文档的文本数据,转化为计算机可以理解的字向量矩阵。字向量训练模块包含正负例生成子模块、字向量深度神经网络子模块以及网络优化及训练误差监控子模块。

所述正负例生成子模块,用于读取输入语句,根据预设的窗口,生成正例,同时,采用随机替换正例的中心词方法,生成相应负例。

词向量深度神经网络子模块,将生成的正例负例输入网络,计算概率,并根据正负例的概率调整网络;

网络优化及训练误差监控子模块,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,生成初级字向量。

结合图2,对以上步骤生成的初级字向量提取局部语义特征。其中使用的卷积神经网络本质上是一种深度映射的网络结构,输入信号通过在网络中进行层层映射,不断进行分解和表示,最终形成关于乳腺癌的多层表达。其最主要特点就是不必再人为的选取和构建乳腺癌的各种特征,而是通过机器自动学习,得到关于乳腺癌的深层表示。

本实施方式中分布式语义特征医学信息抽取模块中使用的深度卷积神经网络共分为八层,由数据增强模块、卷积层、激活层和下采样层交替构成;数据增强模块,用于对原始根据字表生成的文本矩阵对图片进行变换,增大数据集,防止过拟合;卷积层,用于提取文本矩阵的局部特征,其中计算任意给定卷积层的输出大小的公式为其中,k是过滤器尺寸,p是填充值,s是步幅,w是输入文本矩阵的维度;激活层为relu激活层,是一种扭曲线性函数,即非线性的非饱和函数。其相比于模拟神经元输出的标准饱和函数,如tanh(x)或者sigmoid(x)函数等,不仅有更快的训练时间,而且保留了非线性的表达能力,不会有由于非线性引起的梯度弥散现象,适合训练更深的网络;所述下采样层将隐层输出以一定的概率置0,这个神经元就不参与前向和后向传播,就如同在网络中删除了一样。下采样层(dropout)也可以看成是一种模型组合,每个样本都是不一样的网络结构。他减少了神经元之间的共适应关系(co-adaptation),使一个神经元不再依赖另一个神经元,强迫网络学习到更加鲁棒的特征表示。

下面通过一个具体的实施例来进一步说明本发明的分布式语义特征医学信息抽取模块。

数据增强模块从原始文本数据的向量矩阵(300×n)中,通过随机切割或者平移变换等方式从已有的训练数据集中生成一些新的224×224的矩阵,来扩大训练数据的量级规模,提升算法的准确率,避免过拟合。

卷积层分为八层,每层具体流程如下:

第一层:输入数据为根据数据增强技术生成的大小为224×224的文本矩阵,填充值是3,输出数据227×227×3。然后经过96个过滤器、窗口大小为11×11、步长为4的卷积层处理,得到[(227-11)/4]+1=55个特征,以后的层就分为两组处理,输出特征为55×55×96,然后进行relu激活层1处理,输出特征为55×55×96,经过池化层1进行最大池化3×3的核,步长为2,得到[(55-3)/2]+1=27个特征,总的特征数为33×33×96,然后进行正则化处理,用于求和的通道数为5,最后得到27×27×96数据;

第二层:输入数据27×27×96,填充值是2,有256个过滤器,窗口大小为5×5,得到[(27-5+2×2)/1]+1=27个特征,输出特征为27×27×256,然后进行relu激活层2处理,输出特征为27×27×256,经过池化层进行最大池化3×3的核,步长为2,得到[(27-3)/2]+1=13个特征,总的特征数为13×13×256,然后进行正则化处理,用于求和的通道数为5,最后得到13×13×256数据;

第三层输入数据13×13×256,填充值是1,有384个过滤器,窗口大小为3×3,得到[(13-3+2×1)/1]+1=13个特征,输出特征为13×13×384,然后进行relu激活层3处理,输出特征为13×13×384数据;

第四层输入数据13×13×384,填充值是1,有384个过滤器,窗口大小为3×3,得到[(13-3+2×1)/1]+1=13个特征,输出特征为13×13×384,然后进行relu激活层4处理,输出特征为13×13×384数据;

第五层输入数据13×13×384,填充值是1,有256个过滤器,窗口大小为3×3,得到[(13-3+2×1)/1]+1=13个特征,输出特征为13×13×256,然后进行relu激活层5处理,输出特征为13×13×256数据。经过池化层5进行最大池化3×3的核,步长为2,得到[(13-3)/2]+1=6个特征,总的特征数为6×6×256,最后得到6×6×256数据;

第六层输入数据6×6×256,全连接,得到4096个特征,然后进行relu激活层6处理,输出特征为4096维,经过下采样层6处理,最后得到4096个数据。

第七层:输入4096个数据,全连接,得到4096个特征,然后进行relu激活层7处理,输出特征为4096,经过下采样层7处理,最后得到4096数据

第八层:输入4096数据,全连接,得到1000个特征数据。

卷积神经网络的预测过程是一个前向传播过程,上一层的输出即为当前层的输入,并通过激活函数逐层传递,因此整个网络的实际计算输出用如下公式(1)表示:

op=fn(...f2(f1(xw1)w2)...wn)(1)

式中,x表示原始输入,fn表示第n层的激活函数,wn表示第n层的映射权值矩阵,op表示整个网络的实际计算输出。

当前层的输出用(2)表示:

xl=fl(wlwxl-1+bl)(2)

式中,l代表网络层数,xl表示当前层的输出,xl-1表示上一层的输出,即当前层的输入,wl代表已经训练好的当前网络层的映射权值矩阵,bl为当前网络的加性偏执,fl是当前网络层的激活函数;采用的激活函数f1为纠正线性单元,即relu,用公式(3)表示,

式中,l代表网络层数,wl代表已经训练好的当前网络层的映射权值矩阵,fl是当前网络层的激活函数其作用是如果卷积计算结果小于0,则让其为0;否则保持其值不变。

卷积神经网络训练是一个反向传播过程,与bp算法类似,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止。

该神经网络训练是一个反向传播过程,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止。

反向传播需要通过对带有标签的训练样本进行比较,采用平方误差代价函数,对于c个类别,n个训练样本的多类别进行识别,网络最终输出误差函数用公式(4)来计算误差:

式子中,en为平方误差代价函数,为第n个样本对应标签的第k维,为第n个样本对应网络预测的第k个输出;

对误差函数进行反向传播时,采用传统的bp算法类似的计算方法,如公式(5)所示

式中,δl代表当前层的误差函数,δl+1代表上一层的误差函数,wl+1为上一层映射矩阵,f'表示激活函数的反函数,即上采样,ul表示未通过激活函数的上一层的输出,xl-1表示下一层的输入,wl为本层映射权值矩阵。

深度学习训练过程具体如下:

步骤1:使用自下而上的非监督学习,即从底层开始,一层一层的往顶层训练,学习医疗文档的局部特征先用无标签数据训练第一层,训练时先学习第一层的参数,由于模型容量的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征在学习得到第l-1层后,将l-1层的输出作为第l层的输入。训练第l层,由此分别得到各层的参数具体计算如公式(2)、(3)所示;

步骤2:自顶向下的监督学习,即通过带标签的乳房图像数据去训练,误差自顶向下传输,对网络进行微调具体计算如公式(4)、(5)所示;

基于步骤2得到的各层参数进一步微调整个多层模型的参数,这一步是一个有监督训练过程;步骤2的操作类似神经网络的随机初始化初值过程,但由于参数是通过学习输入数据的结构得到的,而不是随机初始化,因而这个初值更接近全局最优,从而能够取得更好的效果。

所述长时语义关联特征提取模块使用网格长短期记忆神经网络提取乳腺癌患者医疗文档的长时语义关联特征;所述长短期记忆神经网络采用了特殊隐式单元的lstm实现长期的保存输入,通过记忆细胞的特殊单元和门控神经元在下一个时间步长将拥有一个权值并联接到自身,拷贝自身状态的真实值和累积的外部信号,这种自联接是由另一个单元学习并决定何时清除记忆内容的乘法门控制的。

如图3所示,基于深度网格长短期记忆神经网络的乳腺癌患者临床医疗文档的长时语义关联特征提取模块。通过引入门机制(如输入门(inputgate),输出门(outputgate),遗忘门(forgetgate))来计算隐藏状态的结构。x(t)代表文档中第t个字的特征向量。是上一层的隐藏状态,则下一层的隐藏状态和输出层s(t)的计算公式如下:

其中σ是激活函数,是输入层权值矩阵;是隐藏层的权值矩阵;请补充表示什么含义;请补充tanh()表示什么含义。为了计算给定文档的长时关联的前向和后向特征,可以通过反转文档的方法来计算反向的隐藏单元计算方法与上述计算的方法类似。令v为输出层的参数向量,输出层s的计算公式是

以上计算的是单维的lstm,gird-lstm(网格长短时记忆神经网络)可以看做是双维度的lstm。其网络结构如图4所示,神经元分别计算前馈和反向lstm的,最后得到输出层的隐藏向量和记忆向量的计算公式如下:(h'1,m'1)=lstm(h,m1,w1,u1)和(h'2,m'2)=lstm(h,m2,w2,u2)

综合图5,将长时语义关联特征作为softmax分类器的输入数据;softmax回归是面向多类分类问题的logistic回归,是logistic回归的一般形式,适用于类别之间互斥的情况;假设对于训练集{(x(1),y(1),…,x(n),y(n))},有y(n)∈[1,2,…,k],对于给定的样本输入x,输出一个k维的向量来表示每一种分类结果出现的概率为p(y=ix),假设函数h(x)如下:

θ1,θ2,…,θk是模型的参数,并且所有的概率和为1;加入规则项后的代价函数为:

代价函数对第j个类别的第1个参数的偏导数为:

式中,j为类别数,m为训练集的类别数,p(y(i)=j|x(i);θ)为x分为类别j的概率,λ为规则项参数,也称为权重衰减项,该规则项参数主要是防止过拟合的。

最后,通过最小化j(θ),实现的softmax分类回归,将分类回归结果保存到特征库中。在依据bi-rads类型对被检乳腺癌患者电子健康文档分类时,将提取到的输入数据特征与学习训练得到bi-rads类型特征库中的数据进行比对,计算出每一个分类结果的概率,然后取概率最高的一个结果进行输出。

不难发现,本发明能有效提高乳腺癌筛查的自动化和智能化水平,通过自训练过程自动学习医生的病理分析过程,继而帮助其处理大量的医疗或医学数据,最终辅助医生做出针对大量医疗数据的正确判断和有效决策。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1