本发明属于影像组学分析,特别涉及一种异常检测框架下的影像组学分析方法及系统。
背景技术:
1、影像组学技术近年来飞速发展,在肿瘤相关的诊断和预后预测等领域展现出极大的价值。影像组学技术主要分为图像预处理、特征提取及模型构建三个部分。传统影像组学技术在模型构建时通常对阴性和阳性样本的比例有一定要求。
2、有研究表明,不平衡的样本会显著降低模型的性能,甚至使得模型完全失效。然而,样本不均衡在肿瘤相关的研究中是一个极其常见的问题。例如,在肺癌亚型鉴别中非小细胞肺癌(nsclc)的样本数量远多于小细胞肺癌(sclc)的样本数量,原发性肝癌中肝细胞癌(hcc)的样本数量远多于其他亚型的样本数量。过去,研究人员通常选择丢弃一部分阴性(在本文中表示数量多的那一类)样本,以维持阴性和阳性样本比例的均衡,这种做法在无形中放弃了大量具有宝贵价值的影像资料,并不是最佳选择。
技术实现思路
1、基于此,本发明实施例当中提供了一种异常检测框架下的影像组学分析方法及系统,仅使用阴性样本对模型进行训练,可有效降低对训练数据的需求。
2、本发明实施例的第一方面提供了一种异常检测框架下的影像组学分析方法,所述方法包括:
3、步骤一,获取历史医学影像,其中,所述历史医学影像均为阴性样本;
4、步骤二,对所述历史医学影像采用z-score方法进行预处理,将预处理后的历史医学影像中的肿瘤病灶靶区勾画出,并提取肿瘤病灶靶区的影像特征,其中,影像特征包括形状特征、一阶特征以及纹理特征;
5、步骤三,利用全连接层构建自编码器,其中,每个全连接层后均使用relu作为激活函数;
6、步骤四,将从肿瘤病灶靶区提取到的影像特征输入所述自编码器中,输出对应的重构影像特征,并根据所述影像特征和所述重构影像特征,计算第一重构误差;
7、步骤五,将所述第一重构误差作为损失函数,利用反向传播算法和随机梯度下降方法,对所述自编码器的参数进行迭代优化;
8、步骤六,获取验证集的医学影像,将验证集的医学影像重复步骤二和步骤四,得到第二重构误差,并将所述第二重构误差定义为异常分数,其中,验证集的医学影像同时包含阳性样本和阴性样本;
9、步骤七,根据最大化约登指数和所述异常分数,确定阈值;
10、步骤八,获取待测医学影像,并将待测医学影像重复步骤二和步骤四,得到第三重构误差,并判断所述第三重构误差是否大于所述阈值;
11、步骤九,若是,则将对应的待测医学影像判定为阳性;若否,则将对应的待测医学影像判定为阴性。
12、进一步的,重构误差的计算表达式为:
13、;
14、其中,表示为重构误差,n表示为影像特征总数,表示为第i个输入的影像特征,表示为第i个输出的重构影像特征。
15、进一步的,所述将所述第一重构误差作为损失函数,利用反向传播算法和随机梯度下降方法,对所述自编码器的参数进行迭代优化的步骤中,迭代优化的计算表达式为:
16、;
17、其中,θ为待更新参数,α为学习率,j为损失函数,表示为j对θ的偏导数。
18、进一步的,所述根据最大化约登指数和所述异常分数,确定阈值的计算表达式为:
19、;
20、其中,表示为验证集所有患者的标签,表示为验证集所有患者的预测值。
21、进一步的,所述对所述历史医学影像采用z-score方法进行预处理,将预处理后的历史医学影像中的肿瘤病灶靶区勾画出,并提取肿瘤病灶靶区的影像特征的步骤包括:
22、对所述历史医学影像采用z-score方法进行预处理,并选取预处理后的历史医学影像中任意位置的预设尺寸的非肿瘤病灶靶区;
23、计算选取出的非肿瘤病灶靶区的组织影密度,并定义为标准密度;
24、圈定预处理后的历史医学影像中肿瘤病灶靶区的外围,得到第一边界;
25、勾画预处理后的历史医学影像中肿瘤病灶靶区的内围,得到第二边界;
26、计算所述第一边界和所述第二边界之间区域的组织影密度,并判断所述第一边界和所述第二边界之间区域的组织影密度与所述标准密度的差值是否达到第一预设范围;
27、若否,则控制所述第二边界朝所述第一边界扩张,并实时计算扩张后的第二边界与第一边界之间区域的组织影密度,直至与所述标准密度的差值达到第一预设范围。
28、进一步的,所述计算选取出的非肿瘤病灶靶区的组织影密度,并定义为标准密度的步骤包括:
29、获取所述非肿瘤病灶靶区中所有像素点的灰度值,并统计灰度值大于阈值的像素点的个数;
30、获取预设尺寸的非肿瘤病灶靶区的像素点总数,并将灰度值大于阈值的像素点的个数除以预设尺寸的非肿瘤病灶靶区的像素点总数,得到选取出的非肿瘤病灶靶区的组织影密度,并定义为标准密度。
31、进一步的,所述控制所述第二边界朝所述第一边界扩张,并实时计算扩张后的第二边界与第一边界之间区域的组织影密度,直至与所述标准密度的差值达到第一预设范围的步骤包括:
32、控制所述第二边界以预设步进,等比例的朝所述第一边界扩张,并实时计算扩张后的第二边界与第一边界之间区域的组织影密度;
33、判断扩张后的第二边界与第一边界之间区域的组织影密度与所述标准密度的差值是否达到第一预设范围;
34、若是,则控制所述第二边界以预设步进,等比例的朝所述第一边界再次扩张,并计算再次扩张后的第二边界与第一边界之间区域的组织影密度;
35、判断再次扩张后的第二边界与第一边界之间区域的组织影密度与所述标准密度的差值是否达到第一预设范围;
36、若是,则判断再次扩张后的第二边界与第一边界之间区域的组织影密度与上一次扩张后的第二边界与第一边界之间区域的组织影密度的差值是否在第二预设范围内;
37、若是,则确定上一次扩张后的第二边界为肿瘤病灶靶区的目标边界。
38、本发明实施例的第二方面提供了一种异常检测框架下的影像组学分析系统,所述系统包括:
39、第一获取模块,用于获取历史医学影像,其中,所述历史医学影像均为阴性样本;
40、勾画模块,用于对所述历史医学影像采用z-score方法进行预处理,将预处理后的历史医学影像中的肿瘤病灶靶区勾画出,并提取肿瘤病灶靶区的影像特征,其中,影像特征包括形状特征、一阶特征以及纹理特征;
41、自编码器构建模块,用于利用全连接层构建自编码器,其中,每个全连接层后均使用relu作为激活函数;
42、第一计算模块,用于将从肿瘤病灶靶区提取到的影像特征输入所述自编码器中,输出对应的重构影像特征,并根据所述影像特征和所述重构影像特征,计算第一重构误差;
43、优化模块,用于将所述第一重构误差作为损失函数,利用反向传播算法和随机梯度下降方法,对所述自编码器的参数进行迭代优化;
44、异常分数定义模块,用于获取验证集的医学影像,将验证集的医学影像重复勾画模块和第一计算模块的步骤,得到第二重构误差,并将所述第二重构误差定义为异常分数,其中,验证集的医学影像同时包含阳性样本和阴性样本;
45、阈值确定模块,用于根据最大化约登指数和所述异常分数,确定阈值;
46、第一判断模块,用于获取待测医学影像,并将待测医学影像重复勾画模块和第一计算模块的步骤,得到第三重构误差,并判断所述第三重构误差是否大于所述阈值;
47、判定模块,用于当判断所述第三重构误差大于所述阈值时,则将对应的待测医学影像判定为阳性;当判断所述第三重构误差不大于所述阈值时,则将对应的待测医学影像判定为阴性。
48、本发明实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面提供的异常检测框架下的影像组学分析方法。
49、本发明实施例的第四方面提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面提供的异常检测框架下的影像组学分析方法。
50、本发明实施例当中提供的一种异常检测框架下的影像组学分析方法及系统,该方法通过对为阴性样本的医学影像采用z-score方法进行预处理后,勾画出肿瘤病灶靶区,并提取影像特征,将影像特征输入自编码器中,输出对应的重构影像特征,并根据影像特征和重构影像特征,计算第一重构误差,将第一重构误差作为损失函数,对自编码器的参数进行迭代优化,随后获取同时包含阳性样本和阴性样本的验证集的医学影像,再次计算第二重构误差,并确定异常分数,根据最大化约登指数和所述异常分数,确定阈值,最后获取待测医学影像,再次计算第三重构误差,并判断第三重构误差是否大于阈值,若是,则将对应的待测医学影像判定为阳性,若否,则将对应的待测医学影像判定为阴性,本方法可以仅使用阴性样本进行训练,可有效降低对训练数据的需求。