基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法与流程

文档序号:22744796发布日期:2020-10-31 09:32阅读:93来源:国知局
基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法与流程

本发明涉及医疗数据分析,具体涉及一种基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法。



背景技术:

散发性结直肠腺瘤(cra)是结肠和直肠的良性腺体肿瘤,是结直肠癌的前期病变。早期发现并及时治疗可以有效降低其癌变的概率,对延长患者的生存时间具有重要意义。调查研究发现cra与生活饮食习惯密切相关,66%~78%的结直肠腺瘤可以通过健康的生活习惯来避免。但有些重要的危险因素仍被忽视甚至并未被发现,因而无法有效的指导患者健康生活,改善现状。

近年来,越来越多的研究人员意识到生活饮食习惯因素在结直肠腺瘤病因学中的重要意义,并投入结肠直肠腺瘤危险因素的研究中。但在危险因素的分析方面方法过于单一,这些传统的方法对于单因素分析取得一定的效果,但不够完善,一些小概率但很重要的危险因素容易被遗漏。为克服以上问题,我们提出了定向加权关联规则模型,它是通过概率计算加权支持度和固定后项的方式相结合来构建的一个高效的关联规则挖掘模型。通过生成结直肠腺瘤发病的规则模式,分析结直肠腺瘤的危险因素。



技术实现要素:

本发明的目的在于:为了解决背景技术涉及的技术问题,提供一种基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法。本发明采用的技术方案如下:

一种基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法,包括如下具体步骤:

s1、数据预处理;

s2、采用随机森林平均不纯度减少的方法进行特征选择;

s3、使用定向加权关联规则模型进行分析;

s4、将s3中生成的强关联规则中蕴含的危险因素纳入危险因素集合,并与专家交流。

作为本发明再进一步技术方案:所述s1、数据预处理包括如下步骤:

s101、删除无关数据;

s102、删除冗余信息、删除缺失值超过50%的特征列,删除具有明显异常的脏数据。

s103、数据转换;

作为本发明再进一步技术方案:所述s2、采用随机森林平均不纯度减少的方法进行特征选择包括如下步骤:

s201、计算原始数据的信息熵h1:

s202、选择一个特征,根据特征值对数据进行分类,在对每个类分别计算信息熵,按比例求和,得出这种划分方式的信息熵h2;

s203、计算信息增益:info_gain=h1-h2;

s204、根据s202、s203计算所有特征对应的信息增益,保留增益较大的特征属性。

s205、根据最大信息增益对应的特征索引,将其之前的特征放入一个集合,作为优选特征集合。

所述步骤s3包括如下步骤:

作为本发明再进一步技术方案:所述s3、使用定向加权关联规则模型进行分析包括如下步骤:

定义:设i={i1,i2,…,im}是项目属性集。记d为事务t的集合,这里t是项目属性的集合,并且对应每一个事务t有唯一的标识,记作tid。设x是一个i中项的集合,如果那么称事务t包含x。

定义:项目属性ij的权是与项目特性有关的值,记做w(ij)。项目属性ij在事务集d中出现的概率p(ij),w(ij)即为p(ij)的倒数。患者事务的权指患者数据集中某一条记录的权值,记做w(tk),是所有属于tk的项目属性的权值的均值;其中tk是事务集d中的第k条记录;

公式(1):

公式(2):关联规则a-->b的加权支持度记做wsp(a,b),

公式(3):关联规则a-->b的置信度记做conf(a,b):

公式(4):关联规则a-->b的提升度记做lift(a,b),如果lift(a,b)>1表示a、b呈正相关,lift(a,b)<1表示a、b呈负相关,lift(a,b)=1表示a、b不相关:

s301、扫描数据库d,得每个项目属性ij的概率,并计算得到其权值w(tk)(具体计算方式见公式(1));

s302、扫描数据库d,将病理设置为关联规则的后项after_item,将其他的所有特征放入集合q;设置一个最小支持度阈值min_sup,一个最小置信度阈值min_conf,设置最大循环次数max_rule_length;

s303、初始化频繁1-项集。q中所有项目与后项after_item做连接,选择加权支持度大于min_sup的项目放入l0中(这里的加权支持度计算见公式(2));

s304、利用频繁k-项集生成频繁(k+1)-项集。其核心方法是基于频集理论的递推方法,首先生成频繁1-项集l1,再生成频繁2-项集l2,直到生成规则最大长度r生成lr,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合ck,ck中的每一个项集是lk-1做一个自连接来产生的。ck中的项集是用来产生频繁项集的候选集,最后的频繁项集lk必须是ck的一个子集。其中由ck生成lk方式为:计算ck中每一项的加权支持度sup1和每一项去掉after_item之后的项的加权支持度sup2,将加权支持度sup1大于min_sup的项放入l(k+1)中。

s305、l=[l2,…,lr],计算l中每个频繁项集中(l-after_item)与after_item的加权支持度之比conf(计算方式见公式(3))和提升度lift(计算方式见公式(4)),若conf大于min_conf,则输出强关联规则本发明与现有技术相比具有的优点或积极效果

1、本发明提供一种基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法,本发明的定向加权关联规则模型,改进了支持度计算方式和后项生成方式,有利于降低降低无效计算,提高有效规则的生成、提高挖掘效果。

2、本发明构优先造优选特征集,有利于提升分析结果的准确性、缩短计算过程。

3、本发明针对生活饮食习惯数据,通过挖掘其与结直肠腺瘤发病之间的关联关系来分析结直肠腺瘤的高危因素,为筛查结直肠腺瘤的危险因素提供了一套值得借鉴的方法。

附图说明

图1为本发明的流程示意简图;

图2为本发明的特征选择流程图;

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例一,参照图1,基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法,包括如下具体步骤:

s1、对结直肠腺瘤数据进行预处理。删除无关数据、删除冗余信息、删除缺失值超过50%的特征列、删除具有明显异常的脏数据。共有234例被纳入标准数据集,其中62例被诊断患有结肠直肠腺瘤。

参照图2,采用随机森林平均不纯度减少的方法进行特征选择。

(1)计算原始数据的信息熵,得初始信息熵为:

(2)求信息熵h2,以按照特征7和24分类为例:

h2(按特征7分类)=0.8283984298779227;

h2(按特征24分类)=0.7903757392936914。

(3)计算信息增益info_gain,以按照特征7和24分类为例:

info_gain(按特征7分类)=h1-h2(按特征7分类)=0.8341351937-0.7903757392=0.0057367638;

info_gain(按特征24分类)=h1-h2(按特征24分类)=0.8341351937-0.8283984298=0.0437594544。

(4)保留增益较大的特征属性,此处求得最优信息增益所对应的特征索引为24。得优选特征集为特征重要性排名前24的24个特征。

s3、使用定向加权关联规则模型进行分析;

通过反复的实验,选择实验参数,最大的挖掘项目为5个,后项为“bq_1”(病理为1,即患结直肠腺瘤),最小加权支持度为0.3,最小置信度为0.5。将优选指标集输入定向加权关联规则模型,生成了44个结直肠腺瘤发病的规则模式。

s4、将s3中生成的强关联规则中蕴含的危险因素纳入危险因素集合,并与专家交流。这44条规则中共蕴含了7个重要特征,里面包含了一些传统的危险因素,也包含了一些非传统的危险因素,证明了方法的有效性和正确性。

以上所述仅为本发明的部分数据的实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1