基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法与流程

文档序号:22744796发布日期:2020-10-31 09:32阅读:来源:国知局

技术特征:

1.一种基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法,包括如下具体步骤:

s1、数据及数据预处理;

s2、采用随机森林平均不纯度减少的方法进行特征选择,得到优选指标集;

s3、使用定向加权关联规则模型进行分析;

s4、将s3中生成的强关联规则中蕴含的危险因素纳入危险因素集合,并与专家交流;

所述步骤s1中数据包括以下数据段项目:

数据列字段包括基本信息、疾病状态、生活习惯、饮食习惯、结肠镜检查结果五个方面的79个专家初步筛选的与生活饮食习惯相关的危险因素特征;

其中,基本信息包括:姓名,性别,年龄,种族,电话号码,教育程度,当地居民,身高,体重,职业,婚姻状况,家庭收入;

(1)疾病状况包括①既往病史:糖尿病史、高血压史、冠心病史、慢性肝病史、慢性肾病史、慢性支气管炎病史、脑血管病史、高脂血症病史、脂肪肝病史、胆囊切除术史、肠外科病史、胃手术史、食管手术史、其他疾病或手术史;②目前的病史:腹痛、腹胀、腹泻、便秘、血便、粘液便、其他症状;③使用抗生素;

(2)生活习惯包括:吸烟,熬夜,运动,出行方式;

(3)饮食习惯包括①海水产品的频率和烹饪方式:熟食新鲜海水鱼类、生食新鲜冷冻鱼片、腌制海水鱼及鱼干、辣制海水鱼及鱼干、熟食新鲜海水虾/蟹/贝类/螺类、生食新鲜冷冻虾/蟹/贝类/螺类、腌制海水虾/虾/蟹/贝类/螺类、醉制海水虾/蟹/贝类/螺类、海水植物类、腌制等加工海水植物类;②禽畜肉类频次及烹调加工方式:新宰杀的猪/牛/羊/鸡/鸭肉、新杀的动物内脏、腌制加工肉制品、烧烤加工肉制品、熏制加工肉制品、辣制加工肉制品;③淡水产品频率和烹饪方法:新鲜的淡水鱼类、腌制淡水鱼、辣制淡水鱼、新鲜的淡水虾/蟹/贝类/螺类、腌制淡水虾/蟹/贝类/螺类、醉制淡水虾/蟹/贝类/螺类;④禽蛋/奶类及奶制品:普通牛奶,低脂/脱脂牛奶,酸奶,奶粉,鸡蛋/鸭蛋/鹌鹑蛋,腌制等加工禽蛋;⑤零食类:加工过的碳水化合物,加工的肉类,加工过的果脯;⑥蔬菜/瓜果类及烹调加工方式:新鲜蔬菜、腌制等加工蔬菜、菌菇类、菜瓜类、新鲜水果;⑦饮水饮料类:可饮用的自来水、可饮用的矿泉水、可饮用的纯净水、碳酸饮料类、果汁饮料;⑧饮酒类:低度白酒、高度白酒、红酒、黄酒、啤酒、果酒、含酒精饮料、多种酒类混合;

(4)结肠镜检查结果包括:检查结果,检查部位和病理结果。病理结果用于确定他们是否是结直肠腺瘤患者;

所述步骤s1中数据预处理包括如下步骤:

s101、删除无关数据;

s102、删除冗余信息、删除缺失值超过50%的特征列,删除具有明显异常的脏数据;

s103、数据转换;

所述步骤s2中采用随机森林平均不纯度减少的方法进行特征选择包括如下步骤:

s201、计算原始数据的信息熵h1:

s202、选择一个特征,根据特征值对数据进行分类,在对每个类分别计算信息熵,按比例求和,得出这种划分方式的信息熵h2;

s203、计算信息增益:info_gain=h1-h2;

s204、根据s202、s203计算所有特征对应的信息增益,保留增益较大的特征属性;

s205、根据最大信息增益对应的特征索引,将其之前的特征放入一个集合,作为优选特征集合;

所述步骤s3包括如下步骤:

定义:设i={i1,i2,…,im}是项目属性集,记d为事务t的集合,这里t是项目属性的集合,并且对应每一个事务t有唯一的标识,记作tid,设x是一个i中项的集合,如果那么称事务t包含x;

项目属性ij的权是与项目特性有关的值,记做w(ij)。项目属性ij在事务集d中出现的概率p(ij),w(ij)即为p(ij)的倒数;患者事务的权指患者数据集中某一条记录的权值,记做w(tk),是所有属于tk的项目属性的权值的均值;其中tk是事务集d中的第k条记录;

公式(1):

公式(2):关联规则a-->b的加权支持度记做wsp(a,b),

公式(3):关联规则a-->b的置信度记做conf(a,b):

公式(4):关联规则a-->b的提升度记做lift(a,b),如果lift(a,b)>1表示a、b呈正相关,lift(a,b)<1表示a、b呈负相关,lift(a,b)=1表示a、b不相关:

s301、扫描数据表d,得每个项目属性ij的概率,并通过公式(1)计算得到其权值w(tk);

s302、扫描数据表d,将病理设置为关联规则的后项after_item,将其他的所有特征放入集合q;设置一个最小支持度阈值min_sup,一个最小置信度阈值min_conf,设置最大循环次数max_rule_length;

s303、初始化频繁1-项集:q中所有项目与后项after_item做连接,选择加权支持度大于min_sup的项目放入l0中,其中加权支持度通过公式(2)计算;

s304、利用频繁k-项集生成频繁(k+1)-项集:首先生成频繁1-项集l1,再生成频繁2-项集l2,直到生成规则最大长度r生成lr,这时算法停止;由ck生成lk方式为:计算ck中每一项的加权支持度sup1和每一项去掉after_item之后的项的加权支持度sup2,将加权支持度sup1大于min_sup的项放入l(k+1)中;

s305、l=[l2,…,lr];通过公式(3)计算l中每个频繁项集中(l-after_item)与after_item的加权支持度之比conf;通过公式(4)计算提升度lift;若conf大于min_conf,则输出强关联规则


技术总结
本发明公开了一种基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法,属于数据挖掘领域。本发明先对数据进行了预处理;然后,采用随机森林的平均不纯度减少的特征选择方法进行特征提取,采利用信息增益来确定最优划分节点,得到优选特征集合;接着,将优选特征集合输入定向加权关联规则模型,生成强关联规则。最后,将强关联规则中蕴含的危险因素纳入危险因素集合,并与专家交流。本发明与现有技术相比,主要提供了定向加权关联规则模型来筛查结直肠腺瘤的危险因素,肯定了生活饮食习惯因素在结直肠腺瘤病因学中的重要意义,发现了此前研究中未被发现的高危因素,为寻找结直肠腺瘤危险因素提供了一套值得借鉴的方法。

技术研发人员:余盖青;高俊波;程陈;费若岚;王长静
受保护的技术使用者:上海海事大学
技术研发日:2020.01.16
技术公布日:2020.10.30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1