本发明属于数据挖掘与大数据分析技术领域,涉及面向妇女病诊断数据的预处理技术。
背景技术:
妇科疾病是指在非妊娠状态下生殖器官各种疾病的总称,由于女性生殖器官的特殊性,妇科疾病成为成年女性的常见病、多发病。其临床表现多种多样,病因复杂且常伴有多种严重并发症,其发病率居高不下,近年呈大幅度上升趋势,在基层更为突出。
我国妇女病诊治优势资源主要集中在大中城市,拥有中高级技术职称的妇产科医师90%在县以上医疗机构,主要是三级医院。这些医院普遍人满为患,挂号难、诊疗难、缴费难、取药难。与此相对的是,与群众接触最直接、最紧密的县级医院和乡镇卫生院,设备设施落后、技术力量薄弱、人员素质参差不齐、现代管理理念欠缺,高级技术职称的妇产科医师不足5%,基层医生90%以上依赖“望、闻、问”诊断,误诊率达70%以上,80%患者得不到合理治疗,抗生素滥用现象十分严重,远高于WHO规定的30%,这种“需求在基层,技术在高层”的模式导致我国妇女病诊治严重脱节。
由于得不到及时规范的治疗,致使我国20%妇女终生被妇女病困扰,育龄妇女的早产、流产率达12%(世界平均不足6%),不孕不育高达15%,宫颈癌病变达20万人/年(占全球1/3)。许多患者不得已从乡村到城市求医,寄希望于大医院、名医生,路途远的往返需要2-3天,由此造成的交通费食宿费每年多达1000多亿元。
随着互联网与大数据技术的发展,开发妇女病智能诊断系统,降低基层医护人员的误诊率成为可能。数据预处理技术是开发妇女病智能诊断系统的关键技术,因此有必要对此技术开展全新的研究。
技术实现要素:
本发明的目的在于提供一种面向妇科疾病智能化诊断的数据预处理技术,以提高妇科疾病智能诊断的准确率。
为了解决以上技术问题,本发明的采用的技术方案如下。
一种面向妇科疾病智能化诊断的数据预处理技术,其特征在于包括以下步骤:
步骤一,对采集到的数据进行缺失值处理;
步骤二,对经过缺失值处理的数据进行异常值处理;
步骤三,对经过异常值处理过的数据进行数据变换,使得数据都要归一化,避免误差。
所述缺失值处理包含以下8个规则,
规则1.1,“妊娠”与“产后”两项指标都缺失的情况下,“妊娠”指标的值设置为“13~27周”,“产后”指标的值设置为“否”;
规则1.2,“生殖道既往感染史”的缺失值设置为“患有阴道炎、宫颈炎、盆腔炎”;
规则1.3,“患者主诉”的缺失值设置为“异味,外阴瘙痒,白带量多”;
规则1.4,“外阴检查”的缺失值设置为“红肿”;
规则1.5,“阴道壁检查”的缺失值设置为“粘膜出血”;
规则1.6,“宫颈壁检查”的缺失值设置为“重度糜烂”;
规则1.7,“白带检查”的缺失值设置为为“异味、异常黄色”;
规则1.8,血液检测各项指标的缺失值设置为参考值上限的1.2倍;
所述异常值处理包含以下2个规则,
规则2.1,当“妊娠”与“产后”两项指标互斥时,保留“妊娠”指标的的值,将“产后”指标的值设置为“否”;
规则2.2,对于血液检测各项指标,如果值大于参考值上限的2倍,则将该指标的值设置为参考值上限的2倍;
所述数据变换包含以下2个规则,
规则3.1,对于“妊娠”,“产后”,“生殖道既往感染史”,“患者主诉”,“外阴检查”,“阴道壁检查”,“宫颈壁检查”,“白带检查”中的各项指标,设置布尔型变量用以表示各个指标的取值,如果指标成立,则该指标对应的布尔型变量的值为1,否则为0。
规则3.2,对于血液检测中的各项指标,将其指标值与下限的差除以参考值的上限与下限的差得到的商作为变换后的值。
本发明具有有益效果。数据预处理是保证妇科疾病诊断准确性的关键技术。本发明充分考虑了妇科疾病数据的特征,通过对采集到的数据进行缺失值处理、对经过缺失值处理的数据进行异常值处理、对经过异常值处理过的数据进行数据变换等技术方法,能显著提高妇科疾病诊断诊断的准确性。
具体实施方式
下面结合实施例对本发明的技术方案做进一步详细说明。
对某个病人进行妇科疾病诊断,表1为某个病人的原始检查表。
表1.某个病人的原始检查表
将表1的信息,依本发明的数据预处理方法进行处理后,得预处理后的值如表2所示。
表2病人的数据预处理后的检查表
表2的数据完全符合数据挖掘的要求,可以作为妇科病智能诊断的学习案例。