病因分析方法,装置,存储介质及电子设备与流程

文档序号:20877787发布日期:2020-05-26 16:49阅读:140来源:国知局
病因分析方法,装置,存储介质及电子设备与流程

本公开涉及计算机技术领域,具体地,涉及一种病因分析方法,装置,存储介质及电子设备。



背景技术:

病因分析是医疗科研领域中的一个重要研究方向,病因分析主要探究疾病发生的原因、相关因素间的相互效应以及各因素对疾病的发生和发展的影响。

相关技术中,病因分析过程主要包括三个步骤:一般性资料分析,单因素分析和多因素分析。其中,在进行一般性资料分析时,需要科研人员对待分析资料中的每一变量词语进行标注,基于标注结果对待分析资料中的所有变量进行分类,然后针对每一类变量采用不同的算法进行分析。在进行单因素分析和多因素分析时,需要重新对变量进行分类标注,然后针对重新分类后的不同类型的变量进行分析。这种方式,需要花费大量的人员去手动标注每个变量词语。而在人工标注大量变量的过程中,容易将变量的类型标注错,变量的类型标注错了会导致病因分析结果明显不准确。而若病因分析的结果明显不准确时,科研人员会对大量的变量词语进行标注检查,这无疑是需要花费大量的时间的,而若对所有变量进行重新标注,也会耗费大量的时间。因此,这种人工标注的方式使得病因分析的人工成本高,效率低。



技术实现要素:

本公开的目的是提供一种病因分析方法,装置,存储介质及电子设备,以提供一种新的病因分析方式,实现病因自动化分析。

为了实现上述目的,根据本公开实施例的第一方面,提供一种病因分析方法,所述方法包括:

获取对照组的样本数据和病例组的样本数据,所述样本数据中包括样本的多种属性项以及样本在各所述属性项下的取值数据,其中,所述病例组中的各病例的病症相同;

根据每种所述属性项下的取值数据,确定每种所述属性项的数据类型;

将所述对照组和所述病例组的每一属性项信息输入到数据处理模型中,得到所述数据处理模型输出的与所述病症相关的目标属性项;

其中,所述属性项信息包括属性项的取值数据以及该属性项的数据类型,所述数据处理模型用于根据属性项的数据类型对应的数据处理算法对属性项的取值数据进行处理。

可选地,所述根据每种所述属性项下的取值数据,确定每种所述属性项的数据类型,包括:

确定取值数据的取值种类为两种的所述属性项的数据类型为定性可比较类型;

确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据符合正态性分布的所述属性项的数据类型为定量类型;

确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据不符合正态性分布的所述属性项的数据类型为所述定性可比较类型;

确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据不存在知识库中的所述属性项的数据类型为定性不可比较类型;

确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据存在所述知识库中的所述属性项的数据类型为所述定性可比较类型。

可选地,所述数据处理模型对各属性项的取值数据的处理包括:

对于数据类型为所述定量类型的属性项,通过秩和检验、t检验、t′检验中的至少一者进行检验,得到第一中间属性项;

对于数据类型为定性类型的属性项,通过卡方检验算法进行检验,得到第二中间属性项,所述定性类型包括所述定性可比较类型和所述定性不可比较类型;

对所述第一中间属性项和所述第二中间属性项进行单因素分析,得到与所述病症相关的第一目标属性项,所述目标属性项包括所述第一目标属性项。

可选地,所述单因素分析包括对所述第一中间属性项中的各属性项的取值数据进行分段离散化处理,其中,所述分段离散化处理中的分段过程包括:

根据所述属性项的最大取值和最小取值,确定所述属性项的数值区间;

根据预设超参空间中的每一超参数对所述数值区间进行分段,得到所有分段情况下的分段区间序列集合;

针对所述分段区间序列集合中的每一分段区间序列,计算表征该分段区间序列的统计学意义的p值,并将p值最小的分段区间序列作为分段结果。

可选地,所述数据处理模型对各属性项的取值数据的处理还包括:

对所述第一目标属性项,进行多因素分析,得到第二目标属性项,所述目标属性项包括所述第二目标属性项;

其中,所述多因素分析包括:

针对所述第一目标属性项中数据类型为所述定性不可比较类型的每一种属性项,根据该属性项取值数据的种类,生成对应数量的哑变量;

根据该属性项的每一所述哑变量生成对应该属性项下每一种取值数据的可比较系数。

根据本公开实施例的第二方面,提供一种病因分析装置,所述装置包括:

获取模块用于,获取对照组的样本数据和病例组的样本数据,所述样本数据中包括样本的多种属性项以及样本在各所述属性项下的取值数据,其中,所述病例组中的各病例的病症相同;

确定模块用于,根据每种所述属性项下的取值数据,确定每种所述属性项的数据类型;

输入模块用于,将所述对照组和所述病例组的每一属性项信息输入到数据处理模型中,得到所述数据处理模型输出的与所述病症相关的目标属性项;

其中,所述属性项信息包括属性项的取值数据以及该属性项的数据类型,所述数据处理模型用于根据属性项的数据类型对应的数据处理算法对属性项的取值数据进行处理。

可选地,所述确定模块包括:

第一确定子模块用于,确定取值数据的取值种类为两种的所述属性项的数据类型为定性可比较类型;

第二确定子模块用于,确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据符合正态性分布的所述属性项的数据类型为定量类型;

第三确定子模块用于,确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据不符合正态性分布的所述属性项的数据类型为所述定性可比较类型;

第四确定子模块用于,确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据不存在知识库中的所述属性项的数据类型为定性不可比较类型;

第五确定子模块用于,确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据存在所述知识库中的所述属性项的数据类型为所述定性可比较类型。

可选地,所述数据处理模型用于:

对于数据类型为所述定量类型的属性项,通过秩和检验、t检验、t′检验中的至少一者进行检验,得到第一中间属性项;

对于数据类型为定性类型的属性项,通过卡方检验算法进行检验,得到第二中间属性项,所述定性类型包括所述定性可比较类型和所述定性不可比较类型;

对所述第一中间属性项和所述第二中间属性项进行单因素分析,得到与所述病症相关的第一目标属性项,所述目标属性项包括所述第一目标属性项。

可选地,所述单因素分析包括对所述第一中间属性项中的各属性项的取值数据进行分段离散化处理,其中,所述分段离散化处理中的分段过程包括:

根据所述属性项的最大取值和最小取值,确定所述属性项的数值区间;

根据预设超参空间中的每一超参数对所述数值区间进行分段,得到所有分段情况下的分段区间序列集合;

针对所述分段区间序列集合中的每一分段区间序列,计算表征该分段区间序列的统计学意义的p值,并将p值最小的分段区间序列作为分段结果。

可选地,所述数据处理模型还用于:

对所述第一目标属性项,进行多因素分析,得到第二目标属性项,所述目标属性项包括所述第二目标属性项;

其中,所述多因素分析包括:

针对所述第一目标属性项中数据类型为所述定性不可比较类型的每一种属性项,根据该属性项取值数据的种类,生成对应数量的哑变量;

根据该属性项的每一所述哑变量生成对应该属性项下每一种取值数据的可比较系数。

采用上述技术方案,至少能够达到如下技术效果:

通过获取对照组的样本数据和病例组的样本数据,样本数据中包括样本的多种属性项以及样本在各属性项下的取值数据;根据每种属性项下的取值数据,确定每种属性项的数据类型;这种方式,无需人工对每一属性项进行分类标注,而是自动确定每一属性项的数据类型。将对照组和病例组的确定数据类型后的每一属性项信息输入到数据处理模型中进行处理,得到该数据处理模型输出的与该病例组的病症相关的目标属性项。这种病因分析方式,无需人工参与分析过程,实现了病因自动化分析,而病因自动化分析可以避免相关技术中存在的问题。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1是根据本公开一示例性实施例示出的一种病因分析方法的流程图。

图2是根据本公开一示例性实施例示出的一种确定属性项的数据类型的流程图。

图3是根据本公开一示例性实施例示出的另一种确定属性项的数据类型的流程图。

图4是根据本公开一示例性实施例示出的一种病因分析装置的框图。

图5是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

病因分析是医疗科研领域中的一个重要研究方向,病因分析主要探究疾病发生的原因、相关因素间的相互效应以及各因素对疾病的发生和发展的影响。即是说,病因分析是在确诊疾病之后,对病患的患病原因进行科研探究。

相关技术中,病因分析过程主要分为三个部分:一般性资料分析,单因素分析和多因素分析。其中,在进行一般性资料分析时,需要科研人员对待分析资料中的每一变量词语进行标注,基于标注结果对待分析资料中的所有变量进行分类,然后针对每一类变量采用不同的算法进行分析。在一般性资料分析结束之后,基于一般性资料分析的结果,进行单因素分析和多因素分析。而单因素分析和多因素分析方法对变量的分类要求与一般性资料分析对变量的分类要求不一样,因此,在进行单因素分析和多因素分析时,需要重新对变量进行分类标注,然后针对重新分类后的不同类型的变量进行分析。

这种方式,需要花费大量的人力在病因分析过程中去手动标注每个变量词语。而在人工标注大量变量的过程中,容易将变量的类型标注错,变量的类型标注错了会导致病因分析结果不准确。而若病因分析的结果不准确时,科研人员会对大量的变量词语进行标注检查,这无疑是需要花费大量的时间的,而若对所有变量进行重新标注,也会耗费大量的时间。因此,这种人工标注的方式使得病因分析的人工成本高,效率低。病因分析的结果不准确时,得到的数据没有价值,也就不能为针对性的实验设计提供线索,如rct、队列研究等实现。

有鉴于此,本公开实施例提供一种病因分析方法,装置,存储介质及电子设备,以提供一种新的病因分析方式,实现病因自动化分析,从而解决相关技术中存在的问题。

图1是根据本公开一示例性实施例示出的一种病因分析方法的流程图,如图1所示,该方法包括:

s101、获取对照组的样本数据和病例组的样本数据,所述样本数据中包括样本的多种属性项以及样本在各所述属性项下的取值数据,其中,所述病例组中的各病例的病症相同。

在进行病因分析时,需先确定是对哪一个病症进行病因分析。然后选择两组样本数据,一组是已经确诊患病的病例组,一组是未患病例组的病症的对照组。其中值得说明的是,病例组中的各病例的病症相同。示例地,分析胃癌病症的病因,选择的两组样本数据为:一组是胃癌组,一组是非胃癌组。

在选择的两组样本数据中包括每一样本的多种属性项以及每一样本在各属性项下的取值数据。示例地,样本数据中包括的属性项可以是每一样本的姓名、性别、民族、年龄、学历、血压收缩压、血压舒张压、血糖含量等等;每一样本在属性项下的取值数据是指,每个样本在各属性项下的具体的值。示例地,例如对照组中的样本a在姓名属性项下的取值数据为张三,病例组中的样本b在姓名属性项下的取值数据为李四;再例如样本a在血压收缩压属性项下的取值数据为110mmhg,样本b在血压收缩压属性项下的取值数据为100mmhg。

其中,本领域普通技术人员应当理解的是,在进行病因分析时,对照组和病例组中的各样本具有相同个数的相同属性项。示例地,样本a有100个属性项,那么样本b也有相同的100个属性项。

在一种可实现的实施方式中,可以从临床数据中心cdr数据库中获取对照组和病例组的样本数据。

s102、根据每种所述属性项下的取值数据,确定每种所述属性项的数据类型。

根据每种属性项下的取值数据,可以确定每种属性项的数据类型。示例地,若属性项为民族属性项,那么各样本的民族属性项的取值数据可能是汉族,或者苗族,亦或者回族等等;根据所有样本的民族属性项的这些取值数据,可以确定民族属性项的数据类型。

再示例地,若属性项为血压舒张压,那么血压舒张压的取值数据可能是120mmhg,100mmhg,80mmhg等等;根据血压舒张压属性项的这些取值数据,可以确定血压舒张压属性项的数据类型。

这种根据每种属性项下的取值数据,确定每种属性项的数据类型的方式,无需科研人员手动标注每一个属性项的数据类型,因此减少了病因分析过程中的人工成本。

s103、将所述对照组和所述病例组的每一属性项信息输入到数据处理模型中,得到所述数据处理模型输出的与所述病症相关的目标属性项。

其中,所述属性项信息包括属性项的取值数据以及该属性项的数据类型,所述数据处理模型用于根据属性项的数据类型对应的数据处理算法对属性项的取值数据进行处理。

在确定对照组和病例组的每一属性项的数据类型之后,将每一属性项信息输入数据处理模型中进行分析处理,得到数据处理模型输出的与病例组的病症相关的目标属性项。

目标属性项是病因分析的结果,是引发疾病的危险因素。示例地,假设是对胃癌病症进行的病因分析,那么导致胃癌的目标属性项可以是饮食,熬夜等等属性项。

本领域技术人员应当理解的是,在病因分析的过程中,针对不同数据类型的属性项,会采用不同的数据处理算法对各属性项的取值数据进行处理。例如,相关技术中,对血压收缩压属性项、血压舒张压属性项、年龄属性项的取值数据进行正态性检验,然后对符合正态性检验的属性项进行t检验,对不符合正态性检验的属性项进行秩和检验。

因此,在本公开中,输入数据处理模型中的属性项信息包括属性项的取值数据以及该属性项的数据类型。数据处理模型用于根据属性项的数据类型选择对应的数据处理算法对该属性项的取值数据进行处理。

采用这种方法,通过获取对照组的样本数据和病例组的样本数据,样本数据中包括样本的多种属性项以及样本在各属性项下的取值数据;根据每种属性项下的取值数据,确定每种属性项的数据类型;这种方式,无需人工对每一属性项进行分类标注,而是自动确定每一属性项的数据类型。将对照组和病例组的确定数据类型后的每一属性项信息输入到数据处理模型中进行处理,得到该数据处理模型输出的与该病例组的病症相关的目标属性项。这种病因分析方式,无需人工参与分析过程,实现了病因自动化分析,而病因自动化分析可以避免相关技术中因人工标注属性项而带来的问题。

在一种可能的实施方式中,如图2所示,所述根据每种所述属性项下的取值数据,确定每种所述属性项的数据类型,可以包括以下步骤:

s201、确定取值数据的取值种类为两种的所述属性项的数据类型为定性可比较类型。

若属性项的取值数据的种类为两种,则确定该属性项的数据类型为定性可比较类型。即是说,若属性项的取值数据要么为a,要么为b,那么该属性项的数据类型为定性可比较类型。示例地,属性项的取值数据为0或者1;属性项的取值数据为是或者否;属性项的取值数据为0.01或者0.02;那么这类属性项的数据类型被确定为定性可比较类型。

s202、确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据符合正态性分布的所述属性项的数据类型为定量类型。

属性项的取值数据的种类为非两种,即是指取值数据的种类为一种,或者三种,或者三种以上。

数值型(numeric)数据常用字母n来表征,是由数字、小数点、正负号和字母e组成的数据。

若属性项的取值数据的种类为非两种,取值数据为数值型数据,并且取值数据符合正态性分布,那么该属性项的数据类型被确定为定量类型。在一种可实现的实施方式中,可以通过正态性检验来验证属性项的取值数据是否符合正态性分布。

s203、确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据不符合正态性分布的所述属性项的数据类型为所述定性可比较类型。

若属性项的取值数据的种类为非两种,取值数据为数值型数据,并且取值数据不符合正态性分布,那么该属性项的数据类型被确定为定性可比较类型。

s204、确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据不存在知识库中的所述属性项的数据类型为定性不可比较类型。

非数值型数据是指中文字符、英文字符、数字字符、ascⅱ字符等不具备计算能力的单个字符数据或者字符串数据。

知识库是指与医疗相关的知识库。该知识库是针对医疗数据进行文本分析,分词处理,词性标注等处理之后建立的知识库。在该知识库中,根据属性项的取值数据,将该属性项的取值数据进行分段得到多个值区间,然后针对每一值区间对应一个表征结论的值,例如,高、中、低这种结论词。

示例地,本领域普通技术人员应当理解的是,在医疗领域中,某些属性项的多个值区间分别对应该属性项的结论类别。示例地,例如,血压收缩压的取值在120-130mmhg区间时对应的结论类别为正常收缩压;血压收缩压的取值在130-140mmhg区间时对应的结论类别为轻度高收缩压;血压收缩压的取值在140mmhg以上时对应的结论类别为高收缩压。

那么针对这种取值数据为正常收缩压、轻度高收缩压、高收缩压的属性项,若这些取值数据不存在上述知识库中,那么确定该属性项的数据类型为定性不可比较类型。

值得说明的是,在一种可能的情况下,该知识库也可以是一个结构复杂、维护良好的医疗知识图谱。

s205、确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据存在所述知识库中的所述属性项的数据类型为所述定性可比较类型。

一种可能的情况,若取值数据为正常收缩压、轻度高收缩压、高收缩压的属性项,若这些取值数据存在上述知识库中,那么确定该属性项的数据类型为定性可比较类型。

值得说明的是,由于知识库直接影响步骤s204和s205中对属性项的数据类型的判断结果,因此,在一种可实现的实施方式中,可以针对步骤s204和s205中对属性项的数据类型判断的结果进行人工校对。例如,可以将步骤s205中确定的定性可比较类型的属性项调整为定性不可比较类型。而若该知识库是一个维护良好的知识库,那么步骤s204和s205中对属性项的数据类型的判断结果也是较为准确的,因此也可以不调整两者的判断结果。

此外还需说明的是,针对步骤s202和s203中对属性项的数据类型的判断结果,也可以进行人工调整。例如,可以将步骤s203中确定的定性可比较类型的属性项的数据类型重新调整为定量类型。

此处应当说明的是,本公开针对上述步骤s201至s205之间的先后顺序不做限定。

采用这种对属性项的数据类型进行分类的方式,替代了相关技术中的人工对属性项进行分类标注的方式。减少了人工成本。

图3是根据本公开一示例性实施例示出的一种确定属性项的数据类型的流程图。图3根据图2中的确定属性项的数据类型的方法,示出了该方法的一种具体实现流程。

在一种可能的实施方式中,所述数据处理模型对各属性项的取值数据的处理包括:对于数据类型为所述定量类型的属性项,通过秩和检验、t检验、t′检验中的至少一者进行检验,得到第一中间属性项;

对于数据类型为定性类型的属性项,通过卡方检验算法进行检验,得到第二中间属性项,所述定性类型包括所述定性可比较类型和所述定性不可比较类型;

对所述第一中间属性项和所述第二中间属性项进行单因素分析,得到与所述病症相关的第一目标属性项,所述目标属性项包括所述第一目标属性项。

相关技术中,对样本数据进行一般性资料分析时,需将样本数据中的所有属性项分成两类,然后基于分类结果进行分析。一般性资料分析的大致过程为,对样本数据中的第一类属性项的取值数据进行正态性检验,对符合正态分布的属性项的取值数据进行t检验或者t′检验;对不符合正态性分布的属性项的取值数据进行秩和检验。对样本数据中的第二类属性项的取值数据进行卡方检验。

因此,针对相关技术中的这种一般性资料分析方式,本公开将第一类的属性项的数据类型定义为定量类型,第二类的属性项的数据类型定义为定性类型。然后,对于数据类型为定量类型的属性项,通过秩和检验、t检验、t′检验中的至少一者进行检验,得到第一中间属性项;对于数据类型为定性类型的属性项,通过卡方检验算法进行检验,得到第二中间属性项。

第一中间属性项和第二中间属性项表征了相关技术中的一般性资料分析的结果。第一中间属性项和第二中间属性项中包括的属性项的数量比对照组和病例组的样本数据中包括的属性项的数量少。

针对第一中间属性项和第二中间属性项中的所有属性项进行单因素分析,得到与病例组中的病症相关的第一目标属性项。目标属性项包括该第一目标属性项,即是说,单因素分析得到的结果中的每一属性项可以作为病因分析的结果。

通过确定属性项的数据类型,然后针对定量类型和定性类型的属性项进行一般性资料分析,得到第一中间属性项和第二中间属性项。这种方式,无需科研人员对每一属性项进行标注分类。这种方式与相关技术相比,减少了人工成本。

而针对第一中间属性项和第二中间属性项进行单因素分析时,由于在上述步骤中,还将定性类型的属性项进一步划分为定性可比较类型和定性不可比较类型的属性项,因此,可以直接针对第一中间属性项和第二中间属性项中的定量类型、定性可比较类型和定性不可比较类型的属性项进行单因素分析。这种方式与相关技术相比,无需重新对每一属性项进行标注分类。这种方式进一步减少了相关技术中的人工成本。

应当说明的是,相关技术中,单因素分析的过程大致包括针对定量类型的属性项进行离散化处理,对定性可比较类型的属性项进行logistic回归分析,对定性不可比较类型的属性项进行哑编码分析等。

本领域技术人员应当理解的是,单因素分析主要是基于logistic回归及相应的or值、p值分析单个属性项对于疾病发生的影响。其中的重要指标or值,该or值用于衡量属性项的取值数据每增加一个粒度时,疾病风险提高的倍数。

因此,在对第一中间属性项和第二中间属性项进行单因素分析时,若对定量类型的属性项进行分段离散化处理,那么可以使得该定量类型的属性项具有更好的统计学意义(p值)。结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值越大,越不能认为样本中属性项的关联是总体中各属性项关联的可靠指标。示例地,若p值为0.05,则表征样本中属性项的关联有百分之五的可能是有偶然性造成的。

在一种可实现的实施方式中,所述单因素分析包括对所述第一中间属性项中的各属性项的取值数据进行分段离散化处理,其中,所述分段离散化处理中的分段过程包括:

首先,根据所述属性项的最大取值和最小取值,确定所述属性项的数值区间。

示例地,若年龄属性项的最大取值为100,最小取值为0,那么该年龄属性项的数值区间为[0,100]。

接着,根据预设超参空间中的每一超参数对所述数值区间进行分段,得到所有分段情况下的分段区间序列集合。

示例地,若超参空间为(2,10),那么超参空间中的超参数为2、3、4、5、6、7、8、9、10。

根据每一超参数对该属性项的数值区间进行分段,示例地,根据超参数2,将数值区间[0,100]分为两段,得到所有的分成两段的情况,例如[0,1]、[2,100];[0,2]、[3,100];[0,3]、[4,100]等等(此处未列出所有的分成两段的情况);再示例地,根据超参数3,将数值区间[0,100]分为三段,得到所有的分成三段的情况,例如[0,1]、[2,3]、[4,100];[0,2]、[3,4]、[5,100];[0,3]、[4,5]、[6,100]等等。直到根据每一超参数对该属性项的数值区间进行分段,得到所有分段情况下的分段区间序列集合。

在一种可行的实时方式中,根据每一超参数对该属性项的数值区间进行分段,得到所有分段情况下的分段区间序列集合,可以采用贝叶斯优化算法来实现。

再接着,针对所述分段区间序列集合中的每一分段区间序列,计算表征该分段区间序列的统计学意义的p值,并将p值最小的分段区间序列作为分段结果。

一种可实现的实施方式,可以采用如下方式计算每一分段区间序列的p值:

首先将分段区间序列集合中的每一分段区间序列输入logistic回归模型中进行分析,得到对应于每一分段区间序列的变量系数以及变量标准误。

相关技术中,logistic回归分析,是一种广义的线性回归分析模型。本领域普通技术人员不难理解的是,将分段区间序列集合中的每一分段区间序列输入logistic回归模型中进行分析时,会针对每一分段区间序列得到一组变量系数、变量标准误。

然后根据得到的每一组变量系数、变量标准误,通过如下公式计算对应的waldχ2值:waldχ2=(bj/sj)2,其中,bj表征变量系数,sj表征变量标准误。针对计算得到的每一waldχ2,通过查表得到对应的p值。

接着,选择p值最小的分段区间序列作为分段结果,然后针对这种分段结果,依次对每一分段区间进行转换。示例地,若分段结果为[0,2]、[3,4]、[5,100],那么将该属性项的分段区间[0,2]转换为1;将该属性项的分段区间[3,4]转换为2;将该属性项的分段区间[5,100]转换为3。如此,针对该定量类型的属性项的分段离散化处理便结束了。

采用这种方式,通过对定量类型的属性项进行分段离散化处理,可以使得该定量类型的属性项具有统计学意义,进一步地,可以使得针对定量类型的属性项进行单因素分析的结果更加准确。并且单因素分析结果中定量类型的属性项能更好的解释该病例组的疾病。

在一种可能的实施方式中,所述数据处理模型对各属性项的取值数据的处理还包括:对所述第一目标属性项,进行多因素分析,得到第二目标属性项,所述目标属性项包括所述第二目标属性项。

在单因素分析之后,还可以针对单因素分析的结果进行多因素分析,以分析多个属性项组合整体对病例组的病症的影响效果。即是说,多因素分析是分析多个属性项组合是否为患病的原因。

相关技术中,多因素分析主要基于logistic回归分析多属性项组合后对于疾病发生的影响程度。针对属性项进行多因素分析时,需对其中的定性不可比较类型的属性项进行哑编码,然后将每一哑编码输入logistic回归模型中进行分析。

但是这种方式,会对多因素分析结果造成影响,例如,会将该属性项的某一哑编码作为与该病例组的病症相关的属性项,而将另一哑编码作为与该病例组的病症不相关的属性项。

有鉴于此,在本公开中,针对定性不可比较类型的属性项进行所述多因素分析包括:

针对所述第一目标属性项中数据类型为所述定性不可比较类型的每一种属性项,根据该属性项取值数据的种类,生成对应数量的哑变量;

示例地,若属性项取值数据的种类为n,则生成n个哑变量。

根据该属性项的每一所述哑变量生成对应该属性项下每一种取值数据的可比较系数。具体地,根据该属性项的每一哑变量对应生成每一哑编码的logistic模型系数。

接着将该属性项下每一种取值数据的可比较系数(logistic模型系数)输入如下计算公式中进行计算,以得到对应的waldχ2值:waldχ2=(qβ)t[qvar(β)qt](qβ);

需说明的是,该计算公式的假设前提是:β0=β1=.....βn-1=0,其中,β0,β1,.....βn-1表征各个哑变量对应的logistic模型系数。

本领域普通技术人员不难理解的是,在进行logistic回归分析时,需设置假设前提。设置的假设前提不同时,推导出的waldχ2公式不同。

在上述waldχ2公式中,β表征哑变量系数,var(β)表征系数对应的标准误差,t表征矩阵的转置,q定义为:其中,矩阵q的行数为n-1,列数为n,第一列全为0,n表征该属性项的取值种类。

根据计算出的waldχ2值,通过查表得到对应的p值,根据得到的p值,可以确定是否在多因素分析时排除该定性不可比较类型的属性项。示例地,假设预设阈值为0.05,那么若得到的p值大于0.05,则将该属性项排除。

采用这种方式,通过将定性不可比较类型的属性项的所有取值数据作为一个整体,然后计算整体的p值,可以避免相关技术中针对该属性项的每一取值数据计算p值而导致的问题。

基于同一发明构思,本公开实施例还提供一种病因分析装置,如图4所示,所述装置400包括:

获取模块410用于,获取对照组的样本数据和病例组的样本数据,所述样本数据中包括样本的多种属性项以及样本在各所述属性项下的取值数据,其中,所述病例组中的各病例的病症相同;

确定模块420用于,根据每种所述属性项下的取值数据,确定每种所述属性项的数据类型;

输入模块430用于,将所述对照组和所述病例组的每一属性项信息输入到数据处理模型中,得到所述数据处理模型输出的与所述病症相关的目标属性项;

其中,所述属性项信息包括属性项的取值数据以及该属性项的数据类型,所述数据处理模型用于根据属性项的数据类型对应的数据处理算法对属性项的取值数据进行处理。

采用这种装置,通过获取对照组的样本数据和病例组的样本数据,样本数据中包括样本的多种属性项以及样本在各属性项下的取值数据;根据每种属性项下的取值数据,确定每种属性项的数据类型;这种方式,无需人工对每一属性项进行分类标注,而是自动确定每一属性项的数据类型。将对照组和病例组的确定数据类型后的每一属性项信息输入到数据处理模型中进行处理,得到该数据处理模型输出的与该病例组的病症相关的目标属性项。这种病因分析方式,无需人工参与分析过程,实现了病因自动化分析,而病因自动化分析可以避免相关技术中因人工标注属性项而带来的问题。

可选地,所述确定模块420包括:

第一确定子模块用于,确定取值数据的取值种类为两种的所述属性项的数据类型为定性可比较类型;

第二确定子模块用于,确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据符合正态性分布的所述属性项的数据类型为定量类型;

第三确定子模块用于,确定取值数据的取值种类非两种、取值数据为数值型数据且取值数据不符合正态性分布的所述属性项的数据类型为所述定性可比较类型;

第四确定子模块用于,确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据不存在知识库中的所述属性项的数据类型为定性不可比较类型;

第五确定子模块用于,确定取值数据的取值种类非两种、取值数据为非数值型数据且取值数据存在所述知识库中的所述属性项的数据类型为所述定性可比较类型。

可选地,所述数据处理模型用于:

对于数据类型为所述定量类型的属性项,通过秩和检验、t检验、t′检验中的至少一者进行检验,得到第一中间属性项;

对于数据类型为定性类型的属性项,通过卡方检验算法进行检验,得到第二中间属性项,所述定性类型包括所述定性可比较类型和所述定性不可比较类型;

对所述第一中间属性项和所述第二中间属性项进行单因素分析,得到与所述病症相关的第一目标属性项,所述目标属性项包括所述第一目标属性项。

可选地,所述单因素分析包括对所述第一中间属性项中的各属性项的取值数据进行分段离散化处理,其中,所述分段离散化处理中的分段过程包括:

根据所述属性项的最大取值和最小取值,确定所述属性项的数值区间;

根据预设超参空间中的每一超参数对所述数值区间进行分段,得到所有分段情况下的分段区间序列集合;

针对所述分段区间序列集合中的每一分段区间序列,计算表征该分段区间序列的统计学意义的p值,并将p值最小的分段区间序列作为分段结果。

可选地,所述数据处理模型还用于:

对所述第一目标属性项,进行多因素分析,得到第二目标属性项,所述目标属性项包括所述第二目标属性项;

其中,所述多因素分析包括:

针对所述第一目标属性项中数据类型为所述定性不可比较类型的每一种属性项,根据该属性项取值数据的种类,生成对应数量的哑变量;

根据该属性项的每一所述哑变量生成对应该属性项下每一种取值数据的可比较系数。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(i/o)接口704,以及通信组件705中的一者或多者。

其中,处理器701用于控制该电子设备700的整体操作,以完成上述的病因分析方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:wi-fi模块,蓝牙模块,nfc模块等等。

在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的病因分析方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的病因分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的病因分析方法。

在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的病因分析方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1