基于模糊测度的基因重要度追踪方法
【专利摘要】本发明公开了一种基于模糊测度的基因重要度追踪方法,将人体的各个基因看作预测特征,通过模糊积分的变形构造线性方程组,采用L1-norm归一化方法求解模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾病影响的重要度。本发明的基于模糊测度的基因重要度追踪方法采用基于L1-norm的方法对基于模糊测度的模糊积分运算的变形进行参数求解,摈除了传统的假设特征独立的前提,认定各个基因以及各个基因之间的组合都有可能对疾病有着一定的影响,而影响的程度由求解得到的模糊测度值来描述,可以快速确定影响疾病发生的重要基因或基因组合。
【专利说明】基于模糊测度的基因重要度追踪方法
【技术领域】
[0001] 本发明涉及一种基因重要度追踪方法,尤其是一种基于模糊测度的基因重要度追 踪方法,属于生物信息【技术领域】。
【背景技术】
[0002] 目前,研究发现人类疾病的发病和基因序列中某些基因的突变有直接的关系。但 是基因序列往往是包含成千上万个基因的长串,即使通过多种基因筛选技术到最后,仍然 是无法确定哪些基因和疾病有着重要关系。有些研究者借助计算机辅助工具进行特征提取 的工作,但是所得到的重要基因的前提假设是各个基因之间是独立作用毫不相关的。事实 上,事物的特征之间的交互作用往往也影响着目标决策,因此,基因之间的交互组合对疾病 所起到的作用不容忽视。
[0003] 传统的模糊测度是模糊积分计算中所用到的参数,应用于分类或者回归模型中, 通常采用遗传算法学习得到,当数据特征数量较多时,复杂度也会随之增大。
【发明内容】
[0004] 本发明的目的是为了解决上述现有技术的缺陷,提供一种可以快速确定影响疾病 发生的重要基因或基因组合的基于模糊测度的基因重要度追踪方法。
[0005] 本发明的目的可以通过采取如下技术方案达到:
[0006] 基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括:将人体的各个 基因看作预测特征,通过模糊积分的变形构造线性方程组,采用Ll-norm归一化方法求解 模糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对 疾病影响的重要度。
[0007] 作为一种实施方案,所述方法包括以下步骤:
[0008] S1、将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目 标;
[0009] S2、通过模糊积分的变形构造线性方程组,具体如下:
[0010] S21、设一个数据集合为训练集,含有1个例子,每个例子包含一个决策特征Y和η 个预测特征Χρ χ2, . . .,xn ; toon] 其中,正整数1表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特 征是数字类型的,它们的值由一个η维向量f (Xl),f (x2),...,f 〇〇所表示;
[0012] S22、通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
【权利要求】
1. 基于模糊测度的基因重要度追踪方法,其特征在于所述方法包括:将人体的各个基 因看作预测特征,通过模糊积分的变形构造线性方程组,采用Ll-norm归一化方法求解模 糊测度值,获得一组带有少量非零值的解,从而追踪到与之相对应的基因或基因组合对疾 病影响的重要度。
2. 根据权利要求1所述的基于模糊测度的基因重要度追踪方法,其特征在于所述方法 包括以下步骤: 51、 将人体的各个基因看作预测特征,而基因序列所对应的疾病分类为预测目标; 52、 通过模糊积分的变形构造线性方程组,具体如下: 521、 设一个数据集合为训练集,含有1个例子,每个例子包含一个决策特征Y和η个预 测特征 Χρ χ2, . . .,xn ; 其中,正整数1表示数据集的大小;决策特征Y指示每个例子属于哪一类;预测特征是 数字类型的,它们的值由一个η维向量f(Xl),f(x2),...,f 〇〇所表示; 522、 通过模糊积分的计算来完成基于模糊测度的目标值,如下式:
对于j = 1,2,一,2^1都会有空集为0的惯例;其中,/rc(^)表示$的小数部分; 上述公式中,如果将j以二进制的形式jnjny i表示,则有= ^ =2}和
523、 根据已知的疾病DNA数据库,建立一组以模糊测度μ为未知变量的线性方程; 一 2**-1 2 53、 采用Ll-norm归一化方法,使得Σ -y +Α|μ||的值最小,从而会得到一组带有 戶1 2 少量非零值的解,通过调节其中的参数λ来控制非零值的个数; 54、 根据步骤S3得到的非零值的解,追踪到与之相对应的基因及基因组合对疾病影响 的重要度。
3. 根据权利要求1或2所述的基于模糊测度的基因重要度追踪方法,其特征在于:所 述采用Ll-norm归一化方法求解模糊测度值直接调用LASSO函数包来完成。
【文档编号】G06F19/10GK104091096SQ201410361374
【公开日】2014年10月8日 申请日期:2014年7月25日 优先权日:2014年7月25日
【发明者】王金凤 申请人:华南农业大学