一种基于直觉模糊集的生物实验缺失数据填补方法

文档序号:30985482发布日期:2022-08-03 01:26阅读:141来源:国知局
一种基于直觉模糊集的生物实验缺失数据填补方法

1.本发明属于生物实验数据处理领域,特别涉及生物实验过程中针对数据缺失情况下的一种缺失数据填补方法。


背景技术:

2.生物实验大多数是以多样本实验获取某一实验指标的多个实验值为目的,由于生物实验的重复性和实验过程的复杂性,导致获取的实验数据具有一定的缺失。针对实验数据的缺失,目前的填补方法主要有:(1)通过缺失数据所对应的其它实验属性值的平均值获取,该基于平均值填补的方法充分考虑了实验指标值的获取具有一定的稳定性,但是未考虑实验指标在稳定值左右的摆动差值;(2)删除缺失数据所对应的实验样本,该删除的方法会让实验样本减少,影响其它实验指标,导致实验样本的浪费。


技术实现要素:

3.针对现有生物实验缺失数据填补方法存在的问题,本发明依据实验数据的稳定性特点和实验数据在稳定值左右摆动的特点,提出了一种基于直觉模糊集的生物实验缺失数据填补方法。该方法根据直觉模糊集犹豫度的特点,对实验数据进行直觉模糊处理,然后通过基于直觉模糊集算法对缺失数据进行填补,最后再通过填补的直觉模糊数还原出缺失的实验值。
4.设在某生物实验中有n个样本,m个实验指标,则指标集为x={xi}(i=1,2,

,m),样本集为a={aj}(j=1,2,

,n)。本发明一种基于直觉模糊集的生物实验缺失数据填补方法包括:
5.步骤1:构造实验数据矩阵m={a
ij
}m×n,a
ij
表示第i个实验指标的第j个样本值。
6.步骤2:将实验数据矩阵m转化为直觉模糊矩阵f=(<u
ij
,v
ij
>)m×n,u
ij
、v
ij
分别表示为第j个样本中第i个实验指标的隶属度值和非隶属度值。
7.对于非缺失指标值转换为直觉模糊指标值的计算公式为;
[0008][0009]
其中:0≤pi+qi≤1;式中的pi,qi为参数值,根据实验环境与指标值获取的复杂度确定。
[0010]
步骤3:确定参考指标集合k=(k1,k2,

,kn)。
[0011]
确定参考指标集合必须选取所有样本值都不缺失的某一指标值的集合,选取实验指标d的所有样本值的集合作为参考指标集合,则kj=a
dj
(j=1,2,

,n),1≤d≤m。
[0012]
步骤4:对直觉模糊矩阵f中第i个实验指标中第c个缺失值<u
ic
,v
ic
>进行填补。
[0013]
首先,计算的值:
[0014]
统计k
j-k
j+1
≥0∪a
ij-a
ij+1
≥0,(1≤j<n)和a
ij-k
j+1
≤0∪a
ij-k
j+1
≤0,(1≤j<n)的次数,对于缺失值a
ij
,按照a
ij
=a
ij-1
处理。如果计算的总次数大于则否则
[0015]
然后,计算第i个实验指标中第c个缺失值a
ic
的权重其中对第i个实验指标中其他缺失数据对应的数值位置按空值处理。
[0016]
(1)如果说明第i个实验指标与参考指标呈正比关系,值按照公式(2)计算:
[0017][0018]
(2)如果说明第i个实验指标与参考指标呈反比关系,值按照公式(3)计算:
[0019][0020]
其中,的值与a
ij
值的位置一一对应,其中对应填补样本值位置的权重必为0,对应第i个指标中其它缺失值a
ij
的权重设为空值,因而w
ic
权重集合中有数值个数为:n-n
缺失值个数
+1。
[0021]
最后,按照公式(4)对直觉模糊矩阵f中的缺失值<u
ic
,v
ic
>进行填补。
[0022][0023]
按照公式(5)计算实验数据矩阵m中的缺失值。
[0024][0025]
步骤5:循环步骤4,直至填补实验数据矩阵m中第i个实验指标的所有缺失数据,以及所有实验指标的缺失数据。
[0026]
本发明专利申请通过上述步骤完成生物实验中缺失数据的填补。前述方法不仅能够合理地填补实验缺失的数据,而且消除了各实验指标之间单位和量级的差异,易于实现。
[0027]
具体实施步骤
[0028]
现结合具体实施案例对本发明专利申请提出的生物实验缺失数据填补方法做进
一步阐述:
[0029]
以成熟大豆7s球蛋白致敏性实验对本发明提出的填补方法的合理性进行验证。该生物实验通过皮下注射成熟大豆7s球蛋白和伊文斯蓝染料混合液的方式对小鼠进行致敏,分析各小鼠血液中的组胺浓度和ige浓度,并测量各小鼠体重和小鼠皮肤致敏蓝斑面积直径。生物实验中,对10个小鼠样本进行4个实验指标的测试,其测试结果如表1所示。
[0030]
表1 实验测试结果
[0031][0032]
注:——表示缺失数据
[0033]
通过表1构造实验数据矩阵m,并通过公式(1)计算直觉模糊矩阵f,根据测量环境与测量准确度,设置p1=0.95,q1=0.03;p2=0.75,q2=0.15;p3=0.80,q3=0.10;p4=0.85,q4=0.10。
[0034][0035]
根据小鼠体重测试不容易受测试环境而影响测试结果,且小鼠体重指标的所有样本值均没有缺失,因而本实施例选取小鼠体重作为参考指标,得到集合k=(209 242 231 223 210 206 219 225 213 228),其中d=1。
[0036]
首先,对组胺浓度的第4个样本数据进行填补:
[0037]
通过计算,说明组胺浓度指标与小鼠体重指标呈反比关系,按照公式(3)计算第2个实验指标中第4个缺失值的权重w
24
,其中c=4,a
dc
=a
14
=223。计算w
24
为:
[0038]w24
=(0.1707 0.2317 0.0976 0 0.1585 0.2073 0.0488 0.0244 —— 0.0610)
[0039]
通过公式(4)计算出u
24
=0.7038;v
24
=0.1408。
[0040]
通过公式(5)计算出a
24
=18.80,并填入到对应的缺失数据中。
[0041]
然后,对组胺浓度的第9个样本数据进行填补:
[0042]
根据按照公式(3)计算第2个指标中第9个缺失值的权重w
29
,其中c=9,a
dc
=a
19
=213。计算w
29
为:
[0043]w29
=(0.0385 0.2788 0.1731 0.0962 0.0288 0.0673 0.0577 0.1154 0 0.1442)
[0044]
通过公式(4)计算出u
29
=0.6862;v
29
=0.1372。
[0045]
通过公式(5)计算出a
29
=18.33,并填入到对应的缺失数据中。
[0046]
最后,对ige浓度的第6个样本数据进行填补:
[0047]
通过计算,说明ige浓度指标与小鼠体重指标呈反比关系,按照公式(3)计算第3个指标中第6个缺失值的权重w
36
,其中c=6,a
dc
=a
16
=206。计算w
36
为:
[0048]w36
=(0.0205 0.2466 0.1712 0.1164 0.0274 0 0.0890 0.1301 0.0479 0.1507)
[0049]
通过公式(4)计算出u
36
=0.7081;v
36
=0.0885。
[0050]
通过公式(5)计算出a
36
=4.97,并填入到对应的缺失数据中。
[0051]
通过上述步骤对所有缺失数据填补完整,其完整数据如表2所示。
[0052]
表2 填补后的实验数据
[0053][0054]
对比例
[0055]
采用基于平均值填补的方法验证填补数据的合理性。
[0056]
根据表1,对未填补数据的组胺浓度中8个数据求均值为18.83;根据表2,对填补后的10个数据求均值为18.78。通过计算,填补后数据均值是未填补数据均值分布精确率为99.7%。
[0057]
根据表1,对未填补数据的ige浓度中9个数据求均值为5.15;根据表2,对填补后的10个数据求均值为5.13。通过计算,填补后数据均值是未填补数据均值分布精确率为99.7%。
[0058]
按照小鼠体重与组胺浓度、ige浓度都呈反比关系,可以分析出填补后的数据是合理的。
[0059]
因此,通过本发明提出的填补方法对该实验填补的数据是合理的。
[0060]
以上所述,仅是本发明的较佳实施例而已,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1