一种大数据挖掘算法及其在软件缺陷管理上的应用

文档序号:29695007发布日期:2022-04-16 12:45阅读:142来源:国知局
一种大数据挖掘算法及其在软件缺陷管理上的应用

1.本发明涉及数据挖掘技术领域,具体为一种大数据挖掘算法及其在软件缺陷管理上的应用。


背景技术:

2.软件缺陷是静态的表现,如软件编程中语法的错误、代码的不规范等。通过软件测试较早的发现错误,防止错误被传播到软件过程的后续阶段变成软件缺陷。
3.而软件缺陷管理成为软件项目开发管理的一个非常重要的环节。为了更有效率的发现软件系统中所存在的缺陷并使之及时得到处理,在软件缺陷管理中引用了数据挖掘技术。软件系统中数据挖掘过程是对其软件系统数据库中的大量数据进行抽取和转换,并且分析数据后通过模型化处理,最后挖掘出关键性缺陷模块的过程。


技术实现要素:

4.(一)解决的技术问题
5.本发明旨在提供一种大数据挖掘算法,该大数据挖掘算法可以应用在软件缺陷管理上,能够为软件缺陷管理提供客观的依据。
6.(二)技术方案
7.为实现上述目的,本发明提供如下技术方案:
8.一种大数据挖掘算法,包括以下步骤:
9.步骤一,采集大数据信息,对其进行数据预处理,得到以pj为特征指标、样本量为yi的输入层数据矩阵s
ij
=(yi,pj,m
ij
);
10.式中,yi表示数据样本,pj表示数据样本的特征指标,m
ij
表示第i个数据样本第j个特征指标的量值,i表示样本的序号,j表示特征指标的序号;
11.步骤二,首先根据隶属度函数μ
ij
,依次计算每一个样本yi的任一特征指标pj的隶属度,然后将矩阵s
ij
转换隶属度矩阵t
ij
,之后根据隶属度矩阵t
ij
,构造最优数据样本y0的矩阵k
0j

12.步骤三,计算数据样本yi的任一特征指标pj的标准化权重wj;
13.步骤四,首先确定数据样本yi的关联系数θ
ij
,然后计算输出层数据,即数据样本yi的总体关联特征p(yi);
14.步骤五,将总体关联特征p(yi)与给定标准值n进行比较,以此来判定样本数据的综合特征指标。
15.优选的,所述大数据挖掘算法可以应用在软件缺陷管理上。
16.优选的,所述应用在软件缺陷管理上的大数据挖掘算法,包括以下步骤:
17.步骤一,采集软件缺陷管理的大数据信息,对该大数据信息进行数据预处理,得到以需求质量、设计文档质量、编码成员技术、系统内部资源程序为特征指标的输入层数据矩阵rs
ij
=(ryi,rpj,rm
ij
);
18.步骤二,首先根据隶属度函数rμ
ij
,依次计算每一个软件缺陷管理数据样本ryi的任一特征指标rpj的隶属度,然后将矩阵rs
ij
转换隶属度矩阵rt
ij
,之后根据隶属度矩阵rt
ij
,构造最优样本ry0的矩阵rk
0j

19.步骤三,根据下述公式,计算软件缺陷管理数据样本ryi的任一特征指标rpj的标准化权重rwj;
20.步骤四,首先确定软件缺陷管理数据样本ryi的关联系数rθ
ij
,然后计算软件缺陷管理数据样本ryi的总体关联特征rp(ryi);
21.步骤五,当总体关联特征rp(ryi)大于等于给定标准值n=0.5时,判定软件缺陷管理数据样本ryi为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理。
22.(三)有益的技术效果
23.与现有技术相比,本发明具备以下有益的技术效果:
24.本发明通过对以pj为特征指标、样本量为yi的输入层数据进行挖掘计算,输出得到数据样本yi的总体关联特征p(yi),将总体关联特征p(yi)与给定标准值n进行比较,以此来判定数据样本yi的综合特征指标,将该挖掘方法应用到软件缺陷管理时,可以通过计算得到的软件缺陷管理数据样本ryi的总体关联特征rp(ryi)可以实现对于软件缺陷管理数据样本ry1是否存在缺陷,以及需要对软件项目的开发过程进行全面性的缺陷管理,提供客观的依据。
具体实施方式
25.一种大数据挖掘算法,包括以下步骤:
26.步骤一,采集大数据信息,对其进行数据预处理,得到以pj为特征指标、样本量为yi的输入层数据矩阵s
ij
=(yi,pj,m
ij
);
[0027][0028]
式中,yi表示数据样本,pj表示数据样本的特征指标,m
ij
表示第i个数据样本第j个特征指标的量值,i表示样本的序号,j表示特征指标的序号;
[0029]
步骤二,首先根据隶属度函数μ
ij
,依次计算每一个样本yi的任一特征指标pj的隶属度,然后将矩阵s
ij
转换隶属度矩阵t
ij
,之后根据隶属度矩阵t
ij
,构造最优数据样本y0的矩阵k
0j

[0030]
μ
ij
=(m
ij-min(m
ij
))/(max(m
ij
)-min(m
ij
));
[0031]
[0032][0033]
式中,μ
ij
为第i个数据样本第j个特征指标的隶属度;
[0034]
步骤三,根据下述公式,计算数据样本yi的任一特征指标pj的标准化权重wj;
[0035]
wj=(1-qj)/[(1-q1)+...+(1-qj)];
[0036]
qj=-(ln(y))-1
{[(μ
1j
+1)/((μ
1j
+1)...+(μ
ij
+1)]*ln[(μ
1j
+1)/((μ
1j
+1)...+(μ
ij
+1)]+...+[(μ
ij
+1)/((μ
1j
+1)...+(μ
ij
+1)]*ln[(μ
ij
+1)/((μ
1j
+1)...+(μ
ij
+1)]};
[0037]
步骤四,首先确定数据样本yi的关联系数θ
ij
,然后计算输出层数据,即数据样本yi的总体关联特征p(yi);
[0038]
θ
ij
={min|μ
0j-μ
ij
|+0.5max|μ
0j-μ
ij
|}/{|μ
0j-μ
ij
|+0.5max|μ
0j-μ
ij
|};
[0039]
p(yi)=θ
i1
*w1+...+θ
ij
*wj;
[0040]
步骤五,将总体关联特征p(yi)与给定标准值n进行比较,来判定样本数据的综合特征指标;
[0041]
一种应用在软件缺陷管理上的大数据挖掘算法,包括以下步骤:
[0042]
步骤一,采集软件缺陷管理的大数据信息,对该大数据信息进行数据预处理,得到以需求质量、设计文档质量、编码成员技术、系统内部资源程序为特征指标的输入层数据矩阵rs
ij
=(ryi,rpj,rm
ij
);
[0043][0044]
式中,ryi表示软件缺陷管理数据的样本,rpj表示数据样本的特征指标,rm
ij
表示第i个软件缺陷管理数据样本第j个特征指标的量值,i表示样本的序号,j表示特征指标的序号;
[0045]
步骤二,首先根据隶属度函数r
μij
,依次计算每一个软件缺陷管理数据样本ryi的任一特征指标rpj的隶属度,然后将矩阵rs
ij
转换隶属度矩阵rt
ij
,之后根据隶属度矩阵rt
ij
,构造最优样本ry0的矩阵rk
0j

[0046]

ij
=(rm
ij-min(rm
ij
))/(max(rm
ij
)-min(rm
ij
));
[0047][0048][0049]
式中,r
μij
为第i个软件缺陷管理数据样本第j个特征指标的隶属度;
[0050]
步骤三,根据下述公式,计算软件缺陷管理数据样本ryi的任一特征指标rpj的标准化权重rwj;
[0051]
rwj=(1-rqj
)
/[(1-rq1)+...+(1-rqj)];
[0052]
rqj=-(ln(ry))-1
{[(rμ
1j
+1)/((rμ
1j
+1)...+(rμ
ij
+1)]*ln[(rμ
1j
+1)/((rμ
1j
+1)...+(rμij+1)]+...+[(rμ
ij
+1)/((rμ
1j
+1)...+(rμ
ij
+1)]*ln[(rμ
ij
+1)/((rμ
1j
+1)...+(rμ
ij
+1)]};
[0053]
步骤四,首先确定软件缺陷管理数据样本ryi的关联系数rθ
ij
,然后计算软件缺陷管理数据样本ryi的总体关联特征rp(ryi);
[0054]

ij
={min|rμ
0j-rμ
ij
|+0.5max|rμ
0j-rμ
ij
|}/{|rμ
0j-rμ
ij
|+0.5max|rμ
0j-rμ
ij
|};
[0055]
rp(yi)=rθ
i1
*rw1+...+rθ
ij
*rwj;
[0056]
步骤五,当总体关联特征rp(ryi)大于等于给定标准值n=0.5时,判定软件缺陷管理数据样本ryi为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理;
[0057]
将大数据挖掘算法应用到软件缺陷管理中,首先采集软件缺陷管理的大数据信息,对该大数据信息进行数据预处理,得到以需求质量、设计文档质量、编码成员技术、系统内部资源程序为特征指标、软件缺陷管理数据样本ryi的数量为五组的输入层数据矩阵rs
ij
;然后将矩阵rs
ij
转换隶属度矩阵rt
ij
,之后根据隶属度矩阵rt
ij
,构造最优样本ry0的矩阵rk
0j

[0058][0059][0060][0061]
计算软件缺陷管理数据样本ryi的任一特征指标rpj的标准化权重rwj,具体为:
[0062]
需求质量rp1的标准化权重rw1为0.2057;
[0063]
设计文档质量rp2的标准化权重rw2为0.2274;
[0064]
编码成员技术rp3的标准化权重rw3为0.2763;
[0065]
系统内部资源程序rp4的标准化权重rw4为0.2906;
[0066]
计算软件缺陷管理数据样本ry1的各个特征指标的关联系数依次为:
[0067]
需求质量rp1的关联系数rθ
11
为1;
[0068]
设计文档质量rp2的关联系数rθ
12
为0.5;
[0069]
编码成员技术rp3的关联系数rθ
13
为0.3333;
[0070]
系统内部资源程序rp4的关联系数rθ
14
为0.4;
[0071]
计算软件缺陷管理数据样本ry1的总体关联特征rp(ry1):
[0072]
rp(ry1)=rw1*rθ
11
+rw2*rθ
12
+rw3*rθ
13
+rw4*rθ
14
=1*0.2057+0.5*2274+0.3333*0.2763+0.4*0.2906=0.5277>0.5,所以判定软件缺陷管理数据样本ry1为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理;
[0073]
计算软件缺陷管理数据样本ry2的各个特征指标的关联系数依次为:
[0074]
需求质量rp1的关联系数rθ
21
为0.4167;
[0075]
设计文档质量rp2的关联系数rθ
22
为1;
[0076]
编码成员技术rp3的关联系数rθ
23
为0.3333;
[0077]
系统内部资源程序rp4的关联系数rθ
24
为0.3333;
[0078]
计算软件缺陷管理数据样本ry2的总体关联特征rp(ry2):
[0079]
rp(ry2)=rw1*rθ
21
+rw2*rθ
22
+rw3*rθ
23
+rw4*rθ
24
=0.4167*0.2057+1*2274+0.3333*0.2763+0.3333*0.2906=0.5021>0.5,所以判定软件缺陷管理数据样本ry2为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理;
[0080]
计算软件缺陷管理数据样本ry3的各个特征指标的关联系数依次为:
[0081]
需求质量rp1的关联系数rθ
31
为0.3333;
[0082]
设计文档质量rp2的关联系数rθ
32
为1;
[0083]
编码成员技术rp3的关联系数rθ
33
为0.5;
[0084]
系统内部资源程序rp4的关联系数rθ
34
为1;
[0085]
计算软件缺陷管理数据样本ry3的总体关联特征rp(ry3):
[0086]
rp(ry3)=rw1*rθ
31
+rw2*rθ
32
+rw3*rθ
33
+rw4*rθ
34
=0.3333*0.2057+1*2274+0.5*0.2763+1*0.2906=>0.7247,所以判定软件缺陷管理数据样本ry3为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理;
[0087]
计算软件缺陷管理数据样本ry4的各个特征指标的关联系数依次为:
[0088]
需求质量rp1的关联系数rθ
41
为0.5952;
[0089]
设计文档质量rp2的关联系数rθ
42
为0.3333;
[0090]
编码成员技术rp3的关联系数rθ
43
为1;
[0091]
系统内部资源程序rp4的关联系数rθ
44
为0.4;
[0092]
计算软件缺陷管理数据样本ry4的总体关联特征rp(ry4):
[0093]
rp(ry4)=rw1*rθ
41
+rw2*rθ
42
+rw3*rθ
43
+rw4*rθ
44
=0.5952*0.2057+0.3333*2274+1*0.2763+0.4*0.2906=0.5908>0.5,所以判定软件缺陷管理数据样本ry4为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理;
[0094]
计算软件缺陷管理数据样本ry5的各个特征指标的关联系数依次为:
[0095]
需求质量rp1的关联系数rθ
51
为0.4274;
[0096]
设计文档质量rp2的关联系数rθ
52
为1;
[0097]
编码成员技术rp3的关联系数rθ
53
为0.4;
[0098]
系统内部资源程序rp4的关联系数rθ
54
为1;
[0099]
计算软件缺陷管理数据样本ry5的总体关联特征rp(ry5):
[0100]
rp(ry5)=rw1*rθ
51
+rw2*rθ
52
+rw3*rθ
53
+rw4*rθ
54
=0.4274*0.2057+1*2274+0.4*0.2763+1*0.2906=0.7164>0.5,所以判定软件缺陷管理数据样本rys为存在缺陷,需要对软件项目的开发过程进行全面性的缺陷管理。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1