1.一种基于cwk-means的在线学习资源质量分析方法,包括以下步骤:
1)从在线学习平台采集日志数据和数据库数据,构建特征向量;所述日志数据包括视频学习行为数据、文本学习行为数据和论坛学习行为数据,所述数据库数据包括测试学习行为数据和反馈数据;所述特征向量包括视频学习行为数据特征向量、文本学习行为数据特征向量和论坛学习行为数据特征向量、测试学习行为数据特征向量和反馈数据特征向量;所述视频学习行为数据的特征向量表示为:
video={slv,pn,pt,an,at,rn,rt}
其中,slv、pn、pt、an、at、rn、rt分别代表学习时长、暂停次数、暂停时长、前进次数、前进时长、后退次数、后退时长;所述文本学习行为数据的特征向量表示为:
text={slt,fs,bs,ma,dl,cp,crt}
其中,slt、fs、bs、ma、dl、cp、crt分别代表学习时长、前进滚动、后退滚动、标记、下载、复制、收藏;所述论坛学习行为数据的特征向量表示为:
forum={slf,wr,pr,rr,crf}
其中,slf、wr、pr、rr、crf分别代表学习时长、看帖记录、发帖记录、回帖记录、收藏记录;所述测试学习行为数据的特征向量表示为:
examinate={sle,es,wq}
其中,sle、es、wq分别代表测试时长、测试成绩、错题;所述反馈数据的特征向量表示为:
feedback={ur,fs,ft,fr}
其中,ur、fs、ft、fr分别代表用户、反馈分数、反馈时间和反馈资源;
2)数据预处理,构建数据集x,记为:x={x1,x2,…,xn},xi表示数据集x中第i个数据对象,每个数据对象包含m个特征,表示为xi={xi1,xi2,…,xim},xij为第i个数据对象的第j个特征属性;
3)采用主客观相结合的方法计算各个特征属性的权重,第m个特征xim的权重记为
4)利用权重计算初始聚类中心;
5)利用步骤3)和步骤4)中计算出的权重和初始聚类中心,通过k-means算法对学习资源聚类即cwk-means算法对学习资源聚类,每个聚类对应一个质量等级。
2.如权利要求1所述的基于cwk-means的在线学习资源质量分析方法,其特征在于所述步骤2)中,数据预处理包括数据清洗、数据集成、数据归约、数据变换;所述数据清洗包括分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理;所述数据集成采用模式集成方法;所述数据变换包括平方根转换、对数转换、倒数变换。
3.如权利要求1所述的基于cwk-means的在线学习资源质量分析方法,其特征在于所述步骤3)中第m个特征xim的权重
3.1)建立系统的递阶层次结构模型,层次结构模型包括目标层、准则层、方案层;
3.2)根据系统的递阶层次结构模型构造判断矩阵a=(aij)n*n,记为:
其中,aij为同一层次中关于某一准则重要性的两两比较的结果,取值方法如下:特征i与特征j相比较,具有相同重要性取值为1,前者比后者稍重要取值为3,前者比后者明显重要取值为5,前者比后者强烈重要取值为7,前者比后者极端重要取值为9;取值2、4、6、8表示上面相邻判断的中间值;i与j之比为aij则j与i之比为aji=1/aij;
3.3)检验各判断矩阵是否满足一致性要求,如果满足一致性要求转步骤3.4),否则转步骤3.2)修改判断矩阵;
3.4)计算主观权重w,计算公式如下:
aw=λmaxw
3.5)利用资源质量分析结构模型构建原始数列矩阵r,记为:
其中,rij表示评价对象i在评价指标j下的评价值;
3.6)对原始数列矩阵r中的数据进行无钢化处理,使各个指标具有可比性,其中,选取的指标包括越大越优型指标和越小越优型指标,所述越大越优型指标计算公式如下:
所述越小越优型指标计算公式如下:
其中,vij表示rij经过无钢化处理之后的数值,max(rj)和min(rj)分别表示第j个指标的最大值和最小值;
3.7)计算第j个指标下第i个对象指标值所占比重pij,计算公式如下:
3.8)计算第j个指标的熵值,计算公式如下:
3.9)计算客观权重w,计算公式如下:
其中,dj为差异系数,dj=1-ej,dj越大表示该指标包含的信息量越大,应该赋予越大的权重;
3.10)使用拉格朗日乘子法组合计算出来的两种权重,计算最终的权重
其中,wi为层次分析法计算出来的权重,wi为熵权法计算出来的权重。
4.如权利要求1所述的基于cwk-means的在线学习资源质量分析方法,其特征在于所述步骤4)中初始聚类中心的计算方法包括如下步骤:
4.1)计算两两数据对象之间基于权重的欧式距离,任意对象xi,xj(1≤i≠j≤n)之间基于权重的欧式距离公式如下:
其中,
4.2)计算数据集中的数据对象xi(i∈[1,n])对应的距离密度,计算公式如下;
4.3)计算数据集中数据对象xi(i∈[1,n])的邻域半径ri;
其中,cr(cr∈(0,1))为邻域半径调节系数,当cr=0.13时有较好的聚类效果;
4.4)依次计算数据对象xi的点密度d(xi),即以xi为圆心,邻域半径ri为半径的球形域内包含的数据对象个数;
d(xi)=|{p|d(xi,p)≤ri,p∈x}|
4.5)把数据集中的数据对象按照点密度d(xi)降序排放;
4.6)使用分离系数函数确定k的值,分离系数函数表示为:
其中,uij是xi在第j个类中的隶属度,k的最优选择公式为:
其中,ω为所有聚类结果;
4.7)取点密度最大的数据对象作为第一个初始聚类中心c1;
4.8)选择一个和c1距离超过r1的且密度仅次于c1的数据对象作为第二个初始聚类中心;
4.9)判断是否找到k个聚类中心,如果找到转步骤5),否则转步骤4.8)。
5.如权利要求3所述的基于cwk-means的在线学习资源质量分析方法,其特征在于所述步骤3.3)中检验各判断矩阵一致性的方法为:计算出判断矩阵的最大的特征根λmax,计算一致性指标ci,计算一致性比例cr,当cr<0.10时,满足一致性要求,其中一致性指标计算公式如下:
一致性比例计算公式如下:
ri是同阶随机判断矩阵的一致性指标的平均值。